SPSS Handout 3 - Fakultet političkih nauka

FPN, Podgorica
2012-2013
Pavle Gegaj
pavleg@gmail.com
METODOLOGIJA POLITIČKIH I DRUŠTVENIH NAUKA II
SPSS VJEŽBE III - HANDOUT
1)
2)
3)
4)
5)
6)
Kontingencione tabele i χ2 test
Analiza korelacije
Cronbach’s Alpha – analiza pouzdanosti sintetičkih varijabli
Nezavisni t-test
Upareni t-test
F test
1) KONTINGENCIONE TABELE I Χ2 (CHI SQUARE) TEST
-
Ukrštene tabele: Analyze > Descriptive Statistics > Crosstabs...
-
U polje Row(s) definišemo nezavisnu varijablu;
U polje Comun(s) definišemo zavisnu varijablu;
U posebnom meniju Statistics izabraćemo opciju Chi-square kako bi dobili rezultate testa;
U posebnom meniju Cells definišemo koje podatke želimo da dobijemo:
o Observed – prikazuje fizičke brojeve, broj ispitanika u svakoj kategoriji unutar svake
podgrupe; ovaj podatak je informativan, i bitan da bi bilo očigledno da li procente
računamo na osnovu jednog ili nekoliko ispitsanika, ili je u pitanju ozbiljan uzorak, i
zato ćemo ga najčešće prikazati;
o Expected – prikazuje koliko ispitanika bi bilo u svakoj kategoriji unutar svake
podgrupe ukoliko ne bi postojale razlike izmedju podgrupa; logika testa koristi ovaj
podataka da utvrdi da li su razlike izmedju grupa statistički značajne; ovaj podatak
nam najčešće neće trebati;
o Hide small counts – izborom ove opcije u ukrštenim tabelama se neće prikazivati
vrijednosti koje su manje od definisane granice (po defaultu ona je 5 ispitanika); ova
opcija je korisna, iz razloga što najčešće uopšte nećemo koristiti procente koji su
izračunati na osnovu 2 ili 3 ispitanika, pa bi prikazivanje tih procenata u tabeli moglo
da navede na pogrešan zaključak onog ko čita tabelu;
1
FPN, Podgorica
2012-2013
o
o
o
-
Pavle Gegaj
pavleg@gmail.com
Percentage: Row – računa procente unutar redova tabele; kako smo redove definisali u
odnosu na nezavisnu varijablu, dobijamo procente na zavisnoj varijabli posebno
unutar kategorija nezavisne varijable; na primjeru gdje je zavisna varijabla životni
standard a nezavisna pol, ovim procentom bi dobili ocjenu životnog standarda
muškaraca, odnosno žena odvojeno; najčešće ćemo koristiti ovaj procenat;
Percentage: Column – računa procente unutar kolona tabele, tj unutar kategorija zavisne
varijable; na gornjem primjeru ovim procentom bi dobili polnu strukturu ispitanika
koji imaju dobar životni standard, polnu strukturu onih koji imaju niti dobar niti loš i
polnu strukturu onih koji imaju loš životni standard; premda i ovaj procenat može biti
informativan, najčešće je teže na osnovu njega doći do pravog zaključka; iz tog razloga
češće ćemo koristiti procente unutar nezavisne varijable;
Percentage: Total – računa procente unutar ukupne populacije, tj koliki procenat
ispitanika pripada istovremeno u obije kategorije (npr procenat muškaraca sa dobrim
životnim standardom u uzorku); premda nam u odrenenim slučajevima ovaj podatak
može biti potreban i koristan, onemogućava bilo kakvo poredjenje izmenu kategorija;
U outputu dobijamo dvije tabele (ne računajući tabelu Case processing summary):
o Prva je sama ukrštena tabela, sa izabranim podacima unutar podgrupa, i za ukupnu
populaciju;
o U drugoj tabeli, izmenu ostalog, imamo rezultate Chi square testa (prvi red, Pearson
Chi-Square), i to vrijednost Chi square statistika, broj stepeni slobode, i statističku
značajnost testa;
o Nulta hipoteza kod ovog testa kaže da razlike izmedju podgrupa nisu statistički
značajne;
2) ANALIZA KORELACIJA
-
Korelaciona analiza: Analyze > Correlate > Bivariate
o U polje Varijables ćemo definisati sve varijable izmedju kojih želimo da izračunamo
korelacije;
-
U outputu dobijamo korelacionu matricu;
U matrici svaki red i kolona predstavlja jednu od varijabli koju smo izabrali, tako da ćelije
unutar matrice predstavljaju korelaciju za par varijabli koje su definisane tim redom odnosno
tom kolonom;
Korelaciona matrica je simetrična u odnosu na dijagonalu, što znači da je ćelija u kojoj se
ukrštaju drugi red i treća kolona ima iste podatke kao i ćelija u kojoj se ukrštaju treći red i
druga kolona;
U svakoj ćeliji imamo tri podatka:
o Koeficijent korelacije – kreće se od -1 preko 0 do +1, i ukazuje da li postoji veza izmenu
varijabli, ili su one nezavisne (ukoliko je koeficijent 0 ili nije statistički značajan), kao i
ukoliko postoji kakvog je tipa i intenziteta; ukoliko je koeficijent pozitivan to znači da
veće vrijednosti na jednoj varijabli koincidiraju sa većim vrijednostima na drugoj i
obratno; ukoliko je negativan onda to ukazuje da veće vrijednosti na jednoj varijabli
koincidiraju sa manjim vrijednostima na drugoj varijabli;
 Pored koeficijenta korelacije imamo jednu ili dvije zvjezdice, definisane
legendom ispod tabele; jedna zvjezdica označava da je korelacija statistički
značajna uz mogućnost greške od 0.05 a dvije da je korelacija statistički
značajna uz mogućnost greške od 0.01;
-
-
2
FPN, Podgorica
2012-2013
o
o
Pavle Gegaj
pavleg@gmail.com
Statistička značajnost koeficijenta korelacije – govori nam kolika je mogućnost greške
ukoliko odbacimo nultu hipotezu koja kaže da korelacija medju varijablama nije
statistički značajna;
N – broj ispitanika koju su dali validni odgovor na obije varijable, odnosno na osnovu
kojih je koeficijent korelacije računat;
3) CRONBACH’S ALPHA – ANALIZA POUZDANOSTI SINTETIČKIH VARIJABLI
-
Cronbach’s alpha koeficijent mjeri pouzdanost sintetičkih varijabli, i ukazuje da li više
varijabli možemo koristiti da formiramo jedinstveni skor;
Naime, često ćemo koristiti više različitih varijabli (ajtema) kako bi izmjerili jedan skor (npr
liberalizam) – Likertova skala; cronbach’s alpha koeficijent će nam reći da li izmedju izabranih
varijabli postoji povezanost tako da možemo reći da mjere istu pojavu ili phenomen;
-
Cronbach’s alpha: Analyze > Scale > Reliability Analysis...
-
U polje Items treba da prebacimo sve varijable od kojih želimo da napravimo sintetički skor;
Iz menija Statistics ćemo izabrati opciju Scale if item deleted;
U outputu imamo dvije tabele (ne računajući tabelu Case processing summary):
o U prvoj tabeli imamo vrijednost samog koeficijenta; ukoliko je veći od 0,7 možemo reći
da postoji povezanost izmenu varijabli na način da čine komponente jedinstvenog
skora;
o U drugoj tabeli (koju smo dobili zbog opcije Scale if item deleted), izmedju ostalog, u
poslednjoj koloni, imamo Cronbachs Alpha if item deleted, tj vrijednost koeficijenta
ukoliko svaku varijablu pojedinačno isključimo iz analize; ovo nam je bitno jer ćemo
često biti u situaciji da koeficijent bude preko 0,7 ali da ipak sve varijable tome ne
doprinose; pregledom poslednje kolone možemo da vidimo da li će se koeficijent
povećati ili smanjiti ukoliko neku od varijabli koju smo uključili u analizu isključimo;
ukoliko bi se koeficijent povećao, onda tu varijablu treba isključiti;
4) NEZAVISNI T TEST
-
Nezavisni T-test: Analzye > Compare Means > Independent Samples T Test…
o U polje Test Variable(s) unosimo varijablu, ili više njih, za koju želimo da izračunamo
aritmetičke sredine; Unošenjem više varijabli uradićemo više nezavisnih T testova
odjednom;
3
FPN, Podgorica
2012-2013
o
-
Pavle Gegaj
pavleg@gmail.com
U polje Grouping variable definišemo varijablu u odnosu na koju ćemo kompletnu bazu
podijeliti u dva nezavisna uzorka;
 Nakon odabira varijable, moramo definisati za koje dvije group (nezavisna
uzorka) želimo da uporedimo aritmetičke sredine, klikom na Define groups...
 Na raspolaganju imamo dvije opcije:
 Use specific values: definišemo vrijednosti koje predstavljaju grupe
ispitanika; npr 1 i 2 na varijabli pol za muškarce i žene, ili 3 i 5 na
varijabli obrazovanje da bi izabrali uzorak srednje obrazovanih i uzorak
visoko obrazovanih;
 Cut point: definišemo jednu vrijednost u odnosu na koju će baza biti
podijeljena u dva poduzorka: vrijednosti ispod i vrijednosti iznad tog
presjeka; npr izaberemo 45,5 na varijabli godine, i dobijemo uzorak
ispitanika do 45 godina, i uzorak ispitanika sa 46 i više godina;
U outputu dobijamo dvije tabele:
o U prvoj tabeli imamo deskriptivnu statistiku, gdje izmenu ostalog imamo aritmetiče
sredine na izabranoj varijabli za oba poduzorka;
o U drugoj tabeli su rezultati T testa; ovdje treba voditi računa da se T test razlikuje u
zavisnosti od toga da li možemo pretpostaviti da su varijanse na oba poduzorka
jednake ili nisu;
 Ovo utvrnujemo na osnovu Levenovog testa za jednakost varijansi; nulta
hipoteza pretpostavlja da razlike izmenu varijansi nisu statistički značajne, dok
alternativna hioteza kaže da jesu;
 Kao rezultat testa imamo vrijednost F statistika i podatak sig koji nam
govori kolika je mogućnost greške ukoliko odbacimo nultu hipotezu1;
 Ukoliko je sig kod Levenovog testa veći od 0.05 nećemo odbaciti nultu
hipotezu, i T test ćemo raditi pod pretpostavkom jednakih varijansi
(equal variances assumed); ukoliko je sig manji od 0.05 odbacićemo nultu
hipotezu i T test ćemo raditi pod pretpostavkom nejednakih varijansi
(equal variances not assumed);
 Nakon testiranja jednakosti varijansi prelazimo na T test; kod T testa nulta
hipoteza kaže da ne možemo reći da su razlike u aritmetičkim sredinama
statistički značajne; alternativna tvrdi suprotno;
 U zavisnosti od rezultata Levenovog testa, posmatramo odgovarajući set
podataka, i to T statistik, df i sig:
 T statistik je ekvivalent Z statistiku i govori nam kolika je razlika
izmenu dvije aritmetičke sredine izražena u standardnim greškama
razlika aritmetičkih sredina;
 Df na govori koliko imamo stepeni slobode;
 Sig nam kaže kolika je mogućnost greške ukoliko odbacimo nultu
hipotezu – tj da li su razlike statistički značajne ili nisu;
o Treba voditi računa da tabela sa rezultatima testa najčešće neće naći mjesto u vašem
radu; umjesto tabele treba prijaviti samo tri vrijednosti: t, df, p (odnosno sig value)2; sa
Kod većine testova u SPSS-u significance (SIG) nam govori kolika je mogućnost greške ukoliko odbacimo
nultu hipotezu, ono što označavamo kao p vrijednost ili α. Ukoliko je mogućnost greške manja od 0.05
odbacićemo nultu hipotezu.
2 Ovo je generalno pravilo koje se odnosi na sve testove statističke značajnosti. Naime, u tim slučajevima ćemo
u naš rad prijaviti samo vrijednosti statistika (bilo da je to t, f, chi ili neki drugi), broj stepeni slobode i p
vrijednosti (tj mogućnost greške prilikom zaključivanja).
1
4
FPN, Podgorica
2012-2013
Pavle Gegaj
pavleg@gmail.com
druge strane tabelu sa deskriptivnim podacima, ili podatke iz nje, ćemo uvjek htjeti da
prijavimo, ukoliko su razlike menunjima statistički značajne;
5) UPARENI T TEST
-
Uporedni T test: Analyze > Compare means > Paired-Samples T test
o U polje Paired variables treba da definišemo parove varijabli koje želimo da testiramo,
na način što ćemo dvije varijable, jednu po jednu, prebaciti u polja Variable 1 odnosno
2;
o Ovdje treba voditi računa prije svega o tome da aritmetička sredina kao podataka na
izabranim varijablama ima smisla; stoga, jedino intervalne ili kvaziintervalne varijable
dolaze u oobzir;
o Dalje, obije varijable koje čine jedan par moraju koristiti istu skalu; naime ukoliko bi
uporenivali aritmetičke sredine dvije varijable, od kojih je jedna na skali od 0 do 10 a
druga na skali od 0 do 100, onda to ne bi imalo smisla;
o Na kraju, bitno je da su varijable uporedive, tj da ima smsila porediti ono što ove dvije
varijable mjere;
-
U outputu dobijamo tri tabele:
o U prvoj tabeli imamo deskriptivnu statistiku za obije varijable, uključujući aritmetičke
sredine za obije varijable, standardne devijacije i standardne greške;
o U drugoj tabeli imamo korelaciju izmenu dvije varijable, koju ćemo u ovoj fazi
zanemariti;
o U trećoj tabeli imamo rezultate uparenog T testa:
 Kod uparenog T testa ne postoji prethodni test koji bi utvrnivao (ne)jednakost
varijansi, stoga odmah možemo da definišemo nultu hipotezu, koja kaže „ne
možemo reći da su razlike izmenu dvije aritmetičke sredine statistički
značajne“;
 Kao rezultat testa (kao i kod nezavisnog T testa) posmatramo vrijednosti t, df i
sig;
 U odnosu na sig zaključujemo da li da odbacimo nultu hipotezu ili ne;
o Kao i kod nezavisnog T testa, i kod uparenog tabelu sa rezultatima teste nećemo
prenositi u rad, već ćemo iz nje izvući podatke t, df i p; sa druge strane tabelu
deskriptivne statistike, ili podatke iz nje ćemo koristiti ukoliko su razlike statistički
značajne;
6) F TEST – ANALIZA VARIJANSE
-
-
-
Nezavisni T test nam daje mogućnost da uporedimo aritmetičke sredine na samo dva
nezavisna uzorka, što je često limitirajuće; naime, ukoliko bi htjeli da provjerimo da li nivo
obrazovanja (koji najčešće ima 5 obrazovnih kategorija) utiče na sreću morali bi da uradimo 10
nezavisnih T testova, što ne samo da bi iziskivalo značajno više vremene, već bi povećalo
mogućnost greške prilikom odbacivanja nulte hipoteze;
F test nam omogućava da u jednom testu uporedimo aritmetičke sredine dobijene na više od
dva nezavisna uzorka, analizom varijanse unutar grupa i izmenu grupa; otuda i naziv
ANOVA (Analysis of variance);
F test (ANOVA): Analyze > Compare Means > One-Way ANOVA...
o U polje Dependent list definišemo zavisnu varijablu(e), koju želimo da testiramo;
ukoliko izaberemo više zavisnih varijabli, uradićemo više F testova;
5
FPN, Podgorica
2012-2013
o
o
-
Pavle Gegaj
pavleg@gmail.com
U Polje Factor definišemo varijablu koja odrenuje uzorke (grupe) na kojima računamo
aritmetičke sredine – nezavisnu varijablu;
Iz menija Options (slika desno) ćemo izabrati opciju Descriptive da bi dobili
deskriptivnu statistiku za izabranu varijablu na odrenenim grupama (poduzorcima); u
suprotnom, dobili bi samo rezultate testa;
U outputu dobijamo dvije tabele
o U prvoj tabeli imamo deskriptivnu statistiku, uključujući broj ispitanika, aritmetičke
sredine, standardne devijacije i standardne greške za svaku poduzorak;
o U drugoj tabeli imamo rezultate F testa od kojih su nam posebno bitni vrijednosti f
statistika, broj stepeni slobode (df) i statistička značajnost (sig); na osnovu ovih
podataka ćemo zaključiti da li možemo da odbacimo nultu hipotezu koja kaže da
razlike menu grupama ne postoje;
 F distribucija zavisi od broja stepeni slobode, s tim što kod F distribucije imamo
stepene sloboed izmenu grupa, koji je jednak broju grupa minus jedan, i
stepene slobode unutar grupa, koji je jednak ukupnom broju ispitanika u svim
grupama minus broj grupa; Prilikom prijavljivanja rezultata testa, prijavićemo
brojeve stepeni slobode i izmenu grupa i unutar grupa;
o Kao i kod prethodnih testova, ovdje treba imati u vidu da su podaci iz tabele sa
deskriptivnom statistikom bitni, i njih ćemo najčešće prenositi u rad, dok ćemo od
rezultata testa koristiti samo vrijednosti F, df i p;
6