FPN, Podgorica 2012-2013 Pavle Gegaj pavleg@gmail.com METODOLOGIJA POLITIČKIH I DRUŠTVENIH NAUKA II SPSS VJEŽBE III - HANDOUT 1) 2) 3) 4) 5) 6) Kontingencione tabele i χ2 test Analiza korelacije Cronbach’s Alpha – analiza pouzdanosti sintetičkih varijabli Nezavisni t-test Upareni t-test F test 1) KONTINGENCIONE TABELE I Χ2 (CHI SQUARE) TEST - Ukrštene tabele: Analyze > Descriptive Statistics > Crosstabs... - U polje Row(s) definišemo nezavisnu varijablu; U polje Comun(s) definišemo zavisnu varijablu; U posebnom meniju Statistics izabraćemo opciju Chi-square kako bi dobili rezultate testa; U posebnom meniju Cells definišemo koje podatke želimo da dobijemo: o Observed – prikazuje fizičke brojeve, broj ispitanika u svakoj kategoriji unutar svake podgrupe; ovaj podatak je informativan, i bitan da bi bilo očigledno da li procente računamo na osnovu jednog ili nekoliko ispitsanika, ili je u pitanju ozbiljan uzorak, i zato ćemo ga najčešće prikazati; o Expected – prikazuje koliko ispitanika bi bilo u svakoj kategoriji unutar svake podgrupe ukoliko ne bi postojale razlike izmedju podgrupa; logika testa koristi ovaj podataka da utvrdi da li su razlike izmedju grupa statistički značajne; ovaj podatak nam najčešće neće trebati; o Hide small counts – izborom ove opcije u ukrštenim tabelama se neće prikazivati vrijednosti koje su manje od definisane granice (po defaultu ona je 5 ispitanika); ova opcija je korisna, iz razloga što najčešće uopšte nećemo koristiti procente koji su izračunati na osnovu 2 ili 3 ispitanika, pa bi prikazivanje tih procenata u tabeli moglo da navede na pogrešan zaključak onog ko čita tabelu; 1 FPN, Podgorica 2012-2013 o o o - Pavle Gegaj pavleg@gmail.com Percentage: Row – računa procente unutar redova tabele; kako smo redove definisali u odnosu na nezavisnu varijablu, dobijamo procente na zavisnoj varijabli posebno unutar kategorija nezavisne varijable; na primjeru gdje je zavisna varijabla životni standard a nezavisna pol, ovim procentom bi dobili ocjenu životnog standarda muškaraca, odnosno žena odvojeno; najčešće ćemo koristiti ovaj procenat; Percentage: Column – računa procente unutar kolona tabele, tj unutar kategorija zavisne varijable; na gornjem primjeru ovim procentom bi dobili polnu strukturu ispitanika koji imaju dobar životni standard, polnu strukturu onih koji imaju niti dobar niti loš i polnu strukturu onih koji imaju loš životni standard; premda i ovaj procenat može biti informativan, najčešće je teže na osnovu njega doći do pravog zaključka; iz tog razloga češće ćemo koristiti procente unutar nezavisne varijable; Percentage: Total – računa procente unutar ukupne populacije, tj koliki procenat ispitanika pripada istovremeno u obije kategorije (npr procenat muškaraca sa dobrim životnim standardom u uzorku); premda nam u odrenenim slučajevima ovaj podatak može biti potreban i koristan, onemogućava bilo kakvo poredjenje izmenu kategorija; U outputu dobijamo dvije tabele (ne računajući tabelu Case processing summary): o Prva je sama ukrštena tabela, sa izabranim podacima unutar podgrupa, i za ukupnu populaciju; o U drugoj tabeli, izmenu ostalog, imamo rezultate Chi square testa (prvi red, Pearson Chi-Square), i to vrijednost Chi square statistika, broj stepeni slobode, i statističku značajnost testa; o Nulta hipoteza kod ovog testa kaže da razlike izmedju podgrupa nisu statistički značajne; 2) ANALIZA KORELACIJA - Korelaciona analiza: Analyze > Correlate > Bivariate o U polje Varijables ćemo definisati sve varijable izmedju kojih želimo da izračunamo korelacije; - U outputu dobijamo korelacionu matricu; U matrici svaki red i kolona predstavlja jednu od varijabli koju smo izabrali, tako da ćelije unutar matrice predstavljaju korelaciju za par varijabli koje su definisane tim redom odnosno tom kolonom; Korelaciona matrica je simetrična u odnosu na dijagonalu, što znači da je ćelija u kojoj se ukrštaju drugi red i treća kolona ima iste podatke kao i ćelija u kojoj se ukrštaju treći red i druga kolona; U svakoj ćeliji imamo tri podatka: o Koeficijent korelacije – kreće se od -1 preko 0 do +1, i ukazuje da li postoji veza izmenu varijabli, ili su one nezavisne (ukoliko je koeficijent 0 ili nije statistički značajan), kao i ukoliko postoji kakvog je tipa i intenziteta; ukoliko je koeficijent pozitivan to znači da veće vrijednosti na jednoj varijabli koincidiraju sa većim vrijednostima na drugoj i obratno; ukoliko je negativan onda to ukazuje da veće vrijednosti na jednoj varijabli koincidiraju sa manjim vrijednostima na drugoj varijabli;  Pored koeficijenta korelacije imamo jednu ili dvije zvjezdice, definisane legendom ispod tabele; jedna zvjezdica označava da je korelacija statistički značajna uz mogućnost greške od 0.05 a dvije da je korelacija statistički značajna uz mogućnost greške od 0.01; - - 2 FPN, Podgorica 2012-2013 o o Pavle Gegaj pavleg@gmail.com Statistička značajnost koeficijenta korelacije – govori nam kolika je mogućnost greške ukoliko odbacimo nultu hipotezu koja kaže da korelacija medju varijablama nije statistički značajna; N – broj ispitanika koju su dali validni odgovor na obije varijable, odnosno na osnovu kojih je koeficijent korelacije računat; 3) CRONBACH’S ALPHA – ANALIZA POUZDANOSTI SINTETIČKIH VARIJABLI - Cronbach’s alpha koeficijent mjeri pouzdanost sintetičkih varijabli, i ukazuje da li više varijabli možemo koristiti da formiramo jedinstveni skor; Naime, često ćemo koristiti više različitih varijabli (ajtema) kako bi izmjerili jedan skor (npr liberalizam) – Likertova skala; cronbach’s alpha koeficijent će nam reći da li izmedju izabranih varijabli postoji povezanost tako da možemo reći da mjere istu pojavu ili phenomen; - Cronbach’s alpha: Analyze > Scale > Reliability Analysis... - U polje Items treba da prebacimo sve varijable od kojih želimo da napravimo sintetički skor; Iz menija Statistics ćemo izabrati opciju Scale if item deleted; U outputu imamo dvije tabele (ne računajući tabelu Case processing summary): o U prvoj tabeli imamo vrijednost samog koeficijenta; ukoliko je veći od 0,7 možemo reći da postoji povezanost izmenu varijabli na način da čine komponente jedinstvenog skora; o U drugoj tabeli (koju smo dobili zbog opcije Scale if item deleted), izmedju ostalog, u poslednjoj koloni, imamo Cronbachs Alpha if item deleted, tj vrijednost koeficijenta ukoliko svaku varijablu pojedinačno isključimo iz analize; ovo nam je bitno jer ćemo često biti u situaciji da koeficijent bude preko 0,7 ali da ipak sve varijable tome ne doprinose; pregledom poslednje kolone možemo da vidimo da li će se koeficijent povećati ili smanjiti ukoliko neku od varijabli koju smo uključili u analizu isključimo; ukoliko bi se koeficijent povećao, onda tu varijablu treba isključiti; 4) NEZAVISNI T TEST - Nezavisni T-test: Analzye > Compare Means > Independent Samples T Test… o U polje Test Variable(s) unosimo varijablu, ili više njih, za koju želimo da izračunamo aritmetičke sredine; Unošenjem više varijabli uradićemo više nezavisnih T testova odjednom; 3 FPN, Podgorica 2012-2013 o - Pavle Gegaj pavleg@gmail.com U polje Grouping variable definišemo varijablu u odnosu na koju ćemo kompletnu bazu podijeliti u dva nezavisna uzorka;  Nakon odabira varijable, moramo definisati za koje dvije group (nezavisna uzorka) želimo da uporedimo aritmetičke sredine, klikom na Define groups...  Na raspolaganju imamo dvije opcije:  Use specific values: definišemo vrijednosti koje predstavljaju grupe ispitanika; npr 1 i 2 na varijabli pol za muškarce i žene, ili 3 i 5 na varijabli obrazovanje da bi izabrali uzorak srednje obrazovanih i uzorak visoko obrazovanih;  Cut point: definišemo jednu vrijednost u odnosu na koju će baza biti podijeljena u dva poduzorka: vrijednosti ispod i vrijednosti iznad tog presjeka; npr izaberemo 45,5 na varijabli godine, i dobijemo uzorak ispitanika do 45 godina, i uzorak ispitanika sa 46 i više godina; U outputu dobijamo dvije tabele: o U prvoj tabeli imamo deskriptivnu statistiku, gdje izmenu ostalog imamo aritmetiče sredine na izabranoj varijabli za oba poduzorka; o U drugoj tabeli su rezultati T testa; ovdje treba voditi računa da se T test razlikuje u zavisnosti od toga da li možemo pretpostaviti da su varijanse na oba poduzorka jednake ili nisu;  Ovo utvrnujemo na osnovu Levenovog testa za jednakost varijansi; nulta hipoteza pretpostavlja da razlike izmenu varijansi nisu statistički značajne, dok alternativna hioteza kaže da jesu;  Kao rezultat testa imamo vrijednost F statistika i podatak sig koji nam govori kolika je mogućnost greške ukoliko odbacimo nultu hipotezu1;  Ukoliko je sig kod Levenovog testa veći od 0.05 nećemo odbaciti nultu hipotezu, i T test ćemo raditi pod pretpostavkom jednakih varijansi (equal variances assumed); ukoliko je sig manji od 0.05 odbacićemo nultu hipotezu i T test ćemo raditi pod pretpostavkom nejednakih varijansi (equal variances not assumed);  Nakon testiranja jednakosti varijansi prelazimo na T test; kod T testa nulta hipoteza kaže da ne možemo reći da su razlike u aritmetičkim sredinama statistički značajne; alternativna tvrdi suprotno;  U zavisnosti od rezultata Levenovog testa, posmatramo odgovarajući set podataka, i to T statistik, df i sig:  T statistik je ekvivalent Z statistiku i govori nam kolika je razlika izmenu dvije aritmetičke sredine izražena u standardnim greškama razlika aritmetičkih sredina;  Df na govori koliko imamo stepeni slobode;  Sig nam kaže kolika je mogućnost greške ukoliko odbacimo nultu hipotezu – tj da li su razlike statistički značajne ili nisu; o Treba voditi računa da tabela sa rezultatima testa najčešće neće naći mjesto u vašem radu; umjesto tabele treba prijaviti samo tri vrijednosti: t, df, p (odnosno sig value)2; sa Kod većine testova u SPSS-u significance (SIG) nam govori kolika je mogućnost greške ukoliko odbacimo nultu hipotezu, ono što označavamo kao p vrijednost ili α. Ukoliko je mogućnost greške manja od 0.05 odbacićemo nultu hipotezu. 2 Ovo je generalno pravilo koje se odnosi na sve testove statističke značajnosti. Naime, u tim slučajevima ćemo u naš rad prijaviti samo vrijednosti statistika (bilo da je to t, f, chi ili neki drugi), broj stepeni slobode i p vrijednosti (tj mogućnost greške prilikom zaključivanja). 1 4 FPN, Podgorica 2012-2013 Pavle Gegaj pavleg@gmail.com druge strane tabelu sa deskriptivnim podacima, ili podatke iz nje, ćemo uvjek htjeti da prijavimo, ukoliko su razlike menunjima statistički značajne; 5) UPARENI T TEST - Uporedni T test: Analyze > Compare means > Paired-Samples T test o U polje Paired variables treba da definišemo parove varijabli koje želimo da testiramo, na način što ćemo dvije varijable, jednu po jednu, prebaciti u polja Variable 1 odnosno 2; o Ovdje treba voditi računa prije svega o tome da aritmetička sredina kao podataka na izabranim varijablama ima smisla; stoga, jedino intervalne ili kvaziintervalne varijable dolaze u oobzir; o Dalje, obije varijable koje čine jedan par moraju koristiti istu skalu; naime ukoliko bi uporenivali aritmetičke sredine dvije varijable, od kojih je jedna na skali od 0 do 10 a druga na skali od 0 do 100, onda to ne bi imalo smisla; o Na kraju, bitno je da su varijable uporedive, tj da ima smsila porediti ono što ove dvije varijable mjere; - U outputu dobijamo tri tabele: o U prvoj tabeli imamo deskriptivnu statistiku za obije varijable, uključujući aritmetičke sredine za obije varijable, standardne devijacije i standardne greške; o U drugoj tabeli imamo korelaciju izmenu dvije varijable, koju ćemo u ovoj fazi zanemariti; o U trećoj tabeli imamo rezultate uparenog T testa:  Kod uparenog T testa ne postoji prethodni test koji bi utvrnivao (ne)jednakost varijansi, stoga odmah možemo da definišemo nultu hipotezu, koja kaže „ne možemo reći da su razlike izmenu dvije aritmetičke sredine statistički značajne“;  Kao rezultat testa (kao i kod nezavisnog T testa) posmatramo vrijednosti t, df i sig;  U odnosu na sig zaključujemo da li da odbacimo nultu hipotezu ili ne; o Kao i kod nezavisnog T testa, i kod uparenog tabelu sa rezultatima teste nećemo prenositi u rad, već ćemo iz nje izvući podatke t, df i p; sa druge strane tabelu deskriptivne statistike, ili podatke iz nje ćemo koristiti ukoliko su razlike statistički značajne; 6) F TEST – ANALIZA VARIJANSE - - - Nezavisni T test nam daje mogućnost da uporedimo aritmetičke sredine na samo dva nezavisna uzorka, što je često limitirajuće; naime, ukoliko bi htjeli da provjerimo da li nivo obrazovanja (koji najčešće ima 5 obrazovnih kategorija) utiče na sreću morali bi da uradimo 10 nezavisnih T testova, što ne samo da bi iziskivalo značajno više vremene, već bi povećalo mogućnost greške prilikom odbacivanja nulte hipoteze; F test nam omogućava da u jednom testu uporedimo aritmetičke sredine dobijene na više od dva nezavisna uzorka, analizom varijanse unutar grupa i izmenu grupa; otuda i naziv ANOVA (Analysis of variance); F test (ANOVA): Analyze > Compare Means > One-Way ANOVA... o U polje Dependent list definišemo zavisnu varijablu(e), koju želimo da testiramo; ukoliko izaberemo više zavisnih varijabli, uradićemo više F testova; 5 FPN, Podgorica 2012-2013 o o - Pavle Gegaj pavleg@gmail.com U Polje Factor definišemo varijablu koja odrenuje uzorke (grupe) na kojima računamo aritmetičke sredine – nezavisnu varijablu; Iz menija Options (slika desno) ćemo izabrati opciju Descriptive da bi dobili deskriptivnu statistiku za izabranu varijablu na odrenenim grupama (poduzorcima); u suprotnom, dobili bi samo rezultate testa; U outputu dobijamo dvije tabele o U prvoj tabeli imamo deskriptivnu statistiku, uključujući broj ispitanika, aritmetičke sredine, standardne devijacije i standardne greške za svaku poduzorak; o U drugoj tabeli imamo rezultate F testa od kojih su nam posebno bitni vrijednosti f statistika, broj stepeni slobode (df) i statistička značajnost (sig); na osnovu ovih podataka ćemo zaključiti da li možemo da odbacimo nultu hipotezu koja kaže da razlike menu grupama ne postoje;  F distribucija zavisi od broja stepeni slobode, s tim što kod F distribucije imamo stepene sloboed izmenu grupa, koji je jednak broju grupa minus jedan, i stepene slobode unutar grupa, koji je jednak ukupnom broju ispitanika u svim grupama minus broj grupa; Prilikom prijavljivanja rezultata testa, prijavićemo brojeve stepeni slobode i izmenu grupa i unutar grupa; o Kao i kod prethodnih testova, ovdje treba imati u vidu da su podaci iz tabele sa deskriptivnom statistikom bitni, i njih ćemo najčešće prenositi u rad, dok ćemo od rezultata testa koristiti samo vrijednosti F, df i p; 6