Introduzione Statistica descrittiva Statistica inferenziale STATA e la BIOSTATISTICA di Norman - Streiner Prof. Pierpaolo Vittorini pierpaolo.vittorini@univaq.it ` degli Studi dell’Aquila Universita Facolt` a di Medicina e Chirurgia 7 febbraio 2014 Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Contenuti e obiettivi Breve riassunto “applicativo” dei test statistici Gestione dei dati in STATA Sintassi generale Comandi principali Creazione di un dataset in STATA Statistica descrittiva Statistica inferenziale Regressione Cenni di statistica non parametrica Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Concetti preliminari Tipi di variabili Numerica Una variabile numerica contiene dati quatitativi. Pu` o essere: Continua se pu` o assumere valori nel dominio dei numeri reali (e.g., l’et` a, il peso); Discreta se pu` o assumere valori nel dominio dei interi (e.g., numero di figli, abitanti). Categorica Una variabile categorica contiene dati qualitativi. Pu` o essere: Ordinale se presenta differenti codifiche con un preciso ordine fra i livelli (e.g., il livello di scolarit` a); Nominale se presenta differenti codifiche senza un ordine fra i livelli (e.g., il sesso). Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Concetti preliminari (2) Domande dell’analisi statistica Statistica descrittiva Tendenza centrale: qual `e il valore che descrive la tendenza della mia variabile? Dispersione: quanto sono concentrati intorno al valore di tendenza centrale le mie osservazioni? Statistica inferenziale Differenza: c’`e differenza fra le osservazioni? Associazione: c’`e associazione fra variabili? Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Tendenza centrale Per variabili numeriche continue ⇒ media Per variabili numeriche discrete o categoriche ordinali ⇒ mediana Per variabili categoriche nominali ⇒ moda Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Dispersione Per variabili numeriche continue ⇒ varianza o s.q.m. Per variabili numeriche discrete o categoriche ordinali ⇒ range (max-min) Per variabili categoriche nominali ⇒ numero di categorie Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Introduzione a STATA STATA `e un pacchetto statistico per la manipolazione, l’analisi e la resa in formato grafico di dati STATA `e disponibile per molte piattaforme, ed `e usabile alla stregua di una applicazione sia point-and-click che a linea di comando Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Terminologia Dataset: l’insieme di dati a mia disposizione Soggetto: `e ci`o che mi propongo di studiare (e.g., un paziente) Variabile: `e la rappresentazione di un fenomeno reale appartente ai soggetti in esame (e.g., posso scegliere di indicare con la variabile altezza il fenomeno corrispondente all’altezza dei miei soggetti in cm) Osservazione: `e la misura di una o pi` u variabili di un determinato soggetto (e.g., una osservazione pu`o valere 175cm per la variabile altezza riferita ad un certo soggetto) Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale La prima esecuzione di STATA Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Interagire con STATA L’interazione con STATA avviene lanciando comandi ` possibile digitare i comandi, costruirli tramite l’interfaccia E grafica, oppure scriverli all’interno di un do-file La prima opzione `e da preferire per comandi semplici La seconda opzione `e da preferire per comandi complessi La terza opzione `e da preferire quando si deve elaborare pi` u di una volta un dataset Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Interagire con STATA (2) L’output di una elaborazione pu` o essere memorizzato all’interno di un file di log Un file di log si apre, si pu` o sospendere/continuare, quindi si chiude, poi lo si pu` o visualizzare (anche per farne un copia/incolla verso un programma di wordprocessing), o eventualmente convertire in altri formati. Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Caricare/salvare i dati in Stata In Stata `e possibile caricare/salvare dati dal suo formato nativo (.dta) da una sorgente esterna (e.g., Excel) Formato nativo Caricare Salvare GUI File → Open File → Save Prof. Pierpaolo Vittorini Comando use file.dta save file.dta STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Caricare/salvare i dati in Stata (2) Per caricare/salvare dati da una sorgente esterna in Stata `e possibile usare Stat/Transfer usare un formato di interscambio (e.g., CSV) Formato di interscambio per importare: File → Import → [Formato] per esportare: File → Export → [Formato] Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Creazione di un dataset Quando il trattamento che deve essere fatto ai dati `e esclusivamente statistico (i.e., non ci sono query da fare, etc.) `e vantaggioso creare il dataset direttamente dentro STATA La creazione di un nuovo dataset procede secondo i seguenti passi Impostazione del numero di osservazioni Creazione delle variabili Aggiunta di eventuali etichette Inserimento dei dati Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Passo 1 Impostare il numero di osservazioni set obs [numero] dove numero `e il numero di osservazioni Tale numero pu`o essere modificato anche in seguito Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Passo 2 Creare le variabili gen [tipo] [nome] = [ini] dove tipo `e il tipo della variabile (int, float, double, str1, ..., str80) nome `e il nome della variabile ini `e il valore iniziale, oppure una espressione, a cui si vuole porre tale variabile Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Passo 3 Aggiungere etichette Le etichette vengono usate, negli output, al posto del nome della variabile Etichettare il dataset Etichettare le variabili Creare eventuali associazioni simboliche sulle variabili (e.g., 0=“Maschio” 1=“Femmina”) Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Passo 3.1 Etichettare il dataset label data [etichetta] dove etichetta `e una stringa di caratteri (max 80) Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Passo 3.2 Etichettare una variabile label var [variabile] [etichetta] dove variabile `e un nome di variabile etichetta `e una stringa di caratteri (max 80) Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Passo 3.3 Una associazione simbolica permette di “mappare” un valore numerico in una descrizione pi` u esplicita, cio`e per tutte le variabili di natura categorica 0=Maschio, 1=Femmina 0=Nord, 1=Centro, 2=Sud, 3=Isole ... Il tipo della variabile non cambia Creare associazioni simboliche su variabili Creare l’associazione Attaccare tale associazione alla variabile Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Passo 3.3.1 Creare l’associazione label define [nome] [lista] dove nome `e un nome simbolico per l’associazione lista `e una lista di coppie valore/associazione Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Passo 3.3.2 Attaccare tale associazione alla variabile label values [variabile] [nome] dove variabile `e un nome di variabile nome `e un nome simbolico per l’associazione Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Passo 4 Inserire fisicamente i dati edit Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Sintassi dei comandi Stata La sintassi generale di un comando STATA `e la seguente [by varlist:] comando [varlist] [=espr] [if espr] [in range] [, opzioni] Nella sua forma pi` u semplice `e il solo comando Nella maggior parte dei casi si usa con la sola varlist Nella forma pi` u generale si arricchisce di opzioni, etc. Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale La lista di varibili (varlist) [by varlist:] comando [varlist] [=espr] [if espr] [in range] [, opzioni] Una varlist `e semplicemente una lista di variabili separate dallo spazio Ad esempio: nome sesso altezza Una varlist serve per indicare le variabili sulle quali deve essere eseguita una determinata operazione Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale Le opzioni [by varlist:] comando [varlist] [=espr] [if espr] [in range] [, opzioni] Le opzioni sono un elenco separato da spazi di istruzioni che permettono di modificare l’esecuzione del comando Variano da comando a comando Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale La clausola if [by varlist:] comando [varlist] [=espr] [if espr] [in range] [, opzioni] La clausola condizionale if [espr] permette di restringere il campo di applicazione alle sole osservazioni per cui l’espressione booleana espr `e vera Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale La clausola in [by varlist:] comando [varlist] [=espr] [if espr] [in range] [, opzioni] La clausola condizionale in [min/max] permette di restringere il campo di applicazione alle sole osservazioni comprese fra i valori min e max Gli estremi sono compresi Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale La clausola by [by varlist:] comando [varlist] [=espr] [if espr] [in range] [, opzioni] La clausola by [var] permette di stratificare le analisi statistiche secondo la variabile var I dati devono essere prima ordinati prima di stratificare un qualsiasi tipo di analisi Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica descrittiva Statistica descrittiva Medie (aritmetica, geometrica, armonica) Mediana e percentili Indici di dispersione (deviazione standard, varianza, scarti) Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica descrittiva Medie e dev.standard Le medie aritmetica, geometrica, armonica possono essere calcolate tramite il comando means, e nel caso di variabili numeriche continue, con il comando summarize: . webuse auto (1978 Automobile Data) . means price Variable price . Type Arithmetic Geometric Harmonic Obs 74 74 74 Mean 6165.257 5656.907 5296.672 [95% Conf. 5481.914 5165.664 4928.901 Interval] 6848.6 6194.865 5723.75 summarize price Variable price Obs 74 Mean 6165.257 Std. Dev. 2949.496 Min 3291 Max 15906 La media quindi vale 6165.257 e la deviazione standard 2949.496 Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica descrittiva Percentili, mediana e range Il calcolo dei percentili viene fatta tramite il comando c e n t i l e var , c e n t i l e ( v a l o r i ) dove var ´e la variabile valori ´e una lista, separata da spazio, dei percentili che interessano La mediana si calcola come il valore al 50mo percentile Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica descrittiva Percentili, mediana e range (2) Ad esempio, invocando il comando . centile rep78 , centile(0 50 100) Variable rep78 Obs 69 Percentile 0 50 100 -- Binom. Interp. -[95% Conf. Interval] 1 1* 3 4 5 5* Centile 1 3 5 * Lower (upper) confidence limit held at minimum (maximum) of sample La mediana quindi vale 3 e il range vale 5 (massimo-minimo) Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica descrittiva Moda e numero di categorie Per il calcolo della moda e del numero di categorie . tab foreign, sort Car type Domestic Foreign Total . Freq. 52 22 74 Percent 70.27 29.73 100.00 Cum. 70.27 100.00 distinct foreign foreign Observations total distinct 74 2 La moda quindi vale “Domestic” e abbiamo due categorie Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica descrittiva Istogrammi Per creare un istogramma . histogram price, start(3000) width(2000) xtitle(Prezzo) ytitle(Percentuale) title(Distribuzione del prezzo) addlabel percent Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica descrittiva Torte Per creare una torta . graph pie, over(foreign) plabel( all percent) title(Distribuzione per nazionale/estera) Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica T-test Il t-test verifica l’uguaglianza dei valori medi fra due gruppi Se indipendenti, si parla di t-test Se dipendenti, si parla di t-test per dati appaiati Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica T-test In STATA dobbiamo avere: una variabile numerica che identifica la grandezza in osservazione, una variabile categorica che identifica il gruppo. Ad esempio (tab7-1a.dta) Parole 38 33 22 25 Prof. Pierpaolo Vittorini Gruppo ... 0 0 1 1 ... STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica Esempio di t-test Prendiamo l’esempio di tab7-1a.dta e facciamo fare a STATA il test di Student t t e s t p a r o l e , by ( g r u p p o ) . ttest parole , by(gruppo) Two-sample t test with equal variances Group Obs Mean Std. Err. Caso 10 35 1.437591 Controllo 10 27 1.264911 combined 20 31 1.307871 diff 8 1.914854 Ho: diff diff = = Std. Dev. 4.546061 4 5.848977 [95% Conf. 31.74794 24.13857 28.26259 3.977041 mean(Caso) - mean(Controllo) t 0 degrees of freedom Ha: diff < 0 Pr(T < t) = 0.9997 Ha: diff != 0 Pr(|T| > |t|) = 0.0006 Prof. Pierpaolo Vittorini = = Ha: diff > 0 Pr(T > t) = 0.0003 STATA Interval] 38.25206 29.86143 33.73741 12.02296 4.1779 18 Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica T-test per dati appaiati In STATA dobbiamo avere: una variabile numerica che identifica la grandezza in osservazione prima di un determinato evento (e.g., un trattamento), una ulteriore variabile numerica che identifica la grandezza in osservazione dopo l’evento. Ad esempio (tab7-1b.dta) t t e s t p r e==p o s t Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica Esempio di t-test Prendiamo l’esempio di tab7-1b.dta e facciamo fare a STATA il test per dati appaiati . ttest post==pre Paired t test Variable Obs post 10 pre 10 diff 10 Ho: mean(diff) mean(diff) Mean 35 27 8 = = Ha: mean(diff) < 0 Pr(T < t) = 0.9996 Std. Err. 1.437591 1.264911 1.639783 mean(post - pre) 0 Std. Dev. 4.546061 4 5.18545 t degrees of freedom Ha: mean(diff) != 0 Pr(|T| > |t|) = 0.0009 Prof. Pierpaolo Vittorini [95% Conf. 31.74794 24.13857 4.290553 STATA Interval] 38.25206 29.86143 11.70945 = = Ha: mean(diff) > 0 Pr(T > t) = 0.0004 4.8787 9 Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica ANOVA a una dimensione Il t-test `e limitato al confronto di soli due gruppi di uguale cardinalit`a L’ANOVA (ANalisys Of VAriance) `e in grado di estendere gli stessi concetti del t-test a pi` u gruppi di cardinalit`a anche diversa ` inoltre possibile confrontare due gruppi alla volta (confronti E post-hoc), usando i metodi di Bonferroni, Sidak, e Scheff´e Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica ANOVA a una dimensione (2) Consideriamo l’esempio in cui vogliamo capire se esiste una differenza fra quattro marche di birre (tab8-1.dta) Tali dati devono essere inseriti in STATA sotto forma di osservazioni, usando una tabella del tipo tipo 1=Sborniek 1=Sborniek ... 4=Sgased 4=Sgased Prof. Pierpaolo Vittorini voto 4 4 ... 4 3 STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica ANOVA a una dimensione (3) Eseguiamo il test usando il comando oneway . oneway voto tipo, scheffe Source Between groups Within groups Total Analysis of SS df 33.275 3 97.5 36 130.775 39 Variance Bartlett’s test for equal variances: MS 11.0916667 2.70833333 3.35320513 chi2(3) = F 4.10 15.7771 Prob > F 0.0134 Prob>chi2 = 0.001 Comparison of Voto nella scala 0-10 by Tipologia di prodotto Drunker Sborniek Sgased Sborniek 1.1 0.533 Sgased .7 -.4 0.824 0.960 Senza no -1.3 -2.4 -2 0.387 0.024 0.078 Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica Regressione semplice Scopo della regressione semplice `e quello di verificare se esista una relazione lineare fra due variabili (y = a · x + b) Prendiamo in esame l’esempio delle due variabili CLASS e ADE (tab12-1.dta) Soggetto 1 2 3 4 5 ... 20 Prof. Pierpaolo Vittorini CLASS 5 8 13 15 22 ... 47 STATA ADE 58 47 43 38 35 ... 17 Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica Regressione semplice Cerchiamo di capire se esista una relazione lineare che leghi la variabile CLASS alla variabile ADE . regress ADE CLASS Source SS df Model 3892.95215 1 Residual 863.997848 18 Total 4756.95 19 Number of obs = 20 F( 1, 18) = 81.10 Prob > F = 0.0000 R-squared = 0.8184 Adj R-squared = 0.8083 ADE CLASS cons Coef. -.8426212 56.76421 MS 3892.95215 47.9998804 250.365789 Std. Err. .0935649 3.007424 t -9.01 18.87 P>|t| 0.000 0.000 Scopro cos`ı che tale relazione esiste e che ADE = −0.84 · CLASS + 56.76 Prof. Pierpaolo Vittorini STATA [95% Conf. -1.039194 50.44585 Interval] -.6460487 63.08258 Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica Regressione semplice Per farlo disegnare da STATA, ricorro ai grafici two-way twoway ( l f i t c i CLASS ADE) ( s c a t t e r CLASS ADE) Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica Regressione multipla La regressione multipla cerca di scoprire l’esistenza di una relazione P lineare tra una variabile ed n altre variabili (y = i ai · xi + b) Ad esempio, scomponiamo la variabile CLASS nelle variabili C, L, A, S1, S2 e facciamo fare a STATA una regressione multipla (tab13-0.dta) Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica Regressione multipla . regress ADE C L A S1 S2 SS df Source Model 4732.27727 5 Residual 24.6727283 14 Total 4756.95 19 Number of obs = 20 F( 1, 18) = 537.05 Prob > F = 0.0000 R-squared = 0.9948 Adj R-squared = 0.9930 ADE C L A S1 S2 cons Coef. -2.399343 -.0668348 -.4562652 -1.479769 -.5622728 77.3157 Std. Err. .6788447 .1790518 .2118419 .5208023 .3546285 1.905474 MS 946.455454 1.76233773 250.365789 t -3.53 -0.37 -2.15 -2.84 -1.59 40.58 Prof. Pierpaolo Vittorini P>|t| 0.003 0.715 0.049 0.013 0.135 0.000 STATA [95% Conf. -3.855321 -.4508627 -.9106209 -2.596779 -1.322875 73.22886 Interval] -.9433664 .3171931 -.0019095 -.3627593 .1983298 81.40253 Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica Statistica non parametrica Test di significativit`a per frequenze di dati categorici (χ2 ) Test di significativit`a per dati trasformati in ranghi Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica Test di significativit`a Prendiamo in esame l’esempio realmente accaduto relativo al triptofano e alla sindrome eosinofilico-mialgica Molti decessi, causa EMS, dopo l’assunzione di un integratore a base di triptofano, causati da un inquinante proveniente dal ciclo di lavorazione dalla ditta Showa Denko K.K. Partiamo dai dati aggregati (tab16-1.dta) Triptofano No Prof. Pierpaolo Vittorini EMS 42 38 80 Normale 34 166 200 STATA 76 204 280 Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica Test del χ2 Il test del χ2 ci permetter`a di capire se c’`e differenza fra chi ha usato il triptofano e chi no . tab triptofano ems, chi2 triptofano No Si Total ems Normale 166 34 200 EMS 38 42 80 Total 204 76 280 Pearson chi2(1) = 36.4159 Pr = 0.000 L’opzione exact deve essere invece usata in caso di piccole frequenze. Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica Test per ranghi I dati per i quali possono essere espressi dei valori di rango vanno trattati diversamente dai dati categorici Prendiamo in esame tab18-1.dta Rango 1 2 ... 20 Trattamento BC BC ... SM e vediamo come eseguire il test U di Mann-Whitney (alias somma dei ranghi di Wilcoxon), cio`e l’equivalente non parametrico del t-test Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica Test U di Mann-Whitney Il test U di Mann-Whitney si esegue in STATA con il comando . ranksum rango, by(trattamento) Two-sample Wilcoxon rank-sum (Mann-Whitney) test trattamento obs rank sum expected BC 10 81 105 SM 10 129 105 combined 20 210 210 unadjusted variance adjustment for ties adjusted variance Ho: 175.00 0.00 175.00 rango(tratta o==BC) = rango(tratta o==SM) z = -1.814 Prob > |z| = 0.0696 Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica Test di Wilcoxon Per dati appaiati (tab18-4.dta) . signrank rango pre=rango post Wilcoxon signed-rank test sign obs sum ranks positive 5 27 negative 10 93 0 0 zero all 15 120 unadjusted variance adjustment for ties adjustment for zeros adjusted variance Ho: expected 60 60 0 120 310.00 -0.75 0.00 309.25 rango pre = rango post z = -1.877 Prob > |z| = 0.0606 Prof. Pierpaolo Vittorini STATA Introduzione Statistica descrittiva Statistica inferenziale Statistica inferenziale Regressione Statistica non parametrica Test di Kruskal-Wallis Nel caso in cui dovessero aumentare i gruppi (e.g., le tipologie di trattamento) si ricorre al test di Kruskal-Wallis . kwallis rango , by(trattamento) Kruskal-Wallis equality-of-populations rank test trattamento Obs Rank Sum BC 10 101.00 SM 10 208.00 SC 10 156.00 chi-squared = 7.388 with 2 d.f. probability = 0.0249 Prof. Pierpaolo Vittorini STATA
© Copyright 2024 Paperzz