STATA - Facoltà di Medicina e Chirurgia

Introduzione
Statistica descrittiva
Statistica inferenziale
STATA
e la BIOSTATISTICA di Norman - Streiner
Prof. Pierpaolo Vittorini
pierpaolo.vittorini@univaq.it
` degli Studi dell’Aquila
Universita
Facolt`
a di Medicina e Chirurgia
7 febbraio 2014
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Contenuti e obiettivi
Breve riassunto “applicativo” dei test statistici
Gestione dei dati in STATA
Sintassi generale
Comandi principali
Creazione di un dataset in STATA
Statistica descrittiva
Statistica inferenziale
Regressione
Cenni di statistica non parametrica
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Concetti preliminari
Tipi di variabili
Numerica Una variabile numerica contiene dati quatitativi. Pu`
o essere:
Continua se pu`
o assumere valori nel dominio dei numeri
reali (e.g., l’et`
a, il peso);
Discreta se pu`
o assumere valori nel dominio dei interi
(e.g., numero di figli, abitanti).
Categorica Una variabile categorica contiene dati qualitativi. Pu`
o essere:
Ordinale se presenta differenti codifiche con un preciso
ordine fra i livelli (e.g., il livello di scolarit`
a);
Nominale se presenta differenti codifiche senza un ordine
fra i livelli (e.g., il sesso).
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Concetti preliminari (2)
Domande dell’analisi statistica
Statistica descrittiva
Tendenza centrale: qual `e il valore che descrive la
tendenza della mia variabile?
Dispersione: quanto sono concentrati intorno al valore di
tendenza centrale le mie osservazioni?
Statistica inferenziale
Differenza: c’`e differenza fra le osservazioni?
Associazione: c’`e associazione fra variabili?
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Tendenza centrale
Per variabili numeriche continue ⇒ media
Per variabili numeriche discrete o categoriche ordinali ⇒
mediana
Per variabili categoriche nominali ⇒ moda
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Dispersione
Per variabili numeriche continue ⇒ varianza o s.q.m.
Per variabili numeriche discrete o categoriche ordinali ⇒
range (max-min)
Per variabili categoriche nominali ⇒ numero di categorie
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Introduzione a STATA
STATA `e un pacchetto statistico per la manipolazione,
l’analisi e la resa in formato grafico di dati
STATA `e disponibile per molte piattaforme, ed `e usabile alla
stregua di una applicazione sia point-and-click che a linea di
comando
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Terminologia
Dataset: l’insieme di dati a mia disposizione
Soggetto: `e ci`o che mi propongo di studiare (e.g., un
paziente)
Variabile: `e la rappresentazione di un fenomeno reale
appartente ai soggetti in esame (e.g., posso scegliere di
indicare con la variabile altezza il fenomeno corrispondente
all’altezza dei miei soggetti in cm)
Osservazione: `e la misura di una o pi`
u variabili di un
determinato soggetto (e.g., una osservazione pu`o valere
175cm per la variabile altezza riferita ad un certo soggetto)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
La prima esecuzione di STATA
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Interagire con STATA
L’interazione con STATA avviene lanciando comandi
` possibile digitare i comandi, costruirli tramite l’interfaccia
E
grafica, oppure scriverli all’interno di un do-file
La prima opzione `e da preferire per comandi semplici
La seconda opzione `e da preferire per comandi complessi
La terza opzione `e da preferire quando si deve elaborare pi`
u di
una volta un dataset
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Interagire con STATA (2)
L’output di una elaborazione pu`
o essere memorizzato
all’interno di un file di log
Un file di log
si apre,
si pu`
o sospendere/continuare,
quindi si chiude,
poi lo si pu`
o visualizzare (anche per farne un copia/incolla
verso un programma di wordprocessing), o eventualmente
convertire in altri formati.
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Caricare/salvare i dati in Stata
In Stata `e possibile caricare/salvare dati
dal suo formato nativo (.dta)
da una sorgente esterna (e.g., Excel)
Formato nativo
Caricare
Salvare
GUI
File → Open
File → Save
Prof. Pierpaolo Vittorini
Comando
use file.dta
save file.dta
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Caricare/salvare i dati in Stata (2)
Per caricare/salvare dati da una sorgente esterna in Stata `e
possibile
usare Stat/Transfer
usare un formato di interscambio (e.g., CSV)
Formato di interscambio
per importare: File → Import → [Formato]
per esportare: File → Export → [Formato]
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Creazione di un dataset
Quando il trattamento che deve essere fatto ai dati `e
esclusivamente statistico (i.e., non ci sono query da fare, etc.)
`e vantaggioso creare il dataset direttamente dentro STATA
La creazione di un nuovo dataset procede secondo i seguenti
passi
Impostazione del numero di osservazioni
Creazione delle variabili
Aggiunta di eventuali etichette
Inserimento dei dati
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Passo 1
Impostare il numero di osservazioni
set obs [numero]
dove
numero `e il numero di osservazioni
Tale numero pu`o essere modificato anche in seguito
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Passo 2
Creare le variabili
gen [tipo] [nome] = [ini]
dove
tipo `e il tipo della variabile (int, float, double, str1, ...,
str80)
nome `e il nome della variabile
ini `e il valore iniziale, oppure una espressione, a cui si vuole
porre tale variabile
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Passo 3
Aggiungere etichette
Le etichette vengono usate, negli output, al posto del nome
della variabile
Etichettare il dataset
Etichettare le variabili
Creare eventuali associazioni simboliche sulle variabili (e.g.,
0=“Maschio” 1=“Femmina”)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Passo 3.1
Etichettare il dataset
label data [etichetta]
dove
etichetta `e una stringa di caratteri (max 80)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Passo 3.2
Etichettare una variabile
label var [variabile] [etichetta]
dove
variabile `e un nome di variabile
etichetta `e una stringa di caratteri (max 80)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Passo 3.3
Una associazione simbolica permette di “mappare” un valore
numerico in una descrizione pi`
u esplicita, cio`e per tutte le
variabili di natura categorica
0=Maschio, 1=Femmina
0=Nord, 1=Centro, 2=Sud, 3=Isole
...
Il tipo della variabile non cambia
Creare associazioni simboliche su variabili
Creare l’associazione
Attaccare tale associazione alla variabile
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Passo 3.3.1
Creare l’associazione
label define [nome] [lista]
dove
nome `e un nome simbolico per l’associazione
lista `e una lista di coppie valore/associazione
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Passo 3.3.2
Attaccare tale associazione alla variabile
label values [variabile] [nome]
dove
variabile `e un nome di variabile
nome `e un nome simbolico per l’associazione
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Passo 4
Inserire fisicamente i dati
edit
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Sintassi dei comandi Stata
La sintassi generale di un comando STATA `e la seguente
[by varlist:] comando [varlist]
[=espr] [if espr] [in range]
[, opzioni]
Nella sua forma pi`
u semplice `e il solo comando
Nella maggior parte dei casi si usa con la sola varlist
Nella forma pi`
u generale si arricchisce di opzioni, etc.
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
La lista di varibili (varlist)
[by varlist:] comando [varlist]
[=espr] [if espr] [in range]
[, opzioni]
Una varlist `e semplicemente una lista di variabili separate
dallo spazio
Ad esempio:
nome sesso altezza
Una varlist serve per indicare le variabili sulle quali deve
essere eseguita una determinata operazione
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
Le opzioni
[by varlist:] comando [varlist]
[=espr] [if espr] [in range]
[, opzioni]
Le opzioni sono un elenco separato da spazi di istruzioni che
permettono di modificare l’esecuzione del comando
Variano da comando a comando
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
La clausola if
[by varlist:] comando [varlist]
[=espr] [if espr] [in range]
[, opzioni]
La clausola condizionale if [espr] permette di restringere il
campo di applicazione alle sole osservazioni per cui
l’espressione booleana espr `e vera
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
La clausola in
[by varlist:] comando [varlist]
[=espr] [if espr] [in range]
[, opzioni]
La clausola condizionale in [min/max] permette di
restringere il campo di applicazione alle sole osservazioni
comprese fra i valori min e max
Gli estremi sono compresi
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale
La clausola by
[by varlist:] comando [varlist]
[=espr] [if espr] [in range]
[, opzioni]
La clausola by [var] permette di stratificare le analisi
statistiche secondo la variabile var
I dati devono essere prima ordinati prima di stratificare un
qualsiasi tipo di analisi
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica descrittiva
Statistica descrittiva
Medie (aritmetica, geometrica, armonica)
Mediana e percentili
Indici di dispersione (deviazione standard, varianza, scarti)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica descrittiva
Medie e dev.standard
Le medie aritmetica, geometrica, armonica possono essere
calcolate tramite il comando means, e nel caso di variabili
numeriche continue, con il comando summarize:
. webuse auto
(1978 Automobile Data)
.
means price
Variable
price
.
Type
Arithmetic
Geometric
Harmonic
Obs
74
74
74
Mean
6165.257
5656.907
5296.672
[95% Conf.
5481.914
5165.664
4928.901
Interval]
6848.6
6194.865
5723.75
summarize price
Variable
price
Obs
74
Mean
6165.257
Std. Dev.
2949.496
Min
3291
Max
15906
La media quindi vale 6165.257 e la deviazione standard
2949.496
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica descrittiva
Percentili, mediana e range
Il calcolo dei percentili viene fatta tramite il comando
c e n t i l e var , c e n t i l e ( v a l o r i )
dove
var ´e la variabile
valori ´e una lista, separata da spazio, dei percentili che
interessano
La mediana si calcola come il valore al 50mo percentile
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica descrittiva
Percentili, mediana e range (2)
Ad esempio, invocando il comando
.
centile rep78 , centile(0 50 100)
Variable
rep78
Obs
69
Percentile
0
50
100
-- Binom. Interp. -[95% Conf. Interval]
1
1*
3
4
5
5*
Centile
1
3
5
* Lower (upper) confidence limit held at minimum (maximum) of sample
La mediana quindi vale 3 e il range vale 5 (massimo-minimo)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica descrittiva
Moda e numero di categorie
Per il calcolo della moda e del numero di categorie
.
tab foreign, sort
Car type
Domestic
Foreign
Total
.
Freq.
52
22
74
Percent
70.27
29.73
100.00
Cum.
70.27
100.00
distinct foreign
foreign
Observations
total
distinct
74
2
La moda quindi vale “Domestic” e abbiamo due categorie
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica descrittiva
Istogrammi
Per creare un istogramma
. histogram price, start(3000) width(2000) xtitle(Prezzo) ytitle(Percentuale)
title(Distribuzione del prezzo) addlabel percent
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica descrittiva
Torte
Per creare una torta
. graph pie, over(foreign) plabel( all percent) title(Distribuzione per
nazionale/estera)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
T-test
Il t-test verifica l’uguaglianza dei valori medi fra due gruppi
Se indipendenti, si parla di t-test
Se dipendenti, si parla di t-test per dati appaiati
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
T-test
In STATA dobbiamo avere:
una variabile numerica che identifica la grandezza in
osservazione,
una variabile categorica che identifica il gruppo.
Ad esempio (tab7-1a.dta)
Parole
38
33
22
25
Prof. Pierpaolo Vittorini
Gruppo
...
0
0
1
1
...
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
Esempio di t-test
Prendiamo l’esempio di tab7-1a.dta e facciamo fare a
STATA il test di Student
t t e s t p a r o l e , by ( g r u p p o )
.
ttest parole , by(gruppo)
Two-sample t test with equal variances
Group
Obs
Mean
Std. Err.
Caso
10
35
1.437591
Controllo
10
27
1.264911
combined
20
31
1.307871
diff
8
1.914854
Ho:
diff
diff
=
=
Std. Dev.
4.546061
4
5.848977
[95% Conf.
31.74794
24.13857
28.26259
3.977041
mean(Caso) - mean(Controllo)
t
0
degrees of freedom
Ha: diff < 0
Pr(T < t) = 0.9997
Ha: diff != 0
Pr(|T| > |t|) = 0.0006
Prof. Pierpaolo Vittorini
=
=
Ha: diff > 0
Pr(T > t) = 0.0003
STATA
Interval]
38.25206
29.86143
33.73741
12.02296
4.1779
18
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
T-test per dati appaiati
In STATA dobbiamo avere:
una variabile numerica che identifica la grandezza in
osservazione prima di un determinato evento (e.g., un
trattamento),
una ulteriore variabile numerica che identifica la grandezza in
osservazione dopo l’evento.
Ad esempio (tab7-1b.dta)
t t e s t p r e==p o s t
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
Esempio di t-test
Prendiamo l’esempio di tab7-1b.dta e facciamo fare a
STATA il test per dati appaiati
.
ttest post==pre
Paired t test
Variable
Obs
post
10
pre
10
diff
10
Ho:
mean(diff)
mean(diff)
Mean
35
27
8
=
=
Ha: mean(diff) < 0
Pr(T < t) = 0.9996
Std. Err.
1.437591
1.264911
1.639783
mean(post - pre)
0
Std. Dev.
4.546061
4
5.18545
t
degrees of freedom
Ha: mean(diff) != 0
Pr(|T| > |t|) = 0.0009
Prof. Pierpaolo Vittorini
[95% Conf.
31.74794
24.13857
4.290553
STATA
Interval]
38.25206
29.86143
11.70945
=
=
Ha: mean(diff) > 0
Pr(T > t) = 0.0004
4.8787
9
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
ANOVA a una dimensione
Il t-test `e limitato al confronto di soli due gruppi di uguale
cardinalit`a
L’ANOVA (ANalisys Of VAriance) `e in grado di estendere gli
stessi concetti del t-test a pi`
u gruppi di cardinalit`a anche
diversa
` inoltre possibile confrontare due gruppi alla volta (confronti
E
post-hoc), usando i metodi di Bonferroni, Sidak, e Scheff´e
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
ANOVA a una dimensione (2)
Consideriamo l’esempio in cui vogliamo capire se esiste una
differenza fra quattro marche di birre (tab8-1.dta)
Tali dati devono essere inseriti in STATA sotto forma di
osservazioni, usando una tabella del tipo
tipo
1=Sborniek
1=Sborniek
...
4=Sgased
4=Sgased
Prof. Pierpaolo Vittorini
voto
4
4
...
4
3
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
ANOVA a una dimensione (3)
Eseguiamo il test usando il comando oneway
.
oneway voto tipo, scheffe
Source
Between groups
Within groups
Total
Analysis of
SS
df
33.275
3
97.5
36
130.775
39
Variance
Bartlett’s test for equal variances:
MS
11.0916667
2.70833333
3.35320513
chi2(3) =
F
4.10
15.7771
Prob > F
0.0134
Prob>chi2 = 0.001
Comparison of Voto nella scala 0-10 by Tipologia di prodotto
Drunker
Sborniek
Sgased
Sborniek
1.1
0.533
Sgased
.7
-.4
0.824
0.960
Senza no
-1.3
-2.4
-2
0.387
0.024
0.078
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
Regressione semplice
Scopo della regressione semplice `e quello di verificare se esista
una relazione lineare fra due variabili (y = a · x + b)
Prendiamo in esame l’esempio delle due variabili CLASS e
ADE (tab12-1.dta)
Soggetto
1
2
3
4
5
...
20
Prof. Pierpaolo Vittorini
CLASS
5
8
13
15
22
...
47
STATA
ADE
58
47
43
38
35
...
17
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
Regressione semplice
Cerchiamo di capire se esista una relazione lineare che leghi la
variabile CLASS alla variabile ADE
.
regress ADE CLASS
Source
SS
df
Model
3892.95215
1
Residual
863.997848
18
Total
4756.95
19
Number of obs
=
20
F( 1, 18)
=
81.10
Prob > F
=
0.0000
R-squared
=
0.8184
Adj R-squared
=
0.8083
ADE
CLASS
cons
Coef.
-.8426212
56.76421
MS
3892.95215
47.9998804
250.365789
Std. Err.
.0935649
3.007424
t
-9.01
18.87
P>|t|
0.000
0.000
Scopro cos`ı che tale relazione esiste e che
ADE = −0.84 · CLASS + 56.76
Prof. Pierpaolo Vittorini
STATA
[95% Conf.
-1.039194
50.44585
Interval]
-.6460487
63.08258
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
Regressione semplice
Per farlo disegnare da STATA, ricorro ai grafici two-way
twoway ( l f i t c i CLASS ADE) ( s c a t t e r CLASS ADE)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
Regressione multipla
La regressione multipla cerca di scoprire l’esistenza di una
relazione
P lineare tra una variabile ed n altre variabili
(y = i ai · xi + b)
Ad esempio, scomponiamo la variabile CLASS nelle variabili
C, L, A, S1, S2 e facciamo fare a STATA una regressione
multipla (tab13-0.dta)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
Regressione multipla
.
regress ADE C L A S1 S2
SS
df
Source
Model
4732.27727
5
Residual
24.6727283
14
Total
4756.95
19
Number of obs
=
20
F( 1, 18)
=
537.05
Prob > F
=
0.0000
R-squared
=
0.9948
Adj R-squared
=
0.9930
ADE
C
L
A
S1
S2
cons
Coef.
-2.399343
-.0668348
-.4562652
-1.479769
-.5622728
77.3157
Std. Err.
.6788447
.1790518
.2118419
.5208023
.3546285
1.905474
MS
946.455454
1.76233773
250.365789
t
-3.53
-0.37
-2.15
-2.84
-1.59
40.58
Prof. Pierpaolo Vittorini
P>|t|
0.003
0.715
0.049
0.013
0.135
0.000
STATA
[95% Conf.
-3.855321
-.4508627
-.9106209
-2.596779
-1.322875
73.22886
Interval]
-.9433664
.3171931
-.0019095
-.3627593
.1983298
81.40253
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
Statistica non parametrica
Test di significativit`a per frequenze di dati categorici (χ2 )
Test di significativit`a per dati trasformati in ranghi
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
Test di significativit`a
Prendiamo in esame l’esempio realmente accaduto relativo al
triptofano e alla sindrome eosinofilico-mialgica
Molti decessi, causa EMS, dopo l’assunzione di un integratore
a base di triptofano, causati da un inquinante proveniente dal
ciclo di lavorazione dalla ditta Showa Denko K.K.
Partiamo dai dati aggregati (tab16-1.dta)
Triptofano
No
Prof. Pierpaolo Vittorini
EMS
42
38
80
Normale
34
166
200
STATA
76
204
280
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
Test del χ2
Il test del χ2 ci permetter`a di capire se c’`e differenza fra chi
ha usato il triptofano e chi no
.
tab triptofano ems, chi2
triptofano
No
Si
Total
ems
Normale
166
34
200
EMS
38
42
80
Total
204
76
280
Pearson chi2(1) = 36.4159 Pr = 0.000
L’opzione exact deve essere invece usata in caso di piccole
frequenze.
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
Test per ranghi
I dati per i quali possono essere espressi dei valori di rango
vanno trattati diversamente dai dati categorici
Prendiamo in esame tab18-1.dta
Rango
1
2
...
20
Trattamento
BC
BC
...
SM
e vediamo come eseguire il test U di Mann-Whitney (alias
somma dei ranghi di Wilcoxon), cio`e l’equivalente non
parametrico del t-test
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
Test U di Mann-Whitney
Il test U di Mann-Whitney si esegue in STATA con il comando
.
ranksum rango, by(trattamento)
Two-sample Wilcoxon rank-sum (Mann-Whitney) test
trattamento
obs
rank sum
expected
BC
10
81
105
SM
10
129
105
combined
20
210
210
unadjusted variance
adjustment for ties
adjusted variance
Ho:
175.00
0.00
175.00
rango(tratta o==BC) = rango(tratta o==SM)
z = -1.814
Prob > |z| = 0.0696
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
Test di Wilcoxon
Per dati appaiati (tab18-4.dta)
.
signrank rango pre=rango post
Wilcoxon signed-rank test
sign
obs
sum ranks
positive
5
27
negative
10
93
0
0
zero
all
15
120
unadjusted variance
adjustment for ties
adjustment for zeros
adjusted variance
Ho:
expected
60
60
0
120
310.00
-0.75
0.00
309.25
rango pre = rango post
z = -1.877
Prob > |z| = 0.0606
Prof. Pierpaolo Vittorini
STATA
Introduzione
Statistica descrittiva
Statistica inferenziale
Statistica inferenziale
Regressione
Statistica non parametrica
Test di Kruskal-Wallis
Nel caso in cui dovessero aumentare i gruppi (e.g., le tipologie
di trattamento) si ricorre al test di Kruskal-Wallis
.
kwallis rango , by(trattamento)
Kruskal-Wallis equality-of-populations rank test
trattamento
Obs
Rank Sum
BC
10
101.00
SM
10
208.00
SC
10
156.00
chi-squared = 7.388 with 2 d.f.
probability = 0.0249
Prof. Pierpaolo Vittorini
STATA