Modelli Lineari Multilivello Silvia Bacci1 Dipartimento di Economia - Università di Perugia 1 silvia.bacci@stat.unipg.it S. Bacci (unipg) 1 / 35 Outline 1 Introduzione 2 Il modello lineare a due livelli: una sola covariata a livello 1 3 Il modello di regressione a due livelli: introduzione di una covariata a livello 2 4 Relazioni within e between 5 Il modello a effetti fissi 6 Alcune considerazioni conclusive S. Bacci (unipg) 2 / 35 Introduzione Le strutture gerarchiche I modelli multilivello si occupano dell’analisi di strutture gerarchiche di dati Si ha una struttura gerarchica di dati quando le unità statistiche di osservazione sono aggregate in gruppi di unità Esempi: studenti → classi → scuole pazienti → medici → ospedali lavoratori → aziende → regioni individui → famiglie → regioni intervistati → intervistatori Spesso il disegno di campionamento riflette la struttura gerarchica (campionamento multi-stage), ma questo non è necessario per un’analisi di tipo multilivello Noi ci occupiamo soltanto di strutture gerarchiche su due livelli S. Bacci (unipg) 3 / 35 Introduzione Le strutture gerarchiche Si ha una struttura gerarchica di dati anche in presenza di risposte multiple Si parla di risposte multiple quando le unità di livello inferiore (c.d. unità di livello 1) rappresentano risposte diverse da parte della medesima unità statistica (c.d. unità di livello 2), come nel caso di: dati multivariati (risposte a un questionario o a un test: item → individui) dati longitudinali (dati panel in econometria o misure ripetute in biostatistica: occasioni di misura → individui) Infine, una struttura gerarchica può combinare risposte multiple con aggregazioni in gruppi di unità (es. test sugli studenti: item → studenti → scuole) S. Bacci (unipg) 4 / 35 Introduzione Individui: quale livello gerarchico? Le unità di livello più basso prendono nome di unità di livello 1, within, micro Le unità di livello più alto prendono nome di unità di livello 2, between, macro, gruppi A seconda del contesto, l’individuo (persona, azienda, ecc.) può essere un’unità di livello 1 oppure di livello 2 Unità di livello 1 Unità di livello 2 S. Bacci (unipg) risposta univariata cross-section individuo gruppo di individui risposta multivariata cross-section misura, item, risposta individuo dati longitudinali misura, occasione, wave individuo 5 / 35 Introduzione Un po’ di terminologia. . . A seconda del campo di applicazione, i modelli multilivello vengono chiamati in modi diversi . . . Statistica: modelli misti (mixed models), modelli (lineari) gerarchici (hierarchical models) o, più in generale, modelli misti lineari generalizzati (generalized linear and mixed models - GLMM) Econometria: modelli a coefficienti casuali (random coefficients models) o, nel caso di dati longitudinali, modelli a effetti casuali (random effects models) Biostatistica: modelli misti (mixed models) per misure ripetute, modelli a effetti casuali Educazione: modelli multilivello (multilevel models) Disegno degli esperimenti: modelli a componenti di varianza S. Bacci (unipg) 6 / 35 Introduzione Dati mancanti I metodi di stima usati per i modelli multilivello consentono la presenza di dati mancanti a caso (missing non informativo) Usualmente, quando si hanno individui in gruppi, la numerosità dei gruppi è variabile (es. numero di studenti per classe o numero di lavoratori per azienda) Nel caso di dati longitudinali, può capitare che, per alcuni individui, manchino le osservazioni in una o più occasioni di misura (panel non bilanciato) Nel caso di dati multivariati, può accadere che, per alcuni individui, manchino le risposte a uno o più item del questionario Attenzione! Negli ultimi due casi non è scontato che il dato mancante sia non informativo! S. Bacci (unipg) 7 / 35 Introduzione Analisi dei gruppi vs analisi multilivello Nell’analisi dei gruppi (cluster analysis) la struttura gerarchica è sconosciuta: scopo dell’analisi è scoprire l’esistenza e la composizione dei gruppi Nell’analisi multilivello la struttura gerarchica è nota a priori: scopo dell’analisi è comprendere le relazioni all’interno e tra i gruppi S. Bacci (unipg) 8 / 35 Introduzione Tipi di variabili esplicative Esempio: punteggio su un test di abilità sottoposto a studenti (i = 1, . . . , nj ) aggregati in scuole (j = 1, . . . , J) Variabili di livello 1, Xij : descrivono caratteristiche proprie delle unità di livello 1 (es. : sesso, età) Variabili di livello 2, Zj : descrivono caratteristiche delle unità di livello 2 variabili globali: caratteristiche delle unità di livello 2 con nessuna misura corrispondente al livello 1 (es. scuola pubblica vs privata, numero di insegnanti) variabili di composizione: caratteristiche delle unità di livello 2 ottenute aggregando le caratteristiche delle unità di livello 1 (es. numero medio di alunni per classe, proporzione di femmine, età media) S. Bacci (unipg) 9 / 35 Introduzione Una variabile di livello 2 (Zj ) è, per definizione, costante all’interno del gruppi: la sua variazione è solo tra gruppi Una variabile di livello 1 (Xij ), invece, varia sia all’interno dei gruppi (cioè assume valori diversi per i vari individui) sia tra i gruppi (cioè la sua media cambia di gruppo in gruppo) ¯ .j + (Xij − X ¯ .j ) Xij = X S. Bacci (unipg) => ¯ .j ) + var(Xij − X ¯ .j ) var(Xij ) = var(X 10 / 35 Introduzione Perchè non un modello di regressione lineare classico (OLS)? La presenza di una struttura gerarchica nei dati è sintomo di eterogeneità non osservata: in altri termini, è ragionevole attendersi che i valori di yij e yi0 j assunti da due unità elementari i e i0 all’interno della stessa unità j di livello 2 (gruppo nei dati cross-section o individuo nei dati panel) siano più simili tra loro (cioè più correlati) rispetto ai valori yij e yi0 j0 assunti da due unità i e i0 appartenenti a unità di livello 2 diverse => Esiste un effetto di gruppo (o effetto individuale nel caso di dati panel) che spiega parte della variabilità di Y S. Bacci (unipg) 11 / 35 Introduzione Perchè non un modello di regressione lineare classico (OLS)? Applicare un modello di regressione lineare classico a dati gerarchici (regressione pooled) significa ignorare la struttura gerarchica dei dati e, quindi: Modello inaccurato: non si è in grado di separare il contributo dei due livelli gerarchici alla eterogeneità di Y, cioè non si è in grado di distinguere la variabilità di Y all’interno delle unità di livello 2 dalla variabilità di Y tra le unità di livello 2 Inferenza inaccurata: a causa della somiglianza delle unità elementari all’interno della stessa unità di livello 2, l’ipotesi di indipendenza del modello OLS è violata: gli stimatori OLS dei coefficienti di regressione sono distorti e inconsistenti => in genere, la pendenza della retta viene sovrastimata nel modello pooled gli errori standard dei coefficienti di regressione sono, spesso, sottostimati => il tasso di errore di primo tipo tende a essere più alto del livello nominale α (cioè si rifiuta troppo spesso l’ipotesi H0 : β = 0) S. Bacci (unipg) 12 / 35 Introduzione Regressione “between” Una possibile alternativa alla regressione pooled è la c.d. regressione between, che consiste nel considerare le medie di gruppo (al posto dei valori individuali) e applicare la regressione lineare classica ai nuovi dati. Tuttavia . . . diverso significato: le variabili di composizione ottenute dall’aggregazione si riferiscono alle unità di livello 2, quindi non possono essere usate per investigare sulle relazioni a livello 1 aggregation bias: le relazioni a livello 1 sono diverse dalle relazioni a livello 2 interazioni tra livelli: lo studio delle relazioni tra livelli è precluso nel caso di regressione between S. Bacci (unipg) 13 / 35 Il modello lineare a due livelli: una sola covariata a livello 1 Esempio: efficacia delle scuole Livelli: studenti (livello 1) in scuole (livello 2) Variabile risposta Y: punteggio su un test di abilità Variabile esplicativa (a livello 1) X: punteggio su un test iniziale Nel caso di una sola scuola: yi = β0 + β1 xi + ei ei ∼ N(0, σe2 ), ei i.i.d. Nel caso di un campione di J scuole (Modello di livello 1): yij = β0j + β1j xij + eij S. Bacci (unipg) eij ∼ N(0, σe2 ), eij i.i.d. 14 / 35 Il modello lineare a due livelli: una sola covariata a livello 1 Ipotesi sui parametri Ogni scuola j ha la sua intercetta e il suo coefficiente angolare: (β0j , β1j ) Si assume che (β0j , β1j ) siano variabili casuali con distribuzione normale bivariata: β0j β1j ∼N γ00 γ10 2 σu0 σu01 , 2 σu01 σu1 Inoltre, (β0j , β1j ) sono assunti indipendenti da eij S. Bacci (unipg) 15 / 35 Il modello lineare a due livelli: una sola covariata a livello 1 Parametri da stimare Parametri fissi γ00 : intercetta media γ10 : coefficiente angolare medio Parametri casuali (o di varianza e covarianza) 2 σu0 : varianza dell’intercetta 2 σu1 : varianza del coefficiente angolare σu01 : covarianza tra intercetta e coefficiente angolare σe2 : varianza di livello 1 o varianza residua S. Bacci (unipg) 16 / 35 Il modello lineare a due livelli: una sola covariata a livello 1 Ricapitolando: modello lineare a due livelli Modello di livello 1: yij = β0j + β1j xij + eij Modello di livello 2: β0j = γ00 + u0j β1j = γ10 + u1j u0j è la deviazione della scuola j dall’intercetta media di tutte le scuole (γ00 ) u1j è la deviazione della scuola j dal coeff. ang. medio di tutte le scuole (γ10 ) Modello combinato (livelli 1 e 2 insieme): yij = γ00 + γ10 xij + u1j xij + u0j + eij | {z } | {z } parte fissa parte casuale => Le rette di regressione si intersecano tra loro, quindi non è possibile effettuare alcun ordinamento dei gruppi S. Bacci (unipg) 17 / 35 Il modello lineare a due livelli: una sola covariata a livello 1 Struttura di varianza e covarianza L’errore totale del modello è u1j xij + u0j + eij che implica eteroschedasticità Var(yij |xij ) = 2 2 2 [σu0 + 2σu01 xij + σu1 xij ] + σe2 |{z} | {z } varianza “between” varianza “within” correlazione non omogenea tra le risposte di unità dello stesso gruppo 2 2 Cov(yij , yi0 j |xij , xi0 j ) = σu0 + σu01 (xij + xi0 j ) + σu1 xij xi0 j nessuna correlazione tra le risposte di unità di gruppi diversi Cov(yij , yi0 j0 |xij , xi0 j0 ) = 0 S. Bacci (unipg) 18 / 35 Il modello lineare a due livelli: una sola covariata a livello 1 Matrice di varianza e covarianza degli effetti casuali 2 σu0 σu01 Σu = 2 σu01 σu1 Alcuni casi particolari di Σu : Modello di regressione lineare classico (OLS) Modello a intercetta casuale S. Bacci (unipg) 19 / 35 Il modello lineare a due livelli: una sola covariata a livello 1 Casi particolari: modello OLS Σu = 0 Var(yij |xij ) = σe2 => omoschedasticità Cov(yij , yi0 j |xij , xi0 j ) = 0 => le risposte di unità dello stesso gruppo sono tra loro incorrelate yij = γ00 + γ10 xij + eij => intercetta e coefficiente angolare sono costanti => La retta di regressione è la stessa per tutti i gruppi (la struttura di gruppo non ha alcun effetto su Y) S. Bacci (unipg) 20 / 35 Il modello lineare a due livelli: una sola covariata a livello 1 Casi particolari: modello a intercetta casuale Σu = 2 σu0 0 0 0 2 La varianza del coefficiente angolare (σu1 ) è pari a 0 2 La varianza dell’intercetta (σu0 ) è diversa da zero (ma non dipende da X) 2 Var(yij |xij ) = σu0 + σe2 => omoschedasticità 2 2 => coefficiente di correlazione intraclasse: σu0 /(σu0 + σe2 ) 2 Cov(yij , yi0 j |xij , xi0 j ) = σu0 => equi-correlazione all’interno dei gruppi yij = γ00 + γ10 xij + u0j + eij => intercetta casuale (una per ogni gruppo data da γ00 + u0j ) e coefficiente angolare costante => Le rette di regressione sono tra loro parallele, quindi è possibile ordinare i gruppi in base a u0j S. Bacci (unipg) 21 / 35 Il modello di regressione a due livelli: introduzione di una covariata a livello 2 Esempio: efficacia delle scuole Livelli: studenti (livello 1) in scuole (livello 2) Variabile risposta Y: punteggio su un test di abilità Variabile esplicativa (a livello 1) X: punteggio su un test iniziale Variabile esplicativa (a livello 2) Z: tipo di scuola (pubblica vs privata) L’introduzione di covariate di livello 2 è utile per definire un modello per spiegare meglio i parametri di livello 1, cioè (β0j , β1j ) 2 2 e, quindi, ridurre le varianze di livello 2, cioè (σu0 , σu1 ) S. Bacci (unipg) 22 / 35 Il modello di regressione a due livelli: introduzione di una covariata a livello 2 Modello lineare a due livelli con covariata di livello 2 Modello di livello 1: yij = β0j + β1j xij + eij Modello di livello 2: β0j = γ00 + γ01 zj + u0j β1j = γ10 + γ11 zj + u1j Modello combinato (livelli 1 e 2 insieme): yij = γ00 + γ01 zj + γ10 xij + γ11 zj xij + u1j xij + u0j + eij | {z } | {z } parte fissa parte casuale γ01 è la differenza media nell’intercetta tra scuole pubbliche e scuole private γ11 è la differenza media nel coeff. ang. tra scuole pubbliche e scuole private l’interazione zj xij è dovuta al fatto che il coefficiente di livello 1 β1j dipende dalla covariata di livello 2 zj l’inserimento di una covariata di livello 2 modifica soltanto la parte fissa del modello u0j e u1j hanno la stessa interpretazione di prima le assunzioni distributive sugli effetti casuali rimangono invariate S. Bacci (unipg) 23 / 35 Il modello di regressione a due livelli: introduzione di una covariata a livello 2 Effetto delle covariate sulle varianze Una covariata di livello 2 fa ridurre (o lascia invariata) la varianza di livello 2 Una covariata di livello 2 non influenza la varianza di livello 1, in quanto è costante all’interno di ciascun gruppo Una covariata di livello 1 fa ridurre (o lascia invariata) la varianza di livello 1 L’effetto di una covariata di livello 1 sulla varianza di livello 2 è imprevedibile S. Bacci (unipg) 24 / 35 Relazioni within e between Centrare una covariata (quantitativa) Esistono vari modi per studiare le relazioni all’interno dei gruppi e le relazioni tra i gruppi, che dipendono dal modo in cui X è inserita nel modello 1 2 3 4 yij = . . . + γtotal xij + . . . (modello con covariata grezza) yij = . . . + γwithin (xij − ¯x.j ) + γbetween¯x.j + . . . (modello di Cronbach) yij = . . . + γwithin xij + (γbetween − γwithin )¯x.j + . . . (modello contestuale) yij = . . . + γwithin (xij − ¯x.j ) + . . . (modello within o a effetti fissi) S. Bacci (unipg) 25 / 35 Relazioni within e between Modello di Cronbach e modello contestuale Modello di Cronbach: centratura rispetto alla media di gruppo + media di gruppo yij = γ00 + γ10 (xij − ¯x.j ) + γ01¯x.j + u0j + eij con γ10 : coefficiente within γ01 : coefficiente between Modello contestuale: covariata X “grezza” + media di gruppo yij = γ00 + γ e10 xij + γ e01¯x.j + u0j + eij Se sostituisco xij con (xij − ¯x.j ) + ¯x.j ottengo il modello di Cronbach riparametrizzato: yij = γ00 + γ e10 (xij − ¯x.j ) + (e γ10 + γ e01 )¯x.j + u0j + eij con γ e10 = γ10 γ e01 = γ01 − γ10 = effetto di contesto S. Bacci (unipg) 26 / 35 Relazioni within e between Interpretare gli effetti within, between, contestuale Esempio: yij , punteggio su un test di abilità, xij punteggio su un test iniziale, Z = ¯x.j Effetto within (stesso punteggio medio di scuola, punteggi iniziali individuali diversi): E(yij |xij = 81, ¯x.j = 70) − E(yij |xij = 80, ¯x.j = 70) = γ10 Effetto between (stessa deviazione tra punteggio iniziale individuale e punteggio medio della scuola): E(yij |xij = 81, ¯x.j = 71) − E(yij |xij = 80, ¯x.j = 70) = γ01 Effetto contestuale (stesso punteggio iniziale individuale, punteggi medi delle scuole diversi): E(yij |xij = 80, ¯x.j = 71) − E(yij |xij = 80, ¯x.j = 70) = γ01 − γ10 S. Bacci (unipg) 27 / 35 Relazioni within e between Modello con covariata “grezza” L’approccio più intuitivo consiste nell’inserire una covariata di livello 1 come covariata grezza, senza considerare la media di gruppo: yij = γ00 + γ b10 xij + u0j + eij Questo equivale ad assumere che gli effetti within e between siano identici: yij =γ00 + γ b10 xij + u0j + eij γ00 + γ b10 (xij − ¯x.j + ¯x.j ) + u0j + eij γ00 + γ b10 (xij − ¯x.j ) + γ b10¯x.j + u0j + eij S. Bacci (unipg) 28 / 35 Relazioni within e between Ricapitolando . . . 1 yij = . . . + γtotal xij + . . . (modello con covariata grezza) 2 yij = . . . + γwithin xij + (γbetween − γwithin )¯x.j + . . . (modello di Cronbach) 3 yij = . . . + γwithin (xij − ¯x.j ) + γbetween¯x.j + . . . (modello contestuale) 4 yij = . . . + γwithin (xij − ¯x.j ) + . . . (modello within o a effetti fissi) I modelli da 1 a 3 consentono di controllare completamente l’effetto di una covariata di livello 1 I modelli 2 e 3 sono equivalenti Il modello 1 è più parsimonioso dei modelli 2 e 3, ma in generale è sbagliato (in quanto gli effetti between e within di solito sono diversi) Il modello 4 (modello within o a effetti fissi) controlla solo per l’effetto all’interno dei gruppi S. Bacci (unipg) 29 / 35 Il modello a effetti fissi Il modello a effetti fissi Nel modello ad intercetta casuale gli effetti casuali u0j possono essere sostituiti con dei parametri - cioè costanti incognite ma fisse - αj yij = (γ00 + αj ) + βxij + eij In tal caso non è richiesta nessuna assunzione distributiva sugli effetti casuali di livello 2 Tuttavia, il coefficiente β non è l’effetto totale di X, ma solo l’effetto within, in quanto tutta la variabilità tra i gruppi (effetto between) è assorbita dagli effetti fissi S. Bacci (unipg) 30 / 35 Il modello a effetti fissi Infatti, la stima dei parametri β si ottiene scartando dal modello originario il seguente modello basato sulle medie di gruppo: ¯y.j = (γ00 + αj ) + β¯x.j + ¯e.j cioè (modello basato sulle deviazioni dalle medie di gruppo) yij − ¯y.j = β(xij − ¯x.j ) + (eij − ¯e.j ) La trasformazione attuata elimina gli effetti fissi dal modello e si ottiene lo stimatore a effetti fissi βˆFE per β βˆFE è detto anche stimatore within in quanto descrive l’effetto della deviazione di X rispetto alla propria media di gruppo Gli effetti fissi αj sono stimati come residuo medio: α ˆ j,FE = ¯y.j − βˆFE ¯x.j S. Bacci (unipg) 31 / 35 Il modello a effetti fissi Effetti fissi o effetti casuali? Gli effetti casuali sono l’approccio standard in epidemiologia, sociologia, psicometria; gli effetti fissi sono l’approccio standard in econometria Vantaggi dell’approccio a effetti fissi: si evitano assunzioni distributive sui residui di livello 2 può essere usati con pochi gruppi lo stimatore βˆFE è sempre consistente Svantaggi dell’approccio a effetti fissi: al crescere del numero di gruppi si ha una perdita di efficienza (il numero di effetti fissi da stimare è pari al numero di gruppi) tiene conto solo della varianza within e non della varianza between => non è possibile usare covariate di livello 2, cioè covariate che non variano al livello 1 (nel caso di dati panel, non è possibile inserire nel modello caratteristiche costanti nel tempo degli individui) Stima inefficiente degli effetti di gruppo (ad es., se un gruppo ha solo due unità, il suo effetto fisso è stimato usando due osservazioni) Non consente di fare inferenza sulla popolazione dalla quale il campione è stato estratto, in quanto è condizionato ai valori degli αj => se l’interesse è proprio sugli elementi del campione l’approccio FE è il candidato naturale, se l’interesse è sulla popolazione dalla quale il campione proviene, allora l’approccio RE è una scelta più corretta S. Bacci (unipg) 32 / 35 Il modello a effetti fissi Test di Hausman Esistono però situazioni in cui, al di là delle considerazioni appena fatte, l’approccio FE è preferibile all’approccio RE => questo accade quando gli effetti di livello 2 e le covariate sono correlati tra loro: E(xij αj ) 6= 0 Se E(xij αj ) 6= 0 lo stimatore RE è inconsistente, mentre lo stimatore FE è consistente (dimostrazione omessa) => Un test di non correlazione tra le variabili esplicative e gli effetti di livello 2 è anche un test sull’affidabilità dell’approccio RE Il Test di Hausman confronta H0 : E(xij αj ) = 0 con H1 : E(xij αj ) 6= 0 Il Test di Hausman consente di scegliere tra approccio a effetti fissi e approccio a effetti casuali, basandosi sulle proprietà dei rispettivi stimatori: Sotto H0 , lo stimatore FE è consistente ma inefficiente, lo stimatore RE è consistente ed efficiente Sotto H1 , lo stimatore FE è consistente, lo stimatore RE è inconsistente Se si accetta H0 è preferibile usare l’approccio RE; se si rifiuta H0 è preferibile usare l’approccio FE S. Bacci (unipg) 33 / 35 Alcune considerazioni conclusive Quante unità di livello 2 e quanto grandi? Il numero di gruppi minimo richiesto per stimare un modello lineare multilivello dipende dall’obiettivo dell’inferenza Se l’obiettivo è ottenere stime puntuali non distorte dei coefficienti di regressione, sono sufficienti 10 unità di livello 2 Se si è interessati altresì a stime non distorte delle componenti di varianza e degli errori standard, sono necessarie almeno 30 unità di livello 2 Nel caso di pochi gruppi può essere opportuno adottare un modello a effetti fissi L’ampiezza dei gruppi è meno rilevante: nel caso di modelli lineari anche gruppi di ampiezza 2 sono sufficienti (es. panel con due osservazioni per individuo) Tuttavia, gruppi piccoli peggiorano l’inferenza specifica dei gruppi (es. scarsa precisione degli errori di livello 2) e danno poca informazione sulla struttura di varianza e covarianza a livello 2, che, quindi, dovrebbe essere semplice (es. evitare coefficienti casuali) S. Bacci (unipg) 34 / 35 Alcune considerazioni conclusive Inferenza basata sugli errori di livello 2 Le stime degli effetti casuali di livello 2 u0j e u1j possono essere usate per fare inferenza sulle unità di livello 2 Prima questione: Il gruppo j1 differisce significativamente dalla media, cioè u0j1 6= 0 (o u1j1 6= 0)? Se l’intervallo di confidenza (al 95%) dato da uˆhj1 ± 1, 96 · SE(uˆhj1 ) non contiene 0, allora concludo che uhj1 6= 0 (h = 0, 1) Seconda questione: Il gruppo j1 differisce significativamente dal gruppo j2 , cioè u0j1 6= u0j2 (o u1j1 6= u1j2 )? Se gli intervallo dati da uˆhj1 ± 1, 39 · SE(uˆhj1 ) e uˆhj2 ± 1, 39 · SE(uˆhj2 ) non si sovrappongono, allora concludo che uhj1 6= uhj2 (h = 0, 1) S. Bacci (unipg) 35 / 35
© Copyright 2024 Paperzz