Relazioni statistiche • Indipendenza: assenza di qualsiasi relazione tra due caratteri In caso di presenza di un legame, questo può essere di: • Connessione: relazione reciproca tra due caratteri qualitativi • Dipendenza: relazione di causa-effetto tra due caratteri quantitativi o misti - Dipendenza lineare (regressione lineare) – Dipendenza in media • Interdipendenza: relazione di dipendenza reciproca tra due caratteri quantitativi - Correlazione 1 Cosa vuol dire: “esiste una relazione tra due caratteri”? 2 caratteri tabella doppia Si considerano le frequenze congiunte delle modalità dei due caratteri Esistenza di relazione X = Colore dei capelli Y = Colore della pelle x1: neri y1: nera x2: biondi y2: bianca pelle nera bianca neri n11 n12 biondi n21 n22 capelli Sappiamo che tra il colore della pelle e dei capelli esiste una relazione Ci aspettiamo che, ad esempio, un individuo di pelle nera abbia capelli neri, oppure che non li abbia biondi In riferimento ad una tabella a doppia entrata questo equivale a dire che ci aspettiamo: • una prevalenza della frequenza congiunta pelle nera-capelli neri n11 • una frequenza congiunta pelle nera-capelli biondi bassa n21 2 Assenza di relazione: indipendenza X = Colore dei capelli Y = genere TV preferito x1: neri y1: fiction x2: biondi y2: reality TV fiction reality neri n11 n12 biondi n21 n22 capelli Sappiamo che tra il colore dei capelli ed il genere TV preferito non esiste una relazione Sapendo che, ad esempio, un individuo ha capelli biondi non sappiamo cosa aspettarci dal genere TV che preferisce In riferimento ad una tabella a doppia entrata questo equivale a dire che ci aspettiamo che le modalità del colore si presentino indifferentemente in coppia con tutte le modalità del genere e viceversa, ossia che frequenze congiunte non presentino particolari “prevalenze”, cioè si distribuiscano uniformemente 3 Condizione di indipendenza su tabelle a doppia entrata negozio Bar Coloniali D. Autom. S.market Totale CH n11 n12 n13 n14 n1. MM n21 n22 n23 n24 n2. Totale n.1 n.2 n.3 n.4 n scelta 1 Righe indipendenti dalle colonne (scelta indipendente da negozio) il comportamento delle unità statistiche rispetto alla scelta non è condizionato dal tipo di negozio in cui si acquista, che equivale a dire che: le distribuzioni del carattere “scelta” condizionate alle modalità del carattere “negozio” sono uguali tra loro ed alla distribuzione marginale del carattere “scelta” negozio Bar Coloniali D. Autom. S.market Totale CH f11 f12 f13 f14 f1. MM f21 f22 f23 f24 f2. Totale 1 1 1 1 1 scelta Condizione di indipendenza per i profili colonna: f11 = f12 = f13 = f14 = f1. f21 = f22 = f23 = f24 = f2. Sostituendo con le frequenze assolute: n11 n n = = 14 = 1. n.1 n.4 n n21 n n = = 24 = 2. n.1 n.4 n che per la generica frequenza nij è: nij n.j = ni. n ⇒ nij = ni. × n.j n 4 Condizione generale di indipendenza 2 Colonne indipendenti dalle righe (negozio indipendente da scelta) il comportamento delle unità statistiche rispetto al negozio in cui si acquista non è condizionato dalla marca scelta, il che equivale a dire che: le distribuzioni del carattere “negozio” condizionate alle modalità del carattere “scelta” sono uguali tra loro ed alla distribuzione marginale del carattere “negozio” negozio scelta Bar Coloniali D. Autom. S.market Totale CH f11 f12 f13 f14 1 MM f21 f22 f23 f24 1 Totale f.1 f.2 f.3 f.4 1 Condizione di indipendenza per i profili riga: Sostituendo con le frequenze assolute: f11 = f21 = f.1 n11 n21 n.1 = = n1. n2. n f12 = f22 = f.2 f13 = f23 = f.3 f14 = f24 = f.4 che per la generica frequenza nij è: nij ni. = n.j n ⇒ nij = n.j × ni. n n14 n24 n.4 = = n1. n2. n Condizione generale di indipendenza 5 Connessione 2 caratteri qualitativi, tabelle di contingenza Indice Chi-quadro di Pearson (χ χ2) nij n.j nij ni. = = Condizione di indipendenza per la cella ij: ni. n ˆij = n n.j ni•n• j n = frequenze teoriche n Per misurare la connessione bisogna considerare le differenze tra le frequenze teoriche e le frequenze osservate. nij ) è pari a 0: Ma: la somma delle differenze (nij − ˆ r c ∑ ∑ (n ij −ˆ nij i =1 j =1 ) r c 1 r c 1 r = ∑ ∑ nij −∑ ∑ ˆ nij = n − ∑ ∑ ni•n• j = n − ∑ ni• ∑ n• j = n i =1 j =1 n i=1 j =1 i =1 j =1 i =1 j =1 = n− Quindi: c k h 1 n⋅n = n − n = 0 n si ricorre alla somma dei quadrati delle differenze 6 L’indice chi-quadro è basato sulla somma dei quadrati differenze tra le frequenze teoriche e le frequenze osservate. 2 χ = r c ∑∑ i =1 j = 1 (n ij −ˆ nij ˆ nij delle 2 ) r = numero d righe c = numero di colonne 0 ≤ χ2 ≤ ∞ χ2 = 0 Non esiste connessione tra X ed Y (X ed Y sono indipendenti). Ogni frequenza congiunta è pari alla rispettiva frequenza teorica. χ2 > 0 Esiste connessione tra X ed Y (X ed Y non sono indipendenti). Almeno una frequenza congiunta è diversa dalla rispettiva frequenza teorica. 7 Formulazione alternativa 2 ∑ i∑ χ2 = = ∑∑ i = j i n ij2 ˆ n ij ˆ n ij +∑∑ ˆ n i •n • j j = n∑ j n i2j ∑ ∑ i (n i j − ˆn i j ) ∑ j n 2 n ij n i•n • j i + j ˆ n ij2 ˆ n ij ∑ ∑ i − 2∑ ∑ i + n − 2n = ˆ n ij j ˆ n ij − 2 ∑ j n i jˆ n ij i ∑ = n ij = j 2 r c n ij 2 χ = n∑ ∑ − 1 i =1 j =1 ni•n• j 8 Indice Phi-quadro di Fisher (φ φ2) 2 χ φ2 = n 0 ≤ φ2 ≤ min {r − 1, c − 1} Indice T di Tchuprov φ2 χ2 T = = min {r − 1, c − 1} n × min {r − 1, c − 1} 0≤ T ≤1 9 Esempio negozio scelta Bar Coloniali CH 9 8 MM 0 Totale 9 D. Autom. S.market Totale 1 3 21 1 3 5 9 9 4 8 30 Metodo A. χ2 = negozio Bar Coloniali CH 6,3 6,3 MM 2,7 9 Totale 2 4 ∑∑ (nij − ˆnij ) ˆ nij i =1 j =1 nij Frequenze teoriche ˆ scelta 2 D. Autom. S.market Totale 2,8 5,6 21 2,7 1,2 2,4 9 9 4 8 30 ( 9 − 6,3 )2 ( 8 − 6,3)2 (1 − 2,8 )2 (3 − 5,6 )2 ( 0 − 2,7 )2 (1 − 2,7 )2 (3 − 1,2 )2 (5 − 2, 4 )2 = χ2 = + + + + + + + 6,3 6,3 2,8 5,6 2,7 2,7 1,2 2, 4 = 1,16 + 0, 46 + 2,82 = 13,27 Φ 2 = 1 2 1 3, 2 7 χ = = 0, 4 4 n 30 0 ≤ φ2 ≤ 1 10 Metodo B. 2 χ = n ∑ i = 1 2 − 1 ni. ⋅ n.j nij2 4 ∑ j =1 2 1. Frequenze osservate al quadrato nij negozio scelta Bar CH MM 2. Coloniali D. Autom. S.market 81 64 1 9 0 1 9 25 n i. × n . j negozio scelta CH MM Bar Coloniali D. Autom. S.market 189 189 84 168 81 81 36 72 64 1 9 1 9 25 8 1 χ2 = 3 0 × + + + + + + − 1 = 189 84 168 81 36 72 1 8 9 = 3 0 × [1 , 4 4 − 1 ] = 1 3 , 2 7 Φ 2 = 1 2 1 3, 2 7 χ = = 0, 4 4 n 30 11 Perfetta dipendenza unilaterale e bilaterale Si è nella situazione di perfetta dipendenza unilaterale quando, data una modalità di uno dei due caratteri, la modalità che assume l’altro è univocamente individuabile. La perfetta dipendenza è bilaterale quando questa relazione è reciproca (e può verificarsi solo su tabelle quadrate). Se: Y è il carattere sulle righe (r modalità) X è il carattere sulle colonne (c modalità) si ha: Perfetta dipendenza unilaterale di Y da X φ2 = r − 1 ⇒ nij = n• j r<c φ2 = c − 1 ⇒ nij = ni• c<r (tabelle rettangolari, o quadrate) Perfetta dipendenza unilaterale di X da Y (tabelle rettangolari, o quadrate) Perfetta dipendenza bilaterale (tabelle quadrate) φ2 = r − 1 = c − 1 ⇒ nij = n• j = ni• r = c 12 Esempi di perfetta dipendenza unilaterale Massima dipendenza unilaterale del carattere SCELTA (Y) dal carattere NEGOZIO (X) (se X allora Y) r<c negozio (X) scelta (Y) Bar D. Autom Coloniali S.market Totale CH 9 0 4 0 13 MM 0 9 0 8 17 Totale 9 9 4 8 30 nij = n.j φ2 = r − 1 = 1 Massima dipendenza unilaterale del carattere SCELTA (X) dal carattere NEGOZIO (Y) (se Y allora X) scelta (X) CH r>c MM negozio (Y) Totale Bar 9 0 9 Coloniali 0 9 9 D. Autom 4 0 4 S.market 0 8 8 13 17 Totale nij = ni. φ2 = c − 1 = 1 30 13 Esempio di perfetta dipendenza bilaterale Massima dipendenza bilaterale del carattere COLORE OCCHI (X) dal carattere COLORE CAPELLI (Y) e del carattere COLORE CAPELLI (Y) dal carattere COLORE OCCHI (X) (se Y allora X e se X allora Y) Occhi (X) Castani Azzurri Verdi Neri totale Capelli (Y) Castani 28 Biondi 28 12 Rossi 12 4 Neri totale 28 12 4 4 6 6 6 50 r=c=4 nij = n• j = ni• φ2 = r − 1 = c − 1 = 3 14 Dipendenza in media Almeno 1 carattere quantitativo, tabelle miste X qualitativo Modalità di X Y quantitativo → Medie di Ymm Indvipendenza in media di Y da X: al variare delle modalità di X le medie delle distribuzioni condizionate di Y rimangono costanti. Y qualitativo Modalità di Y → → X quantitativo Medie di Xmm Indipendenza in media di X da Y: al variare delle modalità di Y le medie delle distribuzioni condizionate di X rimangono costanti. Y X AREA Geografica Classi di REDDITO Totale 20-30 30-40 NORD 2 6 8 CENTRO 2 4 6 SUD 6 0 6 10 10 20 Totale La spezzata delle medie Y X AREA Geografica Classi di REDDITO Totale 20-30 Medie 30-40 NORD 2 6 8 32.5 CENTRO 2 4 6 31.7 SUD 6 0 6 25 10 10 20 30 Totale Decomposizione della varianza La varianza di X è data dalla somma di due componenti: • varianza esterna = varianza delle medie di gruppo • varianza interna = media delle varianze di gruppo Quanto differiscono le medie tra loro e rispetto alla media generale? Se: G = numero di gruppi; µj = media dell’j-esimo gruppo; nj = numerosità dell’j-esimo gruppo (j = 1,….,G); allora: σ 2 2 1 G 1 G 2 = σ n + µ − µ nj ∑ ∑ j j j n j=1 n j=1 ( V A R IA N Z A IN T E R N A ossia: 2 σ2TOT = σ2INT + σEX T V A R IA N Z A ESTERN A ) n1 + n2 + … + nj + … + nG = n suddivisione delle intensità in G gruppi di numerosità nj ( j = 1,…,G) 1 µj = nj Media aritmetica del j-mo gruppo: 2 1 n 2 σ = ∑ ( xi − µ ) = n i =1 nj ∑x ij i =1 2 1 G ni xij − µ ∑ ∑ n j = 1 i =1 ( ) = Varianza della partizione in gruppi 1 G ni = ∑ ∑ xij − µ j + µ j − µ n j =1 i = 1 ( 1 G ni = ∑ ∑ xij − µ j n j =1 i = 1 ( 2 ) 2 ) = 1 G ni + ∑ ∑ µj − µ n j =1 i = 1 ( 2 ) 1 G ni +2 ∑ ∑ xij − µ j n j = 1 i =1 ( )( µ j −µ ) 18 1 G ni xij − µ j ∑ ∑ n j =1 i =1 ( 2 ) 1 G ni + ∑ ∑ µj − µ n j =1 i =1 ( 1° Addendo ) ( 2° Addendo 1 G ni xij − µ j ∑ ∑ n j =1 i =1 2 ( 1° Addendo 1 G ni +2 ∑ ∑ xij − µ j µ j − µ n j =1 i =1 2 ) ( 2° Addendo 2 ) 1 nj 2 1 G 2 2 ∑ xij − µ j nj = ∑ σ j nj = σ INT n j =1 nj i =1 1 G = ∑ n j =1 ( ) 2 1 G µ j − µ nj ∑ n j =1 ( = Media delle varianze dei G gruppi ) = σ2EXT Varianza delle medie di gruppo rispetto alla media generale µ 1 G ni 2 ∑ ∑ xij − µ j n j =1 i = 1 ( 3° Addendo Quindi: )( 2 G µj − µ = ∑ µj − µ n j =1 1 G ni σ = ∑ ∑ xij − µ j n j=1 i =1 2 ( ) 2 ) ) 3° Addendo Varianza del j-esimo gruppo 1 G ni µj − µ ∑ ∑ n j =1 i =1 )( ( 1 G ni + ∑ ∑ µj − µ n j=1 i =1 ( ) ni xij − µ j = 0 ∑ i =1 è uguale a zero per la I proprietà di µ 2 ) ( ) 2 = σ2INT + σEXT 19 scelta bottiglie CH MM Totale σ2tot = 2, 43 1 1 2 3 2 2 2 4 µ = 3,97 3 2 1 3 4 5 0 5 G=2 5 7 4 11 (1 = CH; 2 = MM) 6 4 0 4 21 9 30 Esempio Totale 6 ∑ µ1 = µ CH = i=1 x C Hin i = 21 (1 × 1 ) + (2 × 2 ) + + (6 × 4 ) 21 = 4, 2 8 6 ∑ xMMini µ 2 = µMM = i =1 9 = (1 × 2 ) + (2 × 2 ) + + (5 × 4 ) 9 = 3,22 20 6 σ 12 = ∑ (x CH σ 2C H = i=1 = σ 2IN T = = 2 σEST = 1 = i=1 ( x M Mi − µ M M ) n i = 9 1 n G ∑ σ 2j n j = (1, 9 2 2 ∑ (µ j − µX ) n j=1 2 2 4, 2 8 ) × 1 + + ( 6 − 4, 2 8 ) × 4 21 (1 − 3, 2 2 )2 = 2 × 2 + + ( 6 − 3, 2 2 ) × 0 9 × 2 1 ) + (2, 8 3 × 9 ) 30 j=1 G (1 − 4 0, 2 9 21 = 1, 9 2 2 ∑ 2 σM M i 21 6 σ 22 2 − µ C H ) ni nj = 2 5, 5 6 9 = 2, 1 9 ( 4,28 − 3,97 )2 × 21 + (3,22 − 3,97 )2 × 9 30 = = 0,24 2 σ2TOT = σ2INT + σEX T = 2,19 + 0,24 = 2, 43 21 = 2, 8 3 A cosa serve scomporre la varianza? n. bot Media e varianza costanti • Varianza delle medie σ2ext = 0 • Media delle varianze σ2int = σ2 Stesso comportamento tra le due distribuzioni: CH MM scelta il numero di bottiglie acquistate è lo stesso per chi sceglie le due marche Medie diverse, varianza costante n. bot • Varianza delle medie σ2ext ≠ 0 • Media delle varianze σ2int < σ2 Diverso comportamento tra le due distribuzioni: CH MM scelta il numero di bottiglie acquistate è diverso a seconda della marca scelta Rapporto di correlazione di Pearson X η x0 – x1 x1 – x2 … Classe jma … xh-1 - xh tot y1 n11 n12 … … … n1h n1. y2 . . . yi . . . n21 n22 … … n2h . . . . . . . . . . . . . . . n2. . . . ni. . . . yk nk1 nk2 … … … nkh nk. tot n.1 n.2 … n.j … n.h n Y Quando X è quantitativo: r ηX|Y = 2 σEXT X 2 X σ ∑ (µ i = Quando Y è quantitativo: 2 2 ∑ ( ˆx j =1 j ) − µ X n• j 2 c − µ x ) ni• i =1 c … . . . nij . . . ηY|X = 2 σEXT Y σ2Y ∑ (µ = j j =1 r ∑ (y i ) − µ Y n• j 2 − µ Y ) ni• i =1 N.B.: Su una tabella mista è possibile misurare anche l’indipendenza assoluta con l’indice del χ2 Proprietà e interpretazione 0 ≤ ηX|Y ≤ 1 ηX|Y = 0 Perfetta indipendenza in media: le medie delle distribuzioni condizionate di X sono tutte uguali tra loro ed uguali alla media generale (µX) ηX|Y = 1 Perfetta dipendenza in media: le varianze delle distribuzioni condizionate di X sono nulle. Ad ogni modalità di Y corrisponde una sola intensità di X che presenta frequenza non nulla ηY|X ≠ ηX|Y L’indice non è simmetrico (salvo eccezioni) Esempio Fatturato (Y) Settore Merceologico (X) ≤ 200 200-|300 300-|400 400-|500 >500 Totale 11 1 5 1 3 21 Bevande 1 1 0 1 0 3 Healt Care 6 1 1 2 2 12 Ice Packaging 7 2 1 1 3 14 25 5 7 5 8 50 Alimentari Totale X 4 modalità r Y 5 classi (2 aperte) ηY|X = 2 σEXT Y σ2Y ∑ (µ i = 2 − µ Y ) ni• i =1 2 c ∑ ( ˆy j =1 j ) − µ Y n• j 1. Media generale di Y: µY = 1 n h ∑ ˆy n j •j j =1 = (150 ⋅ 25 + 250 ⋅ 5 + 350 ⋅ 7 + 450 ⋅ 5 + 1256 ⋅ 8) 50 = 394,96 Nota: Il valore centrale della prima classe (aperta) è stato ottenuto considerando che, nella successione di valori del carattere fatturato, i valori più bassi sono di poco superiori a 100 (che si assume, quindi, come estremo inferiore della classe); quello dell’ultima classe è ottenuto considerando come estremo superiore della classe il valore massimo effettivamente osservato: (2012 + 500)/2 = 1256 2. Medie di Y condizionate alle modalità di X 1 µ1 = n1• 1 µ4 = n4 • (150 ⋅ 11 + 250 ⋅ 1 + 350 ⋅ 5 + 450 ⋅ 1 + 1256 ⋅ 3) j =1 21 ∑ ˆy jn1j = 1 µ2 = n2 • 1 µ3 = n3• c c (150 ⋅ 1 + 250 ⋅ 1 + 450 ⋅ 1) j =1 3 ∑ ˆy jn2 j = c ∑ ˆy n j 3j = = 266,67 (150 ⋅ 6 + 250 ⋅ 1 + 350 ⋅ 1 + 450 ⋅ 2 + 1256 ⋅ 2) j =1 12 = 384,33 c (150 ⋅ 7 + 250 ⋅ 2 + 350 ⋅ 1 + 450 ⋅ 1 + 1256 ⋅ 3) j =1 14 ∑ ˆyjn4 j = = 348, 48 = 412 3. Confronto tra le medie condizionate µ1 = 348, 48 µ2 = 266,67 µ3 = 384,33 µ 4 = 412 Commento: si può vedere che le medie delle distribuzioni condizionate differiscono dalla media generale di Y, quindi i due caratteri non sono indipendenti in media. Ma quanto è forte il legame di dipendenza in media? 4. Calcolo del numeratore dell’indice r ∑ (µ i 2 2 2 − µ Y ) ni• = (348, 48 − 394,96 ) 21 + (266,67 − 394,96 ) 3 + i =1 2 2 + (384,33 − 394,96 ) 12 + ( 412 − 394, 96 ) 14 = 99.464,14 5. Calcolo del denominatore dell’indice c ∑( j =1 2 2 ) 2 ˆ y j − µ Y n• j = (150 − 394,96 ) 25 + (250 − 394,96 ) 5 + 2 2 2 + ( 350 − 394,96 ) 7 + ( 450 − 394,96 ) 5 + (1.256 − 394,96 ) 8 = 7.565.618 6. Calcolo dell’indice 2 r ηY|X = 2 σEXT Y σ2Y ∑ (µ = i − µ Y ) ni• i =1 2 c ∑ ( ˆy j =1 j = ) − µ Y n• j 99.464,14 = 0, 013 7.565.618 La dipendenza in media del carattere FATTURATO dal carattere SETTORE MERCEOLOGICO è praticamente nulla ossia: il fatturato in media non dipende dal settore merceologico
© Copyright 2025 Paperzz