Kaj je statistika Chi-Square?
Chi-kvadrat ( χ 2) statistika je test, ki meri, kako se pričakovanja primerjajo z dejanskimi opaženimi podatki (ali rezultati modela). Podatki, uporabljeni pri izračunu statistike hi-kvadratnih podatkov, morajo biti naključni, surovi, medsebojno izključujoči, izpeljani iz neodvisnih spremenljivk in dobljeni iz dovolj velikega vzorca. Na primer, rezultati metanja kovanca 100-krat ustrezajo tem kriterijem.
Chi-kvadratni testi se pogosto uporabljajo pri testiranju hipotez.
Formula za Chi-kvadrat je
χc2 = ∑ (Oi − Ei) 2Njegde: c = stopnja svobodeO = opazovana vrednost (e) E = pričakovana vrednost (e) začeti {poravnano} & \ chi ^ 2_c = \ seštevek \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {kjer:} \ & c = \ besedilo {stopnje svobode} \ & O = \ besedilo {opazovana vrednost (-e)} \ & E = \ besedilo {pričakovana vrednost (-e) } \ \ konec {poravnano} χc2 = ∑Ei (Oi −Ei) 2, kjer je: c = stopnja svobodeO = opazovana vrednost (e) E = pričakovana vrednost (i)
Kaj vam pove statistika Chi-Square?
Obstajata dve glavni vrsti hi-kvadratnih testov: test neodvisnosti, ki postavlja vprašanje odnosa, na primer: "Ali obstaja razmerje med spolom in ocenami SAT?"; in test dobrega prileganja, ki sprašuje nekaj takega, kot je "Če se kovanec vrže 100-krat, ali bo prišel z glavo 50-krat, repov pa 50-krat?"
Za te teste se uporabljajo stopnje svobode, da se ugotovi, ali je mogoče določeno ničelno hipotezo zavrniti na podlagi skupnega števila spremenljivk in vzorcev v poskusu.
Na primer, če upoštevamo študente in izbiro predmeta, velikost vzorca 30 ali 40 študentov verjetno ni dovolj velika, da bi ustvarila pomembne podatke. Pridobivanje enakih ali podobnih rezultatov študije z velikostjo vzorca 400 ali 500 študentov je bolj veljavno.
V drugem primeru razmislite, da bi kovanec vrgli 100-krat. Pričakovani rezultat, da bi 100krat vrgli pošteni kovanec, je, da se bodo glave dvignile 50-krat, repi pa 50-krat. Dejanski rezultat je lahko, da se glave dvignejo 45-krat, repi pa 55-krat. Statistični podatki o hi-kvadratu kažejo vsa neskladja med pričakovanimi in dejanskimi rezultati.
Primer testa Chi-kvadrat
Predstavljajte si, da je bila naključna anketa izvedena med 2000 različnimi volivci, moškimi in ženskami. Ljudje, ki so se odzvali, so bili razvrščeni po spolu in glede na to, ali so republikanski, demokratični ali neodvisni. Predstavljajte si mrežo s stolpci, ki so označeni kot republikanski, demokratični in neodvisni, in dvema vrsticama z moškimi in ženskami. Predpostavimo, da so podatki 2.000 vprašanih:
Prvi korak za izračun statistike chi kvadrata je iskanje pričakovanih frekvenc. Te se izračunajo za vsako "celico" v mreži. Ker obstajata dve kategoriji spola in tri kategorije političnega pogleda, je skupno šest pričakovanih pogostnosti. Formula pričakovane frekvence je:
E (r, c) = n (r) × c (r) nikjer: r = vrstica v vprašanju = stolpec v vprašanju = ustrezen skupek \ začetek {poravnano} & E (r, c) = \ frac {n (r) krat c (r)} {n} \ & \ textbf {kjer:} \ & r = \ besedilo {zadevna vrstica} \ & c = \ besedilo {stolpec v zadevi} \ & n = \ besedilo {ustrezno skupno} \ \ konec {poravnano} E (r, c) = nn (r) × c (r) kjer: r = vrstica v vprašanju = stolpec v vprašanju = ustrezen skupni znesek
V tem primeru so pričakovane frekvence:
- E (1, 1) = (900 x 800) / 2, 000 = 360E (1, 2) = (900 x 800) / 2 000 = 360E (1, 3) = (200 x 800) / 2 000 = 80E (2, 1) = (900 x 1.200) / 2.000 = 540E (2, 2) = (900 x 1.200) / 2.000 = 540E (2, 3) = (200 x 1.200) / 2.000 = 120
Nato so te vrednosti uporabljene za izračun statistične statistike chi z uporabo naslednje formule:
Chi-kvadrat = ∑2E (r, c), kjer: O (r, c) = opazovani podatki za dano vrstico in stolpec \ začne {poravnano} & \ besedilo {Chi-kvadrat} = \ sum \ frac {^ 2} {E (r, c)} \ & \ textbf {kjer:} \ & O (r, c) = \ besedilo {opazovani podatki za dano vrstico in stolpec} \ \ konec {poravnano} Chi-kvadrat = ∑E (r, c) 2, kjer: O (r, c) = opaženi podatki za dano vrstico in stolpec
V tem primeru je izraz za vsako opaženo vrednost:
- O (1, 1) = (400 - 360) 2/360 = 4, 44 O (1, 2) = (300 - 360) 2/360 = 10O (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500 - 540) 2/540 = 2, 96 O (2, 2) = (600 - 540) 2/540 = 6, 67 O (2, 3) = (100 - 120) 2/120 = 3, 33
Statistični podatki o kvadratnih vrednostih je potem enak vsoti teh vrednosti ali 32, 41. Nato lahko pogledamo statistično tabelo s hi-kvadratom, da glede na stopnje svobode v naši postavi vidimo, ali je rezultat statistično pomemben ali ne.
