Kazalo
- Kaj je T-test?
- Pojasnitev T-testa
- Dvoumni rezultati testov
- Predpostavke T-testa
- Izračun T-testov
- Povezani (ali seznanjeni) T-test
- T-test enake variacije (združeni)
- T-test neenakomerne variacije
- Določanje, kateri T-test uporabiti
- Primer T-test neenake variacije
Kaj je T-test?
T-test je vrsta inferencialne statistike, ki se uporablja za ugotavljanje, ali obstaja pomembna razlika med sredstvi dveh skupin, ki sta lahko v določenih značilnostih povezani. Večinoma se uporablja, kadar bi nabor podatkov, kot je niz podatkov, ki je bil zapisan kot rezultat prevrnitve kovanca 100-krat, sledil običajni distribuciji in ima lahko neznane razlike. T-test se uporablja kot orodje za testiranje hipotez, ki omogoča testiranje predpostavke, ki velja za populacijo.
T-test pregleduje t-statistiko, vrednosti porazdelitve t in stopnje svobode, da ugotovi verjetnost razlike med dvema nizoma podatkov. Za izvedbo testa s tremi ali več spremenljivkami je treba uporabiti analizo variance.
T-test
Pojasnitev T-testa
T-test v bistvu nam omogoča, da primerjamo povprečne vrednosti obeh podatkovnih nizov in ugotovimo, ali sta prišla iz iste populacije. V zgornjih primerih, če bi vzeli vzorec učencev iz razreda A in drugega vzorca učencev iz razreda B, ne bi pričakovali, da bodo imeli povsem enak povprečni in standardni odklon. Podobno bi morali imeti vzorci, odvzeti iz kontrolne skupine s placebom, in vzorci iz skupine, predpisanih z zdravili, nekoliko drugačno srednjo in standardno deviacijo.
Matematično t-test vzame vzorec iz vsakega od obeh sklopov in vzpostavi trditev problema s predpostavko o ničelni hipotezi, da sta obe srednji enaki. Na podlagi veljavnih formul se določene vrednosti izračunajo in primerjajo s standardnimi vrednostmi in domnevna ničelna hipoteza se ustrezno sprejme ali zavrne.
Če je ničelna hipoteza mogoče zavrniti, to pomeni, da so odčitki podatkov močni in niso naključni. T-test je le eden izmed številnih testov, ki se uporabljajo v ta namen. Za pregled več spremenljivk in testov z večjo velikostjo vzorca morajo statistiki poleg uporabe t-testa uporabiti tudi druge teste. Za veliko velikost vzorca statistiki uporabljajo z-test. Druge možnosti testiranja vključujejo test chi-kvadrat in f-test.
Obstajajo tri vrste t-testov, ki so razvrščeni kot odvisni in neodvisni t-testi.
Ključni odvzemi
- T-test je vrsta inferencialne statistike, ki se uporablja za določitev, ali obstaja pomembna razlika med sredstvi dveh skupin, ki sta lahko povezani v določenih značilnostih. T-test je eden izmed številnih testov, ki se uporabljajo za namene testiranja hipotez v statistiki. Za izračunavanje t-testa so potrebne tri ključne vrednosti podatkov. Vključujejo razliko med srednjimi vrednostmi iz vsakega niza podatkov (imenovane povprečna razlika), standardnim odklonom vsake skupine in številom podatkovnih vrednosti vsake skupine. Obstaja več različnih vrst t-testa, ki jih je mogoče opraviti glede na o zahtevanih podatkih in vrsti analize.
Dvoumni rezultati testov
Upoštevajte, da želi proizvajalec zdravil preizkusiti novo izumljeno zdravilo. Sledi standardnemu postopku preizkušanja zdravila pri eni skupini bolnikov in dajanju placeba drugi skupini, imenovanem kontrolna skupina. Placebo, dodeljeno kontrolni skupini, je snov brez predvidene terapevtske vrednosti in služi kot merilo za merjenje, kako se druga skupina, ki ji je dano dejansko zdravilo, odziva.
Po preskušanju z zdravili so člani kontrolne skupine s placebom poročali o povečanju povprečne življenjske dobe za tri leta, medtem ko člani skupine, ki ji predpišejo novo zdravilo, poročajo o povečanju povprečne življenjske dobe za štiri leta. Takojšnje opazovanje lahko kaže, da zdravilo res deluje, saj so rezultati boljši za skupino, ki uživa drogo. Možno pa je tudi, da je opazovanje lahko posledica naključnega dogodka, predvsem presenetljivega kosa sreče. T-test je koristen za zaključek, ali so rezultati resnični in uporabni za celotno populacijo.
V šoli je 100 učencev v razredu A v povprečju doseglo 85% s standardnim odstopanjem 3%. Še 100 študentov, ki pripadajo razredu B, je doseglo povprečno 87% s povprečnim odstopanjem 4%. Medtem ko je povprečje razreda B boljše kot v razredu A, morda ni pravilno, če bi prišli do zaključka, da je skupna uspešnost učencev v razredu B boljša od uspeha učencev v razredu A. To je zato, ker skupaj z pomeni, da je standardni odklon razreda B tudi višji kot pri razredu A. Nakazuje, da so bili njihovi skrajni odstotki na nižjih in višjih straneh precej bolj razporejeni v primerjavi s tistim iz razreda A. T-test lahko pomaga določiti kateri razred je bil boljši.
Predpostavke T-testa
- Prva predpostavka glede t-testov se nanaša na merilno lestvico. Predpostavka za t-test je, da merilna lestvica, uporabljena za zbrane podatke, sledi neprekinjeni ali ordinalni lestvici, kot so ocene za IQ test. Druga domneva je preprost naključni vzorec, da so podatki zbrani iz reprezentativnega, naključno izbranega dela celotne populacije. Tretja domneva so podatki, ko se narišejo, da ima za posledico normalno porazdelitev, zvonasto distribucijsko krivuljo. Četrta predpostavka je razumno velika velikost vzorca. Večja velikost vzorca pomeni, da se mora porazdelitev rezultatov približati običajni zvončasti krivulji. Končna predpostavka je homogenost variance. Homogena ali enaka varianta obstaja, kadar so standardna odstopanja vzorcev približno enaka.
Izračun T-testov
Izračun t-testa zahteva tri ključne vrednosti podatkov. Vključujejo razliko med srednjimi vrednostmi iz vsakega niza podatkov (imenovanimi srednja razlika), standardnim odklonom vsake skupine in številom vrednosti podatkov vsake skupine.
Rezultat t-testa ustvari vrednost t. Ta izračunana t-vrednost se nato primerja z vrednostjo, dobljeno iz tabele kritičnih vrednosti (imenovane tabela porazdelitve T). Ta primerjava pomaga ugotoviti, kako verjetno je do razlike med sredstvi prišlo po naključju ali ali imajo nabori podatkov resnične razlike. T-test dvomi, ali razlika med skupinama predstavlja resnično razliko v študiji ali je verjetno nesmiselna statistična razlika.
T-razdelitvene tabele
Tabela porazdelitve T je na voljo v oblikah z enim repom in z dvema repom. Prva se uporablja za oceno primerov, ki imajo določeno vrednost ali razpon z jasno smerjo (pozitivno ali negativno). Na primer, kolikšna je verjetnost, da bo vrednost izhoda ostala pod -3, ali ko bo valjala par kock, več kot sedem? Slednji se uporablja za analizo, ki je vezana na obseg, na primer pri vprašanju, če koordinate padejo med -2 in +2.
Izračuni se lahko izvajajo s standardnimi programskimi programi, ki podpirajo potrebne statistične funkcije, kot so tiste, ki jih najdemo v MS Excel.
T-vrednosti in stopnje svobode
T-test proizvede dve vrednosti: t-vrednost in stopnjo svobode. Vrednost t je razmerje razlike med srednjo vrednostjo dveh vzorčnih nizov in razlike, ki obstaja znotraj vzorčnih nizov. Medtem ko je številska vrednost (razlika med srednjo vrednosti dveh vzorčnih nizov) preprosta za izračun, lahko imenovalec (razlika, ki obstaja znotraj vzorčnih nizov) postane nekoliko zapleten, odvisno od vrste vrednosti podatkov. Imenovalec razmerja je merjenje disperzije ali spremenljivosti. Višje vrednosti t-vrednosti, imenovane tudi t-ocena, kažejo, da obstaja velika razlika med obema vzorčenima skupinama. Manjša kot je t-vrednost, večja je podobnost med dvema vzorčenima nizoma.
- Velika t-ocena pomeni, da so skupine različne. Majhna ocena t kaže, da so skupine podobne.
Stopnje svobode se nanašajo na vrednote v študiji, ki lahko spreminja in je bistvenega pomena za oceno pomembnosti in veljavnosti ničelne hipoteze. Izračun teh vrednosti je običajno odvisen od števila podatkovnih zapisov, ki so na voljo v vzorčnem naboru.
Povezani (ali seznanjeni) T-test
Korelirani t-test se opravi, kadar vzorci običajno sestojijo iz ujemajočih se parov podobnih enot ali kadar obstajajo primeri ponavljajočih se ukrepov. Na primer, lahko obstajajo primeri, da se isti bolniki večkrat testirajo - pred in po določenem zdravljenju. V takih primerih se vsak bolnik uporablja kot kontrolni vzorec proti sebi.
Ta metoda se uporablja tudi za primere, ko so vzorci na nek način povezani ali imajo enake lastnosti, kot primerjalna analiza otrok, staršev ali sorojencev. Povezani ali seznanjeni t-testi so odvisni, saj gre za primere, ko sta dva niza vzorcev povezana.
Formula za izračun t-vrednosti in stopenj svobode za seznanjeni t-test je:
- Srednja vrednost 1 in srednja vrednost2 sta povprečni vrednosti vsakega nabora vzorcev, medtem ko var1 in var2 predstavljata varianco vsakega od vzorčnih nizov.
Preostali dve vrsti pripadata neodvisnim t-testom. Vzorci teh vrst so izbrani neodvisno drug od drugega - to je, da se zbirke podatkov v obeh skupinah ne nanašajo na iste vrednosti. Vključujejo primere, kot je skupina 100 bolnikov, ki so razdeljeni v dva sklopa po 50 bolnikov. Ena od skupin postane kontrolna skupina in ji dodeli placebo, druga skupina pa predpiše zdravljenje. To predstavlja dve neodvisni vzorčni skupini, ki sta si med seboj neprimerni.
T-test z enako varianco (ali združeni)
T-test enake variance se uporablja, kadar je število vzorcev v vsaki skupini enako ali je varianca obeh nizov podatkov podobna. Naslednja formula se uporablja za izračun t-vrednosti in stopenj svobode za t-test enake variance:
Сігналы абмеркавання T-vrednost = n1 + n2−2 (n1−1) × var12 + (n2−1) × var22 × n11 + n21 srednja1 - srednja2, kjer: srednja vrednost1 in srednja vrednost2 = Povprečne vrednosti za vzorčni niz in var2 = Odstopanje vsakega niza vzorcevn1 in n2 = Število zapisov v vsakem vzorčnem nizu
in, Сігналы абмеркавання Stopnje svobode = n1 + n2−2 drugje: n1 in n2 = Število zapisov v vsakem vzorčnem nizu
T-test neenakomerne variacije
T-test neenakomerne variacije se uporablja, kadar je število vzorcev v posamezni skupini različno, varianta pa je tudi v obeh zbirkah podatkov. Ta test se imenuje tudi Welchov t-test. Naslednja formula se uporablja za izračun t-vrednosti in stopenj svobode za t-test neenake variance:
Сігналы абмеркавання T-vrednost = n1var12 + n2var22 srednja1 - srednja2, kjer: srednja vrednost1 in srednja vrednost = povprečne vrednosti vzorčnih serijvar1 in var2 = Odstopanje vsakega niza vzorcevn1 in n2 = Število zapisov v vsakem vzorčnem nizu
in, Сігналы абмеркавання Stopnje svobode = n1−1 (n1var12) 2 + n2−1 (n2var22) 2 (n1var12 + n2var22) 2, kjer: var1 in var2 = Odstopanje vseh vzorčnih nizov n1 in n2 = Število zapisov v vsakem vzorčnem nizu
Določitev pravilnega T-testa za uporabo
Za določitev t-testa, ki temelji na značilnostih vzorčnih serij, se lahko uporabi spodnja shema poteka. Ključne postavke, ki jih je treba upoštevati, vključujejo, ali so vzorčni zapisi podobni, število zapisov podatkov v vsakem vzorčnem nizu in odstopanje vsakega nabora vzorcev.
Slika Julie Bang © Investopedia 2019
Primer T-test neenake variacije
Predpostavimo, da izvajamo diagonalno meritev slik, prejetih v umetniški galeriji. Ena skupina vzorcev vključuje 10 slik, druga pa 20 slik. Nabori podatkov z ustreznimi srednjimi in vrednostmi variance so naslednji:
1. sklop | 2. sklop | |
19.7 | 28.3 | |
20.4 | 26.7 | |
19.6 | 20.1 | |
17.8 | 23.3 | |
18.5 | 25.2 | |
18.9 | 22.1 | |
18.3 | 17.7 | |
18.9 | 27.6 | |
19.5 | 20.6 | |
21, 95 | 13.7 | |
23.2 | ||
17.5 | ||
20.6 | ||
18 | ||
23.9 | ||
21.6 | ||
24.3 | ||
20.4 | ||
23.9 | ||
13.3 | ||
Pomeni | 19.4 | 21.6 |
Varianta | 1.4 | 17.1 |
Čeprav je srednja vrednost kompleta 2 višja od povprečja kompleta 1, ne moremo sklepati, da imajo vse slike povprečno dolžino okrog 21, 6 enot, saj je varianca kompleta 2 bistveno večja od kompleta 1. Ali je to slučajno ali resnično obstajajo razlike v celotni populaciji vseh slik, prejetih v umetniški galeriji? Težava ugotovimo s predpostavko ničelne hipoteze, da je srednja vrednost enaka med dvema vzorčenima skupinama in izvedemo t-test, da potrdimo, če hipoteza drži.
Ker je število podatkovnih zapisov različno (n1 = 10 in n2 = 20) in je tudi varianca različna, se za zgornji niz podatkov izračunata t-vrednost in stopnja svobode po formuli, omenjeni v T-testu neenakosti variance. odsek.
Vrednost t je -2.24787. Ker lahko znak minus zanemarimo, če primerjamo dve vrednosti t, je izračunana vrednost 2, 224787.
Stopnja vrednosti svobode je 24, 38 in se zaradi definicije formule zmanjša na 24, zato zahteva zaokrožitev vrednosti na najmanjšo možno celo število.
Kadar se domneva normalna porazdelitev, lahko določimo raven verjetnosti (alfa raven, stopnja pomembnosti, p ) kot merilo za sprejemljivost. V večini primerov je mogoče predvideti 5-odstotno vrednost.
Če uporabimo stopnjo vrednosti svobode kot 24 in 5-odstotno stopnjo pomembnosti, pogled na tabelo porazdelitve vrednosti t daje vrednost 2, 064. Če primerjate to vrednost z izračunano vrednostjo 2, 224, kaže, da je izračunana vrednost t večja od preglednice pri pomembnosti 5%. Zato je ničelna hipoteza varno zavrniti, da ni nobene razlike med sredstvi. Število prebivalstva ima notranje razlike in niso slučajno.
Primerjajte naložbene račune × Ponudbe, ki so prikazane v tej tabeli, so iz partnerstev, od katerih Investopedia prejema nadomestilo. Ime ponudnika OpisSorodni pogoji
Kako deluje analiza variance (ANOVA) Analiza variance (ANOVA) je orodje za statistično analizo, ki loči skupno spremenljivost, ki jo najdemo v naboru podatkov, na dve komponenti: naključne in sistematične dejavnike. več Opredelitev Z-testa Z-test je statistični test, ki se uporablja za določitev, ali sta dve populacijski sredstvi različni, ko sta znani odstopanja in velikost vzorca. več Stopnje svobode Opredelitev Stopnje svobode se nanaša na največje število logično neodvisnih vrednosti, ki so v vzorcu podatkov vrednosti, ki se lahko spreminjajo. več Razumevanje T Porazdelitev AT porazdelitev je vrsta verjetnostne funkcije, ki je primerna za oceno populacijskih parametrov za majhne velikosti vzorca ali neznane variacije. več Kaj Semi odstopanje Ukrepi za odstopanje je metoda za oceno nižjih povprečnih nihanj donosnosti naložbe. Uporablja se kot alternativa standardnemu odklonu. več Bonferroni test Bonferroni test je vrsta večkratnega primerjalnega testa, ki se uporablja pri statistični analizi. več partnerskih povezavpovezani članki
Ekonomija
Kakšne predpostavke so podane pri izvajanju t-testa?
Upravljanje s tveganji
Uporaba zgodovinske nestanovitnosti za merjenje prihodnjega tveganja
Stock Trading Strategija in izobraževanje
Kako uporabljati Excel za simuliranje cen delnic
Finančni količniki
Kako izračunate IRR v Excelu?
Matematika in statistika
Kaj je relativna standardna napaka
Finančni količniki
Kakšna je formula za izračun neto sedanje vrednosti (NPV) v Excelu?
