Studerendes t-teststatistik

Student's t-test i statistik en metode til test af hypoteser om gennemsnittet af en lille prøve trukket fra en normalt fordelt population, når befolkningsstandardafvigelsen er ukendt.

I 1908 udviklede William Sealy Gosset, en engelskmand forlag under pseudonymet Student, t-test og t-distribution. T-fordelingen er en familie af kurver, hvor antallet af frihedsgrader (antallet af uafhængige observationer i prøven minus en) specificerer en bestemt kurve. Efterhånden som prøvestørrelsen (og dermed frihedsgraderne) øges, nærmer t-fordelingen sig klokkeformen til den normale normalfordeling. I praksis anvendes den normale fordeling til test, der involverer gennemsnittet af en prøve med en størrelse på over 30, normalt.

Det er sædvanligt først at formulere en nulhypotese, der siger, at der ikke er nogen effektiv forskel mellem det observerede prøvemiddelværdi og det hypotetiserede eller angivne populationsmiddelværdi - dvs. at enhver målt forskel kun skyldes tilfældigheder. I en landbrugsundersøgelse kunne for eksempel nulhypotesen være, at en anvendelse af gødning ikke havde haft nogen indflydelse på afgrøder, og et eksperiment ville blive udført for at teste, om det har øget høsten. Generelt kan en t-test være enten tosidet (også betegnet som tostappet), idet den blot angiver, at midlerne ikke er ækvivalente eller ensidige, idet det specificeres, om det observerede middelværdi er større eller mindre end det hypotetiske middelværdi. Teststatistikken t beregnes derefter. Hvis den observerede t-statistik er mere ekstrem end den kritiske værdi bestemt ved den passende referencefordeling, afvises nulhypotesen. Den passende referencefordeling for t-statistikken er t-fordelingen. Den kritiske værdi afhænger af testens signifikansniveau (sandsynligheden for fejlagtigt at afvise nulhypotesen).

Antag f.eks., At en forsker ønsker at teste hypotesen om, at en prøve i størrelse n = 25 med middelværdi x = 79 og standardafvigelse s = 10 blev trukket tilfældigt fra en population med gennemsnitlig μ = 75 og ukendt standardafvigelse. Ved hjælp af formlen til t-statistikken er den beregnede t lig med 2. For en tosidet test på et fælles niveau med betydning α = 0,05 er de kritiske værdier fra t-fordelingen på 24 frihedsgrader −2.064 og 2.064. Den beregnede t overskrider ikke disse værdier, og derfor kan nulhypotesen ikke afvises med 95 procent sikkerhed. (Konfidensniveauet er 1 - α.)

En anden anvendelse af t-fordelingen tester hypotesen om, at to uafhængige tilfældige prøver har det samme middel. T-fordelingen kan også bruges til at konstruere konfidensintervaller for det sande middelværdi af en population (den første anvendelse) eller til forskellen mellem to prøveorganer (den anden applikation). Se også intervallestimering.