De chi-square godhet med fit test er et nyttig å sammenligne a teoretisk modell til observerte data. Denne testen er en type den mer generelle chi-square testen. Som med alle emner i matematikk eller statistikk, kan det være nyttig å arbeide gjennom et eksempel for å forstå hva som skjer, gjennom et eksempel på chi-square goodness of fit test.
Vurder en standard pakke med melkesjokolade M & Ms. Det er seks forskjellige farger: rød, oransje, gul, grønn, blå og brun. Anta at vi er nysgjerrige på fordelingen av disse fargene og spør, forekommer alle seks fargene i like stor andel? Dette er den type spørsmål som kan besvares med god passform.
Innstilling
Vi begynner med å legge merke til innstillingen og hvorfor godhet med fit-test er passende. Fargevariabelen vår er kategorisk. Det er seks nivåer av denne variabelen, tilsvarende de seks fargene som er mulige. Vi vil anta at M & M-ene vi teller vil være et enkelt tilfeldig utvalg fra befolkningen i alle M & M-er.
Nulle og alternative hypoteser
De null og alternative hypoteser for vår godhet med fit-test reflekterer vi antakelsen vi gjør om befolkningen. Siden vi tester om fargene forekommer i like proporsjoner, vil vår nullhypotese være at alle farger forekommer i samme proporsjon. Mer formelt, hvis p1 er befolkningsandelen av røde karameller, p2 er populasjonsandelen av oransje karameller, og så videre, da er nullhypotesen den p1 = p2 =... = p6 = 1/6.
Den alternative hypotesen er at minst en av befolkningsforholdene ikke er lik 1/6.
Faktiske og forventede tellinger
De faktiske tellingene er antall karameller for hver av de seks fargene. Det forventede antallet refererer til hva vi ville forvente hvis nullhypotesen var sann. Vi vil la n være størrelsen på prøven vår. Det forventede antallet røde karameller er p1 n eller n/6. For dette eksempelet er faktisk det forventede antallet karameller for hver av de seks fargene ganske enkelt n ganger pJeg, eller n/6.
Chi-square Statistikk for godhet i form
Vi vil nå beregne en chi-square statistikk for et spesifikt eksempel. Anta at vi har en enkel tilfeldig prøve på 600 M & M-godterier med følgende distribusjon:
- 212 av karamellene er blå.
- 147 av karamellene er oransje.
- 103 av karamellene er grønne.
- 50 av karamellene er røde.
- 46 av karamellene er gule.
- 42 av karamellene er brune.
Hvis nullhypotesen var sann, ville de forventede tellingene for hver av disse fargene være (1/6) x 600 = 100. Dette bruker vi nå i vår beregning av chi-square statistikken.
Vi beregner bidraget til statistikken vår ut fra hver av fargene. Hver er av formen (Faktisk - forventet)2/Expected.:
- For blå har vi (212 - 100)2/100 = 125.44
- For oransje har vi (147 - 100)2/100 = 22.09
- For grønt har vi (103 - 100)2/100 = 0.09
- For rød har vi (50 - 100)2/100 = 25
- For gult har vi (46 - 100)2/100 = 29.16
- For brunt har vi (42 - 100)2/100 = 33.64
Vi summerer deretter alle disse bidragene og bestemmer at vår chi-square statistikk er 125,44 + 22,09 + 0,09 + 25 +29,16 + 33,64 = 235,42.
Grader av frihet
Antall grader av frihet for en god passformtest er ganske enkelt en mindre enn antall nivåer på variabelen vår. Siden det var seks farger, har vi 6 - 1 = 5 frihetsgrader.
Chi-kvadratisk tabell og P-verdi
Chi-kvadratstatistikken på 235.42 som vi beregnet tilsvarer et bestemt sted på en chi-kvadratfordeling med fem frihetsgrader. Vi trenger nå en p-verdien, for å bestemme sannsynligheten for å oppnå en teststatistikk minst like ekstrem som 235.42 mens man antar at nullhypotesen er sann.
Microsofts Excel kan brukes til denne beregningen. Vi opplever at vår teststatistikk med fem frihetsgrader har en p-verdi på 7,29 x 10-49. Dette er en ekstremt liten p-verdi.
Avgjørelsesregel
Vi tar vår beslutning om å avvise nullhypotesen basert på størrelsen på p-verdien. Siden vi har en veldig liten p-verdi, avviser vi nullhypotesen. Vi konkluderer med at M & Ms ikke er jevnt fordelt mellom de seks forskjellige fargene. En oppfølgingsanalyse kan brukes til å bestemme et konfidensintervall for populasjonsandelen av en bestemt farge.