Antall grader av frihet for uavhengighet av to kategoriske variabler er gitt med en enkel formel: (r - 1)(c - 1). Her r er antall rader og c er antall kolonner i toveis bord av verdiene til den kategoriske variabelen. Les videre for å lære mer om dette emnet og for å forstå hvorfor denne formelen gir riktig tall.
Bakgrunn
Ett skritt i prosessen for mange hypotetester er bestemmelsen av antall frihetsgrader. Dette tallet er viktig fordi for sannsynlighetsfordelinger som involverer en familie med distribusjoner, for eksempel chi-square fordelingen, antall grader av frihet peker på den nøyaktige distribusjonen fra familien som vi burde bruke i hypotesen vår test.
Grad av frihet representerer antall frie valg vi kan ta i en gitt situasjon. En av hypotesetestene som krever at vi bestemmer frihetsgrader er chi-kvadrat test for uavhengighet for to kategoriske variabler.
Tester for uavhengighet og toveis tabeller
Chi-kvadrat-testen for uavhengighet krever at vi konstruerer et toveis bord, også kjent som et beredskapstabell. Denne typen bord har
r rader og c kolonner, som representerer r nivåer av en kategorisk variabel og c nivåer av den andre kategoriske variabelen. Så hvis vi ikke teller raden og kolonnen vi registrerer totaler i, er det totalt rc celler i toveis tabellen.Chi-kvadrat-testen for uavhengighet lar oss teste hypotesen om at kategorisk variabler er uavhengige av hverandre. Som vi nevnte ovenfor, r rader og c kolonner i tabellen gir oss (r - 1)(c - 1) frihetsgrader. Men det er kanskje ikke umiddelbart klart hvorfor dette er riktig antall frihetsgrader.
Antall frihetsgrader
For å se hvorfor (r - 1)(c - 1) er riktig tall, vi vil undersøke denne situasjonen mer detaljert. Anta at vi kjenner marginale totaler for hvert nivå av kategoriske variabler. Vi vet med andre ord totalen for hver rad og totalen for hver kolonne. For den første raden er det c kolonner i tabellen vår, så det er det c celler. Når vi først vet verdiene til alle unntatt en av disse cellene, er det et enkelt algebraproblem å bestemme verdien for den gjenværende cellen fordi vi vet summen av alle cellene. Hvis vi fylte ut disse cellene i tabellen vår, kunne vi komme inn c - 1 av dem fritt, men da bestemmes den gjenværende cellen av summen av rekken. Dermed er det c - 1 frihetsgrader for første rad.
Vi fortsetter på denne måten for neste rad, og det er det igjen c - 1 frihetsgrader. Denne prosessen fortsetter til vi kommer til den nest siste raden. Hver av radene bortsett fra den siste bidrar c - 1 frihetsgrad til det totale. Da vi har alt annet enn den siste raden, fordi vi kjenner kolonnesummen, kan vi bestemme alle oppføringene til den siste raden. Dette gir oss r - 1 rader med c - 1 frihetsgrader i hver av disse, for totalt (r - 1)(c - 1) frihetsgrader.
Eksempel
Dette ser vi med følgende eksempel. Anta at vi har en toveis tabell med to kategoriske variabler. Den ene variabelen har tre nivåer og den andre har to. Anta videre at vi kjenner rad- og kolonnetotalene for denne tabellen:
Nivå A | Nivå B | Total | |
Nivå 1 | 100 | ||
Nivå 2 | 200 | ||
Nivå 3 | 300 | ||
Total | 200 | 400 | 600 |
Formelen spår at det er (3-1) (2-1) = 2 frihetsgrader. Vi ser dette som følger. Anta at vi fyller ut øvre venstre celle med tallet 80. Dette vil automatisk bestemme hele den første raden med oppføringer:
Nivå A | Nivå B | Total | |
Nivå 1 | 80 | 20 | 100 |
Nivå 2 | 200 | ||
Nivå 3 | 300 | ||
Total | 200 | 400 | 600 |
Hvis vi vet at den første oppføringen i den andre raden er 50, fylles resten av tabellen ut, fordi vi vet summen av hver rad og kolonne:
Nivå A | Nivå B | Total | |
Nivå 1 | 80 | 20 | 100 |
Nivå 2 | 50 | 150 | 200 |
Nivå 3 | 70 | 230 | 300 |
Total | 200 | 400 | 600 |
Tabellen er helt utfylt, men vi hadde bare to frie valg. Når disse verdiene ble kjent, ble resten av tabellen fullstendig bestemt.
Selv om vi vanligvis ikke trenger å vite hvorfor det er så mange frihetsgrader, er det godt å vite at vi egentlig bare bruker begrepet frihetsgrader i en ny situasjon.