Tillitsintervaller er en del av inferensiell statistikk. Den grunnleggende ideen bak dette emnet er å estimere verdien av en ukjent befolkning parameter ved å bruke en statistisk prøve. Vi kan ikke bare estimere verdien av en parameter, men vi kan også tilpasse våre metoder for å estimere forskjellen mellom to relaterte parametere. For eksempel kan det være lurt å finne forskjellen i prosentandelen av den mannlige amerikanske stemmeberettigede befolkningen som støtter et bestemt lovverk, sammenlignet med den kvinnelige stemmeberettigede befolkningen.
Vi vil se hvordan du gjør denne typen beregninger ved å konstruere et konfidensintervall for forskjellen mellom to populasjonsforhold. I prosessen vil vi undersøke noen av teoriene bak denne beregningen. Vi vil se noen likheter i hvordan vi konstruerer en konfidensintervall for en enkelt befolkningsandel så vel som en konfidensintervall for forskjellen mellom to populasjonsmidler.
alminnelig
Før vi ser på den spesifikke formelen som vi vil bruke, la oss vurdere det overordnede rammeverket som denne typen konfidensintervall passer inn i. Formen for typen konfidensintervall som vi vil se på, er gitt med følgende formel:
Estimer +/- Feilmargin
Mange tillitsintervaller er av denne typen. Det er to tall som vi må beregne. Den første av disse verdiene er estimatet for parameteren. Den andre verdien er feilmarginen. Denne feilmarginen utgjør det faktum at vi har et estimat. Konfidensintervallet gir oss en rekke mulige verdier for vår ukjente parameter.
Forhold
Vi bør sørge for at alle vilkårene er oppfylt før vi gjør noen beregninger. For å finne et konfidensintervall for forskjellen mellom to befolkningsforhold, må vi sørge for at følgende holder:
- Vi har to enkle tilfeldige prøver fra store bestander. Her betyr "stor" at bestanden er minst 20 ganger større enn størrelsen på utvalget. Eksempelstørrelsene vil bli betegnet med n1 og n2.
- Våre individer er valgt uavhengig av hverandre.
- Det er minst ti suksesser og ti feil i hver av våre utvalg.
Hvis den siste varen på listen ikke er fornøyd, kan det være en vei rundt dette. Vi kan endre pluss-fire konfidensintervall konstruksjon og skaffe robuste resultater. Når vi går videre antar vi at alle de ovennevnte betingelsene er oppfylt.
Prøver og andeler av befolkningen
Nå er vi klare til å konstruere tillitsintervallet. Vi starter med anslaget for forskjellen mellom våre befolkningsforhold. Begge disse populasjonsforholdene er estimert med en utvalgsandel. Disse utvalgsforholdene er statistikk som blir funnet ved å dele antall suksesser i hver prøve, og deretter dele med den respektive utvalgsstørrelsen.
Den første befolkningsandelen er betegnet med p1. Hvis antall suksesser i utvalget vårt fra denne populasjonen er k1, så har vi en prøveandel av k1 / n1.
Vi angir denne statistikken med p̂1. Vi leser dette symbolet som "s1-hva "fordi det ser ut som symbolet p1 med hatt på toppen.
På lignende måte kan vi beregne en utvalgsandel fra vår andre populasjon. Parameteren fra denne populasjonen er p2. Hvis antall suksesser i utvalget vårt fra denne populasjonen er k2, og utvalgets andel er p̂2 = k2 / n2.
Disse to statistikkene blir den første delen av tillitsintervallet. Anslaget av p1 er p̂1. Anslaget av p2 er p̂2. Så estimatet for forskjellen p1 - p2 er p̂1 - p̂2.
Prøveutdeling Distribusjon av forskjellen på prøveandeler
Deretter må vi skaffe formelen for feilmarginen. For å gjøre dette vil vi først vurdere prøvetaking distribusjon av p̂1 . Dette er en binomial fordeling med sannsynlighet for suksess p1 og n1 studier. Gjennomsnittet av denne fordelingen er andelen p1. Standardavviket for denne typen tilfeldige variabler har varians av p1 (1 - p1 )/n1.
Samplingsfordelingen av p̂2 ligner på p̂1 . Bare endre alle indeksene fra 1 til 2, og vi har en binomial fordeling med gjennomsnitt av p2 og varians av p2 (1 - p2 )/n2.
Vi trenger nå noen få resultater fra matematisk statistikk for å bestemme samplingsfordelingen for p̂1 - p̂2. Gjennomsnittet av denne fordelingen er p1 - p2. På grunn av det faktum at variansene samles, ser vi at variansen av samplingsfordelingen er p1 (1 - p1 )/n1 + p2 (1 - p2 )/n2. Standardavviket for fordelingen er kvadratroten til denne formelen.
Det er et par justeringer vi må gjøre. Den første er at formelen for standardavviket for p̂1 - p̂2 bruker de ukjente parametrene til p1 og p2. Selvfølgelig, hvis vi virkelig visste disse verdiene, ville det ikke være et interessant statistisk problem i det hele tatt. Vi trenger ikke å estimere forskjellen mellom p1 og p2.. I stedet kunne vi ganske enkelt beregne den eksakte forskjellen.
Dette problemet kan løses ved å beregne en standardfeil i stedet for et standardavvik. Alt vi trenger å gjøre er å erstatte populasjonsforholdene med utvalgsforhold. Standardfeil beregnes utfra statistikk i stedet for parametere. En standardfeil er nyttig fordi den effektivt estimerer et standardavvik. Hva dette betyr for oss er at vi ikke lenger trenger å vite verdien av parameterne p1 og p2. .Siden disse prøveforholdene er kjent, er standardfeilen gitt av kvadratroten av følgende uttrykk:
p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.
Det andre elementet vi trenger å ta opp, er den spesielle formen for prøvetakingsdistribusjonen. Det viser seg at vi kan bruke en normalfordeling for å tilnærme samplingsfordelingen til p̂1 - p̂2. Årsaken til dette er noe teknisk, men er skissert i neste avsnitt.
Begge p̂1 og p̂2 ha en samplingsfordeling som er binomial. Hver av disse binomiale fordelingene kan bli tilnærmet ganske bra med en normalfordeling. Dermed p̂1 - p̂2 er en tilfeldig variabel. Den er dannet som en lineær kombinasjon av to tilfeldige variabler. Hver av disse er tilnærmet med en normalfordeling. Derfor samplingsfordeling av p of1 - p̂2 er også normalt distribuert.
Tillitsintervallformel
Vi har nå alt vi trenger for å sette sammen tillitsintervallet. Anslaget er (p̂1 - p̂2) og feilmarginen er z * [p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5. Verdien som vi legger inn for z * er diktert av nivået av selvtillit C. Vanlig brukte verdier for z * er 1,645 for 90% tillit og 1,96 for 95% tillit. Disse verdiene for z * betegner den delen av standard normalfordeling hvor nøyaktig C prosent av fordelingen er mellom -z * og z *.
Følgende formel gir oss et konfidensintervall for forskjellen mellom to befolkningsforhold:
(p1 - p̂2) +/- z * [p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5