Mange ganger ønsker forskere å vite svarene på spørsmål som er store i omfang. For eksempel:
- Hva så alle i et bestemt land på TV i går kveld?
- Hvem gjør en valgmann? har tenkt å stemme på i et kommende valg?
- Hvor mange fugler kommer tilbake fra vandring på et bestemt sted?
- Hvilken prosentandel av arbeidsstyrken er arbeidsledig?
Disse spørsmålene er enorme i den forstand at de krever at vi holder rede på millioner av individer.
Statistikk forenkler disse problemene ved å bruke en teknikk som heter sampling. Ved å utføre en statistisk prøve, kan arbeidsmengden vår kuttes enormt. I stedet for å spore oppførselen til milliarder eller millioner, trenger vi bare å undersøke dem på tusenvis eller hundrevis. Som vi vil se, kommer denne forenklingen til en pris.
Befolkning og folketellinger
Befolkningen i en statistisk studie er det vi prøver å finne ut noe om. Den består av alle individene som blir undersøkt. En befolkning kan virkelig være hva som helst. Californians, karibus, datamaskiner, biler eller fylker kan alle betraktes som bestander, avhengig av det statistiske spørsmålet. Selv om de fleste populasjoner som forskes er store, trenger de ikke nødvendigvis å være det.
En strategi for å forske på befolkningen er å foreta en folketelling. I en folketelling undersøker vi hvert eneste medlem av befolkningen i studien. Et godt eksempel på dette er U.S. folketelling. Hvert tiende år sender Census Bureau et spørreskjema til alle i landet. De som ikke returnerer skjemaet får besøk av folketellere
Folketellinger er fulle av vanskeligheter. De er vanligvis dyre med tanke på tid og ressurser. I tillegg til dette er det vanskelig å garantere at alle i befolkningen er nådd. Andre populasjoner er enda vanskeligere å foreta en folketelling med. Hvis vi ønsket å studere vanene til herreløse hunder i delstaten New York, avrundes lykke til alle av de forbigående hjørnetennene.
Prøver
Siden det normalt er umulig eller upraktisk å spore opp hvert enkelt medlem av en befolkning, er det neste alternativet å prøve ut befolkningen. En prøve er en hvilken som helst delmengde av en populasjon, så størrelsen kan være liten eller stor. Vi ønsker at en prøve liten nok til å kunne håndteres av vår datakraft, men likevel stor nok til å gi oss statistisk signifikante resultater.
Hvis et valgfirma prøver å bestemme velgerens tilfredshet med kongressen, og dens prøve størrelse er en, så blir resultatene meningsløse (men enkle å få tak i). På den annen side, å spørre millioner av mennesker kommer til å konsumere for mange ressurser. For å oppnå en balanse har avstemninger av denne typen typisk utvalgstørrelser på rundt 1000.
Tilfeldige prøver
Men å ha riktig prøvestørrelse er ikke nok for å sikre gode resultater. Vi ønsker et utvalg som er representativt for befolkningen. Anta at vi vil finne ut hvor mange bøker den gjennomsnittlige amerikaneren leser årlig. Vi ber 2000 studenter om å holde oversikt over hva de leser gjennom året, for så å sjekke tilbake med dem etter at et år har gått. Vi finner ut at gjennomsnittlig antall bøker som er lest er 12, og konkluderer deretter at den gjennomsnittlige amerikaneren leser 12 bøker i året.
Problemet med dette scenariet er med utvalget. Et flertall studenter er mellom 18-25 år og av instruktørene sine pålagt å lese lærebøker og romaner. Dette er en dårlig representasjon av den gjennomsnittlige amerikaneren. En god prøve vil inneholde mennesker i forskjellige aldre, fra alle samfunnslag og fra forskjellige regioner i landet. For å skaffe en slik prøve ville vi trenge å komponere den tilfeldig slik at hver amerikaner har samme sannsynlighet for å være i utvalget.
Typer av prøver
Gullstandarden for statistiske eksperimenter er enkel tilfeldig prøve. I en slik prøve av størrelse n enkeltpersoner, hvert medlem av befolkningen har samme sannsynlighet for å bli valgt til utvalget, og hver gruppe av n individer har samme sannsynlighet for å bli valgt. Det er mange måter å prøve en befolkning på. Noen av de vanligste er:
- Tilfeldig utvalg
- Enkel tilfeldig prøve
- Frivillig svarutvalg
- Komfortprøve
- Systematisk utvalg
- Cluster sample
- Stratifisert prøve
Noen råd
Som ordtaket sier: "Vel begitt er halvparten gjort." For å sikre at våre statistiske studier og eksperimenter har gode resultater, må vi planlegge og starte dem nøye. Det er lett å komme med dårlige statistiske prøver. God enkle tilfeldige prøver krever litt arbeid å skaffe. Hvis dataene våre er innhentet tilfeldig og på en kavaler måte, uansett hvor sofistikert vår analyse, statistiske teknikker vil ikke gi oss noen verdige konklusjoner.