Hva er robusthet i statistikk?

I statistikkbetegner begrepet robust eller robusthet styrken til en statistisk modell, tester og prosedyrer i henhold til de spesifikke forholdene i den statistiske analysen en studie håper å oppnå. Gitt at disse vilkårene i en studie er oppfylt, kan modellene bekreftes å være sanne ved bruk av matematiske bevis.

Mange modeller er basert på ideelle situasjoner som ikke eksisterer når du arbeider med data fra den virkelige verden, og som et resultat kan modellen gi riktige resultater selv om betingelsene ikke er oppfylt nøyaktig.

Robust statistikk er derfor all statistikk som gir god ytelse når data hentes fra et bredt spekter av sannsynlighetsfordelinger som stort sett ikke påvirkes av utleggere eller små avvik fra modellforutsetninger i et gitt datasett. Med andre ord er en robust statistikk motstandsdyktig mot feil i resultatene.

En måte å observere en ofte holdt robust statistisk prosedyre, trenger man ikke se lenger enn t-prosedyrer, som bruker hypotetester for å bestemme de mest nøyaktige statistiske forutsigelsene.

instagram viewer

Å observere T-prosedyrer

For et eksempel på robusthet, vil vi vurdere t-prosedyrer, som inkluderer konfidensintervall for et populasjonsmiddel med ukjent populasjonsstandardavvik samt hypotesetester om populasjonsgjennomsnittet.

Bruken av t-prosedyrer forutsetter følgende:

Datasettet som vi jobber med er en enkel tilfeldig prøve av befolkningen.
Befolkningen som vi har tatt prøver fra, er normalt fordelt.

I praksis med eksempler fra det virkelige liv har statistikere sjelden en befolkning som normalt er fordelt, så spørsmålet blir i stedet: “Hvor robuste er våre t-prosedyrer?”

Generelt er betingelsen at vi har et enkelt tilfeldig utvalg viktigere enn tilstanden som vi har tatt prøver fra en normalt fordelt populasjon; årsaken til dette er at den sentrale grense-setningen sikrer en prøvetakingsfordeling som er omtrent normal - jo større vår prøvestørrelse, desto nærmere er samplingsfordelingen av prøven gjennomsnittet å være vanlig.

Hvordan T-prosedyrer fungerer som robust statistikk

Så robusthet for t-prosedyrer henger sammen med prøvestørrelse og fordelingen av prøven vår. Hensynet til dette inkluderer:

Hvis prøvens størrelse er stor, noe som betyr at vi har 40 eller flere observasjoner, da t-prosedyrer kan brukes selv med fordelinger som er skjev.
Hvis prøvestørrelsen er mellom 15 og 40, kan vi bruke den t-prosedyrer for formet distribusjon, med mindre det er utliggere eller en høy grad av skjevhet.
Hvis prøvestørrelsen er mindre enn 15, kan vi bruke den t- prosedyrer for data som ikke har noen outliers, en eneste topp og er nesten symmetriske.

I de fleste tilfeller er robusthet etablert gjennom teknisk arbeid i matematisk statistikk, og, Heldigvis trenger vi ikke nødvendigvis å gjøre disse avanserte matematiske beregningene for å kunne bruke dem; vi trenger bare å forstå hva de overordnede retningslinjene er for robustheten til vår spesifikke statistiske metode.

T-prosedyrer fungerer som robust statistikk fordi de typisk gir god ytelse per disse modellene ved å innregne størrelsen på prøven til grunnlaget for å anvende prosedyren.