Eksempel på oppstart i statistikk

bootstrapping er en kraftig statistisk teknikk. Det er spesielt nyttig når prøve størrelsen som vi jobber med er liten. Under vanlige omstendigheter kan ikke prøvestørrelser under 40 håndteres ved å anta a normal distribusjon eller a t distribusjon. Bootstrap-teknikker fungerer ganske bra med prøver som har mindre enn 40 elementer. Årsaken til dette er at bootstrapping innebærer en ny sampling. Denne typen teknikker antar ingenting om fordeling av våre data.

Bootstrapping har blitt mer populært ettersom databehandlingsressursene har blitt lettere tilgjengelig. Dette skyldes at datamaskinen må brukes for at oppstartsstrapping skal være praktisk. Vi vil se hvordan dette fungerer i følgende eksempel på oppstartsstrapping.

Vi begynner med en statistisk prøve fra en befolkning som vi ikke vet noe om. Målet vårt er 90% konfidensintervall om gjennomsnittet av utvalget. Selv om andre statistiske teknikker brukes til å bestemme tillitsintervaller antar at vi kjenner middel- eller standardavviket til vår befolkning, oppstart krever ikke annet enn utvalget.

instagram viewer

Som et eksempel på vårt eksempel vil vi anta at prøven er 1, 2, 4, 4, 10.

Vi sampler nå med erstatning fra prøven vår for å danne det som kalles bootstrap-prøver. Hver bootstrap-prøve vil ha en størrelse på fem, akkurat som vår originale prøve. Siden vi tilfeldig velger og erstatter hver verdi, kan bootstrap-prøvene være forskjellige fra den opprinnelige prøven og fra hverandre.

For eksempler som vi ville støte på i den virkelige verden, ville vi gjøre dette på nytt hundrevis om ikke tusenvis av ganger. I det som følger nedenfor, vil vi se et eksempel på 20 bootstrap-prøver:

Siden vi bruker bootstrapping for å beregne et konfidensintervall for befolkningsgjennomsnittet, beregner vi nå midlene til hver av våre bootstrap-prøver. Disse midlene, anordnet i stigende rekkefølge, er: 2, 2,4, 2,6, 2,6, 2,8, 3, 3, 3,2, 3,4, 3,6, 3,8, 4, 4, 4,2, 4,6, 5,2, 6, 6, 6,6, 7,6.

Vi har nå hentet fra vår liste over bootstrap-prøve et konfidensintervall. Siden vi ønsker 90% konfidensintervall, bruker vi de 95. og 5. prosentilene som endepunktene for intervallene. Årsaken til dette er at vi deler 100% - 90% = 10% i halvparten, slik at vi vil ha de midterste 90% av alle bootstrap-prøvemidlene.