Bootstrapping er en statistisk teknikk som faller inn under den bredere overskriften for resampling. Denne teknikken innebærer en relativt enkel prosedyre, men gjentas så mange ganger at den er veldig avhengig av datamaskinberegninger. Bootstrapping gir en annen metode enn konfidensintervaller for å estimere en populasjonsparameter. Bootstrapping virker veldig som å fungere som magi. Les videre for å se hvordan den får det interessante navnet.
En forklaring på bootstrapping
Ett mål av inferensiell statistikk er å bestemme verdien av en parameter for en populasjon. Det er vanligvis for dyrt eller til og med umulig å måle dette direkte. Så bruker vi statistisk prøvetaking. Vi prøver en populasjon, måler en statistikk over denne prøven, og bruker deretter denne statistikken til å si noe om tilsvarende parameter av befolkningen.
I en sjokoladefabrikk kan det for eksempel være lurt å garantere at godteribarer har en bestemt mener vekt. Det er ikke mulig å veie hver godteribar som produseres, så vi bruker prøvetakingsteknikker for å velge tilfeldig 100 godteribarer. Vi beregner gjennomsnittet av disse 100 godteribarene og sier at befolkningsgjennomsnittet faller innenfor en feilmargin fra hva gjennomsnittet av utvalget vårt er.
Anta at vi noen måneder senere vil vite med større nøyaktighet - eller mindre om en feilmargin - hva den gjennomsnittlige godterivekten var på dagen da vi tok prøve på produksjonslinjen. Vi kan ikke bruke dagens godteribarer også mange variabler har kommet inn i bildet (forskjellige mengder melk, sukker og kakaobønner, forskjellige atmosfæriske forhold, forskjellige ansatte på linjen osv.). Alt vi har fra den dagen vi er nysgjerrige på, er de 100 vektene. Uten en tidsmaskin tilbake til den dagen ser det ut til at den innledende feilmarginen er den beste vi kan håpe på.
Heldigvis kan vi bruke teknikk for oppstart. I denne situasjonen, tilfeldig prøve med erstatning fra de 100 kjente vektene. Vi kaller dette en bootstrap-prøve. Siden vi tillater erstatning, er denne bootstrap-prøven sannsynligvis ikke identisk med vår første prøve. Noen datapunkter kan dupliseres, og andre datapunkter fra de første 100 kan utelates i en bootstrap-prøve. Ved hjelp av en datamaskin kan tusenvis av bootstrap-prøver konstrueres på relativt kort tid.
Et eksempel
For å bruke bootstrap-teknikker, må vi som nevnt bruke en datamaskin. Følgende numeriske eksempel vil bidra til å demonstrere hvordan prosessen fungerer. Hvis vi begynner med prøven 2, 4, 5, 6, 6, er alt av følgende mulige bootstrap-prøver:
- 2 ,5, 5, 6, 6
- 4, 5, 6, 6, 6
- 2, 2, 4, 5, 5
- 2, 2, 2, 4, 6
- 2, 2, 2, 2, 2
- 4,6, 6, 6, 6
Teknikkens historie
Bootstrap-teknikker er relativt nye innen statistikkfeltet. Den første bruken ble publisert i et papir fra 1979 av Bradley Efron. Etter hvert som datakraften har økt og blir rimeligere, har bootstrap-teknikker blitt mer utbredt.
Hvorfor oppstart av navn?
Navnet "bootstrapping" kommer fra uttrykket, "Å løfte seg opp med sine bootstraps." Dette refererer til noe som er kritisk og umulig. Prøv så hardt du kan, du kan ikke løfte deg opp i luften ved å trekke i lærbiter på støvlene.
Det er en viss matematisk teori som rettferdiggjør bootstrapping-teknikker. Imidlertid føles bruk av bootstrapping som om du gjør det umulige. Selv om det ikke virker som om du vil være i stand til å forbedre estimatet av en befolkningsstatistikk ved å bruke den samme prøven om og om igjen, kan bootstrapping faktisk gjøre dette.