Hvordan estimere standardavvik (SD)

click fraud protection

Standardavviket og rekkevidden er begge målene for spredning av et datasett. Hvert nummer forteller oss på sin egen måte hvor fordelt dataene er, da de begge er et mål på variasjon. Selv om det ikke er et eksplisitt forhold mellom rekkevidde og standardavvik, det er en tommelfingerregel som kan være nyttig for å relatere disse to statistikkene. Dette forholdet kalles noen ganger rekkevidden for standardavvik.

Områderegelen forteller oss at standardavviket til en prøve er tilnærmet lik en fjerdedel av datoperioden. Med andre ords = (Maksimum - Minimum) / 4. Dette er en veldig grei formel å bruke, og skal bare brukes som en veldig grov estimat av standardavviket.

Et eksempel

For å se et eksempel på hvordan avstandsregelen fungerer, vil vi se på følgende eksempel. Anta at vi starter med dataverdiene 12, 12, 14, 15, 16, 18, 18, 20, 20, 25. Disse verdiene har en mener på 17 og et standardavvik på ca 4.1. Hvis vi i stedet først beregner omfanget av dataene våre som 25 - 12 = 13 og deretter dele dette tallet med fire har vi vårt estimat av standardavviket som 13/4 = 3,25. Dette tallet er relativt nær det sanne standardavviket og bra for et grovt estimat.

instagram viewer

Hvorfor fungerer det?

Det kan virke som om rekkevidden er litt rart. Hvorfor fungerer det? Virker det ikke helt vilkårlig å bare dele rekkevidden med fire? Hvorfor skulle vi ikke dele med et annet tall? Det er faktisk en viss matematisk begrunnelse som skjer bak kulissene.

Husk egenskapene til klokkekurve og sannsynlighetene fra a standard normalfordeling. En funksjon har å gjøre med datamengden som faller innenfor et visst antall standardavvik:

  • Omtrent 68% av dataene ligger innenfor ett standardavvik (høyere eller lavere) fra gjennomsnittet.
  • Omtrent 95% av dataene ligger innenfor to standardavvik (høyere eller lavere) fra gjennomsnittet.
  • Omtrent 99% er innenfor tre standardavvik (høyere eller lavere) fra gjennomsnittet.

Antallet som vi bruker har å gjøre med 95%. Vi kan si at 95% fra to standardavvik under gjennomsnittet til to standardavvik over gjennomsnittet, vi har 95% av våre data. Dermed vil nesten all vår normalfordeling strekke seg over et linjesegment som er totalt fire standardavvik lange.

Ikke alle data blir normalt distribuert og klokkekurveformet. Men de fleste data er veloppdragne nok til at å gå to standardavvik bort fra gjennomsnittet fanger nesten alle dataene. Vi estimerer og sier at fire standardavvik er tilnærmet størrelsen på området, og derfor er området delt på fire en grov tilnærming av standardavviket.

Bruksområder for rekkevidden

Områderegelen er nyttig i en rekke innstillinger. For det første er det et veldig raskt estimat av standardavviket. Standardavviket krever at vi først finner gjennomsnittet, og deretter trekker dette gjennomsnittet fra hvert datapunkt, firkant forskjellene, legg til disse, del med ett mindre enn antall datapunkter, og ta (til slutt) firkanten rot. På den annen side krever avstandsregelen bare en subtraksjon og en divisjon.

Andre steder der rekkeviddregelen er nyttig er når vi har ufullstendig informasjon. Formler som for å bestemme prøvestørrelse krever tre informasjonsstykker: ønsket feilmargin, den nivå av selvtillit og standardavviket til befolkningen vi undersøker. Mange ganger er det umulig å vite hva befolkningen har standardavvik er. Med avstandsregelen kan vi estimere denne statistikken og deretter vite hvor store vi skal lage utvalget vårt.

instagram story viewer