Når vi måler variabiliteten til et sett med data, er det to nært koblede statistikker relatert til dette: the forskjell og standardavvik, som både indikerer hvor spredt dataverdiene er og involverer lignende trinn i deres beregning. Imidlertid er den største forskjellen mellom disse to statistiske analysene at standardavviket er kvadratroten til variansen.
For å forstå forskjellene mellom disse to observasjonene av statistisk spredning, må man først forstå hva hver representerer: Varianse representerer alle datapunkter i et sett og beregnes ved å beregne gjennomsnittet for det kvadratiske avviket til hvert middel mens standardavviket er et mål på spredning rundt middelverdien når den sentrale tendensen beregnes via mener.
Som et resultat kan variansen uttrykkes som det gjennomsnittlige kvadrateavviket for verdiene fra midlene eller [kvadratet avvik på midlene] delt på antall observasjoner og standardavvik kan uttrykkes som kvadratroten til forskjell.
Konstruksjon av varians
For å forstå forskjellen mellom denne statistikken fullt ut, må vi forstå beregningen av variansen. Trinnene for å beregne prøvevariansen er som følger:
- Beregn prøven gjennomsnittet av dataene.
- Finn forskjellen mellom middelverdien og hver av dataverdiene.
- Square disse forskjellene.
- Legg sammen de kvadratiske forskjellene.
- Del denne summen med en mindre enn det totale antall dataverdier.
Årsakene til hvert av disse trinnene er som følger:
- Gjennomsnittet gir midtpunktet eller gjennomsnitt av dataene.
- Forskjellene fra middelverdien er med på å bestemme avvikene fra det gjennomsnittet. Dataverdier som er langt fra gjennomsnittet vil gi et større avvik enn de som er nær gjennomsnittet.
- Forskjellene er kvadratiske fordi hvis forskjellene legges til uten å være kvadrat, vil denne summen være null.
- De tillegg av disse kvadratiske avvikene gir en måling av totalavvik.
- Inndelingen med en mindre enn prøvestørrelsen gir et slags middelavvik. Dette negerer effekten av å ha mange datapunkter som hver bidrar til måling av spredning.
Som nevnt tidligere, beregnes standardavviket ganske enkelt ved å finne kvadratroten til dette resultatet, som gir den absolutte avviksstandarden uavhengig av et totalt antall dataverdier.
Varians og standardavvik
Når vi vurderer variansen, innser vi at det er en stor ulempe med å bruke den. Når vi følger trinnene i beregningen av variansen, viser dette at variansen måles i form av kvadratiske enheter fordi vi la sammen kvadratiske forskjeller i beregningen vår. For eksempel, hvis eksempeldataene våre blir målt i meter, vil enhetene for en varians bli gitt i kvadratmeter.
For å standardisere vårt mål på spredning, må vi ta kvadratroten av variansen. Dette vil eliminere problemet med kvadratiske enheter, og gir oss et mål på spredningen som vil ha de samme enhetene som vår opprinnelige prøve.
Det er mange formler i matematisk statistikk som har penere utseende når vi oppgir dem når det gjelder varians i stedet for standardavvik.