Sum of Squares Formula Shortcut

click fraud protection

Beregningen av a prøve varians eller standardavvik er vanligvis oppgitt som en brøkdel. Telleren for denne brøkdelen innebærer en sum av kvadrateavvik fra gjennomsnittet. I statistikk, er formelen for denne totale summen av kvadrater

Σ (xJeg - x̄)2

Her refererer symbolet x̄ til gjennomsnittsverdien, og symbolet Σ forteller oss å legge opp de kvadratiske forskjellene (xJeg - x̄) for alle Jeg.

Mens denne formelen fungerer for beregninger, er det en ekvivalent snarveiformel som ikke krever at vi først beregner utvalgsmiddel. Denne snarveiformelen for summen av kvadrater er

Σ (xJeg2) - (Σ xJeg)2/n

Her variabelen n refererer til antall datapunkter i vårt utvalg.

Standard formeleksempel

For å se hvordan denne snarveiformelen fungerer, vil vi vurdere et eksempel som beregnes ved å bruke begge formlene. Anta at prøven vår er 2, 4, 6, 8. Utvalgets gjennomsnitt er (2 + 4 + 6 + 8) / 4 = 20/4 = 5. Nå beregner vi forskjellen på hvert datapunkt med gjennomsnittet 5.

  • 2 – 5 = -3
  • 4 – 5 = -1
  • 6 – 5 = 1
  • 8 – 5 = 3

Vi kvadrerer nå hvert av disse tallene og legger dem sammen. (-3)

instagram viewer
2 + (-1)2 + 12 + 32 = 9 + 1 + 1 + 9 = 20.

Eksempel på snarvei-formel

Nå vil vi bruke samme datasett: 2, 4, 6, 8 med snarveiformelen for å bestemme summen av kvadrater. Vi plasserer hvert datapunkt først og legger dem sammen: 22 + 42 + 62 + 82 = 4 + 16 + 36 + 64 = 120.

Neste trinn er å legge sammen alle dataene og kvadratere denne summen: (2 + 4 + 6 + 8)2 = 400. Vi deler dette med antall datapunkter for å oppnå 400/4 = 100.

Vi trekker nå dette tallet fra 120. Dette gir oss at summen av de kvadratiske avvikene er 20. Dette var nøyaktig antallet som vi allerede har funnet fra den andre formelen.

Hvordan virker dette?

Mange mennesker vil bare godta formelen til pålydende og har ingen anelse om hvorfor denne formelen fungerer. Ved å bruke litt algebra, kan vi se hvorfor denne snarveiformelen tilsvarer standard, tradisjonell måte å beregne summen av kvadratiske avvik på.

Selv om det kan være hundrevis, om ikke tusenvis av verdier i et virkelighetsdatasett, vil vi anta at det bare er tre dataverdier: x1, x2, x3. Det vi ser her, kan utvides til et datasett som har tusenvis av poeng.

Vi begynner med å merke oss det (x1 + x2 + x3) = 3 x̄. Uttrykket Σ (xJeg - x̄)2 = (x1 - x̄)2 + (x2 - x̄)2 + (x3 - x̄)2.

Vi bruker nå faktum fra grunnleggende algebra som (a + b)2 = a2 + 2ab + b2. Dette betyr at (x1 - x̄)2 = x12 -2x1 x̄ + x̄2. Vi gjør dette for de to andre vilkårene for sammendraget, og vi har:

x12 -2x1 x̄ + x̄2 + x22 -2x2 x̄ + x̄2 + x32 -2x3 x̄ + x̄2.

Vi omorganiserer dette og har:

x12+ x22 + x32+ 3x̄2 - 2x̄ (x1 + x2 + x3) .

Ved å skrive om (x1 + x2 + x3) = 3x̄ over blir:

x12+ x22 + x32 - 3x̄2.

Nå siden 3x̄2 = (x1+ x2 + x3)2/ 3, vår formel blir:

x12+ x22 + x32 - (x1+ x2 + x3)2/3

Og dette er et spesielt tilfelle av den generelle formelen som ble nevnt over:

Σ (xJeg2) - (Σ xJeg)2/n

Er det virkelig en snarvei?

Det kan ikke virke som om denne formelen virkelig er en snarvei. Tross alt virker det som i eksemplet over at det er like mange beregninger. En del av dette har å gjøre med at vi bare så på en prøvestørrelse som var liten.

Når vi øker størrelsen på prøven, ser vi at snarveiformelen reduserer antall beregninger med omtrent halvparten. Vi trenger ikke trekke gjennomsnittet fra hvert datapunkt og deretter kvadratere resultatet. Dette kutter betydelig ned på totalt antall operasjoner.

instagram story viewer