Det er mange spørsmål du kan stille når du ser på en scatterplot. Noe av det vanligste er å lure på hvor godt en rett linje tilnærmer seg dataene. For å hjelpe med å svare på dette, er det en beskrivende statistikk kalt korrelasjonskoeffisienten. Vi vil se hvordan du beregner denne statistikken.
Korrelasjonskoeffisienten
De korrelasjonskoeffisient, betegnet med r, forteller oss hvor tett data i a scatterplot faller langs en rett linje. Jo nærmere det den absolutte verdien av r er for en, jo bedre at dataene er beskrevet av en lineær ligning. Hvis r = 1 eller r = -1 da er datasettet perfekt justert. Datasett med verdier av r nær null viser lite til ingen rettlinjeforhold.
På grunn av de lange beregningene er det best å beregne r med bruk av en kalkulator eller statistisk programvare. Imidlertid er det alltid et verdig forsøk på å vite hva kalkulatoren gjør når du beregner. Det følgende er en prosess for å beregne korrelasjonskoeffisienten hovedsakelig for hånd, med en kalkulator som brukes til rutinemessige aritmetiske trinn.
Trinn for beregning r
Vi begynner med å liste trinnene for beregning av korrelasjonskoeffisienten. Dataene vi jobber med er sammenkoblede data, der hvert par vil bli betegnet med (xJeg, yJeg).
- Vi begynner med noen få foreløpige beregninger. Mengdene fra disse beregningene vil bli brukt i påfølgende trinn i vår beregning av r:
- Beregn x̄, the mener av alle de første koordinatene til dataene xJeg.
- Beregn ȳ, gjennomsnittet av alle de andre koordinatene til dataene
- yJeg.
- Regne ut s x prøven standardavvik av alle de første koordinatene til dataene xJeg.
- Regne ut s y prøven standardavvik for alle de andre koordinatene til dataene yJeg.
- Bruk formelen (zx)Jeg = (xJeg - x̄) / s x og beregne en standardisert verdi for hver xJeg.
- Bruk formelen (zy)Jeg = (yJeg – ȳ) / s y og beregne en standardisert verdi for hver yJeg.
- Multipliser tilsvarende standardiserte verdier: (zx)Jeg(zy)Jeg
- Legg til produktene fra siste trinn sammen.
- Del summen fra forrige trinn med n - 1, hvor n er det totale antall poeng i vårt sett med sammenkoblede data. Resultatet av alt dette er korrelasjonskoeffisienten r.
Denne prosessen er ikke vanskelig, og hvert trinn er ganske rutinemessig, men samlingen av alle disse trinnene er ganske involvert. Beregningen av standardavviket er slitsom nok på egen hånd. Men beregningen av korrelasjonskoeffisienten innebærer ikke bare to standardavvik, men en rekke andre operasjoner.
Et eksempel
For å se nøyaktig hvordan verdien av r er oppnådd ser vi på et eksempel. Igjen er det viktig å merke seg at for praktiske applikasjoner ønsker vi å bruke vår kalkulator eller statistiske programvare til å beregne r for oss.
Vi begynner med en liste over sammenkoblede data: (1, 1), (2, 3), (4, 5), (5,7). Gjennomsnittet av x verdier, gjennomsnittet av 1, 2, 4 og 5 er x̄ = 3. Vi har også det ȳ = 4. Standardavviket til
x verdier er sx = 1,83 og sy = 2.58. Tabellen nedenfor oppsummerer de andre beregningene som trengs for r. Summen av produktene i kolonnen til høyre er 2.969848. Siden det er totalt fire poeng og 4 - 1 = 3, deler vi summen av produktene med 3. Dette gir oss en korrelasjonskoeffisient på r = 2.969848/3 = 0.989949.
Tabell for eksempel på beregning av korrelasjonskoeffisient
x | y | zx | zy | zxzy |
---|---|---|---|---|
1 | 1 | -1.09544503 | -1.161894958 | 1.272792057 |
2 | 3 | -0.547722515 | -0.387298319 | 0.212132009 |
4 | 5 | 0.547722515 | 0.387298319 | 0.212132009 |
5 | 7 | 1.09544503 | 1.161894958 | 1.272792057 |