Lineær regresjon er en statistisk teknikk som brukes for å lære mer om forholdet mellom en uavhengig (prediktor) variabel og en avhengig (kriterium) variabel. Når du har mer enn en uavhengig variabel i analysen din, blir dette referert til som multippel lineær regresjon. Generelt lar regresjon forskeren stille det generelle spørsmålet "Hva er den beste prediktoren for ???"
La oss for eksempel si at vi studerte årsakene til fedme, målt ved kroppsmasseindeks (BMI). Spesielt ønsket vi å se om følgende variabler var viktige prediktorer for en persons BMI: antall hurtigmat måltider spist per uke, antall timer fjernsyn sett per uke, antall minutter brukt trening per uke og foreldrenes BMI. Lineær regresjon ville være en god metodikk for denne analysen.
Regresjonsligningen
Når du gjennomfører en regresjonsanalyse med en uavhengig variabel, er regresjonsligningen Y = a + b * X der Y er den avhengige variabelen, X er den uavhengige variabelen, a er konstanten (eller avskjæringen), og b er de helling av regresjonslinjen
. La oss for eksempel si at GPA er best forutsagt av regresjonsligningen 1 + 0,02 * IQ. Hvis en student hadde en IQ på 130, ville hans eller hennes GPA være 3,6 (1 + 0,02 * 130 = 3,6).Når du gjennomfører en regresjonsanalyse der du har mer enn én uavhengig variabel, er regresjonsligningen Y = a + b1 * X1 + b2 * X2 +... + Bp * Xp. For eksempel, hvis vi ønsket å inkludere flere variabler til vår GPA-analyse, for eksempel mål for motivasjon og selvdisiplin, ville vi brukt dette ligningen.
R-Square
R-square, også kjent som bestemmelseskoeffisient, er en ofte brukt statistikk for å evaluere modelltilpasningen til en regresjonsligning. Det vil si, hvor gode er alle de uavhengige variablene dine med å forutsi den avhengige variabelen? Verdien av R-kvadrat varierer fra 0,0 til 1,0 og kan multipliseres med 100 for å oppnå en prosentandel av forskjell forklart. For eksempel å gå tilbake til vår GPA-regresjonsligning med bare en uavhengig variabel (IQ)... La oss si at vår R-kvadrat for ligningen var 0,4. Vi kan tolke dette til å bety at 40% av variansen i GPA er forklart av IQ. Hvis vi så legger til våre to andre variabler (motivasjon og selvdisiplin) og R-kvadratet øker til 0,6, betyr dette at IQ, motivasjon og selvdisiplin sammen forklarer 60% av variansen i GPA score.
Regresjonsanalyser blir vanligvis utført ved bruk av statistisk programvare, for eksempel SPSS eller SAS, og R-kvadratet er beregnet for deg.
Tolke regresjonskoeffisientene (b)
B-koeffisientene fra ligningene ovenfor representerer styrken og retningen til forholdet mellom de uavhengige og avhengige variablene. Hvis vi ser på GPA- og IQ-ligningen, er 1 + 0,02 * 130 = 3,6, 0,02 regresjonskoeffisienten for variabelen IQ. Dette forteller oss at retningen til forholdet er positiv, slik at når IQ øker, øker også GPA. Hvis ligningen var 1 - 0,02 * 130 = Y, ville dette bety at forholdet mellom IQ og GPA var negativt.
Antagelser
Det er flere antagelser om dataene som må oppfylles for å utføre en lineær regresjonsanalyse:
- linearitet: Det antas at forholdet mellom de uavhengige og avhengige variablene er lineære. Selv om denne antagelsen aldri kan bekreftes fullt ut, ser du på a scatterplot av variablene dine kan bidra til å gjøre denne beslutningen. Hvis en krumning i forholdet er til stede, kan du vurdere å transformere variablene eller eksplisitt gi rom for ikke-lineære komponenter.
- normalitet: Det antas at rest av variablene dine blir normalt distribuert. Det vil si at feilene i prediksjonen av verdien til Y (den avhengige variabelen) er fordelt på en måte som nærmer seg den normale kurven. Du kan se på histogrammer eller normal sannsynlighetsplan for å inspisere fordelingen av variablene dine og restverdiene.
- Uavhengighet: Det antas at feilene i prediksjonen av verdien av Y alle er uavhengige av hverandre (ikke korrelert).
- Homoscedasticity: Det antas at variansen rundt regresjonslinjen er den samme for alle verdiene til de uavhengige variablene.
Kilde
- Statsoft: Elektronisk statistikk lærebok. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.