Hovedkomponentanalyse (PCA) og faktoranalyse (FA) er statistiske teknikker brukt for reduksjon av data eller strukturdeteksjon. Disse to metodene brukes på et enkelt sett med variabler når forskeren er interessert i oppdage hvilke variabler i settet som danner sammenhengende undergrupper som er relativt uavhengige av en en annen. Variabler som er korrelert med hverandre, men som stort sett er uavhengige av andre sett med variabler, kombineres til faktorer. Disse faktorene lar deg kondensere antall variabler i analysen din ved å kombinere flere variabler til en faktor.
De spesifikke målene med PCA eller FA er å oppsummere mønstre av korrelasjoner blant observerte variabler, for å redusere et stort antall observerte variabler til et mindre antall faktorer, for å gi regresjonsligning for en underliggende prosess ved å bruke observerte variabler, eller for å teste en teori om arten av underliggende prosesser.
Eksempel
Si at for eksempel en forsker er interessert i å studere egenskapene til hovedfagsstudenter. Forskeren kartlegger et stort utvalg av hovedfagsstudenter om personlighetskarakteristikker som motivasjon, intellektuell evne, skolastisk historie, familiehistorie, helse, fysiske egenskaper, etc. Hvert av disse områdene måles med flere variabler. Variablene blir deretter lagt inn i analysen individuelt og korrelasjoner blant dem blir studert. Analysen avdekker korrelasjonsmønstre mellom variablene som antas å gjenspeile de underliggende prosessene som påvirker atferden til hovedfagsstudentene. For eksempel kombinerer flere variabler fra målingene av intellektuell evne med noen variabler fra de skolastiske målene for å danne en faktor som måler intelligens. Tilsvarende kan variabler fra personlighetstiltakene kombinere med noen variabler fra motivasjonen og skolastikken historie måler å danne en faktor som måler i hvilken grad en student foretrekker å jobbe selvstendig - en uavhengighet faktor.
Trinn for hovedkomponentanalyse og faktoranalyse
Trinn i analyse av hovedkomponenter og faktoranalyse inkluderer:
- Velg og mål et sett med variabler.
- Forbered korrelasjonsmatrisen for å utføre enten PCA eller FA.
- Trekk ut et sett med faktorer fra korrelasjonsmatrisen.
- Bestem antall faktorer.
- Roter om nødvendig faktorene for å øke tolkbarheten.
- Tolke resultatene.
- Kontroller faktorstrukturen ved å fastslå konstruksjonsgyldigheten til faktorene.
Forskjell mellom analyse av hovedkomponenter og faktoranalyse
Hovedkomponenter analyse og faktoranalyse er like fordi begge prosedyrene brukes for å forenkle strukturen til et sett med variabler. Analysene skiller seg imidlertid på flere viktige måter:
- I PCA blir komponentene beregnet som lineære kombinasjoner av de opprinnelige variablene. I FA er de opprinnelige variablene definert som lineære kombinasjoner av faktorene.
- I PCA er målet å stå for like mye av totalen forskjell i variablene som mulig. Målet i FA er å forklare samvariasjoner eller korrelasjoner mellom variablene.
- PCA brukes til å redusere dataene til et mindre antall komponenter. FA brukes til å forstå hvilke konstruksjoner som ligger til grunn for dataene.
Problemer med hovedkomponentanalyse og faktoranalyse
Et problem med PCA og FA er at det ikke er noen kriterier som skal testes løsningen. I andre statistiske teknikker som diskriminerende funksjonsanalyse, logistisk regresjon, profilanalyse og multivariat Analyse av varianter, dømmes løsningen etter hvor godt den spår gruppemedlemskap. I PCA og FA er det ingen eksterne kriterier som gruppemedlemskap som skal testes løsningen mot.
Det andre problemet med PCA og FA er at det etter utvinning er uendelig mange rotasjoner tilgjengelig, alle står for samme mengde avvik i de opprinnelige dataene, men med faktoren definert litt annerledes. Det endelige valget overlates til forskeren basert på deres vurdering av dens tolkbarhet og vitenskapelige nytteverdi. Forskere er ofte forskjellige i hvilket valg som er best.
Et tredje problem er at FA ofte blir brukt til å ”redde” dårlig unnfanget forskning. Hvis ingen annen statistisk prosedyre er passende eller relevant, kan dataene i det minste faktoranalyseres. Dette lar mange tro at de forskjellige formene for FA er assosiert med slurvete forskning.