Hvordan bruke klyngeanalyse i samfunnsvitenskapelig forskning

Cluster analyse er en statistisk teknikk som brukes til å identifisere hvordan forskjellige enheter - som mennesker, grupper eller samfunn - kan grupperes sammen på grunn av egenskaper de har felles. Også kjent som klynging, er det et utforskende dataanalyseverktøy som tar sikte på å sortere forskjellige objekter i grupper på en slik måte at når de tilhører samme gruppe de har en maksimal grad av assosiasjon, og når de ikke tilhører samme gruppe, er deres assosieringsgrad minimal. I motsetning til noen andre statistiske teknikker, strukturene som blir avdekket gjennom klyngebehandling trenger ingen forklaring eller tolkning - det oppdager struktur i dataene uten å forklare hvorfor de eksisterer.

Hva er klynge?

Klynger eksisterer i nesten alle aspekter av hverdagen vår. Ta for eksempel varer i en matbutikk. Ulike typer varer vises alltid på samme eller nærliggende steder - kjøtt, grønnsaker, brus, frokostblandinger, papirprodukter, etc. Forskere ønsker ofte å gjøre det samme med data og gruppere objekter eller fag i klynger som gir mening.

instagram viewer

For å ta et eksempel fra samfunnsvitenskap, la oss si at vi ser på land og ønsker å gruppere dem i klynger basert på egenskaper som f.eks. arbeidsdeling, militærer, teknologi eller utdannet befolkning. Vi vil oppdage at Storbritannia, Japan, Frankrike, Tyskland og USA har lignende kjennetegn og vil bli gruppert sammen. Uganda, Nicaragua og Pakistan vil også bli gruppert sammen i en annen klynge fordi de deler et annet sett med egenskaper, inkludert lave formuesnivåer, enklere arbeidsdelinger, relativt ustabile og udemokratiske politiske institusjoner og lave teknologiske utvikling.

Klyngeanalyse brukes vanligvis i den undersøkende fasen av forskningen når forskeren ikke har noen pre-unnfangede hypoteser. Det er vanligvis ikke den eneste statistiske metoden som brukes, men gjøres snarere i de tidlige stadiene av et prosjekt for å veilede resten av analysen. Av denne grunn er signifikansetesting vanligvis ikke relevant eller hensiktsmessig.

Det er flere forskjellige typer klyngeanalyse. De to mest brukte er K-betyr klynging og hierarkisk klynge.

K-betyr Clustering

K-betyr klynging behandler observasjonene i dataene som objekter som har plasseringer og avstander fra hverandre (merk at avstandene som brukes i gruppering ofte ikke representerer romlige avstander). Den partisjonerer objektene i K gjensidig eksklusive klynger slik at objekter i hver klynge er som nær hverandre som mulig og samtidig, så langt fra gjenstander i andre klynger som mulig. Hver klynge er da preget av sin middel eller midtpunkt.

Hierarkisk klynging

Hierarkisk klynging er en måte å undersøke grupperinger i dataene samtidig over en rekke skalaer og avstander. Det gjør dette ved å lage et klyngetre med forskjellige nivåer. I motsetning til K-betyr klynging, er ikke treet et eneste sett med klynger. Snarere er treet et hierarki på flere nivåer hvor klynger på ett nivå blir samlet som klynger på det neste høyere nivået. Algoritmen som brukes starter med hvert tilfelle eller variabel i en egen klynge og kombinerer deretter klynger til bare en er igjen. Dette gjør det mulig for forskeren å bestemme hvilket nivå av klynger som er best egnet for forskningen.

Utføre en klyngeanalyse

Mest programvare for statistikk kan utføre klyngeanalyse. I SPSS, velg analysere fra menyen, da klassifisere og klyngeanalyse. I SAS, the proc klynge funksjonen kan brukes.

Oppdatert av Nicki Lisa Cole, Ph. D.