Definisjon og eksempler på sekundær dataanalyse

Sekundær dataanalyse er analysen av data som ble samlet inn av noen andre. Nedenfor gjennomgår vi definisjonen av sekundære data, hvordan de kan brukes av forskere, og fordeler og ulemper med denne typen forskning.

Key Takeaways: Sekundær dataanalyse

Primær data refererer til data som forskere har samlet selv, mens sekundære data refererer til data som ble samlet inn av noen andre.
Sekundær data er tilgjengelig fra en rekke kilder, for eksempel regjeringer og forskningsinstitusjoner.
Selv om bruk av sekundære data kan være mer økonomisk, kan det hende at eksisterende datasett ikke svarer på alle spørsmålene til en forsker.

Sammenligning av primære og sekundære data

I samfunnsvitenskapelig forskning er begrepene primærdata og sekundærdata vanlig parlance. Primærdata blir samlet inn av en forsker eller et forskerteam for det spesifikke formål eller analyse som vurderes. Her blir et forskerteam unnfanger og utvikler et forskningsprosjekt, bestemmer seg for a prøvetakingsteknikk, samler inn data designet for å adressere spesifikke spørsmål, og utfører sine egne analyser av dataene de samlet inn. I dette tilfellet er personene som er involvert i dataanalysen kjent med forskningsdesign og datainnsamlingsprosess.

instagram viewer

Sekundær dataanalysederimot er bruken av data som ble samlet inn av noen andre til et annet formål. I dette tilfellet stiller forskeren spørsmål som blir adressert gjennom analysen av et datasett som de ikke var involvert i innsamlingen. Dataene ble ikke samlet for å svare på forskerens spesifikke forskningsspørsmål, og ble i stedet samlet for et annet formål. Dette betyr at det samme datasettet faktisk kan være et primært datasett for en forsker og et sekundært datasett til et annet.

Bruke sekundære data

Det er noen viktige ting som må gjøres før du bruker sekundære data i en analyse. Siden forskeren ikke samlet inn dataene, er det viktig for dem å bli kjent med datasettet: hvordan dataene ble samlet inn, hva svarskategoriene er for hver spørsmål om hvorvidt det må legges vekt på under analysen, hvorvidt klynger eller stratifisering må redegjøres for, hvem befolkningen i studien var, og ikke mer.

Det er mange sekundære dataressurser og datasett tilgjengelig for sosiologisk forskning, hvorav mange er offentlige og lett tilgjengelige. De USAs folketelling, den Generell sosial undersøkelse, og American Community Survey er noen av de mest brukte sekundære datasettene som er tilgjengelige.

Fordeler med sekundær dataanalyse

Den største fordelen med å bruke sekundære data er at de kan være mer økonomiske. Noen andre har allerede samlet inn dataene, så forskeren trenger ikke å bruke penger, tid, energi og ressurser til denne fasen av forskningen. Noen ganger må det sekundære datasettet kjøpes, men kostnadene er nesten alltid lavere enn utgiftene til å samle et lignende datasett fra bunnen av, som vanligvis innebærer lønn, reise og transport, kontorlokaler, utstyr og annet overhead kostnader. I tillegg, siden dataene allerede er samlet og vanligvis rengjøres og lagret i elektronisk format, kan forskeren bruke mesteparten av tiden sin analysere dataene i stedet for å gjøre dataene klare til analyse.

En annen stor fordel med å bruke sekundære data er bredden av tilgjengelige data. Den føderale regjeringen gjennomfører en rekke studier i stor, nasjonal skala som enkeltforskere vil ha vanskelig for å samle inn. Mange av disse datasettene er også langsgående, noe som betyr at de samme dataene er samlet inn fra den samme populasjonen over flere forskjellige tidsperioder. Dette lar forskere se på trender og endringer av fenomener over tid.

En tredje viktig fordel ved bruk av sekundære data er at datainnsamlingsprosessen ofte holder et nivå av kompetanse og profesjonalitet som kanskje ikke er til stede hos enkeltforskere eller små forskningsprosjekter. For eksempel blir datainnsamling for mange føderale datasett ofte utført av ansatte som spesialiserer seg i visse oppgaver og har mange års erfaring på det aktuelle området og med den aktuelle undersøkelsen. Mange mindre forskningsprosjekter har ikke det kompetansenivået, ettersom mye data blir samlet inn av studenter som jobber deltid.

Ulemper ved sekundær dataanalyse

En stor ulempe ved å bruke sekundære data er at den kanskje ikke svarer på forskerens spesifikke forskningsspørsmål eller inneholder spesifikk informasjon som forskeren ønsker å ha. Det er heller ikke sikkert at det har blitt samlet inn i den geografiske regionen eller i årene som ønsket, eller med den spesifikke befolkningen som forskeren er interessert i å studere. For eksempel kan en forsker som er interessert i å studere ungdom, oppleve at det sekundære datasettet bare inkluderer unge voksne.

I tillegg, siden forskeren ikke samlet dataene, har de ingen kontroll over hva som finnes i datasettet. Ofte kan dette begrense analysen eller endre de opprinnelige spørsmålene forskeren ønsket å svare på. For eksempel kan en forsker som studerer lykke og optimisme oppleve at et sekundært datasett bare inkluderer ett av disse variabler, men ikke begge deler.

Et relatert problem er at variablene kan ha vært definert eller kategorisert annerledes enn forskeren ville valgt. For eksempel kan alder ha blitt samlet i kategorier i stedet for som en kontinuerlig variabel, eller løp kan defineres som "hvit" og "annet" i stedet for å inneholde kategorier for hvert større løp.

En annen betydelig ulempe ved å bruke sekundære data er at forskeren ikke vet nøyaktig hvordan datainnsamlingsprosessen ble gjort eller hvor bra den ble utført. Forskeren er vanligvis ikke interessert i informasjon om hvor alvorlig dataene påvirkes av problemer som lav responsrate eller respondentens misforståelse av spesifikke spørsmålsspørsmål. Noen ganger er denne informasjonen lett tilgjengelig, som tilfellet er med mange føderale datasett. Imidlertid ledsages ikke mange andre sekundære datasett av denne typen informasjon, og analytikeren må lære å lese mellom linjene for å avdekke potensielle begrensninger i dataene.