Sammenkoblede data i statistikk, ofte referert til som bestilte par, viser til to variabler hos individene i en populasjon som er koblet sammen for å bestemme sammenhengen mellom dem. For at et datasett skal kunne regnes som sammenkoblede data, må begge disse dataverdiene være knyttet eller koblet til hverandre og ikke vurderes separat.
Ideen om sammenkoblede data kontrasteres med den vanlige tilknytningen av ett tall til hvert datapunkt som i et annet kvantitativ data setter i at hvert enkelt datapunkt er assosiert med to tall, og gir en graf som lar statistikere observere forholdet mellom disse variablene i en populasjon.
Denne metoden for sammenkoblede data brukes når en studie håper å sammenligne to variabler hos individer i befolkningen for å trekke en slags konklusjon om den observerte korrelasjonen. Når du observerer disse datapunktene, er rekkefølgen på sammenkoblingen viktig fordi det første tallet er et mål på en ting, mens den andre er et mål på noe helt annet.
Eksempel på sammenkoblede data
For å se et eksempel på sammenkoblede data, antar at en lærer teller antall lekseoppgaver hver elev slått inn for en bestemt enhet og deretter parer dette tallet med hver elevs prosentandel på enhetstesten. Parene er som følger:
- En person som fullførte 10 oppgaver tjente 95% på testen. (10, 95%)
- En person som fullførte 5 oppgaver tjente 80% på testen. (5, 80%)
- En person som fullførte 9 oppgaver tjente 85% på testen. (9, 85%)
- En person som fullførte 2 oppgaver tjente 50% på testen. (2, 50%)
- En person som fullførte 5 oppgaver tjente 60% på testen. (5, 60%)
- En person som fullførte 3 oppgaver tjente 70% på testen. (3, 70%)
I hvert av disse settene med sammenkoblede data, kan vi se at antall oppdrag alltid kommer først i bestilte par mens prosentandelen som er tjent på testen kommer på andreplass, sett i første omgang av (10, 95%).
Mens en statistisk analyse av disse dataene også kan brukes til å beregne gjennomsnittlig antall lekseoppgaver som er gjennomført eller gjennomsnittlig testpoeng, kan det være andre spørsmål å stille om dataen. I dette tilfellet ønsker læreren å vite om det er noen sammenheng mellom antall lekseroppgaver slått inn og ytelse på testen, og læreren ville trenge å holde dataene sammenkoblet for å svare på dette spørsmål.
Analyse av sammenkoblede data
De statistiske teknikker av sammenheng og regresjon brukes til å analysere sammenkoblede data hvor korrelasjonskoeffisient kvantifiserer hvor tett dataene ligger langs en rett linje og måler styrken til det lineære forholdet.
Regresjon brukes derimot til flere applikasjoner, inkludert å bestemme hvilken linje som passer best for vårt datasett. Denne linjen kan da på sin side brukes til å estimere eller forutsi y verdier for verdier av x som ikke var en del av vårt opprinnelige datasett.
Det er en spesiell type graf som er spesielt godt egnet for sammenkoblede data kalt en scatterplot. I dette type grafrepresenterer den ene koordinataksen en mengde av de sammenkoblede data mens den andre koordinataksen representerer den andre mengden av de sammenkoblede data.
En spredningsdiagram for de ovennevnte dataene vil ha x-aksen til å angi antall tilordninger som er slått inn mens y-aksen ville betegne poengsummene på enhetstesten.