Forståelse av relative frekvenshistogrammer

I statistikk, er det mange begreper som har subtile sondringer mellom dem. Et eksempel på dette er forskjellen mellom frekvens og relativ frekvens. Selv om det er mange bruksområder for relative frekvenser, er det spesielt en som involverer et relativt frekvenshistogram. Dette er en type graf som har forbindelser til andre emner i statistikk og matematisk statistikk.

Definisjon

Histogrammer er statistiske grafer som ser ut søylediagrammer. Typisk er imidlertid betegnelsen histogram forbeholdt kvantitativ variabler. Den horisontale aksen til et histogram er en tallinje som inneholder klasser eller kasser med ensartet lengde. Disse søylene er intervaller på en tallinje der data kan falle og kan bestå av et enkelt tall (vanligvis for diskrete datasett som er relativt små) eller et utvalg av verdier (for større diskrete datasett og kontinuerlige data).

For eksempel kan vi være interessert i å vurdere fordelingen av score på en 50 poeng quiz for en klasse av studenter. En mulig måte å konstruere søpplene vil være å ha en annen søppel for hvert tiende punkt.

instagram viewer

Den vertikale aksen til et histogram representerer tellingen eller frekvensen som en dataverdi oppstår i hvert av søppelkassene. Jo høyere søylen er, jo flere dataverdier faller innenfor dette området for søppelverdier. For å gå tilbake til vårt eksempel, hvis vi det er fem studenter som scoret mer enn 40 poeng på quizen, så vil stolpen som tilsvarer 40 til 50 søylen være fem enheter høy.

Sammenligning av frekvenshistogram

Et relativt frekvenshistogram er en mindre modifisering av et typisk frekvenshistogram. I stedet for å bruke en vertikal akse for telling av dataverdier som faller i en gitt skuff, bruker vi denne aksen til å representere den totale andelen dataverdier som faller i denne skuffen. Siden 100% = 1, må alle stolper ha en høyde fra 0 til 1. Videre må høydene på alle stolpene i vårt relative frekvenshistogram sum til 1.

I det løpende eksemplet som vi har sett på, antar vi at det er 25 elever i klassen vår og fem har scoret mer enn 40 poeng. I stedet for å konstruere en stolpe med høyde fem for denne søpla, ville vi ha en stolpe med høyde 5/25 = 0,2.

Når vi sammenligner et histogram med et relativt frekvenshistogram, hver med de samme søppelkassene, vil vi legge merke til noe. Histogrammenes generelle form vil være identisk. Et relativt frekvenshistogram understreker ikke de totale tellingene i hver søppelkasse. I stedet fokuserer denne grafen på hvordan antall dataverdier i søppelkassen forholder seg til de andre søppelkassene. Måten det viser dette forholdet er på prosent av det totale antall dataverdier.

Sannsynlighetsmassefunksjoner

Vi lurer kanskje på hva poenget er med å definere et relativt frekvenshistogram. Én nøkkelapplikasjon gjelder diskrete tilfeldige variabler der våre binger er av bredde en og er sentrert rundt hvert ikke-negative tall. I dette tilfellet kan vi definere en stykkevis funksjon med verdier som tilsvarer de vertikale høydene på stolpene i vårt relative frekvenshistogram.

Denne typen funksjoner kalles en sannsynlighetsmassefunksjon. Årsaken til å konstruere funksjonen på denne måten er at kurven som er definert av funksjonen har en direkte forbindelse til sannsynlighet. Området under kurven fra verdiene en til b er sannsynligheten for at den tilfeldige variabelen har en verdi fra en til b.

Forbindelsen mellom sannsynlighet og areal under kurven er en som dukker opp gjentatte ganger i matematisk statistikk. Å bruke en sannsynlighetsmassefunksjon for å modellere et relativ frekvenshistogram er en annen slik forbindelse.