Forstå kvantiler: Definisjoner og bruksområder

Sammendragsstatistikk som median, første kvartil og tredje kvartil er målinger av posisjon. Dette er fordi disse tallene indikerer hvor en spesifikk andel av distribusjonen av data ligger. Median er for eksempel midtposisjonen til dataene som undersøkes. Halvparten av dataene har verdier som er mindre enn medianen. Tilsvarende har 25% av dataene verdier som er mindre enn den første kvartilen, og 75% av dataene har verdier som er mindre enn den tredje kvartilen.

Dette konseptet kan generaliseres. En måte å gjøre dette på er å vurdere persentiler. 90-persentilen indikerer punktet der 90% prosent av dataene har verdier som er mindre enn dette tallet. Mer generelt er pth prosentilen er tallet n som p% av dataene er mindre enn n.

Kontinuerlige tilfeldige variabler

Selv om ordrestatistikken for median, første kvartil og tredje kvartil typisk er introdusert i en innstilling med et diskret datasett, kan denne statistikken også defineres for en kontinuerlig tilfeldig variabel. Siden vi jobber med kontinuerlig distribusjon bruker vi integralen. De pth prosentilen er et tall n slik at:

instagram viewer

∫_-₶ⁿf ( x ) dx = p/100.

Her f ( x ) er en sannsynlighetstetthetsfunksjon. Dermed kan vi få tak i hvilket som helst persentil vi ønsker for kontinuerlige fordeling.

quantiles

En ytterligere generalisering er å merke seg at vår ordrestatistikk deler opp distribusjonen som vi jobber med. Median splitter datasettet i to, og median, eller 50 prosentil av en kontinuerlig distribusjon, deler fordelingen i to i form av areal. Den første kvartilen, median og tredje kvartil partisjonerer dataene våre i fire stykker med samme telling i hver. Vi kan bruke integrasjonen ovenfor for å oppnå den 25., 50. og 75. persentilen, og dele en kontinuerlig distribusjon i fire deler med lik område.

Vi kan generalisere denne prosedyren. Spørsmålet som vi kan starte med får et naturlig tall n, hvordan kan vi dele fordelingen av en variabel inn i n like store biter? Dette taler direkte til ideen om kvantiler.

De n kvantiler for et datasett blir funnet omtrent ved å rangere dataene i rekkefølge og deretter dele denne rangeringen gjennom n - 1 like fordelt poeng på intervallet.

Hvis vi har en sannsynlighetstetthetsfunksjon for en kontinuerlig tilfeldig variabel, bruker vi integrasjonen ovenfor for å finne kvantilene. Til n kvantiler, vi ønsker:

Den første som har 1 /n av fordelingsområdet til venstre for den.
Den andre til å ha 2 /n av fordelingsområdet til venstre for den.
De rth å ha r/n av fordelingsområdet til venstre for den.
Den siste til å ha (n - 1)/n av fordelingsområdet til venstre for den.

Det ser vi for et naturlig antall n, den n kvantiler tilsvarer 100r/nth prosentiler, hvor r kan være et hvilket som helst naturlig tall fra 1 til n - 1.

Vanlige mengder

Visse typer kvantiler brukes ofte nok til å ha spesifikke navn. Nedenfor er en liste over disse:

Det 2 kvantilet kalles median
De 3 kvantilene kalles terciles
De 4 kvantilene kalles kvartiler
De 5 kvantilene kalles kvintiler
De 6 kvantilene kalles sekstiler
De 7 kvantilene kalles septiler
De 8 kvantilene kalles oktiler
De 10 kvantilene kalles desiler
De 12 kvantilene kalles duodeciles
De 20 kvantilene kalles vigintiler
De 100 kvantilene kalles percentiler
De 1000 kvantilene kalles permiller

Naturligvis eksisterer andre kvantiler utover de som er på listen over. Mange ganger tilsvarer den spesifikke kvantilen som brukes størrelsen på prøven fra en kontinuerlig fordeling.

Bruk av kvantiler

I tillegg til å spesifisere plasseringen til et sett med data, er kvantiler nyttige på andre måter. Anta at vi har et enkelt tilfeldig utvalg fra en populasjon, og fordelingen av befolkningen er ukjent. For å finne ut om en modell, for eksempel en normalfordeling eller Weibull-distribusjon passer godt for befolkningen vi samplet fra, kan vi se på kvantilene til dataene våre og modellen.

Ved å matche kvantilene fra eksempeldataene våre til kvantilene fra en bestemt sannsynlighetsfordeling, resultatet er en samling av sammenkoblede data. Vi plotter disse dataene i en spredningsdiagram, kjent som et kvant-kvantil plot eller q-q plot. Hvis den resulterende spredningsplott er omtrent lineær, passer modellen godt for våre data.