Hva er den interkvartile rekkevidden?

click fraud protection

Regelen mellom kvartaler er nyttig for å oppdage tilstedeværelsen av utliggere. uteliggere er individuelle verdier som faller utenfor det samlede mønsteret i et datasett. Denne definisjonen er noe vag og subjektiv, så det er nyttig å ha en regel som skal brukes når å bestemme om et datapunkt virkelig er en utlegger - det er her interkvarteringsområdet regelen kommer inn.

Ethvert sett med data kan beskrives av dets fem-talls sammendrag. Disse fem tallene, som gir deg den informasjonen du trenger for å finne mønstre og utliggere, består av (i stigende rekkefølge):

Disse fem tallene forteller en person mer om dataene sine enn å se på tallene samtidig, eller i det minste gjøre dette mye enklere. For eksempel område, som er det minste som er trukket fra det maksimale, er en indikator på hvor spredt dataene er i et sett (merk: området er veldig følsom for outliers - hvis en outlier også er et minimum eller maksimum, vil området ikke være en nøyaktig representasjon av bredden i en data sett).

Rekkevidden vil være vanskelig å ekstrapolere ellers. I likhet med rekkevidden, men mindre følsom for outliers, er interkvartilområdet. De

instagram viewer
interkvartil rekkevidde beregnes på omtrent samme måte som rekkevidden. Alt du gjør for å finne det er å trekke fra den første kvartilen fra den tredje kvartilen:

Interkvartilområdet viser hvordan dataene spres om medianen. Det er mindre utsatt enn rekkevidden for utskyttere og kan derfor være mer nyttig.

Selv om det ikke ofte påvirkes mye av dem, kan interkvartilområdet brukes til å oppdage utliggere. Dette gjøres ved å bruke disse trinnene:

Husk at interkvartilregelen bare er en tommelfingerregel som generelt holder, men ikke gjelder for alle tilfeller. Generelt sett bør du alltid følge opp din outlier-analyse ved å studere de resulterende outliers for å se om de gir mening. Eventuelle potensielle outlier oppnådd med interkvartilmetoden bør undersøkes i sammenheng med hele datasettet.

Se regel om interkvartil rekkevidde på jobb med et eksempel. Anta at du har følgende datasett: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. Fem-tallsammendraget for dette datasettet er minimum = 1, første kvartil = 4, median = 7, tredje kvartil = 10 og maksimum = 17. Du kan se på dataene og automatisk si at 17 er en outlier, men hva sier interkvarteringsregelen?

Multipliser nå svaret med 1,5 for å få 1,5 x 6 = 9. Ni mindre enn den første kvartilen er 4 - 9 = -5. Ingen data er mindre enn dette. Ni mer enn den tredje kvartilen er 10 + 9 = 19. Ingen data er større enn dette. Til tross for at maksimalverdien er fem mer enn det nærmeste datapunktet, viser interkvarteringsregelen at den sannsynligvis ikke bør betraktes som en outlier for dette datasettet.

instagram story viewer