Interkvartilområdet (IQR) er forskjellen mellom første kvartil og tredje kvartil. Formelen for dette er:
IQR = Q3 - Sp1
Det er mange målinger av variabiliteten til et datasett. Begge område og standardavvik fortell oss hvor spredt våre data er. Problemet med denne beskrivende statistikken er at de er ganske følsomme for utligere. En måling av spredningen av et datasett som er mer motstandsdyktig mot tilstedeværelsen av utliggere er interkvartilområdet.
Definisjon av interkvartil rekkevidde
Som sett over er interkvartilområdet bygd på beregning av annen statistikk. Før vi bestemmer interkvartilområdet, må vi først vite verdiene til den første kvartilen og den tredje kvartilen. (Naturligvis avhenger første og tredje kvartil av verdien av medianen).
Når vi har bestemt verdiene for første og tredje kvartil, er interkvartilområdet veldig enkelt å beregne. Alt vi trenger å gjøre er å trekke fra den første kvartilen fra den tredje kvartilen. Dette forklarer bruken av begrepet interkvartilområde for denne statistikken.
Eksempel
For å se et eksempel på beregning av et interkvartilt område, vil vi vurdere datasettet: 2, 3, 3, 4, 5, 6, 6, 7, 8, 8, 8, 9. De fem nummer sammendrag for dette datasettet er:
- Minimum 2
- Første kvartil på 3,5
- Median av 6
- Tredje kvartil av 8
- Maksimalt 9
Dermed ser vi at interkvartilområdet er 8 - 3,5 = 4,5.
Betydningen av det interkvartile området
Området gir oss en måling av hvor spredt hele datamaterialet vårt er. Interkvartilområdet, som forteller oss hvor langt fra hverandre første og tredje kvartil er, indikerer hvor spredt de midterste 50% av datasettet vårt er.
Motstand mot utskyttere
Den primære fordelen ved å bruke interkvartilområdet i stedet for området for måling av spredning av et datasett er at interkvartilområdet ikke er følsomt for utliggere. For å se dette, vil vi se på et eksempel.
Fra datasettet over har vi et interkvartilt område på 3,5, et område på 9 - 2 = 7 og et standardavvik på 2,34. Hvis vi erstatter den høyeste verdien på 9 med en ekstrem outlier på 100, blir standardavviket 27,37 og området er 98. Selv om vi har ganske drastiske forskyvninger av disse verdiene, påvirkes ikke den første og den tredje kvartilen og interkvartilområdet endrer seg ikke.
Bruk av interkvartilområdet
Foruten å være et mindre følsomt mål for spredningen av et datasett, har interkvartilområdet en annen viktig bruk. På grunn av sin motstand mot outliers er interkvartilområdet nyttig for å identifisere når en verdi er en outlier.
De interkvartil rekkevidde regel er det som informerer oss om vi har en mild eller sterk uteligger. For å se etter en utligger, må vi se under den første kvartilen eller over den tredje kvartilen. Hvor langt vi skal gå avhenger av verdien av interkvartilområdet.