Chebysjevs ulikhet sier at minst 1-1 /K2 av data fra en prøve må falle innenfor K standardavvik fra gjennomsnittet (her K er noe positivt ekte nummer større enn en).
Ethvert datasett som normalt distribueres, eller i form av en klokkekurve, har flere funksjoner. En av dem tar for seg spredningen av dataene i forhold til antall standardavvik fra gjennomsnittet. I en normalfordeling vet vi at 68% av dataene er ett standardavvik fra gjennomsnittet, 95% er to standardavvik fra gjennomsnittet, og omtrent 99% er innenfor tre standardavvik fra gjennomsnittet.
Men hvis datasettet ikke er distribuert i form av en bjellekurve, kan en annen mengde være innenfor ett standardavvik. Chebyshevs ulikhet gir en måte å vite hvilken brøkdel av data som faller innenfor K standardavvik fra gjennomsnittet for noen datasett.
Fakta om ulikheten
Vi kan også oppgi ulikheten ovenfor ved å erstatte uttrykket “data from a sample” med sannsynlighetsfordeling. Dette fordi Chebyshevs ulikhet er et resultat av sannsynlighet, som deretter kan brukes på statistikk.
Det er viktig å merke seg at denne ulikheten er et resultat som er bevist matematisk. Det er ikke som empirisk forhold mellom middel og modus, eller tommelfingerregel som forbinder rekkevidden og standardavviket.
Illustrasjon av ulikheten
For å illustrere ulikheten, vil vi se på den for noen få verdier av K:
- Til K = 2 vi har 1 - 1 /K2 = 1 - 1/4 = 3/4 = 75%. Så Chebyshevs ulikhet sier at minst 75% av dataverdiene for en hvilken som helst distribusjon må være innenfor to standardavvik fra gjennomsnittet.
- Til K = 3 vi har 1 - 1 /K2 = 1 - 1/9 = 8/9 = 89%. Så Chebyshevs ulikhet sier at minst 89% av dataverdiene for enhver distribusjon må være innenfor tre standardavvik fra gjennomsnittet.
- Til K = 4 vi har 1 - 1 /K2 = 1 - 1/16 = 15/16 = 93.75%. Så Chebyshevs ulikhet sier at minst 93,75% av dataverdiene for en hvilken som helst distribusjon må være innenfor to standardavvik fra gjennomsnittet.
Eksempel
Anta at vi har prøvetatt vektene til hunder i det lokale dyrehjemmet og funnet ut at prøven vår har et gjennomsnitt på 20 pund med et standardavvik på 3 pund. Ved bruk av Chebyshevs ulikhet, vet vi at minst 75% av hundene som vi prøvde, har vekter som er to standardavvik fra gjennomsnittet. To ganger standardavviket gir oss 2 x 3 = 6. Trekk fra og legg til dette fra gjennomsnittet av 20. Dette forteller oss at 75% av hundene har vekt fra 14 til 26 pund.
Bruk av ulikheten
Hvis vi vet mer om distribusjonen som vi jobber med, kan vi vanligvis garantere at mer data er et visst antall standardavvik fra gjennomsnittet. Hvis vi for eksempel vet at vi har en normalfordeling, er 95% av dataene to standardavvik fra gjennomsnittet. Chebyshevs ulikhet sier at i denne situasjonen vet vi det i det minste 75% av dataene er to standardavvik fra gjennomsnittet. Som vi ser i dette tilfellet, kan det være mye mer enn 75%.
Verdien av ulikheten er at det gir oss et "verre tilfelle" -scenario der det eneste vi vet om eksempeldataene våre (eller sannsynlighetsfordelingen) er gjennomsnittet og standardavvik. Når vi ikke vet noe annet om dataene våre, gir Chebyshevs ulikhet en viss ekstra innsikt i hvor spredt datasettet er.
Ulikhetens historie
Ulikheten er oppkalt etter den russiske matematikeren Pafnuty Chebyshev, som først uttalte ulikheten uten bevis i 1874. Ti år senere ble ulikheten bevist av Markov i Ph.D. avhandling. På grunn av avvik i hvordan man representerer det russiske alfabetet på engelsk, er det Chebyshev også stavet som Tchebysheff.