Det er midnattvisningen av den nyeste hitfilmen. Folk er stilt opp utenfor teatret og venter på å komme inn. Anta at du blir bedt om å finne midten av linjen. Hvordan vil du gjøre dette?
Det er et par forskjellige måter å gå på løse dette problemet. Til slutt måtte du finne ut hvor mange som var i linjen, og deretter ta halvparten av det tallet. Hvis det totale antallet er jevnt, vil midten av linjen være mellom to personer. Hvis det totale antallet er merkelig, vil senteret være en enkelt person.
Du kan spørre: "Hva har det å finne sentrum av en linje å gjøre med statistikk? "Denne ideen om å finne sentrum er nøyaktig hva som brukes når du beregner medianen til et datasett.
Hva er medianen?
Medianen er en av de tre primære måtene å finne gjennomsnittet av Statistisk data. Det er vanskeligere å beregne enn modusen, men ikke så arbeidsintensiv som å beregne middelverdien. Det er sentrum på omtrent samme måte som å finne sentrum av en linje med mennesker. Etter å ha listet dataverdiene i stigende rekkefølge, er median dataverdien med samme antall dataverdier over seg og under den.
Sak én: Et merkelig antall verdier
Elleve batterier testes for å se hvor lenge de varer. Deres levetid, i timer, er gitt av 10, 99, 100, 103, 103, 105, 110, 111, 115, 130, 131. Hva er median levetid? Siden det er et odde antall dataverdier, tilsvarer dette en linje med et oddetall mennesker. Senteret vil være middelverdien.
Det er elleve dataverdier, så den sjette er i sentrum. Derfor er median batterilevetid den sjette verdien på denne listen, eller 105 timer. Merk at medianen er en av dataverdiene.
Sak to: Et jevnt antall verdier
Tjue katter veies. Vektene deres, i pund, er gitt av 4, 5, 5, 5, 6, 6, 6, 7, 7, 7, 8, 8, 9, 10, 10, 10, 11, 12, 12, 13. Hva er median kattevekt? Siden det er et jevnt antall dataverdier, tilsvarer dette linjen med et jevnt antall mennesker. Senteret er mellom de to mellomverdiene.
I dette tilfellet er senteret mellom tiende og ellevte dataverdier. For å finne medianen beregner vi gjennomsnittet av disse to verdiene, og oppnår (7 + 8) / 2 = 7,5. Her er ikke median en av dataverdiene.
Noen andre saker?
De eneste to mulighetene er å ha et jevnt eller oddetall dataverdier. Så de to eksemplene ovenfor er de eneste mulige måtene å beregne medianen på. Enten vil median være middelverdien, eller median vil være middel av de to midtverdier. Typisk er datasett mye større enn de vi så på ovenfor, men prosessen med å finne median er den samme som disse to eksemplene.
Effekten av outliers
Midlere og modus er svært følsomme for utliggere. Hva dette betyr er at tilstedeværelsen av en uteligger dramatisk vil påvirke begge disse tiltakene i sentrum. En fordel med medianen er at den ikke påvirkes like mye av en uteligger.
For å se dette, vurder datasettet 3, 4, 5, 5, 6. Gjennomsnittet er (3 + 4 + 5 + 5 + 6) / 5 = 4,6, og medianen er 5. Behold nå det samme datasettet, men legg til verdien 100: 3, 4, 5, 5, 6, 100. Helt klart 100 er en outlier, siden den er mye større enn alle de andre verdiene. Gjennomsnittet for det nye settet er nå (3 + 4 + 5 + 5 + 6 + 100) / 6 = 20,5. Imidlertid median for det nye settet er 5. Selv om
Bruk av medianen
På grunn av hva vi har sett ovenfor, er medianen det foretrukne målet på gjennomsnittet når dataene inneholder utliggere. Når inntektene rapporteres, er en typisk tilnærming å rapportere medianinntekten. Dette gjøres fordi gjennomsnittsinntekten er skjev av et lite antall mennesker med veldig høye inntekter (tenk Bill Gates og Oprah).