Det er egentlig ingen regel for hvor mange klasser det skal være. Det er et par ting du må vurdere om antall klasser. Hvis det bare var en klasse, ville alle dataene falle inn i denne klassen. Histogrammet vårt vil ganske enkelt være et enkelt rektangel med høyde gitt av antall elementer i datasettet vårt. Dette vil ikke være veldig nyttig eller nyttig histogram.
På det andre ytterpunktet kan vi ha et mangfold av klasser. Dette vil resultere i et mangfold av stolper, hvorav ingen sannsynligvis vil være veldig høye. Det ville være veldig vanskelig å bestemme noen skilleegenskaper fra dataene ved å bruke denne typen histogram.
For å beskytte mot disse to ytterpunktene har vi en tommelfingerregel som skal brukes til å bestemme antall klasser for et histogram. Når vi har et relativt lite datasett, bruker vi vanligvis bare rundt fem klasser. Hvis datasettet er relativt stort, bruker vi rundt 20 klasser.
La det igjen understrekes at dette er en tommelfingerregel, ikke et absolutt statistisk prinsipp. Det kan være gode grunner til å ha et annet antall klasser for data. Vi vil se et eksempel på dette nedenfor.
Før vi tar for oss noen få eksempler, vil vi se hvordan vi kan bestemme hva klassene faktisk er. Vi begynner denne prosessen med å finne område av våre data. Med andre ord trekker vi den laveste dataverdien fra den høyeste dataverdien.
Når datasettet er relativt lite, deler vi området med fem. Kvotienten er bredden på klassene for histogrammet vårt. Vi vil sannsynligvis trenge å gjøre noen avrundinger i denne prosessen, noe som betyr at det totale antallet klasser kanskje ikke ender opp med å bli fem.
Når datasettet er relativt stort, deler vi området med 20. Akkurat som før gir dette delingsproblemet oss bredden på klassene for histogrammet vårt. Som vi så tidligere, kan avrundingen vår resultere i litt mer eller litt mindre enn 20 klasser.
I noen av de store eller små datasettstilfellene får vi første klasse til å begynne på et punkt som er litt mindre enn den minste dataverdien. Vi må gjøre dette på en slik måte at den første dataverdien faller i første klasse. Andre påfølgende klasser bestemmes av bredden som ble satt da vi delte rekkevidden. Vi vet at vi er i den siste klassen når vår høyeste dataverdi er inneholdt av denne klassen.
For et eksempel vil vi bestemme en passende klassebredde og klasser for datasettet: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.
Vi ser at det er 27 datapunkter i settet vårt. Dette er et relativt lite sett, og derfor vil vi dele rekkevidden med fem. Området er 19.2 - 1.1 = 18.1. Vi deler 18,1 / 5 = 3,62. Dette betyr at en klassebredde på 4 vil være passende. Den minste dataverdien vår er 1,1, så vi starter første klasse på et punkt mindre enn dette. Siden dataene våre består av positive tall, vil det være fornuftig å få den første klassen til å gå fra 0 til 4.
For et eksempel på dette, antar det at det er en flervalgsprøve med 35 spørsmål om den, og 1000 elever på en videregående skole tar testen. Vi ønsker å danne et histogram som viser antall elever som oppnådde visse poengsummer på testen. Vi ser at 35/5 = 7 og at 35/20 = 1,75. Til tross for at tommelfingerregelen vår gir oss valg av klasser med bredde 2 eller 7 å bruke for histogrammet vårt, kan det være bedre å ha klasser med bredde 1. Disse klassene tilsvarer hvert spørsmål som en student svarte riktig på testen. Den første av disse ville være sentrert på 0 og den siste ville være sentrert på 35.