Biežumu sadalījums statistikā: definīcija, histogramma un praktiski piemēri
Iepazīsties ar biežumu sadalījumu: definīcija, histogrammas izveide un praktiski piemēri soli pa solim — ideāli studentiem, pētniekiem un datu analītiķiem.
Biežumu sadalījums statistikā ir saraksts ar mainīgā lieluma vērtībām izlasē. Parasti tas ir saraksts, kas sakārtots pēc daudzuma. Tas parāda, cik reizes parādās katra vērtība. Piemēram, ja 100 cilvēki novērtē savu piekrišanu kādam apgalvojumam piecu punktu Likerta skalā, kur 1 nozīmē stingru piekrišanu un 5 - stingru nepiekrišanu, viņu atbilžu biežuma sadalījums varētu izskatīties šādi:
1 — 20; 2 — 25; 3 — 30; 4 — 15; 5 — 10. Šeit katram skaitlim (Likerta skalas vērtībai) ir piesaistīts skaits, kas norāda, cik respondentu izvēlējās konkrēto atbildi.
Šai vienkāršai tabulai ir divi trūkumi. Ja mainīgais lielums var iegūt nepārtrauktas vērtības, nevis diskrētas vērtības, vai ja iespējamo vērtību skaits ir pārāk liels, tabulas izveide ir sarežģīta, ja tā nav neiespējama. Šādos gadījumos izmanto nedaudz atšķirīgu shēmu, kas balstīta uz vērtību diapazonu. Piemēram, ja aplūkojam klases skolēnu augumu, biežumu tabula varētu izskatīties šādi:
150–159.9 cm — 4; 160–169.9 cm — 12; 170–179.9 cm — 18; 180–189.9 cm — 6. Šeit vērtības ir sagrupētas klasēs (intervālos).
Galvenie jēdzieni
- Absolute biežums (frequency): skaits novērojumu, kas ietilpst konkrētā vērtībā vai klasē.
- Relatīvais biežums (relative frequency): absolute biežums dalīts ar kopējo novērojumu skaitu. Parasti izsaka procentos vai daļā no 1. Piem., relatīvais biežums = f / n.
- Kumulatīvais biežums (cumulative frequency): summēti absolute biežumi līdz konkrētajai vērtībai vai klasei, parāda, cik novērojumu ir mazāki vai vienādi ar doto robežu.
- Biežumu blīvums (frequency density): lieto grupētām tabulām ar atšķirīgām klases platuma vērtībām. Aprēķins: biežums / klases platums. Histogrammā, ja klases platumi nav vienādi, staba augstumam jāatbilst biežumu blīvumam, nevis vienkāršam biežumam.
- Empīriskā sadalījuma funkcija (ESF): kādā punktā x tā rāda relatīvo skaitli novērojumu, kas ir ≤ x. ESF ir diskrēta funkcija diskrētām vērtībām un pakāpju funkcija grupētām vai nepārtrauktām vērtībām.
Histogramma — kā to pareizi veidot un interpretēt
Histogramma ir grafisks biežumu sadalījuma attēlojums, kur abscisē (x) atrodas vērtību klases vai intervāli, bet ordinate (y) — biežums vai biežumu blīvums. Histogrammas stabi attēlo, cik daudz novērojumu ir katrā klasē. Ja visas klases ir vienāda platuma, staba augstums var būt vienkārši biežums vai relatīvais biežums; ja klases platumi atšķiras, izmanto biežumu blīvumu.
Soļi histogrammas izveidei:
- Savāc datus un nosaki minimumu un maksimumu.
- Izvēlies klases (bin) skaitu un platumu. Kopējais skaits k var tikt aprēķināts pēc noteikumiem, piemēram:
- Sturges: k ≈ 1 + log2(n) (vienkāršs ieteikums mazākām datu kopām).
- Freedman–Diaconis: klases platums h = 2 * IQR * n^(−1/3), kur IQR ir starpkvartilu intervāls; ieteicams, ja dati satur izteiktus izkliedes elementus.
- Sakārto datus pēc klases un saskaiti biežumus katrā klasē.
- Ja klases platumi atšķiras, aprēķini biežumu blīvumu = biežums / klases platums.
- Uzzīmē histogrammu: x ass — klases, y ass — biežumu blīvums vai (relatīvais) biežums. Nodrošini, ka laukums katra staba ir proporcionāls īstajam relatīvajam biežumam (ja izmanto blīvumu).
Kumulatīvā histogramma un percentili
Kumulatīvā histogramma vai kumulatīvā frekvenču diagramma rāda kādu daļu novērojumu ir zem noteiktas robežas. No kumulatīvā sadalījuma var nolasīt percentilus: piemēram, 25. percentils (Q1) ir vērtība, zem kuras atrodas 25% datu.
Praktiski piemēri
- Likerta skalas piemērs (diskrētas vērtības): 100 respondentu atbildes 1..5. Aprēķini absolūtos un relatīvos biežumus:
- 1: 20 (relatīvais 0.20 = 20%)
- 2: 25 (0.25 = 25%)
- 3: 30 (0.30 = 30%)
- 4: 15 (0.15 = 15%)
- 5: 10 (0.10 = 10%)
- Skolēnu augumi (nepārtrauktas vērtības): ja izmēri 40 skolēnu augumus, tos sagrupē klasēs (piem., 150–159.9, 160–169.9 utt.). Katrai klasei saskaiti biežumu un, ja nepieciešams, aprēķini blīvumu = biežums / klases platums. Histogramma parādīs, vai augumu sadalījums ir simetrisks, labiski vai kreisi novirzīts, un kur koncentrējas masu maksimums (modes apgabals).
- Lai analizētu ekstremālas vērtības (outliers): biežumu sadalījums palīdz identificēt retas, atšķirīgas vērtības, kas var ietekmēt vidējo un dispersiju. Ja histogrammā redzams izolēts stabs vai garas asti, jāapsver datu transformācija vai robusa mēru izmantošana (piem., mediāna un kvartilu distances).
Interpretācija un ierobežojumi
- Biežumu sadalījums ir atkarīgs no klases izvēles: dažādas klases var dot dažādas vizuālās atzīmes (piem., viens vai vairāki virsotnes). Tāpēc jāpārbauda, vai rezultāts nav mākslīgi radīts ar nevienmērīgu binēšanu.
- Neliela datu kopuma gadījumā histogramma var būt graudaina; ieteicams izmantot tabulu ar diskrētām vērtībām vai ESF.
- Histogramma nerāda tieši precīzas iespējamību blīvuma funkcijas formas — tā ir empīrisks rīks. Lai iegūtu gludāku novērtējumu, var izmantot kodolu blīvuma (kernel density) novērtēšanu.
Programmatūras rīki un īsie piemēri
- Excel: funkcija "Histogram" vai PivotTable + diagramma. Excel automātiski veido binus, bet jāpielāgo binu robežas, lai rezultāts būtu nozīmīgs.
- R: hist(), ggplot2::geom_histogram(), density() (kodolu blīvuma novērtējums). Iespēja viegli regulēt binu skaitu un platumu.
- Python: matplotlib.pyplot.hist(), seaborn.histplot() un seaborn.kdeplot() gludākai blīvuma vizualizācijai.
Īsi praktiski padomi
- Pirms binēšanas apsver datu raksturu — diskrētas vērtības bieži nav jāsagrupē, nepārtrauktas vērtības parasti jāgrupē rūpīgi.
- Ja binu platumi atšķiras, histogrammā lieto biežumu blīvumu, lai nodrošinātu, ka stabu laukumi pareizi atspoguļo relatīvos biežumus.
- Pārbaudi vairākas binēšanas variācijas (piem., pēc Sturges vai Freedman–Diaconis) un izvēlies to, kas vislabāk izgaismo datus bez mākslīgas "pārlieku gludināšanas".
Secinājumā, biežumu sadalījums ir pamata rīks datu aprakstošajā statistikā — ar to var ātri novērtēt datu struktūru, koncentrāciju, simetriju un izteiktākos izkliedes elementus. Pareiza klasifikācija un histogrammas izvēle ļauj iegūt uzticamu priekšstatu par datu sadalījumu un kalpo par bāzi turpmākai kvantitatīvai analīzei.

(Absolūtā) biežumu sadalījuma piemērs. Šī ir Angolas iedzīvotāju piramīda 2005. gadam.

Šī ir Ķīnas iedzīvotāju piramīda 2005. gadā.
Pieteikumi
Pārvaldīt un strādāt ar biežumu tabulārajiem datiem ir daudz vienkāršāk nekā strādāt ar neapstrādātiem datiem. Pastāv vienkārši algoritmi, lai no šīm tabulām aprēķinātu mediānu, vidējo vērtību (statistiku), standartnovirzi utt.
Statistikas hipotēžu pārbaude balstās uz frekvenču sadalījumu atšķirību un līdzību novērtēšanu. Šis novērtējums ietver centrālās tendences jeb vidējo lielumu mērījumus, piemēram, vidējo vērtību un mediānu, un mainīguma jeb statistiskās dispersijas mērījumus, piemēram, standartnovirzi vai dispersiju.
Biežumu sadalījumu uzskata par izkropļotu, ja tā vidējā vērtība un mediāna atšķiras. Biežumu sadalījuma kurtoze ir rezultātu koncentrācija pie vidējā rādītāja vai arī tas, cik maksimāli liels ir sadalījums, ja to attēlo grafiski, piemēram, histogrammā. Ja sadalījums ir ar lielāku maksimumu nekā normālais sadalījums, to sauc par leptokurtisku; ja sadalījums ir ar mazāku maksimumu, to sauc par platikurtisku.
Biežumu sadalījumu izmanto arī frekvenču analīzē, lai uzlauztu kodus, un tas attiecas uz burtu relatīvo biežumu dažādās valodās.
Jautājumi un atbildes
J: Kas ir frekvenču sadalījums?
A: Biežumu sadalījums ir saraksts ar mainīgā lieluma vērtībām izlasē, kas sakārtotas pēc daudzuma. Tas parāda, cik reizes parādās katra vērtība.
J: Kā varētu izskatīties piecu punktu Likerta skalas atbilžu biežuma sadalījums?
A: Atbildes biežuma sadalījums piecu punktu Likerta skalai var izskatīties kā vienkārša tabula, kurā norādīts to cilvēku skaits, kas novērtējuši katru skalas punktu.
J: Kādi ir divi trūkumi šāda veida tabulas izmantošanā?
A: Divi šāda veida tabulu izmantošanas trūkumi ir tādi, ka to var būt grūti vai pat neiespējami izmantot, ja runa ir par nepārtrauktām vērtībām vai ja ir pārāk daudz iespējamo vērtību.
J: Ar ko šī shēma atšķiras, ja runa ir par nepārtrauktām vērtībām vai lielu skaitu iespējamo vērtību?
A: Ja runa ir par nepārtrauktām vērtībām vai lielu skaitu iespējamo vērtību, var izmantot nedaudz atšķirīgu shēmu, kas balstīta uz vērtību diapazonu.
J: Kā varētu izskatīties skolēnu augstuma biežumu tabula?
A: Skolēnu augstuma biežumu tabulā varētu parādīt diapazonus un to, cik skolēnu ietilpst katrā diapazonā.
J: Kādu informāciju sniedz biežumu sadalījums?
A: Biežumu sadalījums sniedz informāciju par to, cik bieži izlasēs parādās konkrēti mainīgie lielumi un kā tie ir sadalīti šajās izlasēs.
Meklēt