Biežumu sadalījums statistikā ir saraksts ar mainīgā lieluma vērtībām izlasē. Parasti tas ir saraksts, kas sakārtots pēc daudzuma. Tas parāda, cik reizes parādās katra vērtība. Piemēram, ja 100 cilvēki novērtē savu piekrišanu kādam apgalvojumam piecu punktu Likerta skalā, kur 1 nozīmē stingru piekrišanu un 5 - stingru nepiekrišanu, viņu atbilžu biežuma sadalījums varētu izskatīties šādi:
1 — 20; 2 — 25; 3 — 30; 4 — 15; 5 — 10. Šeit katram skaitlim (Likerta skalas vērtībai) ir piesaistīts skaits, kas norāda, cik respondentu izvēlējās konkrēto atbildi.
Šai vienkāršai tabulai ir divi trūkumi. Ja mainīgais lielums var iegūt nepārtrauktas vērtības, nevis diskrētas vērtības, vai ja iespējamo vērtību skaits ir pārāk liels, tabulas izveide ir sarežģīta, ja tā nav neiespējama. Šādos gadījumos izmanto nedaudz atšķirīgu shēmu, kas balstīta uz vērtību diapazonu. Piemēram, ja aplūkojam klases skolēnu augumu, biežumu tabula varētu izskatīties šādi:
150–159.9 cm — 4; 160–169.9 cm — 12; 170–179.9 cm — 18; 180–189.9 cm — 6. Šeit vērtības ir sagrupētas klasēs (intervālos).
Galvenie jēdzieni
- Absolute biežums (frequency): skaits novērojumu, kas ietilpst konkrētā vērtībā vai klasē.
- Relatīvais biežums (relative frequency): absolute biežums dalīts ar kopējo novērojumu skaitu. Parasti izsaka procentos vai daļā no 1. Piem., relatīvais biežums = f / n.
- Kumulatīvais biežums (cumulative frequency): summēti absolute biežumi līdz konkrētajai vērtībai vai klasei, parāda, cik novērojumu ir mazāki vai vienādi ar doto robežu.
- Biežumu blīvums (frequency density): lieto grupētām tabulām ar atšķirīgām klases platuma vērtībām. Aprēķins: biežums / klases platums. Histogrammā, ja klases platumi nav vienādi, staba augstumam jāatbilst biežumu blīvumam, nevis vienkāršam biežumam.
- Empīriskā sadalījuma funkcija (ESF): kādā punktā x tā rāda relatīvo skaitli novērojumu, kas ir ≤ x. ESF ir diskrēta funkcija diskrētām vērtībām un pakāpju funkcija grupētām vai nepārtrauktām vērtībām.
Histogramma — kā to pareizi veidot un interpretēt
Histogramma ir grafisks biežumu sadalījuma attēlojums, kur abscisē (x) atrodas vērtību klases vai intervāli, bet ordinate (y) — biežums vai biežumu blīvums. Histogrammas stabi attēlo, cik daudz novērojumu ir katrā klasē. Ja visas klases ir vienāda platuma, staba augstums var būt vienkārši biežums vai relatīvais biežums; ja klases platumi atšķiras, izmanto biežumu blīvumu.
Soļi histogrammas izveidei:
- Savāc datus un nosaki minimumu un maksimumu.
- Izvēlies klases (bin) skaitu un platumu. Kopējais skaits k var tikt aprēķināts pēc noteikumiem, piemēram:
- Sturges: k ≈ 1 + log2(n) (vienkāršs ieteikums mazākām datu kopām).
- Freedman–Diaconis: klases platums h = 2 * IQR * n^(−1/3), kur IQR ir starpkvartilu intervāls; ieteicams, ja dati satur izteiktus izkliedes elementus.
- Sakārto datus pēc klases un saskaiti biežumus katrā klasē.
- Ja klases platumi atšķiras, aprēķini biežumu blīvumu = biežums / klases platums.
- Uzzīmē histogrammu: x ass — klases, y ass — biežumu blīvums vai (relatīvais) biežums. Nodrošini, ka laukums katra staba ir proporcionāls īstajam relatīvajam biežumam (ja izmanto blīvumu).
Kumulatīvā histogramma un percentili
Kumulatīvā histogramma vai kumulatīvā frekvenču diagramma rāda kādu daļu novērojumu ir zem noteiktas robežas. No kumulatīvā sadalījuma var nolasīt percentilus: piemēram, 25. percentils (Q1) ir vērtība, zem kuras atrodas 25% datu.
Praktiski piemēri
- Likerta skalas piemērs (diskrētas vērtības): 100 respondentu atbildes 1..5. Aprēķini absolūtos un relatīvos biežumus:
- 1: 20 (relatīvais 0.20 = 20%)
- 2: 25 (0.25 = 25%)
- 3: 30 (0.30 = 30%)
- 4: 15 (0.15 = 15%)
- 5: 10 (0.10 = 10%)
- Skolēnu augumi (nepārtrauktas vērtības): ja izmēri 40 skolēnu augumus, tos sagrupē klasēs (piem., 150–159.9, 160–169.9 utt.). Katrai klasei saskaiti biežumu un, ja nepieciešams, aprēķini blīvumu = biežums / klases platums. Histogramma parādīs, vai augumu sadalījums ir simetrisks, labiski vai kreisi novirzīts, un kur koncentrējas masu maksimums (modes apgabals).
- Lai analizētu ekstremālas vērtības (outliers): biežumu sadalījums palīdz identificēt retas, atšķirīgas vērtības, kas var ietekmēt vidējo un dispersiju. Ja histogrammā redzams izolēts stabs vai garas asti, jāapsver datu transformācija vai robusa mēru izmantošana (piem., mediāna un kvartilu distances).
Interpretācija un ierobežojumi
- Biežumu sadalījums ir atkarīgs no klases izvēles: dažādas klases var dot dažādas vizuālās atzīmes (piem., viens vai vairāki virsotnes). Tāpēc jāpārbauda, vai rezultāts nav mākslīgi radīts ar nevienmērīgu binēšanu.
- Neliela datu kopuma gadījumā histogramma var būt graudaina; ieteicams izmantot tabulu ar diskrētām vērtībām vai ESF.
- Histogramma nerāda tieši precīzas iespējamību blīvuma funkcijas formas — tā ir empīrisks rīks. Lai iegūtu gludāku novērtējumu, var izmantot kodolu blīvuma (kernel density) novērtēšanu.
Programmatūras rīki un īsie piemēri
- Excel: funkcija "Histogram" vai PivotTable + diagramma. Excel automātiski veido binus, bet jāpielāgo binu robežas, lai rezultāts būtu nozīmīgs.
- R: hist(), ggplot2::geom_histogram(), density() (kodolu blīvuma novērtējums). Iespēja viegli regulēt binu skaitu un platumu.
- Python: matplotlib.pyplot.hist(), seaborn.histplot() un seaborn.kdeplot() gludākai blīvuma vizualizācijai.
Īsi praktiski padomi
- Pirms binēšanas apsver datu raksturu — diskrētas vērtības bieži nav jāsagrupē, nepārtrauktas vērtības parasti jāgrupē rūpīgi.
- Ja binu platumi atšķiras, histogrammā lieto biežumu blīvumu, lai nodrošinātu, ka stabu laukumi pareizi atspoguļo relatīvos biežumus.
- Pārbaudi vairākas binēšanas variācijas (piem., pēc Sturges vai Freedman–Diaconis) un izvēlies to, kas vislabāk izgaismo datus bez mākslīgas "pārlieku gludināšanas".
Secinājumā, biežumu sadalījums ir pamata rīks datu aprakstošajā statistikā — ar to var ātri novērtēt datu struktūru, koncentrāciju, simetriju un izteiktākos izkliedes elementus. Pareiza klasifikācija un histogrammas izvēle ļauj iegūt uzticamu priekšstatu par datu sadalījumu un kalpo par bāzi turpmākai kvantitatīvai analīzei.


