Statistika — definīcija, metodes un pielietojumi

Iegūsti skaidru statistikas definīciju, efektīvas metodes un praktiskus pielietojumus — aprakstošā un inferenciālā statistika datu analīzē medicīnā, ekonomikā, mārketingā un zinātnē.

Autors: Leandro Alegsa

04-01-2026 22:51

Statistika ir lietišķās matemātikas nozare, kas nodarbojas ar datu vākšanu, organizēšanu, analīzi, interpretāciju un prezentāciju. Aprakstošā statistika apkopo datus. Inferenciālā statistika ļauj prognozēt. Statistika palīdz pētīt daudzas citas jomas, piemēram, zinātni, medicīnu, ekonomiku, psiholoģiju, politiku un mārketingu. Cilvēku, kas strādā statistikas jomā, sauc par statistiķi. Vārds "statistika" ir ne tikai studiju jomas nosaukums, bet arī apzīmē skaitļus, ko izmanto datu vai attiecību aprakstīšanai.

Kas ir statistikas pamatjēdzieni?

Statistikā bieži sastopamie jēdzieni:

Populācija — viss elements kopums, ko interesē pētījums (piem., visi valsts iedzīvotāji).
Paraugs — daļa no populācijas, ko reāli izpēta; paraugs tiek izmantots, lai secinātu par populāciju.
Mainīgais (variabls) — īpašība, ko mēra (piem., vecums, ienākumi, dzimums). Mainīgie var būt kvantitatīvi (skaitliski) vai kvalitatīvi (kategoriski).
Mērvienības — mērogi un vienības, kas precizē, kā tiek izteikts mainīgais (piem., eiro, gadi, procenti).

Datu vākšana un paraugu veidošana

Datu kvalitāte ir pētījuma rezultātu pamats. Izplatītākās paraugu ņemšanas metodes:

Vienkārša nejauša izlase — katram populācijas loceklim ir vienāda iespēja tikt iekļautam paraugā.
Stratificēta izlase — populācija tiek sadalīta slāņos (strātā), un no katra slāņa tiek ņemts paraugs; izmanto, lai nodrošinātu reprezentativitāti.
Klasteru izlase — populācija sadalīta klasteros (piem., skolas), un izvēlas dažus klasterus pilnai izpētei.
Sistematiskā izlase — tiek izvēlēts ikkatrs n‑tais elements pēc noteikta sākumpunkta.

Svarīgi arī ņemt vērā novērošanas metodes (aptaujas, eksperimentālās iekārtas, datu bāzes) un iespējamos kļūdas avotus (mērījumu kļūdas, atbildētāju neuzticamība, neatbilstīga izlase).

Aprakstošā statistika — kopsavilkums un vizualizācija

Aprakstošā statistika apkopo un ataino datus, izmantojot skaitliskus rādītājus un grafikus. Biežāk lietotie rādītāji:

Centrālās tendences rādītāji: vidējais (aritmētiskais vidējais), mediāna (vidējā vērtība), moda (biežākā vērtība).
Izkliedes rādītāji: dispersija, standartnovirze, interkvartila amplitūda (IQR), diapazons.
Asimetrija un ekscesa rādītāji — apraksta sadalījuma formu (šķietami "sānu" vai "asāks/plakans").

Datiem vizuāli attēlot izmanto grafikus: histogrammas, stabiņu diagrammas, kārbu (boxplot), izkliedes diagrammas (scatterplot), līknes un siltuma kartes. Vizualizācija palīdz ātri pamanīt modeļus un anomālijas.

Inferenciālā statistika — secinājumi par populāciju

Inferenciālā statistika izmanto parauga datus, lai izdarītu secinājumus par populāciju. Galvenās metodes un jēdzieni:

Konfidences intervāli — sniedz diapazonu, kurā, ar noteiktu ticamību, atrodas populācijas parametrs (piem., vidējais).
Hipotēžu testi — pārbauda zinātniskus apgalvojumus, izmantojot nulles un alternatīvās hipotēzes; svarīgi saprast p‑vērtību un signifikances līmeni (parasti 0,05).
Regresija — modelē attiecības starp mainīgajiem (lineārā regresija, loģistiskā regresija u.c.), ļauj prognozēt un kvantificēt saistību stiprumu.
Korelācija — mēra divu mainīgo saistību, bet nenosaka cēloņsakarību.

Inferenciālās metodes balstās uz varbūtību teoriju; pareizi interpretējot rezultātus, jāņem vērā parauga lielums, pieņēmumu atbilstība un iespējamie novirzes (bias).

Eksperimentu dizains un cēloņu noteikšana

Lai noteiktu cēloņsakarības, bieži izmanto eksperimentus ar kontrolgrupām un randomizāciju. Labas prakses principi:

kontrole (salīdzināmas grupas),
randomizācija (nejauša dalībnieku sadale),
maskēšana/blindēšana (lai samazinātu subjektīvas ietekmes),
atkārtojamība un pietiekams parauga lielums.

Praktiski padomi interpretācijai un biežākās kļūdas

Korelācija ≠ cēloņsakarība — divi mainīgie var būt saistīti, bet tas neapstiprina, ka viens izraisa otru.
Outlieru nozīme — viena vai dažas ārkārtīgas vērtības var stipri ietekmēt vidējo; izmantojiet mediānu vai robustas metodes, ja nepieciešams.
P‑vērtību interpretācija — p‑vērtība nav tieši ticamība, ka hipotēze ir patiess; tā tikai mēra, cik saskanīgi ir novērojumi ar nulles hipotēzi.
Izlases bias — ja paraugs nav reprezentatīvs, secinājumi var būt maldinoši.
P‑haking un multiple salīdzinājumi — daudzu testu veikšana bez korekcijas var palielināt nepatiesu pozitīvu rezultātu risku.

Rīki un programmatūra

Lielāki datu apstrādes un statistikas instrumenti ietver programmatūru, piemēram, R, Python (pandas, NumPy, SciPy, scikit‑learn), SPSS, Stata un pat Excel. Izvēle atkarīga no uzdevuma sarežģītības, datu apjoma un vajadzīgajām metodēm.

Pielietojumi un karjera

Statistika tiek izmantota plašā jomu spektrā: no zinātnes un medicīnas, kur tā palīdz novērtēt ārstēšanas efektivitāti, līdz ekonomikai un mārketingam, kur analizē tirgus tendences un klientu uzvedību. Ar statistikas zināšanām var strādāt kā:

statistiķis vai datu analītiķis,
biostatistiķis (medicīnā),
data scientist (lieli dati un mašīnmācīšanās),
tirgus pētnieks vai ekonomists.

Ētika, reproducējamība un datu aizsardzība

Statistikas darbā svarīgi ievērot ētikas normas: pareizi atspoguļot rezultātus, norādīt ierobežojumus, rūpēties par personu datu aizsardzību un nodrošināt pētījumu reproducējamību. Nepareiza datu interpretācija vai manipulācijas var radīt nopietnas politiskas, veselības vai ekonomiskas sekas.

Apkopojot: statistika ir plaša un praktiska disciplīna, kas sniedz rīkus datu sapratnei, lēmumu atbalstam un zinātniskiem secinājumiem. Lai strādātu ar datiem, nepieciešamas gan teorētiskas zināšanas, gan praktiska pieredze datu vākšanā, apstrādē un interpretācijā.

Vēsture

Pirmie zināmie statistikas dati ir tautas skaitīšanas dati. Babilonieši tautas skaitīšanu veica ap 3500 gadu pirms mūsu ēras, ēģiptieši - ap 2500 gadu pirms mūsu ēras, bet senie ķīnieši - ap 1000 gadu pirms mūsu ēras.

Sākot ar 16. gadsimtu, tādi matemātiķi kā Džerolāmo Kardāno (Gerolamo Cardano) izstrādāja varbūtību teoriju, kas padarīja statistiku par zinātni. Kopš tā laika cilvēki ir vākuši un pētījuši statistiku par daudzām lietām. Koki, jūraszvaigznes, zvaigznes, akmeņi, vārdi, gandrīz viss, ko var saskaitīt, ir bijis statistikas objekts.

Datu vākšana

Pirms mēs varam aprakstīt pasauli ar statistikas palīdzību, mums ir jāapkopo dati. Statistikā vāktos datus sauc par mērījumiem. Pēc datu apkopošanas mēs izmantojam vienu vai vairākus skaitļus, lai aprakstītu katru novērojumu vai mērījumu. Piemēram, pieņemsim, ka vēlamies noskaidrot, cik populārs ir kāds televīzijas raidījums. Mēs varam izvēlēties cilvēku grupu (ko sauc par izlasi) no visas skatītāju populācijas. Tad mēs katram izlases skatītājam jautājam, cik bieži viņš skatās šo raidījumu. Paraugs ir dati, kurus var redzēt, bet populācija ir dati, kurus nevar redzēt (jo nav aptaujāts katrs populācijas skatītājs). Cits piemērs: ja mēs vēlamies uzzināt, vai konkrēts medikaments var palīdzēt pazemināt asinsspiedienu, mēs varētu kādu laiku dot cilvēkiem šo medikamentu un izmērīt viņu asinsspiedienu pirms un pēc tam.

Aprakstošā un secinošā statistika

Par aprakstošo statistiku sauc skaitļus, kas apraksta datus, kurus var redzēt. Skaitļus, kas sniedz prognozes par datiem, kurus nevar redzēt, sauc par secinošo statistiku.

Aprakstošā statistika ietver skaitļu izmantošanu, lai aprakstītu datu iezīmes. Piemēram, sieviešu vidējais augums ASV ir aprakstošā statistika, kas raksturo populācijas (sieviešu ASV) īpašību (vidējo augumu).

Kad rezultāti ir apkopoti un aprakstīti, tos var izmantot prognozēšanai. To sauc par secinošo statistiku. Piemēram, dzīvnieka lielums ir atkarīgs no daudziem faktoriem. Dažus no šiem faktoriem kontrolē vide, bet citus nosaka iedzimtība. Tāpēc biologs var izveidot modeli, kas saka, ka ir liela varbūtība, ka pēcnācējs būs maza auguma, ja vecāki bija mazi. Šāds modelis, iespējams, ļauj labāk prognozēt izmēru nekā tikai uzminot pēc nejaušības principa. Pārbaudot, vai ar kādu konkrētu medikamentu var izārstēt noteiktu stāvokli vai slimību, parasti salīdzina rezultātus cilvēkiem, kuriem ir dots šis medikaments, ar rezultātiem cilvēkiem, kuriem ir dots placebo.

Metodes

Visbiežāk mēs vācam statistikas datus, veicot aptaujas vai eksperimentus. Piemēram, viedokļu aptauja ir viens no aptaujas veidiem. Mēs izvēlamies nelielu skaitu cilvēku un uzdodam viņiem jautājumus. Tad mēs izmantojam viņu atbildes kā datus.

Svarīgi ir izvēlēties, kurus cilvēkus iesaistīt aptaujā vai datu vākšanā, jo tas tieši ietekmē statistiku. Kad statistika ir pabeigta, vairs nav iespējams noteikt, kuri indivīdi ir ņemti. Pieņemsim, ka vēlamies izmērīt ūdens kvalitāti lielā ezerā. Ja ņemsim paraugus blakus notekūdeņu notekcaurulei, iegūsim atšķirīgus rezultātus nekā tad, ja paraugus ņemsim attālā, grūti sasniedzamā ezera vietā.

Paraugu ņemšanā parasti sastopamas divu veidu problēmas:

Ja ir daudz paraugu, tie, visticamāk, būs ļoti tuvi reālās populācijas paraugiem. Tomēr, ja ir ļoti maz paraugu, tie var ļoti atšķirties no reālās populācijas. Šo kļūdu sauc par nejaušības kļūdu (sk. Kļūdas un atlikumi statistikā).
Paraugiem izraudzītās personas ir rūpīgi jāizvēlas, parasti tās tiek izvēlētas nejauši. Ja tas tā nav, paraugi var ļoti atšķirties no tā, kādi tie patiesībā ir kopējā populācijā. Tas attiecas pat tad, ja tiek ņemts liels skaits paraugu. Šāda veida kļūdu sauc par novirzi.

Kļūdas

Mēs varam samazināt nejaušības kļūdas, veidojot lielāku izlasi, un mēs varam izvairīties no zināmas neobjektivitātes, izvēloties izlases veidā. Tomēr dažkārt ir grūti izveidot lielas nejaušas izlases. Novirze var rasties arī tad, ja dažādiem cilvēkiem netiek uzdoti jautājumi vai viņi atsakās atbildēt uz mūsu jautājumiem, vai ja viņi zina, ka saņem viltotu ārstēšanu. Šīs problēmas var būt grūti novērst. Sk. arī standarta kļūda.

Aprakstošā statistika

Datu vidusdaļas atrašana

Datu vidusdaļu sauc par vidējo vērtību. Vidējā vērtība raksturo tipisku indivīdu populācijā. Bieži tiek izmantoti trīs vidējā lieluma veidi: vidējais, mediāna un mode.

Tālāk dotajos piemēros izmantoti šie parauga dati:

Nosaukums | A B C D E F G H I J --------------------------------------------- rezultāts| 23 26 26 49 49 49 57 64 66 78 82 92

Vidējais

Vidējās vērtības formula ir šāda.

x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {\displaystyle {\bar {x}}}={\frac {1}{N}}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}}}} ${\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}$

Kur x 1 , x 2 , ... , x N {\displaystyle x_{1},x_{2},x_{2},\ldots ,x_{N}} $x_{1},x_{2},\ldots ,x_{N}$ ir dati un N {\displaystyle N} $N$ ir populācijas lielums. (sk. Sigma apzīmējumu).

Tas nozīmē, ka jūs saskaitāt visas vērtības un pēc tam dalāt ar vērtību skaitu.

Mūsu piemērā x ¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58,6 {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58,6}. ${\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6$

Problēma ar vidējo vērtību ir tā, ka tā neko neizsaka par to, kā vērtības ir sadalītas. Vērtības, kas ir ļoti lielas vai ļoti mazas, vidējo vērtību ļoti maina. Statistikā šīs ekstrēmās vērtības varētu būt mērījumu kļūdas, bet dažreiz populācijā patiešām ir šādas vērtības. Piemēram, ja telpā ir 10 cilvēki, kuri pelna 10 dolārus dienā, un 1, kurš pelna 1 000 000 dolāru dienā. Datu vidējā vērtība ir 90 918 dolāri dienā. Lai gan tā ir vidējā summa, šajā gadījumā vidējā vērtība nav summa, ko nopelna kāds atsevišķs cilvēks, tāpēc dažiem mērķiem tā ir nelietderīga.

Tas ir "vidējais aritmētiskais". Dažiem mērķiem ir noderīgi arī citi veidi.

Mediāna

Mediāna ir vidējais datu elements. Lai atrastu mediānu, datus sakārtojam no mazākā līdz lielākajam skaitlim un tad izvēlamies skaitli vidū. Ja ir pāra skaits datu, tad nebūs skaitļa tieši vidū, tāpēc izvēlamies divus vidējos un aprēķinām to vidējo vērtību. Mūsu piemērā ir 10 datu elementi, divi vidējie ir "57" un "64", tāpēc mediāna ir (57+64)/2 = 60,5. Cits piemērs, līdzīgi kā piemērā par ienākumiem, kas tika sniegts vidējai vērtībai, aplūkojiet telpu, kurā ir 10 cilvēki, kuru ienākumi ir 10, 20, 20, 40, 50, 60, 90, 90, 100 un 1 000 000 dolāru, mediāna ir 55 dolāri, jo 55 dolāri ir vidējais no diviem vidējiem skaitļiem - 50 un 60 dolāru. Ja neņem vērā galējo vērtību 1 000 000 $, vidējā vērtība ir 53 $. Šajā gadījumā mediāna ir tuva vērtībai, kas iegūta, ja galējā vērtība tiek izslēgta. Mediāna atrisina ekstrēmu vērtību problēmu, kā aprakstīts iepriekš dotajā vidējā lieluma definīcijā.

Režīms

Moduss ir visbiežāk sastopamais datu elements. Piemēram, visbiežāk sastopamais burts angļu valodā ir burts "e". Mēs teiktu, ka "e" ir burtu sadalījuma moda.

Piemēram, ja telpā ir 10 cilvēki ar ienākumiem 10, 20, 20, 40, 50, 60, 90, 90, 90, 100 un 1 000 000 ASV dolāru, tad moda ir 90 ASV dolāru, jo 90 ASV dolāru parādās trīs reizes, bet visas pārējās vērtības parādās mazāk nekā trīs reizes.

Var būt vairāki režīmi. Piemēram, ja telpā ir 10 cilvēki ar ienākumiem 10, 20, 20, 20, 20, 50, 60, 90, 90, 90, 90, 100 un 1 000 000 ASV dolāru, režīmi ir 20 un 90 dolāru. Tas ir divmodāls jeb ar diviem režīmiem. Bimodalitāte ir ļoti izplatīta un bieži norāda, ka dati ir divu dažādu grupu kombinācija. Piemēram, visu ASV pieaugušo vidējam augumam ir divmodāls sadalījums. Tas ir tāpēc, ka vīriešiem un sievietēm ir atsevišķi vidējie augstumi - 1,763 m (5 ft 9 + 1⁄2 collas) vīriešiem un 1,622 m (5 ft 4 collas) sievietēm. Šie maksimumi ir redzami, ja abas grupas apvieno.

Moduss ir vienīgais vidējā lieluma veids, ko var izmantot datiem, kurus nevar sakārtot.

Datu izplatības noteikšana

Vēl viena lieta, ko varam teikt par datu kopu, ir tās izkliedētība. Parasti datu kopas izkliedi raksturo standartnovirze. Ja datu kopas standartnovirze ir maza, tad lielākā daļa datu ir ļoti tuvu vidējam lielumam. Taču, ja standartnovirze ir liela, tad liela daļa datu ļoti atšķiras no vidējā.

Ja dati atbilst kopējam modelim, ko sauc par normālo sadalījumu, tad ir ļoti noderīgi zināt standartnovirzi. Ja dati atbilst šim modelim (mēs teiktu, ka dati ir normāli sadalīti), tad aptuveni 68 no katriem 100 datiem vidējā vērtība būs mazāka par standartnovirzi. Un ne tikai tas, bet arī aptuveni 95 no katriem 100 mērījumiem vidējais rādītājs būs mazāks par divām standartnovirzēm, un aptuveni 997 no 1000 mērījumu būs tuvāk vidējam rādītājam nekā trīs standartnovirzes.

Cita aprakstošā statistika

Statistiku varam izmantot arī, lai noskaidrotu, ka kāds procents, procentile, skaits vai daļa cilvēku vai lietu grupā kaut ko dara vai ietilpst noteiktā kategorijā.

Piemēram, sociologi, izmantojot statistiku, noskaidroja, ka 49% cilvēku pasaulē ir vīrieši.

Saistītā programmatūra

Lai palīdzētu statistiķiem, ir izstrādātas daudzas statistikas programmatūras:

SAS Institute
SPSS (ražotājs - IBM)

Jautājumi un atbildes

J: Kas ir statistika?

A: Statistika ir lietišķās matemātikas nozare, kas nodarbojas ar datu vākšanu, organizēšanu, analīzi, nolasīšanu un pasniegšanu.

J: Kādi ir divi statistikas veidi?

A: Divi statistikas veidi ir aprakstošā un secinošā statistika. Aprakstošā statistika apkopo datus, bet secinošā statistika ļauj prognozēt.

J: Kā statistika palīdz citās jomās?

A: Statistika palīdz pētīt daudzas citas jomas, piemēram, zinātni, medicīnu, ekonomiku, psiholoģiju, politiku un mārketingu.

J: Kas strādā statistikas jomā?

A: Cilvēku, kas strādā statistikas jomā, sauc par statistiķi.

J: Ko nozīmē vārds "statistika"?

A: Vārds "statistika" ir ne tikai zinātnes nozares nosaukums, bet tas var nozīmēt arī skaitļus, ko izmanto datu vai attiecību aprakstīšanai.

J: Ar kādām darbībām nodarbojas statistiķi?

A: Statistiķi veic tādas darbības kā datu vākšana, organizēšana, analīze, nolasīšana un prezentēšana.

Meklēt