Statistika izmanto mainīgos lielumus, lai aprakstītu mērījumu un pārbaudītu hipotēzes. Par mainīgo bieži saka, ka tas ir nozīmīgs, ja varbūtība, ka novērotais rezultāts radušies tikai nejaušības dēļ, ir mazāka par iepriekš noteiktu robežu. Lai šo noskaidrotu, lieto statistisko hipotēžu testus. Būtiski saprast, ka "statistiska nozīmība" nenozīmē automātiski praktisku vai klīnisku nozīmīgumu — tā vienkārši norāda, ka rezultāts, ņemot vērā pieņemtos pieņēmumus un izvēlēto robežlīmeni, ir mazticams, ja darbojas nulles hipotēze.
Ko nozīmē p-vērtība un α līmenis
Galvenais rīks nozīmīguma noteikšanā ir p-vērtība — tā ir varbūtība novērot datus (vai vēl ekstrēmākus), pieņemot, ka nulles hipotēze ir patiess apgalvojums. Ja p-vērtība ir mazāka par izvēlēto nozīmīguma līmeni (α), tad parasti nolaiž nulles hipotēzi. Piemēram, ja α = 0,05 un p = 0,03, secinājums bieži tiek formulēts kā "rezultāts ir statistiski nozīmīgs (p < 0,05)".
Ir svarīgi atšķirt vienvirziena (one-sided) un divvirziena (two-sided) testus — divvirzienu tests vērtē novirzi abās virzienos, un p-vērtība parasti ir lielāka. Tāpat izvēle par α nosaka ilgtermiņa kļūdu līmeni: α ir to gadījumu daļa, kad nulles hipotēze tiks noraidīta, ja tā patiesībā ir pareiza (Type I kļūda, viltus pozitīvs).
Vēsture un metodoloģiska atšķirība
Statistiskās nozīmības jēdzienu ieviesa Ronalds Fišers (Ronald Fisher), izstrādājot statistisko hipotēžu pārbaudi, ko viņš 1925. gadā savā publikācijā Statistical Methods for Research Workers raksturoja kā "nozīmības testus". Fišers ieteica varbūtību viens pret divdesmit (0,05) kā piemērotu robežlīmeni nulles hipotēzes noraidīšanai, bet šo skaitli viņš uztvēra kā empīrisku vadlīniju, ne obligātu likumu.
Vēlāk, 1933. gadā, Ježijs Neimans un Egons Pīrsons izstrādāja citādu, formalizētāku pieeju, kurā tika skaidri definēti lēmumu kritēriji, α (Type I) un β (Type II) kļūdas un optimālās testu īpašības. Viņu pieeja uzsvēra, ka nozīmīguma līmeni (piemēram, 0,05) jānosaka pirms datu vākšanas, jo tas ļauj kontrolēt ilgtermiņa kļūdu likmes pie atkārtotām eksperimentu sērijām.
Praktiskas vadlīnijas un ierobežojumi
- Ne tikai p-vērtība: vienmēr ziņo arī precīzu p-vērtību, efekta lielumu (effect size) un uzticamības intervālu, jo tie sniedz labāku priekšstatu par rezultāta lielumu un ticamību.
- Statistiskā un praktiskā nozīmība: maza p-vērtība var rasties arī pie ļoti lieliem paraugiem, pat ja efekts ir mazs un praktiski nenozīmīgs.
- Regresijas uz vidējo, daudzskaitliskās salīdzināšanas un p-hacking: vairāku testu veikšana palielina nejauša "nozīmīgu" atradumu varbūtību — izmantojiet korekcijas (piem., Bonferroni) vai cita veida kontroles metodes.
- Studijas jauda: plānojot pētījumu, aprēķiniet nepieciešamo parauga lielumu, lai nodrošinātu pietiekamu statistisko jaudu (power) novērot sagaidāmu efektu, pretējā gadījumā pastāv liela Type II kļūdas (viltus negatīvs) risks.
- Praktiskās vadlīnijas: ieteicams pirms datu vākšanas noteikt α, prereģistrēt analīzes plānu un publicēt gan pozitīvus, gan negatīvus rezultātus, lai mazinātu selektīvu ziņošanu.
Neraugoties uz to, ka sākotnēji Fišers bieži minēja 0,05 kā ērti lietojamu robežlīmeni, viņš neuzskatīja to par sacerētu likumu. Savā 1956. gada publikācijā Statistical methods and scientific inference viņš ieteica izvēlēties nozīmīguma līmeņus, ņemot vērā konkrētā pētījuma apstākļus un sekas, ko rada iespējamās kļūdas.
Kopumā statistiskā nozīmība ir svarīgs rīks datu analīzē, taču tā ir tikai viens elements pētījuma interpretācijā. Pareiza prakse ietver p-vērtību kopā ar efektu lielumu, uzticamības intervāliem, skaidru pētījuma dizainu un kritisku rezultātu interpretāciju.