Statistikā ticamības intervāls ir viena no parametra novērtēšanas formām, kas vienas punktveida aplēses vietā sniedz intervālu ar robežām, kurās, ar noteiktu varbūtību, atrodas populācijas (nezināmais) parametrs. Šo varbūtību sauc par ticamības līmeni — to bieži norāda procentos, piemēram, "95 % ticamības intervāls". Intervāla galapunktus sauc par ticamības robežām. Tā kā ticamības intervāls ir balstīts uz izlases datiem, tas mainās no izlases uz izlasi: konkrētai procedūrai un datiem, jo augstāks ir ticamības līmenis, jo plašāks parasti būs intervāls.
Lai aprēķinātu ticamības intervālu, parasti nepieciešami pieņēmumi par aplēšu procesa būtību — tā galvenokārt ir parametriska metode. Viens no izplatītākajiem pieņēmumiem ir, ka populācijas, no kuras ņemta izlase, sadalījums ir normāls. Tā rezultātā klasiskie ticamības intervāli nav īpaši robusti pret šiem pieņēmumiem, taču ir pieejamas modifikācijas un neparametriskās metodes, kas palielina uzticamību, ja pieņēmumi neturas.
Interpretācija
- Frekventista interpretācija: 95 % ticamības intervāls nozīmē, ka, ja mēs atkārtotu izlases ņemšanu un aprēķinātu intervālu tādā pašā veidā ļoti daudzas reizes, apmēram 95 % no iegūtajiem intervāliem saturētu patieso (bet nezināmo) parametra vērtību.
- Neskaidrības padoms: Nav pareizi teikt, ka "ir 95 % varbūtība, ka šis konkrētais intervāls satur parametru" frekventistu skatījumā — šī varbūtība attiecas uz procedūras ilgtermiņa uzvedību, nevis uz konkrētu vienu intervālu. (Bayes pieeja ļauj tieši interpretēt intervālu kā varbūtības sadalījumu, bet tas prasa pirmszināšanu.)
Kā aprēķina — pamatformulas
Biežākās situācijas un formulas (divpusējie 1 − α cipari):
- Ticamības intervāls populācijas vidējam, ja σ (populācijas standartnovirze) ir zināma:
CI = x̄ ± z_{1−α/2} * (σ / √n), kur x̄ — izlases vidējais, z_{1−α/2} — standarta normālā sadalījuma kritiskais koeficients (piem., 1.96 priekš 95 %), n — izlases lielums. - Ticamības intervāls populācijas vidējam, ja σ nav zināma (izmanto t sadalījumu):
CI = x̄ ± t_{1−α/2, n−1} * (s / √n), kur s — izlases standartnovirze, t_{1−α/2, n−1} — Student t kritiskais skaitlis ar n−1 brīvības pakāpēm. - Ticamības intervāls proporcijai (binārs rezultāts):
CI = p̂ ± z_{1−α/2} * sqrt( p̂(1−p̂) / n ), kur p̂ — izlases proporcija. Ir arī citas precīzākas metodes (Wilson, Agresti–Coull), it īpaši, ja p̂ ir tuvu 0 vai 1 vai n ir mazs. - Mērogs (margin of error):
Robežu attālums no punktveida aplēses = kritiskais koeficients × standarta kļūda. Lai sasniegtu noteiktu kļūdas robežu E, var aprēķināt nepieciešamo izlases lielumu: n ≈ (z_{1−α/2} * σ / E)^2 (pie zināmas σ).
Piemēri
- Vidējais ar zināmu σ: ja x̄ = 100, σ = 15, n = 36 un vēlamies 95 % CI, z = 1.96, tad margin = 1.96*(15/√36)=1.96*2.5=4.9. CI = 100 ± 4.9 = (95.1, 104.9).
- Vidējais ar nezināmu σ: ja x̄ = 50, s = 8, n = 10 un 95 % CI, t_{0.975,9} ≈ 2.262, margin = 2.262*(8/√10) ≈ 5.72. CI ≈ (44.28, 55.72).
- Proporcija: ja p̂ = 0.6, n = 200 un 95 % CI, SE = sqrt(0.6*0.4/200) ≈ 0.0346, margin = 1.96*0.0346 ≈ 0.0679. CI ≈ (0.532, 0.668).
Viensienas un divpusējie intervāli
Ticamības intervālus var veidot kā divpusējus (abas puses) vai vienpusējus (piem., tikai augšējā robeža). Vienpusēja 95 % intervāla augšējā robeža atbilst z_{0.95}, nevis z_{0.975}.
Pieņēmumi un ierobežojumi
- Normalitāte: klasiskās formulas pieprasa normalitāti vai, izmantojot centrālo robežu teorēmu (CRT), pietiekami lielu n, lai izlases vidējais būtu aptuveni normāls.
- Neatkarība: izlases novērojumiem jābūt neatkarīgiem (vai jāņem vērā atkarība, piemēram, laika rindas vai klasterēta izlase).
- Robustums: ja datu sadalījums ir ļoti izliektāks vai satur izteiktus ārprātus, parastie CI var būt maldinoši — jāapsver transformācijas (piem., log) vai robustas metodes.
Neparametriskas un bootstrap metodes
Ja pieņēmumi neturas vai grib precīzāk novērtēt intervāla sadalījumu, var izmantot bootstrap:
- Atkārtota izlases ņemšana ar atgriešanos no sākotnējiem datiem, izrēķinot punktveida aplēsi katrā replikātā.
- No replikātu aplēsēm veidojam intervālu, piemēram, percentile (π/2 un 1−π/2), vai izmantojam BCa (bias-corrected and accelerated) metodi, kas bieži dod labākas īpašības nelielos paraugos vai nenormālos datos.
Saistība ar hipotēžu testiem
Ticamības intervāls ir cieši saistīts ar hipotēžu testiem: ja nulles hipotēzē norādītā vērtība (piem., μ0) neatrodas (1−α) CI, tad nulles hipotēze parasti tiek atmesta pie līmeņa α divpusējā testā. Tādēļ CI sniedz vairāk informācijas par efektu (robežas) nekā tikai p vērtība.
Prakse un ziņošana
- Vienmēr norādi ticamības līmeni (piem., 95 %) un lietoto metodi (piem., t-intervāls, Wilson CI vai bootstrap BCa).
- Ziņo punktveida aplēsi, intervālu un izlases lielumu (x̄, CI, n), kā arī, ja nepieciešams, pieņēmumus par sadalījumu vai σ.
- Interpretējot, skaidri atzīmē frekventistu ierobežojumus un, ja izmanto Bayes pieeju, norādi priora izvēli.
Biežas kļūdas un uzvedības viltības
- Nepareiza interpretācija kā "95 % varbūtība, ka parametrs atrodas šajā intervālā" bez paskaidrojuma par metodi.
- Nelaba prakse izmantot parastos CI, ja dati satur būtiskus novirzienus vai ir maza izlase — labāk izmantot robustas vai neparametriskas metodes.
- Neskaidra ziņošana bez ticamības līmeņa vai metodes apraksta.
Kopumā ticamības intervāls ir spēcīgs instruments, lai parādītu aplēses nenoteiktību un sniegtu informāciju gan par lieluma, gan precizitātes robežām. Tomēr jāievēro pieņēmumu ierobežojumi un, nepieciešamības gadījumā, jāizvēlas piemērotākas metodes (piem., t-intervali, precīzas proporciju metodes vai bootstrap), lai rezultāti būtu uzticami.


