Statistiskās kļūdas un atlikumi — definīcija un piemēri
Statistiskās kļūdas un atlikumi rodas tāpēc, ka mērījumi nekad nav pilnīgi precīzi. Nav iespējams iegūt tieši patieso vērtību — var tikai novērtēt, cik tuvu novērotā vai aprēķinātā vērtība ir tai. Ja mērījumus atkārto atkārtoti un apvieno visus datus, var lietot statistikas metodes, lai raksturotu šo neprecizitāti. Parasti ar kļūdu un atlikumu saprot starpību starp novēroto vai izmērīto vērtību un patieso (taču parasti nenovērojamo) vērtību.
Definīcijas
- Statistiskā kļūda (true error) — starpība starp novēroto vērtību un patieso (nenovērojamo) vērtību. To bieži apzīmē ar grieķu burtu, piemēram, ε, un formulā: ε = y − μ, kur y ir novērotā vērtība, bet μ — patiesā vērtība.
- Atlikums (residual) — atšķirība starp novēroto vērtību un aplēsto (modelī vai izlases vidējā) vērtību. To apzīmē ar e vai r: e = y − ŷ, kur ŷ ir vērtība, ko uzrāda modelis vai izlases aprēķins.
Atšķirība starp kļūdu un atlikumu
Svarīgākais atšķirību punkts: statistiskā kļūda ir teorētiska un parasti nenovērojama (jo μ nav zināma), savukārt atlikumu var tiešām aprēķināt no datiem, jo ŷ ir aplēsts. Atlikums ir statistiskās kļūdas novērtējums, kas satur papildu nejaušību, jo ŷ ir balstīts uz datiem un tajā iekļauta aplēses kļūda.
Piemēri
Pieņemsim, ka tiek veikts eksperiments, lai izmērītu 21 gadu vecu vīriešu augumu noteiktā apgabalā. Ja populācijas sadalījuma vidējais augums ir 1,75 m (tas ir patiesais μ), tad vienam nejauši izvēlētam vīrietim ar augumu 1,80 m statistiskā kļūda būs 1,80 − 1,75 = 0,05 m (5 cm); ja viņš ir 1,70 m, kļūda būs −0,05 m.
Ja no šīs populācijas paņem nejaušu izlasi ar n vīriešiem un aprēķina parauga vidējo, tad šo parauga vidējo izmanto kā populācijas vidējā aplēsi. Tad:
- Starpība starp katra izlasē iekļautā vīrieša augumu un nenovērojamo populācijas vidējo rādītāju ir statistiskā kļūda (nenovērojama), un
- Starpība starp katra izlasē iekļautā vīrieša augumu un novērojamo izlases vidējo rādītāju ir atlikums (novērojams).
Piemērs ar skaitļiem: ja izlasei trīs vīriešu augumi ir 1,70; 1,75; 1,80 m, parauga vidējais ir 1,75 m. Atlikumi būs −0,05; 0; +0,05 m. To summa ir 0, kas ilustrē svarīgu īpašību (skat. zemāk).
Īpašības un sekas
- Atlikumu summa: ja parauga vidējo izmanto kā aplēsi populācijas vidējam (un modelī iekļauts brīvais loceklis/intercepts), atlikumu summa ir vienāda ar nulli. Tāpēc atlikumi nav neatkarīgi — tiem pastāv lineārs ierobežojums.
- Kļūdu neatkarība: ja indivīdi tiek neatkarīgi izvēlēti no populācijas, tad statistiskās kļūdas (nenovērojamie kļūdu termini) var tikt modelētas kā neatkarīgi nejauši lielumi. Atlikumi tomēr parasti nav pilnīgi neatkarīgi, jo tie satur kopīgu aplēsi (piem., parauga vidējo).
- Variances aplēses: lai novērtētu dispersiju, bieži izmanto atlikumu kvadrātu summu (RSS). Parauga dispersijas aplēse, izmantojot atlikumus pret vidējo, parasti dalīta ar (n−1) (nevis n) — tas kompensē to, ka tika izmantots parauga vidējais kā aplēse, un tā nodrošina neizkropļotu aplēsi patiesajai dispersijai.
- Regresijas kontekstā: ja modelē lineāru sakarību y = Xβ + ε, tad atlikumi ir r = y − Xβ̂. Šie atlikumi tiek lietoti modeļa pārbaudei (piem., atlikumu analīze, normalitātes un homoskedastiskuma pārbaude) un dispersijas aplēšu iegūšanai. Atlikumu kvadrātu summa sadalīta ar brīvības pakāpes (n−p) dod dispersijas aplēsi, kur p ir parametru skaits (ietverot interceptu).
- Vizualizācija: atlikumu grafiki (piem., atlikumu pret paredzēto vērtību vai laiku) palīdz atklāt modeļa nepiemērotību — piemēram, nelinearitāti, mainīgu dispersiju (heteroskedastiskumu) vai atkarību starp novērojumiem.
Kāpēc tas svarīgi praksē
Izpratne par atšķirību starp statistiskajām kļūdām un atlikumiem ir būtiska datu analīzē, jo:
- Atlikumi ir pieejami un tie ļauj novērtēt modeļa piemērotību un pieņēmumus.
- Statistiskās kļūdas — lai arī nenovērojamas — tiek modelētas (piem., kā normālas ar vidējo 0 un dispersiju σ²) un šie pieņēmumi ietekmē aplēžu ticamību un intervālu pareizību.
- Pareiza brīvības pakāpju (degrees of freedom) izmantošana nodrošina neizkropļotas dispersijas aplēses un pareizus statistiskos testus.
- Statistiskā kļūda = novērotā vērtība − patiesā vērtība (nenovērojama),
- Atlikums = novērotā vērtība − aplēstā vērtība (novērojams),
- Atlikumi parasti summējas līdz nullei, tāpēc tie nav neatkarīgi, bet statistiskās kļūdas — ja individuāli neatkarīgas izvēles — var būt neatkarīgas,
- Analīzē jāņem vērā, ka atlikumi ir mūsu rīcībā esošais rīks, lai novērtētu kļūdu struktūru un modeļa derīgumu.
Saistītās lapas
Jautājumi un atbildes
J: Ko nozīmē statistiskās kļūdas un atlikumi?
A: Statistikas kļūdas un atlikumi ir starpība starp novēroto vai izmērīto vērtību un patieso vērtību, kas nav zināma.
J: Kā var izmērīt mērījumu precizitāti?
A: Var mērīt vienu un to pašu lietu atkal un atkal un apkopot visus datus kopā. Tas ļauj veikt datu statistiku, lai noteiktu, cik precīzs ir mērījums.
J: Kāds ir statistiskās kļūdas piemērs?
Atbilde: Statistiskās kļūdas piemērs būtu, ja tiktu veikts eksperiments, lai izmērītu 21 gadu vecu vīriešu augumu noteiktā apgabalā, paredzamais vidējais rādītājs būtu 1,75 m, bet viens nejauši izvēlēts vīrietis būtu 1,80 m garš; tad "(statistiskā) kļūda" būtu 0,05 m (5 cm).
J: Kāds ir atlikuma piemērs?
Atbilde: Atlikuma piemērs būtu šāds: ja eksperimentā tika mērīts 21 gadu vecu vīriešu augums noteiktā apgabalā, un paredzamais vidējais rādītājs bija 1,75 m, bet viens nejauši izvēlēts vīrietis bija 1,70 m augsts; tad atlikums (vai atbilstības kļūda) būtu -0,05 m (-5 cm).
Vai atlikumi ir neatkarīgi mainīgie?
Atbilde: Nē, nejaušas izlases atlikumu summai ir jābūt vienādai ar nulli, tāpēc tie nav neatkarīgi mainīgie.
Vai statistiskās kļūdas ir neatkarīgi mainīgie?
Jā, statistikas kļūdu summai nejaušās izlases ietvaros nav jābūt nullei, tāpēc tie ir neatkarīgi nejauši mainīgie, ja indivīdus no populācijas izvēlas neatkarīgi.
Vai ir iespējams veikt precīzus mērījumus?
A:Nē, nav iespējams veikt precīzus mērījumus, jo mērījumi nekad nav precīzi.