Standarta kļūda — definīcija, aprēķins un nozīme statistikā

Uzzini, kas ir standarta kļūda, kā to aprēķina un kā tā nosaka izlases rezultātu uzticamību statistikā — formulas, piemēri un interpretācija skaidrā valodā.

Autors: Leandro Alegsa

Standartkļūda ir statistiskā lieluma izlases sadalījuma standartnovirze. Šo terminu lieto gan, runājot par to, cik lielas svārstības sagaidāmas starp dažādām izlases vērtībām, gan arī, lai apzīmētu šo standartnovirzes novērtējumu (aproksimāciju), kas aprēķināts no konkrētas izlases. Standartkļūda raksturo, cik tālu vidēji var atrasties izlases statiskais rādītājs (piemēram, vidējā vērtība) no patiesās populācijas vērtības.

Parasti vidējais lielums, ko iegūst no kādas grupas daļas (izlases), tiek lietots, lai novērtētu atbilstošo lielumu visā grupā (populācijā). Pilnīgas populācijas mērīšana bieži vien ir praktiski neiespējama vai pārāk dārga, tāpēc tiek izmantotas izlases. Taču katra izlase dod nedaudz atšķirīgu vidējo rādītāju. Vidējās vērtības standartkļūda (angliski standard error, SE) parāda, cik tuvu, vidēji ņemot, izlases vidējā vērtība būs populācijas vidējai vērtībai. Citiem vārdiem — tā mēra pārliecības līmeni par izlases rādītāja precizitāti.

Aprēķins un biežākās formulas

Ja populācijas standartnovirze σ ir zināma, standartkļūda vidējam (x̄) tiek aprēķināta kā:
SE(x̄) = σ / √n, kur n ir izlases lielums.

Praksē parasti populācijas σ nav zināma, tāpēc izmanto izlases standartnovirzi s. Tad lieto formulu:
SE(x̄) = s / √n.

Standartkļūda proporcionēm (piemēram, ja interesē daļa ar īpašu īpašību) tiek aprēķināta kā:
SE(p̂) = √[ p̂ (1 − p̂) / n ], kur p̂ ir izlases proporcija.

Standartkļūda samazinās ar izlases lielumu proporcionāli 1/√n — tas nozīmē, ka, lai dubultotu precizitāti (samazinātu SE divreiz), nepieciešams četrkāršot izlasi.

Praktisks piemērs

Ja izlasei n = 25 ir vidējā vērtība x̄ = 50 un izlases standartnovirze s = 10, tad
SE(x̄) = 10 / √25 = 10 / 5 = 2.
Aptuvenais 95% ticamības intervāls populācijas vidējai vērtībai ir x̄ ± 1.96·SE = 50 ± 3.92, t.i., (46.08, 53.92). (Ja n ir mazs un σ nav zināma, jārēķinās ar t‑sadali, nevis tieši ar 1.96.)

Nozīme statistikā

  • Konfidences intervāli: SE ir pamatelements, lai veidotu ticamības intervālus ap rādītāju — tie parāda, cik plašs varētu būt intervāls, kurā atrodas populācijas parametrs.
  • Hipotēžu testi: SE lieto, lai standartizētu novērojumus (piem., aprēķinot z‑ vai t‑statistiku) un pārbaudītu hipotēzes par atšķirībām vai nulles vērtībām.
  • Salīdzināšana starp grupām: SE nepieciešams, lai novērtētu, vai novērotās atšķirības starp divām izlases vidējām ir statistiski nozīmīgas.

Svarīgas piezīmes un ierobežojumi

  • Atšķirība no standartnovirzes: standartnovirze (σ vai s) apraksta datu izkliedi vienā izlasei, kamēr standartkļūda apraksta izkliedi no izlases statistikas (piem., vidējā) starp atkārtotām izlases ņemšanām.
  • Prasības: formulas parasti pieņem, ka novērojumi ir neatkarīgi un izlase ir nejauša. Ja dati ir sakārtoti (piem., klasteri, laika rindas), vienkārša SE formula var dot maldinošus rezultātus.
  • Neliels izlases lielums: ja n ir mazs un populācijas izplatība nav tuvu normālai, jāizmanto t‑sadale vai pieskaitāmas metodes (piem., bootstrap), lai novērtētu kļūdu drošāk.
  • Alternatīvas pieejas: ja pieņēmumi nav pamatoti, var izmantot atkārtotu paraugu ņemšanu (bootstrap) SE novērtēšanai vai sarežģītākas formulas korekcijām (piem., svariem, klasteru korekcijām).

Apzīmējumi

Standartkļūda bieži apzīmēta kā SE(x̄), σ_{x̄} vai vienkārši SE. Sapratne par SE un tās ierobežojumiem palīdz pareizi interpretēt statistiskos rezultātus un izvairīties no pārlieku drošiem secinājumiem no ierobežotas izlases.

Vērtībai, kas tiek atlasīta ar objektīvu normāli sadalītu kļūdu, iepriekš attēlota to paraugu proporcija, kas būtu starp 0, 1, 2 un 3 standartnovirzēm virs un zem faktiskās vērtības.Zoom
Vērtībai, kas tiek atlasīta ar objektīvu normāli sadalītu kļūdu, iepriekš attēlota to paraugu proporcija, kas būtu starp 0, 1, 2 un 3 standartnovirzēm virs un zem faktiskās vērtības.

Kā atrast vidējās vērtības standartkļūdu

Viens no veidiem, kā noteikt vidējās vērtības standartkļūdu, ir iegūt daudz paraugu. Vispirms katram paraugam tiek atrasts vidējais lielums. Pēc tam tiek atrasts šo paraugu vidējais lielums un standartnovirze. Visu paraugu vidējo lielumu standartnovirze ir vidējā standartkļūda. Tas var sagādāt daudz darba. Dažreiz ir pārāk sarežģīti vai maksā pārāk dārgi, lai iegūtu daudz paraugu.

Cits veids, kā atrast vidējās vērtības standartkļūdu, ir izmantot vienādojumu, kam nepieciešams tikai viens paraugs. Vidējās vērtības standartkļūdu parasti aprēķina, dalot izlases standartnovirzi no visas grupas (izlases standartnovirzi) ar izlases lieluma kvadrātsakni.

S E x ¯ = s n {\displaystyle SE_{\bar {x}}} ={\frac {s}{\sqrt {n}}}} {\displaystyle SE_{\bar {x}}\ ={\frac {s}{\sqrt {n}}}}

kur

s ir izlases standartnovirze (t. i., uz izlasi balstīts populācijas standartnovirzes novērtējums), un

n ir mērījumu skaits paraugā.

Cik lielai ir jābūt izlasei, lai vidējās standartkļūdas aplēse būtu tuva visas grupas faktiskajai vidējai standartkļūdai? Paraugā jābūt vismaz sešiem mērījumiem. Tad izlases vidējā standartkļūda būs 5 % robežās no vidējās standartkļūdas, ja tiktu mērīta visa grupa.

Dažu gadījumu labojumi

Ir vēl viens vienādojums, ko izmantot, ja mērījumu skaits ir 5% vai vairāk no visas grupas:

Ja paraugā ir mazāk nekā 20 mērījumu, ir jāizmanto īpaši vienādojumi.

Dažreiz paraugs nāk no vienas vietas, lai gan visa grupa var būt izkliedēta. Dažreiz arī paraugs var tikt veikts īsā laika posmā, lai gan visa grupa aptver ilgāku laika posmu. Šādā gadījumā izlasē iekļautie skaitļi nav neatkarīgi. Tad izmanto īpašus vienādojumus, lai mēģinātu to koriģēt.

Lietderīgums

Praktisks rezultāts: Ja paraugā ir vairāk mērījumu, var iegūt lielāku pārliecību par vidējo vērtību. Tad vidējā standartkļūda būs mazāka, jo standartnovirze tiek dalīta ar lielāku skaitli. Tomēr, lai vidējās vērtības nenoteiktība (vidējās vērtības standartkļūda) būtu uz pusi mazāka, izlases lielumam (n) jābūt četras reizes lielākam. Tas ir tāpēc, ka standartnovirzi dala ar izlases lieluma kvadrātsakni. Lai nenoteiktība būtu desmito daļu lielāka, izlases lielumam (n) jābūt simts reizes lielākam!

Standartkļūdas ir viegli aprēķināt, un tās tiek bieži izmantotas, jo:

  • Ja ir zināma vairāku atsevišķu lielumu standartkļūda, tad daudzos gadījumos var viegli aprēķināt kādas lielumu funkcijas standartkļūdu;
  • Ja ir zināms vērtības varbūtības sadalījums, to var izmantot, lai aprēķinātu precīzu ticamības intervāla tuvinājumu; un
  • Ja varbūtības sadalījums nav zināms, ticamības intervāla novērtēšanai var izmantot citus vienādojumus.
  • Kad izlases lielums kļūst ļoti liels, centrālās robežas teorēmas princips rāda, ka izlases skaitļi ir ļoti līdzīgi skaitļiem visā grupā (tiem ir normāls sadalījums).

Relatīvā standartkļūda

Relatīvā standartkļūda (RSE) ir standarta kļūda, kas dalīta ar vidējo vērtību. Šis skaitlis ir mazāks par vienu. Ja to reizina ar 100 %, iegūst vidējo kļūdu procentos. Tas palīdz parādīt, vai nenoteiktība ir nozīmīga. Piemēram, aplūkojiet divus mājsaimniecību ienākumu apsekojumus, kuru vidējais izlases rezultāts ir 50 000 USD. Ja viena apsekojuma standartkļūda ir 10 000 USD, bet otra - 5 000 USD, tad relatīvās standartkļūdas ir attiecīgi 20 % un 10 %. Apsekojums ar mazāku relatīvo standartkļūdu ir labāks, jo tajā mērījums ir precīzāks (nenoteiktība ir mazāka).

Patiesībā cilvēki, kuriem ir jāzina vidējās vērtības, bieži vien izlemj, cik mazai jābūt nenoteiktībai, pirms viņi nolemj izmantot informāciju. Piemēram, ASV Nacionālais veselības statistikas centrs neziņo par vidējo vērtību, ja relatīvā standartkļūda pārsniedz 30 %. NCHS arī pieprasa vismaz 30 novērojumus, lai varētu paziņot aplēsi. []

Piemērs

Piemēram, Meksikas līča ūdenī ir daudz sarkanasaru. Lai noskaidrotu, cik vidēji sver 42 cm garš sarkanasaris, nav iespējams izmērīt visus sarkanasarus, kas ir 42 cm gari. Tā vietā ir iespējams izmērīt dažus no tiem. Zivis, kuras faktiski tiek mērītas, sauc par paraugu. Tabulā parādīts divu 42 cm garu sarkanasaru paraugu svars. Pirmā parauga vidējais (vidējais) svars ir 0,741 kg. Otrā parauga vidējais (vidējais) svars ir 0,735 kg, kas nedaudz atšķiras no pirmā parauga. Katrs no šiem vidējiem rādītājiem nedaudz atšķiras no vidējā rādītāja, kas tiktu iegūts, izmērot katru 42 cm garo sarkanasari (kas tik un tā nav iespējams).

Vidējās vērtības nenoteiktību var izmantot, lai uzzinātu, cik tuvu paraugu vidējā vērtība ir vidējai vērtībai, kas tiktu iegūta, mērot visu grupu. Vidējās vērtības nenoteiktību aprēķina kā parauga standartnovirzi, kas dalīta ar kvadrātsakni no paraugu skaita mīnus viens. Tabulā redzams, ka abu paraugu vidējo vērtību nenoteiktība ir ļoti tuvu viena otrai. Arī relatīvā nenoteiktība ir vidējās vērtības nenoteiktība, dalīta ar vidējo vērtību un reizināta ar 100 %. Šajā piemērā relatīvā nenoteiktība abiem paraugiem ir 2,38 % un 2,50 %.

Zinot vidējās vērtības nenoteiktību, var noteikt, cik tuvu izlases vidējais rādītājs ir vidējam rādītājam, ko iegūtu, mērot visu grupu. Visas grupas vidējais rādītājs ir starp a) vidējo rādītāju izlasē plus vidējā rādītāja nenoteiktība un b) vidējo rādītāju izlasē mīnus vidējā rādītāja nenoteiktība. Šajā piemērā vidējais svars visām 42 cm garajām sarkanasarēm Meksikas līcī ir 0,723-0,759 kg, pamatojoties uz pirmo paraugu, un 0,717-0,753 kg, pamatojoties uz otro paraugu.

Zoom


Piemērā izmantotā sarkanasaru (pazīstams arī kā sarkanā bumbierzivs, Sciaenops ocellatus) paraugs.Zoom
Piemērā izmantotā sarkanasaru (pazīstams arī kā sarkanā bumbierzivs, Sciaenops ocellatus) paraugs.

Jautājumi un atbildes

J: Kas ir standarta kļūda?


A: Standartkļūda ir statistiskā lieluma izlases sadalījuma standartnovirze.

J: Vai terminu "standartkļūda" var lietot standartnovirzes novērtējumam?


A: Jā, terminu standartkļūda var lietot šīs standartnovirzes aplēsēm (labam minējumam), kas ņemtas no visas grupas izlases.

J: Kā var novērtēt visas grupas vidējo vērtību?


A: Parasti vidējo vērtību visai grupai novērtē, izmantojot kādas grupas daļas (ko sauc par izlasi) vidējo vērtību.

J: Kāpēc ir grūti izmērīt visu grupu?


A: Bieži vien ir pārāk grūti vai pārāk dārgi izmērīt visu grupu.

J: Kas ir vidējā standarta kļūda un ko tā nosaka?


A: Vidējās standartkļūda ir veids, kā uzzināt, cik tuvu izlases vidējais rādītājs ir visas grupas vidējam rādītājam. Tas ir veids, kā uzzināt, cik pārliecināti var būt par izlases vidējo vērtību.

Vai vidējās standartnovirzes patiesā vērtība parasti ir zināma reālos mērījumos?


A: Nē, reālos mērījumos parasti nav zināma visas grupas vidējās standartnovirzes patiesā vērtība.

J: Kā mērījumu skaits izlasē ietekmē novērtējuma precizitāti?


A: Jo vairāk mērījumu ir izlasē, jo tuvāk visas grupas patiesajam skaitlim būs aprēķins.


Meklēt
AlegsaOnline.com - 2020 / 2025 - License CC3