Statistiskās hipotēzes pārbaude: definīcija, tests, p‑vērtība un piemēri

Statistiskās hipotēzes pārbaude ir metode, ko izmanto statistikā. Tā palīdz aprakstīt eksperimentā iegūtos rezultātus. Hipotēzes tests parāda varbūtību, ka konkrēts rezultāts varētu rasties nejauši.

Statistikas hipotēžu pārbaude sniedz atbildi uz jautājumu: Pieņemot, ka nulles hipotēze ir patiesa, kāda ir varbūtība iegūt vērtību, kas ir vismaz tikpat ekstrēma kā faktiski novērotā vērtība?.

Piemēram, ja rezultāts nejaušības gadījumā ir tikai 5 % gadījumu, tad eksperimentālā hipotēze ir apstiprināta 95 % līmenī.

Kopējā ideja un pamatsoļi

Statistiskās hipotēzes pārbaude parasti ietver šādus soļus:

  • Formulēt nulles hipotēzi (H0) — parasti tā apgalvo, ka nav efekta vai atšķirības (piem., vidējā vērtība ir vienāda ar kādu konstanti).
  • Formulēt alternatīvo hipotēzi (H1 vai Ha) — tā apgalvo pretējo (piem., ir atšķirība vai efekts).
  • Izvēlēties piemērotu testa statistiku — atkarīga no datu tipa un pieņēmumiem (piem., t–tests, z–tests, χ²–tests, ANOVA utt.).
  • Aprēķināt p‑vērtību — varbūtība novērotā (vai ekstrēmākus) datu rezultātu, pieņemot, ka H0 ir patiess.
  • Saprast lēmuma kritēriju — salīdzināt p‑vērtību ar iepriekš noteiktu nozīmīguma līmeni α (bieži 0,05): ja p < α, tad noraida H0.
  • Interpretēt rezultātu — ņemt vērā kontekstu, efektu lielumu un pieņēmumu pārkāpumus.

P‑vērtība un nozīmīguma līmenis

P‑vērtība (p‑value) ir centrālais jēdziens. Tā nav tieši varbūtība, ka hipotēze ir pareiza vai nepareiza, bet gan varbūtība iegūt datus tikpat ekstrēmos kā novērotie, pieņemot, ka H0 ir patiess.

Dažas svarīgas piezīmes:

  • Ja p vērtība ir ļoti maza (piem., < 0,05), tas liecina, ka novērotie dati ir maz saderīgi ar H0, un parasti H0 noraida.
  • Ja p ir liela, tas nenozīmē, ka H0 ir pierādīta; tas nozīmē tikai, ka nav pietiekami pierādījumu H0 noraidīšanai.
  • Nozīmīguma līmenis α (piem., 0,05, 0,01) ir priekšnoteikts slieksnis, kas nosaka risku noraidīt patiesu H0 (Type I kļūda).

Viena- un divpusējas pārbaudes

Atkarībā no alternatīvās hipotēzes tests var būt vienpusējs (pārbauda virzienu, piemēram, vai vidējā vērtība ir lielāka nekā H0 gadījumā) vai divpusējs (pārbauda jebkuru novirzi no H0). Tas ietekmē p‑vērtības aprēķinu un interpretāciju.

Kļūdas un testa jauda

  • Type I (I tipa) kļūda: noraida patiesu H0. Šī kļūda ir tieši saistīta ar izvēlēto α.
  • Type II (II tipa) kļūda: nepamana patiesu alternatīvu hipotēzi (neiznoraida H0, kad tai vajadzētu tikt noraidītai). Šo varbūtību apzīmē ar β.
  • Jauda (power): = 1 − β — varbūtība pareizi noraidīt H0, ja H1 ir patiess. Jauda palielinās ar lielāku paraugu izmēru, lielāku efektu un mazāku datu dispersiju.

Biežāk lietotie testi un pieņēmumi

  • t–tests — salīdzina vidējos (pieņēmums: dati aptuveni normāli sadalīti, mazi paraugi).
  • z–tests — parasti izmanto lieliem paraugiem vai ja zināms populācijas dispersijas parametrs.
  • χ²–tests (hi‑kvadrāts) — kategorizētiem datiem (piem., neatkarības tests).
  • ANOVA — salīdzina vairāk nekā divu grupu vidējos rādītājus.

Pirms pārbaudes jāizvērtē pieņēmumu atbilstība (normālums, neatkarība, homogēna dispersija u.c.). Ja pieņēmumi nav izpildīti, jāizmanto citi testi vai permutācijas/būtiska transformācija.

Vienkāršs piemērs

Uzskatīsim vienkāršu piemēru: H0 — monēte ir godīga (mēdz izrādīties galva ar varbūtību 0,5). Izmēģinām 100 metienus un iegūstam 60 galvu.

  • Ja aprēķinām p‑vērtību (divpusēju testu), tā norāda, cik liela ir varbūtība iegūt 60 vai vairāk galvu vai 40 vai mazāk, ja monēte patiešām ir godīga. Šāda p‑vērtība ir aptuveni 0,045.
  • Ja esam izvēlējušies α = 0,05, tad p ≈ 0,045 < 0,05, tātad statistiski nozīmīgs rezultāts — noraidām H0 un pieņemam, ka pastāv novirze no godīgas monētas.

Šajā piemērā jāpatur prātā, ka pat ja p < α, novērojums var būt paveicies nejaušības rezultātā (risks Type I kļūdai ir tieši α). Turklāt praktiskā nozīmība (efekta lielums) 60/100 pret 50/100 var būt neliela — tāpēc ir svarīgi skatīt gan p‑vērtību, gan efektu lielumu un intervālus.

Praktiski ieteikumi

  • Skatieties ne tikai p‑vērtību — novērtējiet efektu lielumu un uzticamības intervālus.
  • Ieplānojiet parauga izmēru iepriekš (power analīze), lai samazinātu II tipa kļūdu risku.
  • Ja dati neapmierina pieņēmumus, izmantojiet neatkarīgus vai bezparametriskus testus.
  • Formulējiet hipotēzes un α pirms datu vākšanas, lai izvairītos no p‑vērtību „meklēšanas” post hoc, kas palielina kļūdainu secinājumu risku.

AlegsaOnline.com - 2020 / 2025 - License CC3