Statistikā un varbūtību teorijā korelācija nozīmē, cik cieši saistītas ir divas datu kopas.
Saikne ne vienmēr nozīmē, ka viens izraisa otru. Ļoti iespējams, ka ir iesaistīts vēl kāds trešais faktors.
Korelācijai parasti ir viens no diviem virzieniem. Tie ir pozitīvs vai negatīvs. Ja tā ir pozitīva, tad abas kopas palielinās kopā. Ja tā ir negatīva, tad viens kopums palielinās, bet otrs samazinās.
Dažādās situācijās tiek izmantoti dažādi korelācijas mērījumi. Piemēram, izkliedes grafikā cilvēki zīmē labākās atbilstības līniju, lai parādītu korelācijas virzienu.
Korelācijas jēdziens un interpretācija
Korelācijas koeficients parasti ir skaitlis, kas raksturo attiecību spēku un virzienu starp divām mainīgajām. Lielākā daļa koeficientu ir robežās no -1 līdz +1:
- +1 — pilnīga pozitīva lineāra saistība (viens mainīgais pieaug, otrs pieaug proporcionāli);
- -1 — pilnīga negatīva lineāra saistība (viens pieaug, otrs samazinās proporcionāli);
- 0 — nav lineāras saistības (var būt nelineāra sakarība vai nav sakarības).
Svarīgi atcerēties, ka skaitlis norāda tikai saistības spēku un virzienu, nevis cēloniskumu. Lai pārliecinātos par cēloņsakarību, nepieciešami kontrolēti eksperimenti vai papildu analīze (piemēram, laika secība, instrumentālie mainīgie vai piesaistīti kontroles mainīgie).
Galvenie korelācijas veidi un mērījumi
- Pīrsona korelācijas koeficients (r) — mēra lineāru saistību starp divām nepārtrauktām mainīgajām. Formula īsi: r = kov(X,Y) / (σX · σY), kur kov ir kovariācija, σ — standartnovirze. Pieņemumi inferencēm: lineāritāte, homoskedastiskums, aptuveni normāla sadalījuma paraugiem.
- Spearmana ranga korelācija (ρ) — neparametrisks mērs, kas nosaka monotonu (ne obligāti lineāru) saistību, balstoties uz mainīgo rangu vietām. Jēgpilns, ja dati nav normāli vai ir izteikti ārkārtīgi vērtības (outliers).
- Kendalla tau — vēl viena rangu metode, kas raksta sakarību kā pāru saskaņu vai nesaskaņu; bieži stabilāka mazos paraugos.
- Phi un punkt-biseriālā korelācija — izmanto bināriem vai viena bināra un viena nepārtraukta mainīgā pāriem.
Statistiskā nozīmība un uzticamība
Lai pārbaudītu, vai novērotā korelācija nav tikai gadījuma rezultāts, lieto testus un p-vērtības. Piemēram, Pīrsona r inferencēm bieži tiek izmantots t-tests ar brīvības pakāpēm n−2. Jāņem vērā izmērs (n): mazi paraugi var dot nepastāvīgus rezultātus. Tāpat ir noderīgi aprēķināt ticamības intervālu korelācijas koeficientam, lai novērtētu precizitāti.
Praktiskas piezīmes un aizsardzība pret kļūdām
- Vizualizējiet datus — pirms aprēķina skatieties izkliedes grafikus (izkliedes grafikā), jo tie atklāj nelineāras sakarības, kopējos trendus un ārējās vērtības.
- Ārkārtīgas vērtības (outliers) var būtiski mainīt Pīrsona r. Ja ir outlieri, izvēlieties Spearmana vai pārbaudiet rezultātus ar un bez šiem novērojumiem.
- Nelienātas saistības — ja sakarība ir kvadrātiska vai cita nelineāra, Pīrsona r var būt tuvu nullei, lai gan pastāv spēcīga nelineāra saistība. Tad noderēs transformācijas (log, kvadrātsakne) vai neparametriskie mēri.
- Konfūzija un mainīgie — kontrolējiet iespējamus trešos mainīgos, izmantojot daļēju (partial) korelāciju vai regresijas modeļus.
- Simpsona paradokss — kopsavilkuma līmenī var būt pretējs virziens nekā grupu līmenī; pārbaudiet sadalījumus pa apakšgrupām.
Specifiskas korelācijas formas
- Autokorelācija — laika rindās mērījums, cik novērojumi pašreizējā laikā ir saistīti ar iepriekšējiem laika punktiem; svarīgi ekonometrikā un laika rindu modelēšanā.
- Krusta korelācija — izmanto, lai novērtētu saistību starp divām signāla sekvencēm dažādos laika nobīdes posmos.
- Korelācijas matrica — lielām mainīgo grupām lieto matricu, lai redzētu pāru korelācijas; bieži attēlo ar siltuma karti (heatmap).
Kā izvēlēties pareizo rādītāju
- Ja interesē tieši lineārā saistība un pieņemumi apmierināti — Pīrsona r.
- Ja dati nav normāli, satur rangu informāciju vai ir ārkārtīgi novērojumi — Spearmana vai Kendalla.
- Ja viens vai abi mainīgie ir kategoriski — izmantojiet atbilstošus binārajiem datiem paredzētus koeficientus (phi, punkt-biseriālo).
- Ja iespējami apstākļi ar trešajiem mainīgajiem — aprēķiniet daļējo korelāciju vai veiciet multivariatīvu analīzi.
Secinājums
Korelācija ir spēcīgs rīks, lai atklātu saistības datu kopās, bet to jāizmanto piesardzīgi. Vienmēr apvienojiet kvantitatīvos rādītājus ar vizualizācijām un domājiet par iespējamiem trešajiem faktoriem vai nelineārām attiecībām. Lai izdarītu cēloņsakarīgus secinājumus, nepieciešami papildus pētījumi un piemērotas metodes.
