Spīrmena ranga korelācijas koeficients: definīcija, formula, piemēri

Uzziniet Spīrmena ranga korelācijas koeficienta definīciju, formulu un skaidrus piemērus soli pa solim — ideāli datu analīzei un statistikas mācībām.

Autors: Leandro Alegsa

Matemātikā un statistikā Spīrmena ranga korelācijas koeficients ir korelācijas mērs, kas nosaukts tā radītāja Čārlza Spīrmena vārdā. Īsumā to raksta kā grieķu burtu rho ( ρ {\displaystyle \rho }{\displaystyle \rho } ) vai dažreiz kā r s {\displaystyle r_{s}}}. {\displaystyle r_{s}} Tas ir skaitlis, kas parāda, cik cieši saistītas ir divas datu kopas, ja datus var sakārtot (rankot), piemēram, no augstākā uz zemāko. Atšķirībā no Pīrsona koeficienta, Spīrmena koeficients mēra monotonu saistību (vai lielāka vērtība parasti pavisam kopā ar lielāku vērtību, un otrādi), nevis obligāti lineāru sakarību. To parasti izmanto, ja dati nav normāli sadalīti vai satur ārkārtas vērtības (outlier).

Kā aprēķina

Vispārējā formula r s {\displaystyle r_{s}}{\displaystyle r_{s}} ir ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}}}. {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

  • Soli pa solim: vispirms katrai no abām datu kopām piešķir rangu (1 — zemākais, n — augstākais). Ja ir vienādi (tie) vērtējumi, tiem piešķir vidējo rangu.
  • Aprēķina katram novērojumam rangus x_i un y_i un šo rangu starpību d_i = x_i − y_i.
  • Aprēķina d_i^2 un summē: Σ d_i^2.
  • Ievieto Σ d_i^2 un datu skaitu n formulā ρ = 1 − (6 Σ d_i^2) / (n (n^2 − 1)).
  • Ja nav vai ir maz saišu (ties), var arī vienkārši aprēķināt Pīrsona korelācijas koeficientu starp rangiem — rezultāts būs vienāds ar Spīrmena koeficientu.

Piemērs

Piemēram, ja jūsu rīcībā ir dati par to, cik dārgi ir dažādi datori, un dati par to, cik ātri ir datori, jūs varat pārbaudīt, vai tie ir saistīti un cik cieši tie ir saistīti, izmantojot r s {\displaystyle r_{s}}. {\displaystyle r_{s}}

Pieņemsim piecu datoru piemēru (vienkāršībai):

  • Dators A — cena 500, ātrums 2.5
  • Dators B — cena 700, ātrums 3.0
  • Dators C — cena 400, ātrums 2.0
  • Dators D — cena 900, ātrums 3.5
  • Dators E — cena 600, ātrums 2.8

Piešķiram rangus cenām (1 = zemākā cena): C=1, A=2, E=3, B=4, D=5. Rangus ātrumam (1 = lēnākais): C=1, A=2, E=3, B=4, D=5. Tātad rangi abām kolonnām sakrīt, d_i = 0 visiem novērojumiem, Σ d_i^2 = 0, un pēc formulas ρ = 1 − 0 = 1 — pilnīga pozitīva monotona saistība.

Ja rangos būtu atšķirības, aprēķinātu d_i^2 un ievietotu formulā, iegūstot ρ vērtību starp −1 (pilnīga negatīva monotona saistība) un +1 (pilnīga pozitīva monotona saistība). Vērtība ap 0 norāda uz vāju vai nekādu monotonu sakarību.

Praktiskas piezīmes

  • Rangu piešķiršana: ja ir vienādas vērtības (ties), piešķir to vidējo rangu. Piemēram, ja divām novērojumu ir 2. un 3. vieta, abām piešķir rangu 2.5.
  • Alternatīva formula un programmatūra: daudzi statistikas rīki aprēķina Spīrmena koeficientu, ņemot vērā korekcijas piesaistēm (ties) vai izmantojot Pīrsona korelāciju uz rangiem — tas dod to pašu rezultātu bez sarežģītas tie-korekcijas, ja korekcija nav nepieciešama.
  • Nozīmīgums: lai pārbaudītu, vai novērotā ρ ir statistiski nozīmīga, izmanto p-vērtību, kas atkarīga no n. Mazākiem paraugiem var prasīt eksaktu testu; lielākiem paraugiem bieži izmanto aproksimācijas (t-testam līdzīgas formulas).
  • Izmantošana: Spīrmena koeficients ir noderīgs, ja dati nav lineāri, satur ārkārtas vērtības vai neatbilst Pīrsona pieņēmumiem. Tas mēra monotonu sakarību, tātad attiecības, kur viena mainīgā pieaugot, otra konsekventi pieaug vai samazinās, bet ne obligāti proporcionāli.

Kopsavilkumā, Spīrmena ranga korelācijas koeficients ir vienkāršs un robusts rīks, lai novērtētu saistības spēku un virzienu starp divām sakārtojamām datu kopām. Tā interpretācija ir tieša: ρ = 1 (pilnīga pozitīva monotona saistība), ρ = −1 (pilnīga negatīva monotona saistība), ρ ≈ 0 (nav monotonas saistības).

Izstrādājot to

Pirmais solis

Lai aprēķinātu r s {\displaystyle r_{s}}{\displaystyle r_{s}}, vispirms ir jāraksturo katrs datu elements. Mēs izmantosim piemēru no ievada par datoriem un to ātrumu.

Tātad dators ar zemāko cenu būs 1. vietā. Tam, kas ir augstāk, būtu 2. vieta. Tad tas turpināsies, līdz visi būs sarindoti. Tas jādara ar abām datu kopām.

DATORS

Cena ($)

R a n k 1 {\displaystyle Rank_{1}} {\displaystyle Rank_{1}}

Ātrums (GHz)

R a n k 2 {\displaystyle Rank_{2}} {\displaystyle Rank_{2}}

A

200

1

1.80

2

B

275

2

1.60

1

C

300

3

2.20

4

D

350

4

2.10

3

E

600

5

4.00

5

Otrais solis

Tālāk mums ir jāatrod starpība starp abām rangiem. Pēc tam šo starpību reizina ar pašu sevi, un to sauc par kvadrātu. Starpību sauc par d {\displaystyle d}{\displaystyle d} , un skaitli, ko iegūst, kvadrējot d {\displaystyle d}{\displaystyle d}, sauc par d 2 {\displaystyle d^{2}}. {\displaystyle d^{2}}.

R a n k 1 {\displaystyle Rank_{1}} {\displaystyle Rank_{1}}

R a n k 2 {\displaystyle Rank_{2}} {\displaystyle Rank_{2}}

d {\displaystyle d} {\displaystyle d}

d 2 {\displaystyle d^{2}} {\displaystyle d^{2}}

1

2

-1

1

2

1

1

1

3

4

-1

1

4

3

1

1

5

5

0

0

Trešais solis

Saskaitiet, cik daudz datu mums ir. Šiem datiem ir rangi no 1 līdz 5, tātad mums ir 5 dati. Šo skaitli sauc par n {\displaystyle n}n .

Ceturtais solis

Visbeidzot, izmantojiet visu, ko līdz šim izstrādājām, šajā formulā: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}. {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

∑ d 2 {\displaystyle \sum d^{2}}{\displaystyle \sum d^{2}} nozīmē, ka mēs ņemam visu to skaitļu kopsummu, kas bija kolonnā d 2 {\displaystyle d^{2}}. {\displaystyle d^{2}}. Tas ir tāpēc, ka ∑ {\displaystyle \sum } {\displaystyle \sum }nozīmē kopā.

Tātad ∑ d 2 {\displaystyle \summa d^{2}}{\displaystyle \sum d^{2}} ir 1 + 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1}{\displaystyle 1+1+1+1}, kas ir 4. Formulā teikts, ka reiziniet to ar 6, kas ir 24.

n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} {\displaystyle n(n^{2}-1)}ir 5 × ( 25 - 1 ) {\displaystyle 5\reiz (25-1)}, {\displaystyle 5\times (25-1)}kas ir 120.

Tātad, lai noskaidrotu r s {\displaystyle r_{s}} {\displaystyle r_{s}}, mēs vienkārši izdarām 1 - 24 120 = 0,8 {\displaystyle 1-{{\cfrac {24}{120}}=0,8}{\displaystyle 1-{\cfrac {24}{120}}=0.8} .

Tāpēc Spīrmena ranga korelācijas koeficients šim datu kopumam ir 0,8.

Ko nozīmē skaitļi

r s {\displaystyle r_{s}}{\displaystyle r_{s}} vienmēr sniedz atbildi no -1 līdz 1. Starpskaitļi ir kā skala, kur -1 ir ļoti spēcīga saikne, 0 ir bez saiknes, bet 1 arī ir ļoti spēcīga saikne. Atšķirība starp 1 un -1 ir tāda, ka 1 ir pozitīva korelācija, bet -1 ir negatīva korelācija. Datu grafiks ar r s {\displaystyle r_{s}}{\displaystyle r_{s}} vērtību -1 izskatītos kā attēlā redzamais grafiks, tikai līnija un punkti virzītos no augšas pa kreisi uz leju pa labi.

Piemēram, iepriekš minētajiem datiem r s {\displaystyle r_{s}}{\displaystyle r_{s}} bija 0,8. Tas nozīmē, ka pastāv pozitīva korelācija. Tā kā tā ir tuvu 1, tas nozīmē, ka saikne starp abām datu kopām ir spēcīga. Tātad varam teikt, ka šīs divas datu kopas ir saistītas un kopā pieaug. Ja tas būtu -0,8, mēs varētu teikt, ka tie ir saistīti un, vienam pieaugot, otrs samazinās.

Zoom

Šim izkliedes grafikam ir pozitīva korelācija. R s {\displaystyle r_{s}}{\displaystyle r_{s}} vērtība būtu tuvu 1 vai 0,9. Sarkanā līnija ir vislabākās atbilstības līnija.

Ja divi skaitļi ir vienādi

Dažreiz, klasificējot datus, ir divi vai vairāki vienādi skaitļi. Ja tas notiek r s {\displaystyle r_{s}}. {\displaystyle r_{s}}, mēs ņemam to rangu vidējo vai vidējo vērtību, kas ir vienādi. Šos rangus sauc par saistītajiem rangiem. Lai to izdarītu, mēs rangējam saistītos skaitļus tā, it kā tie nebūtu saistīti. Tad saskaitām visus rangus, kas tiem būtu, un dalām ar to skaitu. Piemēram, teiksim, ka mēs sakārtojam, cik labi dažādiem cilvēkiem veicies pareizrakstības testā.

Testa rezultāts

Rangs

Rangs (ar saistīto)

4

1

1

6

2

2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+3+4}{3}}=3} {\displaystyle {\tfrac {2+3+4}{3}}=3}

6

3

2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+3+4}{3}}=3} {\displaystyle {\tfrac {2+3+4}{3}}=3}

6

4

2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+3+4}{3}}=3} {\displaystyle {\tfrac {2+3+4}{3}}=3}

8

5

5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5} {\displaystyle {\tfrac {5+6}{2}}=5.5}

8

6

5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5} {\displaystyle {\tfrac {5+6}{2}}=5.5}

Šos skaitļus izmanto tieši tāpat kā parastās pakāpes.

Saistītās lapas

Jautājumi un atbildes

J: Kas ir Spīrmena ranga korelācijas koeficients?


A: Spīrmena ranga korelācijas koeficients ir korelācijas mērs, kas parāda, cik cieši saistītas ir divas datu kopas. To var izmantot tikai datiem, kurus var sakārtot, piemēram, no augstākā uz zemāko.

J: Kas radīja Spīrmena ranga korelācijas koeficientu?


A: Čārlzs Spīrmens izveidoja Spīrmena ranga korelācijas koeficientu.

J: Kā ir uzrakstīta vispārīgā formula Spīrmena ranga korelācijas koeficientam?


A: Spearmana ranga korelācijas koeficienta vispārīgo formulu raksta šādi: ρ = 1 - 6∑d2/n(n2-1).

J: Kad jāizmanto Spīrmena ranga korelācijas koeficients?


A: Spīrmena ranga korelācijas koeficients jāizmanto, ja vēlaties noskaidrot, cik cieši saistītas ir divas datu kopas un vai tās vispār ir saistītas.

J: Ar kāda veida datiem tas darbojas?


A: Tas darbojas ar jebkura veida datiem, kurus var sakārtot, piemēram, no augstākā līdz zemākajam.

J: Vai varat sniegt piemēru, kur jūs varētu izmantot šo pasākumu?



A: Piemēram, ja jums ir dati par to, cik dārgi ir dažādi datori, un dati par to, cik ātri ir datori, tad, izmantojot r_s, jūs varat redzēt, vai tie ir saistīti un cik cieši tie ir saistīti.


Meklēt
AlegsaOnline.com - 2020 / 2025 - License CC3