Statistika
Statistika ir lietišķās matemātikas nozare, kas nodarbojas ar datu vākšanu, organizēšanu, analīzi, interpretāciju un prezentāciju. Aprakstošā statistika apkopo datus. Inferenciālā statistika ļauj prognozēt. Statistika palīdz pētīt daudzas citas jomas, piemēram, zinātni, medicīnu, ekonomiku, psiholoģiju, politiku un mārketingu. Cilvēku, kas strādā statistikas jomā, sauc par statistiķi. Vārds "statistika" ir ne tikai studiju jomas nosaukums, bet arī apzīmē skaitļus, ko izmanto datu vai attiecību aprakstīšanai.
Vēsture
Pirmie zināmie statistikas dati ir tautas skaitīšanas dati. Babilonieši tautas skaitīšanu veica ap 3500 gadu pirms mūsu ēras, ēģiptieši - ap 2500 gadu pirms mūsu ēras, bet senie ķīnieši - ap 1000 gadu pirms mūsu ēras.
Sākot ar 16. gadsimtu, tādi matemātiķi kā Džerolāmo Kardāno (Gerolamo Cardano) izstrādāja varbūtību teoriju, kas padarīja statistiku par zinātni. Kopš tā laika cilvēki ir vākuši un pētījuši statistiku par daudzām lietām. Koki, jūraszvaigznes, zvaigznes, akmeņi, vārdi, gandrīz viss, ko var saskaitīt, ir bijis statistikas objekts.
Datu vākšana
Pirms mēs varam aprakstīt pasauli ar statistikas palīdzību, mums ir jāapkopo dati. Statistikā vāktos datus sauc par mērījumiem. Pēc datu apkopošanas mēs izmantojam vienu vai vairākus skaitļus, lai aprakstītu katru novērojumu vai mērījumu. Piemēram, pieņemsim, ka vēlamies noskaidrot, cik populārs ir kāds televīzijas raidījums. Mēs varam izvēlēties cilvēku grupu (ko sauc par izlasi) no visas skatītāju populācijas. Tad mēs katram izlases skatītājam jautājam, cik bieži viņš skatās šo raidījumu. Paraugs ir dati, kurus var redzēt, bet populācija ir dati, kurus nevar redzēt (jo nav aptaujāts katrs populācijas skatītājs). Cits piemērs: ja mēs vēlamies uzzināt, vai konkrēts medikaments var palīdzēt pazemināt asinsspiedienu, mēs varētu kādu laiku dot cilvēkiem šo medikamentu un izmērīt viņu asinsspiedienu pirms un pēc tam.
Aprakstošā un secinošā statistika
Par aprakstošo statistiku sauc skaitļus, kas apraksta datus, kurus var redzēt. Skaitļus, kas sniedz prognozes par datiem, kurus nevar redzēt, sauc par secinošo statistiku.
Aprakstošā statistika ietver skaitļu izmantošanu, lai aprakstītu datu iezīmes. Piemēram, sieviešu vidējais augums ASV ir aprakstošā statistika, kas raksturo populācijas (sieviešu ASV) īpašību (vidējo augumu).
Kad rezultāti ir apkopoti un aprakstīti, tos var izmantot prognozēšanai. To sauc par secinošo statistiku. Piemēram, dzīvnieka lielums ir atkarīgs no daudziem faktoriem. Dažus no šiem faktoriem kontrolē vide, bet citus nosaka iedzimtība. Tāpēc biologs var izveidot modeli, kas saka, ka ir liela varbūtība, ka pēcnācējs būs maza auguma, ja vecāki bija mazi. Šāds modelis, iespējams, ļauj labāk prognozēt izmēru nekā tikai uzminot pēc nejaušības principa. Pārbaudot, vai ar kādu konkrētu medikamentu var izārstēt noteiktu stāvokli vai slimību, parasti salīdzina rezultātus cilvēkiem, kuriem ir dots šis medikaments, ar rezultātiem cilvēkiem, kuriem ir dots placebo.
Metodes
Visbiežāk mēs vācam statistikas datus, veicot aptaujas vai eksperimentus. Piemēram, viedokļu aptauja ir viens no aptaujas veidiem. Mēs izvēlamies nelielu skaitu cilvēku un uzdodam viņiem jautājumus. Tad mēs izmantojam viņu atbildes kā datus.
Svarīgi ir izvēlēties, kurus cilvēkus iesaistīt aptaujā vai datu vākšanā, jo tas tieši ietekmē statistiku. Kad statistika ir pabeigta, vairs nav iespējams noteikt, kuri indivīdi ir ņemti. Pieņemsim, ka vēlamies izmērīt ūdens kvalitāti lielā ezerā. Ja ņemsim paraugus blakus notekūdeņu notekcaurulei, iegūsim atšķirīgus rezultātus nekā tad, ja paraugus ņemsim attālā, grūti sasniedzamā ezera vietā.
Paraugu ņemšanā parasti sastopamas divu veidu problēmas:
- Ja ir daudz paraugu, tie, visticamāk, būs ļoti tuvi reālās populācijas paraugiem. Tomēr, ja ir ļoti maz paraugu, tie var ļoti atšķirties no reālās populācijas. Šo kļūdu sauc par nejaušības kļūdu (sk. Kļūdas un atlikumi statistikā).
- Paraugiem izraudzītās personas ir rūpīgi jāizvēlas, parasti tās tiek izvēlētas nejauši. Ja tas tā nav, paraugi var ļoti atšķirties no tā, kādi tie patiesībā ir kopējā populācijā. Tas attiecas pat tad, ja tiek ņemts liels skaits paraugu. Šāda veida kļūdu sauc par novirzi.
Kļūdas
Mēs varam samazināt nejaušības kļūdas, veidojot lielāku izlasi, un mēs varam izvairīties no zināmas neobjektivitātes, izvēloties izlases veidā. Tomēr dažkārt ir grūti izveidot lielas nejaušas izlases. Novirze var rasties arī tad, ja dažādiem cilvēkiem netiek uzdoti jautājumi vai viņi atsakās atbildēt uz mūsu jautājumiem, vai ja viņi zina, ka saņem viltotu ārstēšanu. Šīs problēmas var būt grūti novērst. Sk. arī standarta kļūda.
Aprakstošā statistika
Datu vidusdaļas atrašana
Datu vidusdaļu sauc par vidējo vērtību. Vidējā vērtība raksturo tipisku indivīdu populācijā. Bieži tiek izmantoti trīs vidējā lieluma veidi: vidējais, mediāna un mode.
Tālāk dotajos piemēros izmantoti šie parauga dati:
Nosaukums | A B C D E F G H I J --------------------------------------------- rezultāts| 23 26 26 49 49 49 57 64 66 78 82 92Vidējais
Vidējās vērtības formula ir šāda.
x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {\displaystyle {\bar {x}}}={\frac {1}{N}}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}}}}
Kur x 1 , x 2 , ... , x N {\displaystyle x_{1},x_{2},x_{2},\ldots ,x_{N}} ir dati un N {\displaystyle N} ir populācijas lielums. (sk. Sigma apzīmējumu).
Tas nozīmē, ka jūs saskaitāt visas vērtības un pēc tam dalāt ar vērtību skaitu.
Mūsu piemērā x ¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58,6 {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58,6}.
Problēma ar vidējo vērtību ir tā, ka tā neko neizsaka par to, kā vērtības ir sadalītas. Vērtības, kas ir ļoti lielas vai ļoti mazas, vidējo vērtību ļoti maina. Statistikā šīs ekstrēmās vērtības varētu būt mērījumu kļūdas, bet dažreiz populācijā patiešām ir šādas vērtības. Piemēram, ja telpā ir 10 cilvēki, kuri pelna 10 dolārus dienā, un 1, kurš pelna 1 000 000 dolāru dienā. Datu vidējā vērtība ir 90 918 dolāri dienā. Lai gan tā ir vidējā summa, šajā gadījumā vidējā vērtība nav summa, ko nopelna kāds atsevišķs cilvēks, tāpēc dažiem mērķiem tā ir nelietderīga.
Tas ir "vidējais aritmētiskais". Dažiem mērķiem ir noderīgi arī citi veidi.
Mediāna
Mediāna ir vidējais datu elements. Lai atrastu mediānu, datus sakārtojam no mazākā līdz lielākajam skaitlim un tad izvēlamies skaitli vidū. Ja ir pāra skaits datu, tad nebūs skaitļa tieši vidū, tāpēc izvēlamies divus vidējos un aprēķinām to vidējo vērtību. Mūsu piemērā ir 10 datu elementi, divi vidējie ir "57" un "64", tāpēc mediāna ir (57+64)/2 = 60,5. Cits piemērs, līdzīgi kā piemērā par ienākumiem, kas tika sniegts vidējai vērtībai, aplūkojiet telpu, kurā ir 10 cilvēki, kuru ienākumi ir 10, 20, 20, 40, 50, 60, 90, 90, 100 un 1 000 000 dolāru, mediāna ir 55 dolāri, jo 55 dolāri ir vidējais no diviem vidējiem skaitļiem - 50 un 60 dolāru. Ja neņem vērā galējo vērtību 1 000 000 $, vidējā vērtība ir 53 $. Šajā gadījumā mediāna ir tuva vērtībai, kas iegūta, ja galējā vērtība tiek izslēgta. Mediāna atrisina ekstrēmu vērtību problēmu, kā aprakstīts iepriekš dotajā vidējā lieluma definīcijā.
Režīms
Moduss ir visbiežāk sastopamais datu elements. Piemēram, visbiežāk sastopamais burts angļu valodā ir burts "e". Mēs teiktu, ka "e" ir burtu sadalījuma moda.
Piemēram, ja telpā ir 10 cilvēki ar ienākumiem 10, 20, 20, 40, 50, 60, 90, 90, 90, 100 un 1 000 000 ASV dolāru, tad moda ir 90 ASV dolāru, jo 90 ASV dolāru parādās trīs reizes, bet visas pārējās vērtības parādās mazāk nekā trīs reizes.
Var būt vairāki režīmi. Piemēram, ja telpā ir 10 cilvēki ar ienākumiem 10, 20, 20, 20, 20, 50, 60, 90, 90, 90, 90, 100 un 1 000 000 ASV dolāru, režīmi ir 20 un 90 dolāru. Tas ir divmodāls jeb ar diviem režīmiem. Bimodalitāte ir ļoti izplatīta un bieži norāda, ka dati ir divu dažādu grupu kombinācija. Piemēram, visu ASV pieaugušo vidējam augumam ir divmodāls sadalījums. Tas ir tāpēc, ka vīriešiem un sievietēm ir atsevišķi vidējie augstumi - 1,763 m (5 ft 9 + 1⁄2 collas) vīriešiem un 1,622 m (5 ft 4 collas) sievietēm. Šie maksimumi ir redzami, ja abas grupas apvieno.
Moduss ir vienīgais vidējā lieluma veids, ko var izmantot datiem, kurus nevar sakārtot.
Datu izplatības noteikšana
Vēl viena lieta, ko varam teikt par datu kopu, ir tās izkliedētība. Parasti datu kopas izkliedi raksturo standartnovirze. Ja datu kopas standartnovirze ir maza, tad lielākā daļa datu ir ļoti tuvu vidējam lielumam. Taču, ja standartnovirze ir liela, tad liela daļa datu ļoti atšķiras no vidējā.
Ja dati atbilst kopējam modelim, ko sauc par normālo sadalījumu, tad ir ļoti noderīgi zināt standartnovirzi. Ja dati atbilst šim modelim (mēs teiktu, ka dati ir normāli sadalīti), tad aptuveni 68 no katriem 100 datiem vidējā vērtība būs mazāka par standartnovirzi. Un ne tikai tas, bet arī aptuveni 95 no katriem 100 mērījumiem vidējais rādītājs būs mazāks par divām standartnovirzēm, un aptuveni 997 no 1000 mērījumu būs tuvāk vidējam rādītājam nekā trīs standartnovirzes.
Cita aprakstošā statistika
Statistiku varam izmantot arī, lai noskaidrotu, ka kāds procents, procentile, skaits vai daļa cilvēku vai lietu grupā kaut ko dara vai ietilpst noteiktā kategorijā.
Piemēram, sociologi, izmantojot statistiku, noskaidroja, ka 49% cilvēku pasaulē ir vīrieši.
Saistītā programmatūra
Lai palīdzētu statistiķiem, ir izstrādātas daudzas statistikas programmatūras:
- SAS Institute
- SPSS (ražotājs - IBM)
Jautājumi un atbildes
J: Kas ir statistika?
A: Statistika ir lietišķās matemātikas nozare, kas nodarbojas ar datu vākšanu, organizēšanu, analīzi, nolasīšanu un pasniegšanu.
J: Kādi ir divi statistikas veidi?
A: Divi statistikas veidi ir aprakstošā un secinošā statistika. Aprakstošā statistika apkopo datus, bet secinošā statistika ļauj prognozēt.
J: Kā statistika palīdz citās jomās?
A: Statistika palīdz pētīt daudzas citas jomas, piemēram, zinātni, medicīnu, ekonomiku, psiholoģiju, politiku un mārketingu.
J: Kas strādā statistikas jomā?
A: Cilvēku, kas strādā statistikas jomā, sauc par statistiķi.
J: Ko nozīmē vārds "statistika"?
A: Vārds "statistika" ir ne tikai zinātnes nozares nosaukums, bet tas var nozīmēt arī skaitļus, ko izmanto datu vai attiecību aprakstīšanai.
J: Ar kādām darbībām nodarbojas statistiķi?
A: Statistiķi veic tādas darbības kā datu vākšana, organizēšana, analīze, nolasīšana un prezentēšana.