Zipfa likums
Zipfa likums ir empīrisks likums, kas formulēts, izmantojot matemātisko statistiku, un nosaukts lingvista Džordža Kingslija Zipfa vārdā, kurš pirmais to ierosināja.
Zipfa likums nosaka, ka, ņemot vērā lielu izmantoto vārdu izlasi, jebkura vārda biežums ir apgriezti proporcionāls tā rangam biežumu tabulā. Tātad vārdam n biežums ir proporcionāls 1/n.
Tādējādi visbiežāk sastopamais vārds parādīsies aptuveni divreiz biežāk nekā otrais visbiežāk sastopamais vārds, trīs reizes biežāk nekā trešais visbiežāk sastopamais vārds utt. Piemēram, vienā angļu valodas vārdu izlasē visbiežāk sastopamais vārds "the" veido gandrīz 7 % no visiem vārdiem (69 971 no nedaudz vairāk nekā 1 miljona). Atbilstoši Zipfa likumam otrajā vietā ir vārds "of", kas veido nedaudz vairāk nekā 3,5 % vārdu (36 411 atkārtojumu), kam seko vārds "and" (28 852). Tikai aptuveni 135 vārdi ir nepieciešami, lai veidotu pusi no lielajā izlasē iekļautajiem vārdiem.
Tāda pati sakarība pastāv arī daudzos citos ar valodu nesaistītos reitingos, piemēram, dažādu valstu pilsētu iedzīvotāju skaita, uzņēmumu lieluma, ienākumu u. c. reitingos. Sadalījuma parādīšanos pilsētu reitingos pēc iedzīvotāju skaita pirmo reizi pamanīja Felikss Auerbahs 1913. gadā.
Nav zināms, kāpēc Zipfa likums ir spēkā lielākajai daļai valodu.
Jautājumi un atbildes
J: Kas ir Zipfa likums?
A: Zipfa likums ir empīriskais likums, kas nosaka, ka vārda biežums lielā izlasē ir apgriezti proporcionāls tā rangam biežumu tabulā.
J: Kas ierosināja Zipfa likumu?
A: Zipfa likumu pirmais ierosināja lingvists Džordžs Kingslijs Zipfs.
J: Kā Zipfa likums izskaidro vārdu biežumu angļu valodas vārdu izlasē?
A: Saskaņā ar Zipfa likumu angļu valodas vārdu izlasē visbiežāk sastopamais vārds ir apmēram divreiz biežāk nekā otrais biežāk sastopamais vārds, trīs reizes biežāk nekā trešais biežāk sastopamais vārds utt. Šī tendence turpinās, samazinoties vārda rangam.
J: Kādu procentu no visiem vārdiem vienā angļu valodas vārdu izlasē veido visbiežāk sastopamais vārds?
A: Vienā angļu valodas vārdu izlasē visbiežāk sastopamais vārds ("the") veido gandrīz 7 % no visiem vārdiem.
J: Kāda ir sakarība starp vārdu skaitu, kas nepieciešams, lai veidotu pusi no parauga, un šo vārdu biežumu?
Atbilstoši Zipfa likumam ir vajadzīgi tikai aptuveni 135 vārdi, lai aptvertu pusi no liela parauga vārdiem.
J: Kādiem citiem reitingiem piemīt Zipfa likums?
A: Tāda pati sakarība, ko Zipfa likums apraksta vārdu biežumam, parādās arī citos ar valodu nesaistītos reitingos, piemēram, dažādu valstu pilsētu iedzīvotāju rangā, korporāciju lieluma un ienākumu rangā.
J: Kas pamanīja, ka pilsētu rangos pēc iedzīvotāju skaita parādās sadalījums?
A: Sadalījuma parādīšanos pilsētu reitingos pēc iedzīvotāju skaita pirmais pamanīja Felikss Auerbahs 1913. gadā.