Transkripcija ir teksta vai runas pārvēršana citā pieraksta formā — proti, informācijas pārrakstīšana no viena nesēja uz citu. Tas var ietvert gan runas pārveidošanu rakstītā veidā, gan fizisku vai digitalu dokumentu pārrakstīšanu. Piemēri: cilvēka runas pārvēršana rakstītā, mašīnrakstā vai drukātā formā; grāmatu skenēšana un to digitālo versiju veidošana. Persona, kas veic transkripciju, tiek saukta par transkriptētāju.

Kas nav transkripcija: transliterācija

Ir svarīgi atšķirt transkripciju no transliterācijas. Transliterācija pārvieto rakstzīmes no vienas rakstības sistēmas uz citu, cenšoties pēc iespējas sekot oriģinālajai grafikai (piemēram, Кириллitsa → Latinica). Transkripcija parasti fokusējas uz skanējuma vai satura atveidi, nevis uz burtisku rakstzīmju maiņu.

Lingvistiskās transkripcijas standarti

Standarta shēmas fonētiskai transkripcijai lingvistiskiem mērķiem ir Starptautiskais fonētiskais alfabēts (IPA) un tā ASCII ekvivalents SAMPA. IPA un SAMPA ļauj precīzi apzīmēt skaņas vienības (fōnēmas un fonētiskos niansus). Skatīt arī fonētiskā transkripcija.

Transkripcijas veidi un metodes

  • Fonētiskā transkripcija — precīza runas skaņu atzīmēšana (parasti ar IPA). Lieto valodu dokumentācijā, fonētikā un akcentu analīzē.
  • Fonēmiskā (broad) transkripcija — vienkāršotāka transkripcija, kas iezīmē nozīmīgās skaņu atšķirības (fonēmas), bet ignorē smalkas fonētiskas nianses.
  • Ortogrāfiskā transkripcija — runas pārrakstīšana pieņemamā rakstu formā, piemērota subtitriem, pierakstiem un transkripcijām, kur precīza fonētika nav svarīga.
  • Prosodiskā un intonācijas transkripcija — papildina pierakstu ar informāciju par intonāciju, pauzēm, uzsvērumiem un tempu.
  • Automātiskā runas atpazīšana (ASR) — programmatiskas sistēmas, kas transkribē runu (piem., balss diktāti, subtitri). Rezultāts var prasīt manuālu labošanas stadiju, īpaši trokšņainā vidē vai dialektu gadījumā.
  • Optiskās rakstzīmju atpazīšanas (OCR) — drukāta teksta pārvēršana digitālā formā (lietojot skenerus un programmatūru); bieži tiek izmantota grāmatu digitalizācijā.
  • Interlineāra un lingvistiskā anotācija — vairākslāņu transkripcija (izruna, gramatiskas analīzes, tulkojums u.c.), ko izmanto korpuslingvistikas pētījumos.

Praktiskie rīki un darba soļi

Transkripciju veic gan cilvēki (manuāli), gan programmas. Bieži izmantotie rīki un atziņas:

  • Speciālas programmas audio transkripcijai un anotācijai (piem., ELAN, Praat, Transcriber).
  • Automātiskās ASR sistēmas — ātras, bet bieži kļūdu pilnas; labāk lietot kā pirmo soli un pēc tam labo manuāli.
  • OCR sistēmas grāmatām un dokumentiem — kļūdas iespējamas ar sarežģītiem fontiem, rokrakstiem vai bojātiem lapu attēliem.
  • Labs transkripcijas protokols: skaidras anotācijas, laika zīmogi (timestamps), runātāju identifikācija, dialektu un speciālu terminu piezīmes.

Lietojuma jomas

Transkripcija ir būtiska daudzās jomās:

  • lingvistika un valodu dokumentācija;
  • runas tehnoloģijas un balss palīgi;
  • subtitru izstrāde filmām un video;
  • juridiski un medicīniski ieraksti (pierādījumi, konsultācijas);
  • korpusu veidošana un digitālā humanitārā pētniecība;
  • valodu apmācība un leksikogrāfija.

Piemēri un praktiskas atšķirības

Dažādās sistēmās vieni un tie paši vārdi var tikt transkribēti atšķirīgi. Piemēram, Ķīnas galvaspilsētas nosaukums mandarīnu ķīniešu valodā ir Pekina mūsdienu plaši lietotajā sistēmā Hanyu Pinyin, bet vēsturiski nozīmīgajā Wade–Giles sistēmā tas tiek rakstīts Pei-Ching. Šādi atšķirību iemesli var būt dažādos periodos izveidotas konvencijas, mērķauditorija vai ārzemju valodu prakse.

Šajā IPA tabulā ir sniegts bijušā Krievijas prezidenta vārda, kas angļu valodā pazīstams kā Boris Yeltsin, fonētiskās transkripcijas piemērs, kam seko dažādās valodās pieņemtās hibrīdformas. Ņemiet vērā, ka "Boris" ir transliterācija, nevis transkripcija stingrā nozīmē.

Praktisku transkripciju var veikt arī nealfabētiskā valodā. Piemēram, kādā Honkongas laikrakstā Džordža Buša vārds ir transliterēts ar divām ķīniešu rakstu zīmēm, kas skan kā "Bou-sū". (布殊), izmantojot rakstzīmes, kas nozīmē "audums" un "īpašs". Līdzīgi daudzi vārdi no angļu valodas un citām Rietumeiropas valodām ir aizgūti japāņu valodā un transkribēti, izmantojot katakanu, kas ir viena no japāņu zilbārdu valodām.

Riski un ierobežojumi

  • Dialektu, akcentu un individuālo runas īpatnību daudzveidība var radīt neskaidrības.
  • Automātiskajām sistēmām grūti noteikt homofonus vai izrunas nianses bez konteksta.
  • Transkribēšanas konvenciju neatbilstība var radīt nekonsekvenci korpusos un izdevumos — svarīgi ievērot vadlīnijas.
  • Jutīga vai konfidenciāla informācija prasa īpašu piesardzību un drošības pasākumus transkripcijas procesā.

Ieteikumi labai transkripcijai

  • Izvēlieties piemērotu transkripcijas veidu atbilstoši mērķim (piem., IPA akadēmiskai analīzei, ortogrāfiska transkripcija plašai auditorijai).
  • Izstrādājiet un dokumentējiet skaidras anotācijas vadlīnijas (diakritika, saīsinājumi, atzīmes par neskaidru runu).
  • Ja izmanto automātiskos rīkus, nodrošiniet manuālu pārlasi un korekcijas.
  • Iekļaujiet metadatus: runātāja dzimums, vecums, dialekts, ieraksta apstākļi, datums.

Transkripcija ir atslēgas process ne tikai valodniecībā, bet arī plašākā komunikācijas un tehnoloģiju laukumā. Saprotamas, konsekventas un mērķtiecīgas transkripcijas prasmes nodrošina, ka runas un teksta informācija kļūst pieejama, analizējama un izmantojama dažādām vajadzībām.