Pētnieki no Latvijas Universitātes Matemātikas un informātikas institūta Mākslīgās intelekta laboratorijas ir apmācījuši pirmo mākslīgā intelekta modeli latgaliešu valodas runas atpazīšanai un uz tā bāzes radījuši arī praktiski lietojamu runas transkribēšanas rīku. Tas ir jauns solis valodas digitalizācijā, kas nu varēs atvieglot darbu tiem, kas ikdienā strādā ar valodu, to izzina un apgūst standartizēto rakstību.
Šādi no audio faila mākslīgā intelekta rīks latgaliešu valodas runu īsā laika sprīdī transkribē tekstā – standartizētā latgaliešu rakstu valodā. Rīkā var ielādēt arī video failus.
Kristīne Pokratniece LU MII zinātniskā asistente
Esmu daudz veikusi intervijas, piemēram, ar savu vectēvu, uzzinot viņa dzīvesstāstu. Viņš ar mani runā latgaliski un sava slinkuma pēc vai kā, bet tās intervijas neesmu atšifrējusi. Tad es uzskatu, ka tas būs brīnišķīgs palīglīdzeklis un arī tāds motivātors tomēr to izdarīt.
Normunds Grūzītis LU MII Mākslīgā intelekta laboratorijas vadītājs
Šīs skaņu virknītes tiek pierakstītas pa segmentiem. Tad dators klausās, mēģina atkārtot, daudzās interakcijās tam visam ejot cauri. Algoritmi skrūvītes pieregulē procesa laikā, lai tas modelis iespējami labi spētu tikt galā ar šo uzdevumu.
Vairākus gadus šāds rīks ir pieejams latviešu valodā. Tagad tas apmācīts ar latgaliešu valodas datiem, kas iegūti no Mūsdienu latgaliešu valodas runas korpusa un no projekta “Bolsu tolka”.
Antra Kļavinska RTU Rēzekne docente, vadošā pētniece
Intervijas, kuras ir jau agrāk ievāktas lauku pētījumos. Rēzeknes Tehnoloģiju akadēmijas studenti ir gājuši folkloras ekspedīcijās un tur ir no 2009. gada audioieraksti. Ir arī jaunāki ieraksti, to skaitā arī Sibīrijas latgaliešu runas ieraksti un ir arī mediju dati.
Šobrīd latgaliešu runas atpazīšanas un transkribēšanas rīks vēl nav pilnīgi precīzs – katram ir iespēja veikt labojumus atšifrējumā. Izaicinājumus rada izlokšņu dažādība. Modeļa uzlabošanai nepieciešams vēl lielāks runas datu apjoms. Ikviens tam var dot savu pienesumu, ielasot kādu teikumu “Bolsu tolkā” latgaliski.
Kristīne Pokratniece LU MII zinātniskā asistente
Mums ir ļoti svarīgi dažāda veida runātāji. Ar dažādību es domāju vecumu, dzimumu, kas ietver sevī arī runas dažādības. Kāds runā ātrāk, kāds lēnāk. Kādam varbūt ir vēl akcents, arī izlokšņu īpatnības ir tiešām svarīgas, lai varētu atpazīt.
Antra Kļavinska RTU Rēzekne docente, vadošā pētniece
Jo vairāk mēs parādām mūsdienās valodu digitālajos rīkos, jo tā ir dzīvotspējīgāka. To ir iespējams izmantot plašākai auditorijai, pētniekiem un arī tiem, kas mācās valodu. Arī žurnālistiem ir iespēja brīvi piekļūt pie datiem.
Šobrīd projektā “Bolsu tolka” 361 runātājs ielasījis 31 stundu latgaliski. Runas atpazīšanas un transkribēšanas rīka attīstībai jaunā līmenī vēl būtu nepieciešams trīskāršs runas datu apjoms.