Šiandien vis labiau populiarėjančios kalbinės technologijos, naudojamos vertimuose, išmaniuosiuose automobiliuose, virtualiuose asistentuose ir kitur – tai būdas užtikrinti, kad kalba išvengs išnykimo grėsmės ir nepatirs skaitmeninės atskirties. Lietuvoje šioje srityje jau 25 metus dirba Vytauto Didžiojo universiteto (VDU) Kompiuterinės lingvistikos centras, tarp kurio pasiekimų – Dabartinės lietuvių kalbos tekstynas ir pirmoji lietuviška automatinio anglų–lietuvių kalbų vertimo sistema, pasirodžiusi anksčiau už populiarųjį Google Translate.
„Dabartinės lietuvių kalbos tekstynas jau tapo puikiai žinoma lietuviškojo interneto dalimi. Centre pirmiausia ėmėmės rengti būtent šį kiekvienos kalbos kompiuterizavimui svarbų išteklių, nes tik sukaupus tekstyną buvo galima siekti pagrindinio centro tikslo – parengtų išteklių (tekstynų, duomenynų) pagrindu kurti lietuvių kalbai reikalingas kalbos technologijas“, – paaiškino Kompiuterinės lingvistikos centro (KLC) įkūrėja, VDU profesorė Rūta Petrauskaitė.
Pasak centro mokslininkų, plačiajai visuomenei kartais trūksta suvokimo, kuo svarbūs kalbiniai ištekliai ir kalbos technologijos – kodėl į tai verta investuoti lėšas ir laiką. Išaugus kompiuterių galimybėms, šiandieniniame pasaulyje jau galima pamatyti nemažai kalbos technologijų pasiekimų: be visiems žinomo automatinio vertimo, tai ir „kalbantys“ išmanieji automobiliai, automatiškai aplinką stebinčios ir automobilių numerius fksuojančios stebėjimo kameros, į klausimus atsakantys virtualūs asistentai, diktavimo sistemos ir kt.
„Jau greitai nieko nestebins žmonės, smagiai besišnekučiuojantys su savo automobiliais, šaldytuvais ar kitais prietaisais. Vis dėlto neužmirškime, kad nors šiandieniniai vis tobulėjantys mokymosi algoritmai jau sukurti ir prieinami, tačiau, norint juos toliau tobulinti, t. y. išmokyti kalbėti, rašyti ar skaityti tiksliau, reikalingi kalbiniai ištekliai“, – pasakoja dabartinis KLC vadovas docentas dr. Andrius Utka.
Šie ištekliai – tai įvairios duomenų bazės, kuriose kaupiami tekstai, garsai, kiti kalbos elementai, taip pat programinė įranga. Mokslininkai pabrėžia, kad aukštas tam tikros kalbos kompiuterizavimo lygis taip pat yra ir tos kalbos išlikimo sąlyga – vartojant ją mažiau, ne visomis funkcijomis arba jos nevartojant, kyla grėsmė kalbai išnykti. Lietuvos vartotojai turi teisę naudotis šiuolaikinėmis technologijomis, kurios „kalba“ lietuviškai, todėl itin svarbu ginti ir užtikrinti lietuvių kalbos statusą technologinėje terpėje, kad ji netaptų trečios lygos kalba arba, kitaip sakant, nepatirtų skaitmeninės atskirties.
Aplenkė Google Translate
Visuomenei gerai žinomas kalbos technologijų pavyzdys yra automatinis vertimas. Mažai kas nebandė Google Translate, bet už ją anksčiau pasirodė anglų–lietuvių kalbų automatinio vertimo sistema. Ši sistema, bendradarbiaujant KLC ir partneriams, buvo sukurta naudojant taisyklėmis pagrįstus automatinio vertimo metodus, kai originalo kalbos tekstas „išnarstomas“ žodžio ir sakinio dalimis ir vėl „sudedamas“ kitoje kalboje. Ilgą laiką, o kartais net ir dabar, šis vertimo metodas fleksinėms kalboms (tokia yra lietuvių kalba) laikomas geriausiu, nes mažiausiai iškraipo sakinio struktūrą.
2007 m. pabaigoje pasirodžiusi anglų–lietuvių kalbų automatinio vertimo sistema sulaukė didžiulio ažiotažo, nes užtikrino palyginti kokybiškus rezultatus ir padėjo vartotojams suprasti teksto turinį. Po pusmečio pasirodžius Google Translate, vartotojų srautas nuslūgo, tačiau VDU vertimo sistema ir toliau naudojamasi – net ir šiandien, nors ji jau nėra aktyviai palaikoma. „Kiek iš jūsų dar naudoja savo 10 metų senumo kompiuterius?..“ – retoriškai klausia buvęs automatinio vertimo projekto vadovas Vaidas Repečka.
Pasak jo, šiandien geriausią vertimo kokybę užtikrina neuroniniais tinklais ir mašininiu mokymusi pagrįstos vertimo sistemos. Tačiau jų naudojimas problemiškas, nes taip iškraipoma fleksinių kalbų struktūra, klaidingai išverstos teksto dalys perkeliamos į kitus tekstus ir t. t.
„Būtina įpareigoti didžiąsias įmones spręsti šias problemas, nes pokyčiai gali tapti negrįžtami. Tai būtina spręsti visos ES mastu, nes ir didžiosios Europos kalbos internete yra „mažosios“ lyginant su anglų kalba. Kol kas labai sunku sukurti gerą vertimą, nes žmogus vertėjas turi daug kontekstinės informacijos ir gali ją panaudoti versdamas, o kompiuteriams reikia tai sukaupti. Bet paieškos sistemose vartotojo asmeninių duomenų kontekstas jau naudojamas, taigi automatinis vertimas toliau tobulės“, – reziumuoja V. Repečka.
Tekstynuose – milijardai autentiškų tekstų
Kalbos technologijos dažnai integruoja bendresnius išteklius, kurie suteikia kuriamiems įrankiams kalbos žinių apie žodyną, gramatiką, fonetiką. Labai dažnai šias žinias galima įvairiais būdais surinkti iš tekstynų – didžiulių elektroninių tekstų sankaupų, kuriose sukaupiami milijonai ar net milijardai įvairių autentiškų tekstų. Tekstynuose sukauptus duomenis naudoja ne tik įrankiai, bet ir žmonės.
Pavyzdžiui, Dabartinės lietuvių kalbos tekstynas – patikimas šaltinis dabartinės kalbos žodžių reikšmėms ir vartosenai suprasti. Dvikalbiai lygiagretieji tekstynai (anglų–lietuvių, lietuvių–anglų, latvių–lietuvių, lietuvių–latvių ir kt.) yra ypač naudingi studijuojantiems užsienio kalbas, vertėjams (teoretikams, praktikams), taip pat redaktoriams.
KLC vykdyto projekto Semantika.lt metu buvo pradėtas kaupti ir milžiniškas, daugiau nei 1 milijardą žodžių turintis bendrasis lietuvių žiniasklaidos tekstynas; jame kaupiama visa informacija iš 40 lietuviškų naujienų portalų. Tiesa, mokslininkai pabrėžia, kad tokios didžiulės apimties tekstinei medžiagai, kurią jau galima vadinti didžiaisiais duomenimis (angl. Big Data), dar sunku suteikti kokybišką, sklandžią internetinę prieigą, nes tai reikalauja didžiulių techninių išteklių.
Tekstynai – puiki priemonė leksikografams bei terminologams ir žaliava žodynams. Kompiuterinės lingvistikos centre parengti keli žodynai tekstynų pagrindu, pavyzdžiui, Lietuvių kalbos daiktavardinių frazių žodynas, Švietimo ir mokslo terminų žodynas.
Kalbos technologijos – būtinos tobulėjimui XXI amžiuje
KLC projektuose dirbantys tyrėjai įsitikinę, kad kuo daugiau dėmesio Lietuvoje bus skiriama kalbos technologijoms, tuo daugiau galimybių lietuvių kalba ir Lietuvos visuomenė turės toliau vystytis XXI amžiuje.
„Kompiuterinė lingvistika, kalbos technologijos – tai sritis, kurioje yra puikios galimybės universitetų, verslo ir politikos bendradarbiavimui. Tokio bendradarbiavimo rezultatai gali būti aktualūs tiek teoriškai, moksle, pavyzdžiui, sudaryti geresnes sąlygas lietuvių kalbos analizei, tiek praktiškai, viešajame sektoriuje – tarkime, kuriant naujus įrankius, kurie galėtų išplėsti Lietuvos vartotojų galimybes arba optimizuoti verslo ir valstybės administravimo procesus“, – sako VDU Kompiuterinės lingvistikos centro darbuotojai.
Per 25 metus KLC sėkmingai įvykdyta daugiau nei 15 nacionalinių ir tarptautinių projektų, publikuota aktualių mokslinių straipsnių bei reikšmingų monografijų. Tarp svarbesnių KLC pasiekimų – dalyvavimas europinėje TELRI infrastruktūroje, kuriant pirmąją lietuvių kalbai skirtą anglų–lietuvių mašininio (automatinio) vertimo sistemą, vadovavimas kuriant lietuvių kalbos sintaksinės ir semantinės analizės informacinę sistemą. Šiuo metu KLC kartu su partneriais atstovauja Lietuvai tarptautinės kalbos technologijos infrastruktūros konsorciume CLARIN ERIC.