2018-aisiais Lietuva tapo viena pirmųjų ES narių, kuri ėmėsi oficialiai skatinti ir vystyti dirbtinio intelekto (DI) technologijas – parengė nacionalinę DI strategiją. Tačiau be lietuvių kalbos supratimo šių inovacijų negalėsime panaudoti svarbiausiose srityse – todėl valstybės užsakymu Vytauto Didžiojo universiteto (VDU) mokslininkai ėmėsi kurti ir modernizuoti kalbos technologijomis paremtus sprendimus. Naujovės – ne tik pažangios, atveriančios naujas galimybes verslui, valstybei, mokslui ir visuomenei, bet ir atviros tolesniam tobulinimui.
Automatinis sakytinės kalbos pavertimas į tekstą (transkripcija), santraukų formavimas, įžeidžios kalbos atpažinimas naujienų portalų komentaruose ir socialiniuose tinkluose – tai tik keletas iš dirbtinio intelekto (DI) sprendimų, kuriuos įgyvendina VDU tyrėjai, bendradarbiaujantys tarpdisciplininiame lietuvių kalbos technologijų projekte „Semantika2“.
Asociatyvi nuotr.
Kaip ir analogiški sprendimai, sukurti Stanfordo ar kituose prestižiniuose pasaulio universitetuose, projekte kuriamos ir tobulinamos paslaugos bus atviros prieigos – kitaip tariant, visi norintys galės nemokamai ir laisvai prieiti prie mokslininkų sukurtų technologijų kodo, jį tobulinti ir keisti. Pasak projekto vadovo, VDU Informatikos fakulteto Intelektinių sistemų laboratorijos vadovo doc. dr. Dariaus Amilevičiaus, inovacijomis patenkinami svarbūs valstybės poreikiai.
„Pirma, projekte IT sprendimus realizuoja ekspertai, turintys aukštas tarpdisciplinines kompetencijas – čia bendradarbiauja informacinių technologijų, lingvistikos, teisės, medicinos, kompiuterinės lingvistikos ir kitų sričių specialistai. Antra, kadangi tai yra atvirojo kodo IT sprendimai, viešasis sektorius juos galės panaudoti kituose valstybiniuose projektuose, vengiant Lietuvos ir ES biudžeto švaistymo, o privačiame sektoriuje kūrėjai galės sparčiau ir pigiau vystyti produktus ir paslaugas, susijusias su komerciškai nepatrauklia lietuvių kalba“, – paaiškina kompiuterinės lingvistikos ekspertas.
Atviri kodai mokslui, verslui ir viešajam sektoriui
Tarp naujų elektroninių viešųjų paslaugų, kurias vysto „Semantika2“ tyrėjai – lietuvių kalbos fonogramų (garso įrašų) automatinis pavertimas į tekstą. Savaime suprantama, ši inovacija yra itin patogi norintiems sutaupyti laiko, pasitelkti technologijas užuot rašant tekstus patiems. Inovacija ypač pasitarnaus teisininkams, valstybės tarnautojams, medikams, kadangi pagal valstybės poreikius šis įrankis rengiamas dirbti ne tik su bendrine, bet ir su teisine, medicinine lietuvių kalba.
Analogiškai praktiškos ir automatinės dokumentų santraukos – ypač tiems, kuriems tenka peržiūrėti daug tekstų per trumpą laikotarpį. D. Amilevičiaus teigimu, duomenimis ir žiniomis grįstoje visuomenėje, kai informacijos kiekis gausėja eksponentiškai, svarbu turėti įrankius, kurie leistų efektyviausiai ją analizuoti, ypač ruošiantis svarbiems susitikimams ar priimant sprendimus.
Tyrėjai taip pat sukūrė įrankį, kuris gali automatiškai atpažinti ir pažymėti galimai įžeidžią arba neapykantos kalbą – pavyzdžiui, lietuviškuose naujienų portaluose arba socialiniuose tinkluose. VDU teisininkų atliktas tyrimas parodė, jog visame pasaulyje tokios kalbos identifikavimas yra sudėtinga problema, galinti sukelti cenzūros pavojų ar žodžio laisvės pažeidimus – dėl šios priežasties, galutinį sprendimą dėl automatiškai atrinktų komentarų tinkamumo turės priimti žmogus.
„Šio IT sprendimo panaudojimai yra daugialypiai – galima ne tik automatiškai identifikuoti vartotojų nuomones ar komentarus, kuriuose yra neapykantos apraiškos, bet ir automatiškai analizuoti duomenų sankaupas, jas rengiant mašininiam mokymui, kuriant DI technologijų sistemas. Iš šių sankaupų laiku nepašalinus neapykantos apraiškų, kyla grėsmė, kad mašina perims diskriminacinę elgseną – todėl duomenis būtina valyti, o tam būtini automatizuoti įrankiai, tokie kaip „Semantika2“ kuriamas sprendimas“, – įspėja doc. dr. D. Amilevičius.
Itin naudingais ištekliais taps taip vadinami „auksiniai standartai“ – tyrėjų sukurti principai, kaip kokybiškai taikyti mašininio (automatinio) mokymo technologijas lietuviško teksto morfologijos ir sintaksės analizėje. Projekto metu buvo ženkliai papildyti morfologijos ir sintaksės tekstynai – būtent jų dėka sukurti ir patobulinti DI sprendimai leido pasiekti itin aukštos kokybės rezultatus. Šie tekstynai po projekto pristatymo visuomenei bus viešai prieinami atviros prieigos saugyklose „Clarin-LT“ ir „GitHub“.
„Sudėtingiausias barjeras, kurį turi įveikti lietuvių kalbą suprantančio DI technologijų kūrėjai – sintaksė. Kaip teigia kalbos filosofai, kalbą supranta tik tas, kuris supranta sakinį. Šio barjero įveikimas leidžia atlikti kokybinį šuolį tikros semantinės analizės link. Anglų kalboje šia linkme jau ženkliai pasistūmėta. Nereikia pamiršti, kad lietuvių kalba ne tik komerciškai nepatraukli, bet jos sintaksė tokia sudėtinga, kad tampa tikru galvasopiu pakankamo lingvistinio išsilavinimo neturinčiam programinės įrangos kūrėjui“, – pažymi doc. dr. D. Amilevičius.
Tarp kitų projekto metu modernizuojamų IT sprendimų – ir automatinis lietuvių kalbos rašybos klaidų taisymas. Tenkinant valstybės iškeltą tikslą, šiuo sprendimu skatinamas atvirojo kodo biuro programinės įrangos naudojimas: klaidos tikrinamos „LibreOffice“ ir „OpenOffice“ programose. Rašybos klaidų tikrintuvus vartotojai gali nemokamai parsisiųsti „Windows“, „Linux“ arba „Apple“ operacinėms sistemoms. Pastarosiose dviejose sistemose klaidos bus tikrinamos ne tik minėtose, bet ir kitose teksto apdorojimo programose – „Windows“ yra išimtis, nes „Microsoft“ produktai naudoja nuosavą, uždarą kalbos palaikymo variklį.
Vienas iš pažangiausių debesijos architektūros sprendimų viešajame sektoriuje
Pasak D. Amilevičiaus, Lietuvos vyriausybė šiandien skatina kalbos technologijomis grįstų paslaugų vystymą ir diegimą valstybiniame sektoriuje. Tačiau iššūkių dar netrūksta – ypač kalbant apie dirbtinio intelekto gebėjimą susitvarkyti su žmogaus kalba. Ši sritis DI dar yra keblesnė, nei gebėjimas pažinti objektus nuotraukose.
„Lietuvoje kuriamos ir vystomos DI technologijos daro daug puikių dalykų, bet visi pamiršta, kad be lietuvių kalbos supratimo jų negalėsime panaudoti tose srityse, kur iš jų laukiama didžiausia nauda – efektyvi didelių duomenų (kurių didžioji dalis – tekstai) analizė ir automatinis prognozių arba rekomendacijų formavimas“, – apibendrina projekto „Semantika2“ vadovas.
Projektas „Semantika2“ yra priemonės „Lietuvių kalba informacinėse technologijose“ dalis. Šią priemonę parengė Skaitmeninės darbotvarkės taryba prie LR Susisiekimo ministerijos – elektroniniams su kalbos technologijomis susijusiems valstybės poreikiams tenkinti. Projektą vykdo jungtinės tarpdisciplininės mokslininkų pajėgos – Vytauto Didžiojo universiteto (VDU) Humanitarinių mokslų, Informatikos ir Teisės fakultetų mokslininkai. Vienas iš sprendimų įgyvendinamas kartu su tyrėjais iš Kauno technologijos universiteto.
Tarp pagrindinių užduočių, kurias valstybė patikėjo VDU – ne tik minėtų pažangių atvirojo kodo IT sprendimų kūrimas, bet ir valstybinės kalbos technologijų informacinės sistemos (LKSSAIS) modernizavimas bei naujų elektroninių viešųjų kalbos technologijų debesijos paslaugų kūrimas. Prognozuojama, jog 2020 m. rudenį veikti pradėsianti modernizuota LKSSAIS bus vienas iš pažangiausių debesijos architektūros sprendimų viešajame sektoriuje.
Tarpdisciplininio lietuvių kalbos technologijų projekto „Semantika2“ tarpinių rezultatų pristatymas vyks rugsėjo 27 d., penktadienį, 10 val., VDU mokslo ir studijų centre (V. Putvinskio g. 23-103). Renginys skirtas mokslo, verslo, viešojo sektoriaus auditorijai ir visuomenei.
Jo metu bus pristatyti tarpdisciplininio lietuvių kalbos technologijų projekto „Semantika2“ (Nr. 02.3.1-CPVA-V-527-01-0002) tarpiniai rezultatai: sukurti ir kuriami kalbos ištekliai, prototipai, jų galima nauda mokslui, verslui, viešajam sektoriui ir eiliniam vartotojui. Po renginio vartotojams bus pateiktos atviros prieigos saugyklose „GitHub“ ir „Clarin LT“.