KTU tyrėjos: mašininio vertimo įrankiams lietuvių kalba vis dar sunkiai įveikiama

„Google vertėjas“ kasdien išverčia daugiau nei 100 milijardų žodžių, o siūlomų kalbų skaičius papildomas kasmet – pernai buvo įtrauktos kinjaruandos, orijų, totorių, turkmėnų ir uigūrų kalbos. Be to, vartotojai pastebi, kad verčiamų tekstų kokybė – vis geresnė. Pagrindinė to priežastis – perėjimas nuo statistinio vertimo sistemos prie neuronų tinklais grįsto mašininio vertimo.

Asociatyvi „Pixabay“ nuotr.

„Tokia sistema gali rinktis iš milijonų pavyzdžių, remtis kontekstu, mokytis ir tobulėti. Be to, tobulinti šią neuronų tinklais grįstą vertyklę padeda milijonai vartotojų. Tai savanoriai entuziastai, kurie neatlyginamai gerina „Google vertėjo“ kokybę. Jie tikrina išverstas frazes, peržiūri, patvirtina ir rekomenduoja vertimo variantus“, – sako Kauno technologijos universiteto (KTU) mokslo grupės „Kalba ir technologijos“ tyrėja Jurgita Motiejūnienė.

Vis dėlto ji pastebi, kad nepaisant didžiulės pažangos, žmonėms vis dar kyla abejonių dėl „Google vertėjo“ kokybės. Tuo tarpu ir pati įmonė pripažįsta, kad jų siūloma paslauga neprilygsta žmogaus vertimui.

Verčiant iš anglų į lietuvių kalbą – tikslumas tik 30 proc.

Stenfordo universiteto mokslininkų publikuotoje ataskaitoje teigiama, kad dirbtinis intelektas leidžia pagerinti mašininį vertimą tam tikrose kalbų porose beveik iki žmogaus atlikto vertimo kokybės. Nustatyta, kad pastaraisiais metais sparčiausiai tobulėjo kinų-anglų, anglų-vokiečių ir rusų-anglų kalbų mašininio vertimo kokybė. Tačiau pasak KTU profesorės Ramunės Kasperės, to paties apie lietuvių kalbą pasakyti negalima.

„Mašininėms vertyklėms išmokyti reikia didžiulių duomenų rinkinių. Lyginant su didelėmis ir populiariomis kalbomis, lietuvių kalba pralaimi“, – teigia R. Kasperė, „Kalba ir technologijos“ tarpdisciplininės tyrimų grupės pagrindinė tyrėja.

Nors tiksliai nustatyti sunku, tačiau, atlikus nemažai tyrimų su įvairių žanrų ir stilių tekstais, R. Kasperė pastebi, kad lietuvių-angų kalbų poroje mašininio vertimo tekstų kokybė – akivaizdžiai geresnė. Tuo tarpu anglų-lietuvių kalbų vertimo procese vertyklės sugeneruoja tik kiek daugiau nei 30 proc. teisingų sakinių, ir tik tada, kai tekstas yra nesudėtingas, pavyzdžiui, turistams skirtos frazės.

„Jei tereikia pasiklausti kelio ar nusipirkti bilietą, mašininis vertimas pagelbės akimirksniu. Tačiau šis įrankis gali pasitarnauti tik visuomenės poreikiams, o ne profesionaliems vertėjams. Mašininis vertimas visada generuoja geresnę kokybę populiariose kalbų porose. Pasauliniu mastu lietuvių kalba nėra ypač populiari, todėl vertimas į lietuvių, kaip ir į bet kurią kitą mažesnę kalbą, yra nepakankamos kokybės“, – sako tyrėja.

J.Motiejūnienė priduria, kad dažnai verčiamų kalbų rezultatai bus geresni nei tų kalbų, kurios verčiamos rečiau. Taip pat kuo artimesnės dvi kalbos raidos požiūriu, tuo geresnis bus mašininis vertimas. Pavyzdžiui, anglų-vokiečių vertimas bus daug geresnis negu anglų-lietuvių. Be to, mašininio vertimo kokybė priklauso ir nuo teksto sudėtingumo.

Netinkamai perteiktos prasmės klaidos – kritinės

Kiekvienais metais atsiranda vis daugiau mašininio vertimo sistemų vystytojų. Šių metų kovą gerai žinomas „Deepl Translator“ į vertyklę įtraukė ir lietuvių kalbą. Tai, pasak R. Kasperės, rodo, kad mašininio vertimo poreikis yra didelis, o paslaugos vystytojai ir teikėjai stengiasi tenkinti visuomenės poreikius tobulindami esamus įrankius arba kurdami naujus.

„Atsiranda vis pažangesnės technologijos, pavyzdžiui, neuroniniais tinklais grįstas mašininis vertimas vystomas įdiegiant tobulesnius mašininio mokymosi modelius. Aišku, tai taikoma kol kas tik didelėms kalboms ir populiarioms kalbų kombinacijoms, tačiau technologijos nestovi vietoje“, – teigia žurnalo „Kalbų studijos“ vyr. redaktorė R. Kasperė.

Vis dėlto, klaidų mašininiuose vertimuose neišvengiama. KTU tyrėja teigia, kad lietuvių kalboje dažniausios klaidos yra morfologijos (galūnių derinimo) ir leksikos (neatpažintų, klaidingai išverstų leksinių vienetų). Tokios klaidos yra kritinės, nes tekstas tampa nesuprantamas, arba suprantamas klaidingai. Bet kuriuo atveju net jei mašininiu būdu išverstame tekste ir nebūtų klaidų, dažnai jaučiama sklandumo ar stiliaus vientisumo stoka.

„Žinoma, suprasti galima ir netiksliai išverstą tekstą, tačiau profesionaliam vertimui mašininis vertimas kol kas netinkamas, nes generuoja per daug klaidų ir neatitikimų. Nesunku pajusti, kai tekstas yra verstas ne žmogaus, o mašinos. Ne kartą esame atlikę eksperimentų ir tiriamieji visada atpažįsta, kas yra teksto vertėjas – žmogus ar mašina“, – pasakoja ji.

KTU lektorė J. Motiejūnienė teigia, kad mašininis vertimas kol kas negali išlaikyti teksto stiliaus, versti poezijos, vertyklės taip pat nesupranta kultūrinių atspalvių – žodžių šaltibarščiai ar cepelinai vertimas nebus teisingas.

Mašininis vertimas – pavojus duomenų saugumui

Pasak J. Motiejūnienės, svarbiausia priežastis, kodėl ne visada galima naudoti nemokamas mašinines vertykles – tai konfidencialumas. Naudojant nemokamus vertimo įrankius gali kilti duomenų saugumo problemų.

„Jei dirbate su neskelbtinais duomenimis, tokiais kaip medicininė dokumentacija, finansinės ataskaitos, darbuotojų ir klientų asmeninė informacija, naudodami mašininį vertimą, turėtumėte nuasmeninti duomenis, ir apskritai tokiais atvejais naudotis nemokamais įrankiais labai atsargiai. Svarbiausia taisyklė – pasitelkti mašininio vertimo programas tik tais atvejais, kai to pageidauja klientas ir atliekamas mašininio vertimo redagavimas“, – teigia J. Motiejūnienė

R. Kasperė prideda, kad žmonės gali ne visiškai teisingai suvokti mašininio vertimo trūkumus, todėl būtina kalbėti, aiškinti, edukuoti visuomenę apie technologijų pažangą, mašininio vertimo ir dirbtinio intelekto galimybes. Šiuo metu KTU tyrėjos kartu su tarpdisciplinine mokslininkų grupe vykdo Lietuvos mokslo tarybos finansuojamą projektą, kuriame siekiama ištirti dirbtiniu intelektu grįstų mašininio vertimo technologijų poveikį visuomenei.

„Akivaizdu, kad galimybė plačiai naudotis mašininio vertimo sistemomis, tokiomis kaip „Google vertėjas“, taip pat ir šnekos bei vaizdo atpažinimo technologijomis mobiliose aplinkose iš esmės pakeitė visuomenės požiūrį į komunikaciją“, – pasakoja R. Kasperė.

Labiausiai pasaulyje pripažintų mokslininkų, kurie tiria technologijų pažangos įtaką vertėjo profesijai, nuomone, dirbtinis intelektas visgi bus išnaudotas taip, kad pasitelkdami mašininį vertimą vertėjai galės išversti didesnės apimties tekstus.

„Yra pasvarstymų, kad galbūt netolimoje ateityje mes galėsime išversti ne keliolika puslapių per dieną, bet pavyzdžiui, 100 puslapių. Reikės vis mažiau ir mažiau pastangų atliekant redagavimą po mašininio vertimo, bus mažiau klaidų, neatitikimų, reikšmės iškraipymo ar neatpažinimo“, – teigia KTU tyrėja. Tačiau dar tikrai negreitai mašininiu vertimu galėsime pasikliauti taip kaip žmogaus vertimu.