Ar teko girdėti frazę „Kalba, kuri neegzistuos elektroninėje erdvėje, neegzistuos visai“? Iš pirmo žvilgsnio ji skamba visai nebauginančiai: juk tiek daug lietuviškų tekstų saugoma elektroniniame formate, jie laisvai prieinami internete. Maža to – lietuviškų tekstinių dokumentų kiekis nuolatos auga. Tačiau būtent čia ir susiduriama su pagrindine problema: kaip šioje informacijos gausoje ne tik nepasiklysti, bet ir greitai atsirinkti tai, ko mums reikia?
Siekiant kuo labiau palengvinti informacijos paiešką ar jos analizę, talpinami duomenys yra atitinkamai apdorojami, tačiau toks rankiniu būdu atliekamas darbas reikalauja be galo daug žmogiškųjų resursų, kurių poreikis ateityje tik didėtų. Iš šios situacijos tėra tik viena išeitis – proceso automatizavimas. Tik ar sukurti intelektualias kompiuterines programas, kurios gebėtų visiškai pakeisti žmogaus darbą, yra taip paprasta? Ne, bet mokslas šioje kalbos technologijų srityje pasiekė tikrai labai daug.
Skirtingos kalbos technologijų kryptys yra orientuotos į skirtingų kalbos uždavinių, atveriančių naujas galimybes, sprendimą. Pavyzdžiui, galimybė naudotis „Google“ interneto paieškos sistema arba automatizuotu tekstų vertimo įrankiu daugeliui jau tapo neatsiejama kasdieninio gyvenimo dalimi. Tačiau naudodamiesi vertimo įrankiu tikriausiai pastebėjote, jog jo tikslumas nėra toks, kokio norėtumėte. Negi taip sunku sukurti tobulai veikiantį vertimo įrankį? Ganėtinai sunku, bet... įmanoma, tačiau tobulai išversto sakinio niekas iš mūsų nenusiteikęs laukti pusę dienos. Todėl kompromisai tarp vertimo tikslumo ir vertimo greičio tiesiog neišvengiami. Jie, beje, neišvengiami ir kituose tekstų analizės uždaviniuose.
Ar kada nors bandėte perskaityti visiškai jums nepažįstamos kalbos tekstą? Kadangi kompiuterinė programa tekstą irgi „mato“ taip pat, todėl netgi nesudėtinga sakinio pabaigos nustatymo užduotis jai tampa tikru iššūkiu. Beje, sakinio pabaigą nustatyti būtina daugelyje tekstų analizės uždavinių (įskaitant ir automatinį vertimą, nes pažodinio vertimo tikslumas būtų dar prastesnis). Šauktukas, klaustukas arba daugtaškis įprastai žymi sakinio pabaigą, bet taškas, einantis po sutrumpinimų – nebūtinai. Maža to, net 47 proc. visų lietuviškų žodžių (bei jų formų) yra daugiareikšmiai. Ir nors žmogus jų prasmę geba suvokti iš konteksto, kompiuterinei programai atskirti ar sakinio pradžioje esantis žodis „Eglė“ yra medis ar asmens vardas kartais gali būti netgi labai sudėtinga. Tekstų analizės uždavinius komplikuoja tai, jog kompiuterinė programa neturi žinių, padedančių suvokti tekstą, todėl šios žinios privalo būti įdiegiamos iš anksto (taisykles konstruoja lingvistai) arba išmokstamos mašininio mokymo metodų pagalba (taisykles konstruoja kompiuterinės programos, imituojančios žmogaus mąstymo bei taisyklių sudarymo procesus).
Kalbos technologijos pažengė pakankamai, kad naujas galimybes suteiktų ne tik namų vartotojui, bet palengvintų įvairių sričių specialistų darbą. Pavyzdžiui, kompiuterinių programų pagalba išanalizavus interneto komentarus galima nustatyti pirkėjų nuomonę apie jų įsigytus produktus. Beje, šio uždavinio sprendimą apsunkina neformalios kalbos naudojimas: žargonas, barbarizmai, užsienio kalbų intarpai, alfabeto pakeitimai ir t. t. Be to nepakanka atsižvelgti tik į teigiamą („geras“, „puikus“) bei neigiamą („blogas“, „baisus“) prasmę turinčius būdvardžius ar tokius junginius kaip „baisiai geras“, bet ir atpažinti sarkazmą: „Taip, labai geras: tik po antro panaudojimo sulūžo.“. Šiuolaikinės kalbos technologijos lengvina psichologų ar sociologų darbą leisdamos labai daug sužinoti ir apie mus (mūsų amžių, lytį, psichologinę būseną, politines pažiūras, religinius įsitikinimus ir kt.) ir visiškai nereikia tiesioginio prisipažinimo – tą galima nustatyti tiesiog atlikus konteksto analizę. Todėl jeigu nenorite, kad ši informacija apie jus būtų atskleista, prieš rašydami į socialinius tinklus gerai pagalvokite!
Tiesa, rašydami lietuvių kalba kol kas galite būti ramūs, kadangi daugelis kalbos analizės uždavinių lietuvių kalbai nė nepradėti spręsti. Tiesiogiai pritaikyti kitoms kalboms kurti metodai nėra efektyvūs, kadangi kiekviena kalba yra unikali ir reikalauja atskiro tyrimo. Lietuvių kalba išskirtinė (lyginant ją su kitomis kalbomis, kurioms daug pasiekta kalbos technologijų srityje) dėl to, kad yra stipriai kaitoma, turi laisvą sakinio struktūrą, turtingą žodyną bei žodžių darybos sistemą. Galime didžiuotis, kad Akademiniame lietuvių kalbos žodyne turime apie 500 tūkstančių pagrindinių žodžio formų, kai tuo tarpu Oksfordo anglų kalbos žodyne tėra tik 300 tūkstančių. Pavyzdžiui, žodžiui „eiti“ turime net 1300 sinonimų, o daliai iš tų žodžių neįmanoma surasti atitikmenų jokioje kitoje kalboje. Galime didžiuotis, kad lietuvių kalba gausi savo mažybiniais bei maloniniais žodžiais, kurių sudarymui turime net 78 priesagas. Galime didžiuotis dar daug kuo...
Tačiau būtent tai kuo galime didžiuotis ir apsunkina kalbos uždavinių sprendimą bei reikalauja ypatingo dėmesio mūsų kalbai. Todėl jeigu ateityje norėsime naudotis tomis pačiomis programinėmis priemonėmis, kurias turės, pavyzdžiui, anglakalbiai, privalėsime arba mokėti anglų kalbą, arba sukurti metodus, tinkamus lietuvių kalbai. Mūsų per mažai, kad būtume komerciškai patrauklūs ir galėtume tikėtis, jog tą darbą už mus padarys užsienio kompanijos. Ir nors kai kuriose kalbos technologijų kryptyse atsiliekame geru dvidešimtmečiu, eiti pramintais takais visada lengviau – galime remtis užsienio mokslininkų patirtimi bei rekomendacijomis. Šiandien Lietuvoje kalbos technologijų srityje tyrimų dar neatliekama tiek daug, kiek reikėtų, bet svarbiausia, kad jie jau vyksta.