Prisiminkite situaciją, kai paskutinį kartą internetinėje erdvėje rašėte „anonimiškai“, nes slėpėtės po išgalvotu pseudonimu ar jungėtės per įgaliotąjį serverį, maskuodami savo IP adresą. Ar nebūtų tuomet apmaudu, jei pritaikius automatinius metodus iš tokio anoniminio teksto vos per keletą sekundžių būtų galima sužinoti Jūsų amžių, lytį, išsilavinimą, politines pažiūras, asmenybės tipą (intravertas/ekstravertas), net nustatyti ar ateityje sirgsite Alzheimerio liga?
Skamba lyg būtų mokslinė fantastika? Visai ne! Tokie tyrimai jau porą dešimtmečių vykdomi anglų kalbai.
Nors arčiau mokslinės fantastikos šioje skalėje esame rašydami lietuviškai, verkšlenti ir skųstis vis tiek neverta. Geriau pakalbėkime apie tai, kas iki šios dienos jau nuveikta lietuvių kalbai. Taigi, mielas skaitytojau, iš parašyto anoniminio teksto Jūsų amžiaus grupę gebėsime nustatyti 47 proc., lytį – 74 proc., o politines pažiūras (dešinė, kairė ar centras) – 59 proc. tikslumu.
Kiekvieno žmogaus rašymo stilius yra unikalus kaip jo piršto antspaudas, todėl kai kurie mokslininkai jį drąsiai lygina su žmogaus genomu bei priskiria biometrinėms charakteristikoms. Nepaisant to, identifikuoti konkretaus žmogaus tapatybę iš anoniminio teksto nėra taip paprasta. Prieš tai reikėtų rašytų tekstų, iš kurių automatinių metodų pagalba „ištraukę“ Jūsų rašymo stiliui būdingą informaciją, galėtume „išmokyti“ kompiuterines programas ją atpažinti. Stilių apibūdina daugybė veiksnių: naudojamas žodynas (sinonimika, žargonas, barbarizmai), įvairūs išsireiškimai, mėgstamos sakinių konstrukcijos, jausmaženkliai, naudojami ar kaip tik nenaudojami diakritiniai ženklai lietuviškose raidėse, gramatinės bei sintaksinės klaidos ir kt. Pateikus šiuos veiksnius kaip gaires, automatinis metodas geba pats Jus išskirti iš kitų analizuojamoje grupėje esančių autorių, todėl normine/nenormine lietuvių kalba parašytą tekstą galima atpažinti 94 proc./75 proc. tikslumu (jei reikia rinktis iš 3 grupėje esančių autorių), 80 proc./48 proc. (jei iš 20), 75 proc./39 proc. (jei iš 50), 71 proc./35 proc. (jei iš 100).
Rezultatai lietuvių kalbai, gauti automatinių metodų pagalba, tikrai neblizga, ypač nenorminei kalbai (įvairiems interneto komentarams, forumo tekstams ir pan.), tačiau progresas autorystės nustatymo srityje nuolatos vyksta ir tik laiko klausimas kada iškils rimta grėsmė mūsų teisei į anonimiškumą. Patys naujausi autorystės nustatymo tyrimų rezultatai anglų kalbai iš tiesų priverčia rimčiau susimąstyti: mokslininkai atlikę eksperimentus su dešimt tūkstančių autorių pasiekė 45 proc. tikslumą, o net su šimtu tūkstančių autorių – 20 proc. tikslumą. Tuo tarpu mes, atlikę tyrimus su tūkstančiu autorių lietuvių kalbai, tegalime „pasigirti“ kukliais 14 proc., todėl ir nesigiriame, tiesiog palyginimui paminime šį skaičių.
Užuot kritikavę netobulus metodus, verčiau pasistenkime suprasti koks sudėtingas yra autorystės nustatymo uždavinys. Pabandykite patys anoniminį tekstą priskirti kuriam nors iš tūkstančio autorių, prieš tai įsigilinę į tų autorių rašytus tekstus. Nenuostabu, kad žmogaus tikslumas yra akivaizdžiai prastesnis – artimas atsitiktiniam spėjimui. Netgi tokį iš pirmo žvilgsnio paprastą lyties iš teksto nustatymo uždavinį žmogus įveikia vos 55 proc. tikslumu, kai metodų anglų kalbai tikslumas viršija 80 proc.
Autorystės nustatymo tyrimai vykdomi ne tam, kad būtų apribota teisė į laisvę reikšti mintis, o greičiau tam, kad susimąstytume, kiek tomis laisvėmis galime naudotis. Pažanga ateityje neabejotinai sumažins įžeidžiančių komentarų bei įvairių internetinių nusikaltimų skaičių, tačiau ar tikrai būtinos prevencinės priemonės, kad visuomenė taptų geresnė? Reikšdami savo nuomonę anonimiškai tiesiog pasistenkime, kad internetinė erdvė, kurioje rašoma Tavo ir mano kalba, būtų švaresnė.