Interneto komentarai tapo neatsiejama daugelio iš mūsų „saviraiškos“ dalimi. Anonimiškumas iš tiesų daro stebuklus: jis net ir kuklų žmogų gali paversti aktyviu visuomenės veikėju, drąsiai, emocionaliai ir apie viską reiškiančiu savo nuomonę. Kai nėra prasmės apsimetinėti geresniais ir mandagesniais „vyniojant žodžius į vatą“ žmonės, ko gero, tampa sąžiningi prieš kitus, o svarbiausia – patys prieš save.
Būtent todėl interneto komentarai yra itin svarbūs sociologams, tyrinėjantiems visuomenės požiūrius; psichologams, analizuojantiems žmonių emocijas bei jų atsiradimo priežastis; verslo kompanijoms, kadangi tai grįžtamasis ryšys apie jų produkciją ar suteiktas paslaugas.
Tačiau interneto komentarų analizė gerokai sudėtingesnė – tai juk ne anketa su galimais atsakymų variantais. Kalba yra pats geriausias žmogaus išradimas, bet kartu labai sudėtingas, turintis daugybę niuansų. Ne toje vietoje padėtas kablelis „pakarti negalima paleisti“; gyvūno pavadinimas „kiaulė, karvė“; sinonimas „eina, velkasi, dūlina“ ar net priesaga „mergaitė, mergina, mergiotė, merga“ gali visiškai pakeisti sakinio emocinį atspalvį. Rodos tokie paprasti žodeliai kaip „patinka“ ar „nepatinka“ taip pat dažnai slepiasi kontekste po keliaaukščiais epitetais, jausmaženkliais (emocijas žyminčių simbolių grandinėlėmis) ar sarkazmu. Be to tame pačiame komentare persipynus kelioms emocijoms apskritai tampa neaišku kaip autorius nusiteikęs aptariama tema.
Interneto komentarų srautas tiesiog per didelis, kad jį būtų galima suvaldyti ir analizuoti rankiniu būdu. Todėl jau daugybę metų kuriami automatiniai sentimentų analizės metodai (nustatantys pozityvią, negatyvią ar objektyvią autoriaus nuomonę), o pastaruosius 10 metų ši sritis tyrinėjama ypač intensyviai. Tiesa, daugiausiai tyrimų atlikta anglų kalbai, bet analizės tikslumas joje kai kuriais atvejais siekia net 97 procentus. Beje, 100 proc. tikslumą ne tik metodams, bet ir žmogui pasiekti sunku – juk tiriama kalba. Visa laimė, kad klaidos kaina nėra tokia didelė: tai ne medicina (kai neteisingai nustatoma diagnozė) ar elektronika (kai fiksuojami neteisingi lėktuvo atstumo iki žemės parodymai).
Sentimentų analizės tyrimai atliekami ir lietuvių kalbai, tačiau čia uždavinys gerokai sudėtingesnis. Lietuvių kalba stipriai kaitoma; turinti santykinai laisvą sakinio struktūrą; turtinga savo morfologija, žodynu (net 0,5 mln. pagrindinių žodžio formų), žodžių darybos sistema (net 78 priesagas mažybiniams ir maloniniams žodžiams), todėl anglų kalbai kurtų metodų neįmanoma tiesiog pernaudoti. Tikslumas lietuvių kalbai smarkiai mažesnis – tik 68 proc., todėl dar yra kur tobulėti. Tiesa, interneto komentarų tyrimus apsunkina tai, kad analizuojama nenorminė kalba, kurioje gausu žargono, užsienio kalbų intarpų, o lietuviškos raidės pakeistos atitinkamomis lotyniškomis.
Tyrimus taip pat apsunkina ir pirminė analizė, kurios metu žmogus turi interneto komentarus perskaityti ir rankiniu būdu sugrupuoti į pozityvius, negatyvius bei neutralius. Tada kuriami mašininio mokymo metodai (nurodant į kokias teksto savybes metodui atsižvelgti), kurių pagalba išmokstamos taisyklės, vėliau leidžiančios interneto komentarus grupuoti jau automatiškai.
Tikriausiai suprantate, kad pati sunkiausia dalis – pirminė žmogaus atliekama interneto komentarų analizė. Skaitant susidaro įspūdis, jog lietuviai gerokai piktesni nei anglakalbiai: daugiau nei 90 proc. lietuviškų komentarų tiesiog kelia šiurpą dėl autorių neapykantos visam pasauliui ir kartu stebina kaip į tokį trumpą tekstą įmanoma sudėti tiek daug keiksmažodžių ir nešvankių žodžių.
Tačiau nėra to blogo, kas neišeitų į gerą. Ši problema paspartino kitos kompiuterinės lingvistikos srities – t. y. autorystės nustatymo tyrimų vystymąsi. Tyrimai remiasi prielaida, kad kiekvieno žmogaus rašymo stilius (sakinių struktūra, naudojamas žodynas, gramatinės ar sintaksės klaidos ir kita) yra unikalus kaip jo piršto atspaudas, todėl visiškai nebūtina žinoti komentaro autoriaus IP adreso. Autorystės nustatymo tyrimų srityje anglų kalbai pasiekta iš tiesų labai gerų rezultatų, todėl ši galimybė jau taikoma praktikoje.
Kol mūsų visa tai laukia ateityje, galiu tik užjausti internetinių puslapių administratorius, kurie stengiasi bent dalį neetiškų interneto komentarų pašalinti. Mokslininkų darbas analizuoti, ne moralizuoti, tačiau, kai rašysite interneto komentarus, prisiminkite, kad kažkas juos skaito, tiria ir kuria metodus mūsų kalbai.
Tyrimas finansuojamas Lietuvos mokslo tarybos pagal Europos Sąjungos struktūrinių fondų įgyvendinamą projektą „Podoktorantūros (post doc) stažuočių įgyvendinimas Lietuvoje“.