Sukūrė sprendimą, padėsiantį atpažinti DI sukurtą tekstą lietuvių kalba

Publikuota:	2023-08-09 16:51
Tematika:	IT sprendimai, programinė įranga

Inf. šaltinis:

Pranešimas žiniasklaidai

Laikais, kai DI algoritmas gali sukurti argumentuotą ir įtikinamą straipsnį, el. laišką ar skelbimą iškyla svarbi problema: kaip atskirti, ar tekstą parašė žmogus, ar mašina? Su šiuo iššūkiu tvarkomasi skirtingais būdais, o vienas iš patikimiausių – DI kurto teksto atpažinimo sistemos. Nors anglų kalba tokių įrankiu apstu – ką tik pasirodęs sprendimas lietuvių kalba yra pirmas toks šalyje.

Labai tikėtina, kad per pastarąją savaitę perskaitėte tekstą, kurį parašė dirbtinis intelektas (DI), ir apie tai net nesusimąstėte. 2022-ųjų pabaigoje pasirodęs „ChatGPT“ inicijavo tikrą rašytinio turinio kūrimo revoliuciją, kuri skatina permąstyti iki šiol egzistavusį santykį su skaitomais tekstais, rašoma „Oxsico“ pranešime žiniasklaidai.

OXSICO komanda. Įmonės nuotr.

Laikais, kai DI algoritmas gali sukurti argumentuotą ir įtikinamą straipsnį, el. laišką ar skelbimą iškyla svarbi problema: kaip atskirti, ar tekstą parašė žmogus, ar mašina? Su šiuo iššūkiu tvarkomasi skirtingais būdais, o vienas iš patikimiausių – DI kurto teksto atpažinimo sistemos, pateikiančios procentiškai išreikštą tikimybę, jog tekstas buvo sukurtas ne žmogaus. Nors anglų kalba tokių įrankiu apstu – ką tik pasirodęs sprendimas lietuvių kalba yra pirmas toks šalyje.

„Dirbtinio intelekto perversmo laikais suprasti skaitomo teksto kilmę yra būtina. Tai daugiau nei kritinio mąstymo pratimas – DI priemonės dažnai mini melagingą ar klaidinančią informaciją, kurią būtina iš anksto identifikuoti, siekiant išvengti tolimesnės jos sklaidos. Todėl atpažinti algoritmo kurtą tekstą yra vis svarbesnis įgūdis visiems siekiantiems tapti informuotais turinio vartotojais. Be to, tai itin aktualus iššūkis švietimo įstaigose, kai vis daugiau mokinių ir studentų renkasi nesąžiningą DI įrankių pagalbą, kuriant rašto darbus. Tad džiaugiamės galėdami pasiūlyti savąjį problemos sprendimą nuo šiol nemokamai prieinamą ir lietuvių kalba“, – teigia startuolio „Oxsico“ vadovė Kotryna Tomkevičiūtė.

Naudojimasis „Oxsico AI“ teksto atpažinimo sistema lietuvių kalba yra paprastas ir intuityvus, o rezultatas aiškus. Įvedus norimą patikrinti tekstą ar jo ištrauką, produktas spalviškai pažymi galimai dirbtinio intelekto sukurtą tekstą. Kuo spalva ryškesnė, tuo didesnė tikimybė, kad sakinys yra sugeneruotas DI. Ir atvirkščiai, mažėjant spalvos intensyvumui, traukiasi tikimybė, kad tekstas buvo parašytas algoritmo.

Vertinant gautus rezultatus, svarbu atminti paprastą taisyklę. Jeigu modelis nurodo didesnę nei 50 proc. tikimybę, jog tekstas buvo sukurtas DI – galime manyti, kad tekstą parašė DI. Ir priešingai, jei pateikiama tikimybė siekia mažiau nei 49 proc., rekomenduotina tokį turinį vertinti kaip sukurtą žmogaus.

Svarbių problemų sprendimas

Kaip priduria „Oxsico“ vadovė, plagijavimo, neteisingo citavimo, o šiandien ir DI kuriamų darbų iššūkiai aukštosiose mokyklose – ne tik edukacinės, bet ir esminės visuomenės problemos.

„Praėjęs pavasaris patvirtino išankstinius lūkesčius – studentai ir mokiniai sunkiai atsispiria pagundai palengvinti savo gyvenimą rašant atsiskaitomuosius darbus. Į pagalbą DI algoritmai pasitelkiami skirtingu laipsniu: galvojant rašto darbo temą, ieškant reikiamos literatūros, formuojant argumentus, o aplaidžiausi renkasi apskritai nerašyti, šį darbą patikint dirbtiniam intelektui. Mažesnės studentų pastangos lems ne tik prastesnį kompetencijų bagažą, bet ir menkesnes karjeros perspektyvas. Todėl akivaizdu, jog valstybės, kurios išmoks tinkamai panaudoti dirbtinį intelektą, nesumažinant, o padidinant savo gyventojų įgūdžius – pirmaus užtikrinant bendrą visuomenės gerovę“, – mintimis dalijasi Kotryna Tomkevičiūtė.

Įrankio tikslumui užtikrinti – net keli inovatyvūs sprendimai

„Oxsico AI“ nuo rinkoje egzistuojančių DI teksto atpažinimo sistemų skiriasi ne tik dėl lietuvių kalbos palaikymo. Startuolio kuriamo modelio apmokymui yra naudojama morfologinė informacija, kuri ženkliai padidina sprendimo efektyvumą.

Įrankio taiklumui matuoti yra naudojami keli skirtingi rodikliai, įvertinantys teksto kilmės prognozavimo tikslumą. Modelio tikslumas (angl. „precision“) parodo, kiek elementų buvo tiksliai atpažinti iš visų atpažintų elementų. Šiuo metu šis rodiklis siekia net 99,8 proc. – tai reiškia, kad jei sakinys yra pažymėtas kaip sukurtas DI, egzistuoja 99,8 proc. tikimybė, kad modelis pataikė. Tuo tarpu išsamumo (angl. „recall“) rodiklis parodo kiek elementų buvo atpažinti iš visų tų, kuriuos algoritmas turėjo įvertinti. Šiuo metu šio rodiklio reikšmė siekia 93,4 proc. – tad 6,6 proc. atvejų vis dar lieka neidentifikuoti.

„Galvojant apie DI kurto teksto atpažinimo sistemas, svarbu pažymėti ir galimus tokių sprendimų ribotumus. Reikia turėti omenyje, jog galime kliautis tik tikimybiniu įvertinimu, kuris ne visada atitinka realybę. Todėl modelio veikimą reikėtų vertinti visumoje, atsiribojant nuo epizodinių netikslumų. Be to, svarbu iš anksto aiškiai apsibrėžti, kas yra traktuojama kaip DI kurtas turinys. Pavyzdžiui, tekstinis turinys gali būti unikalus ir sukurtas žmogaus, tačiau vartotojui pasinaudojus DI pagalba, tvarkant stiliaus klaidas, gramatiką, skyrybą toks tekstas gali būti prilygintas DI kuriamam turiniui. Todėl siekiant išvengti nesusipratimų, būtina nusistatyti aiškias DI naudojimo gaires“, – pastebi Kotryna Tomkevičiūtė.

Ateityje – dar ambicingesni tiksla

Inovatyvų įrankį sukūrusios bendrovės atstovė teigia, jog teksto atpažinimo sistema lietuvių kalba yra tik pirmasis iš plėtros etapų.

„Pirmieji mūsų sprendimo naudotojai Lietuvoje yra esami klientai: universitetai, mokyklos, kolegijos. Nuo rugsėjo mėnesio ši priemonė bus prieinama mūsų teksto sutapčių patikros sistemoje. Tačiau artimiausioje ateityje planuojame šią priemonę pristatyti ir kitomis kalbomis – iki spalio planuojame turėti DI atpažinimą bent 20 kalbų. Nors „Oxsico AI“ bus ir toliau nemokamai prieinamas visiems, tačiau ateityje turėtų pasirodyti „Premium“ versija, kurioje papildomos funkcijos bus prieinamos tik paslaugos prenumeratoriams. Todėl reikia akcentuoti, kad šiandien prieinamas įrankis išlieka beta versija, kurią nuosekliai tobulinsime“, – apibendrina Kotryna Tomkevičiūtė.