Sausio 4-oji – pasaulinė Brailio diena. Pasaulio sveikatos organizacijos duomenimis, pasaulyje yra beveik 300 milijonų regėjimo negalią turinčių žmonių. Net 90 proc. iš jų priklauso tik nedideles pajamas galinčioms užsitikrinti visuomenės grupėms, ir net 70 proc. yra bedarbiai, negalintys sau leisti brangesnių pagalbinių technologijų.
Asociatyvi „Unsplash“ nuotr.
Taip pat skaičiuojama, kad daugiau nei 6 proc. visų pasaulio žmonių, t. y., daugiau nei 450 milijonų, turi klausos negalią. Tik nedidelė dalis klausos netekusių žmonių turi galimybę naudotis moderniais klausos aparatais ir technologijomis, todėl reikia ieškoti lengviau pasiekiamų sprendimų.
Mažos technologijos – didelė galia
Paprasti, lengvai prieinami ir nebrangūs, bet išmanūs prietaisai kaip telefonai tokiems žmonėms gali būti puikūs pagalbininkai kasdieniniame gyvenime. Pavyzdžiui, kuriamos nebrangios ar net nemokamos, laisvai prieinamos programos ir mobiliųjų telefonų programėlės su integruotu šnekos atpažinimu, leidžiančios regėjimo negalią turintiems studentams efektyviai užfiksuoti užrašus paskaitų metu („Access Note“).
Yra ir daugiau programėlių, leidžiančių nesunkiai orientuotis aplinkoje („Aipoly Vision“), sekti žemėlapį („Ariadne GPS“, „Blind Square“), atpažinti spalvas („Colour ID“), banknotus („LookTel“) ar net emocijas („Facing Emotions“), pasitelkiant telefoną. Yra ir tokių, kurios („Be My Eyes“) įgalina savanorystę ir leidžia regintiesiems tiesioginio vaizdo skambučio metu padėti regėjimo negalią turintiesiems orientuotis ar bet kur nuvykti.
Vaizdo atpažinimo technologijos integruotos kartu su mašininio vertimo ir kalbos generavimo funkcijomis išmaniuosiuose telefonuose ir planšetiniuose kompiuteriuose kuria galimybes visiems žmonėms vienodai dalyvauti socialinėse veiklose, mažina negalią turinčiųjų atskirtį visuomenėje. Programėlės, leidžiančios užfiksuoti vaizdą, konvertuoti jį į tekstą ir tą tekstą išversti į kitą kalbą teksto ar net šnekos formatu jau tapo realybe.
Tobulėti yra kur
Mokslininkai nuolat vertina tokių programėlių teikiamą kokybę, atlieka tyrimus pasitelkdami įvairių kalbų, pavyzdžiui kinų, japonų, ispanų, anglų, duomenis. Šie tyrimai leidžia daryti išvadas, kad programėlės puikiai tinka tokiems scenarijams kaip teksto vertimas iš spausdintų laikraščių, žurnalų, knygų, meniu bei ženklų įprastomis natūralaus apšvietimo sąlygomis.
Žinoma, siekiant kuo geresnės vaizdo atpažinimo ir teksto sugeneravimo ir, aišku, vertimo kokybės, reikia atlikti tyrimus su sudėtingesniais scenarijais, pavyzdžiui, sudėtingesnių tekstų, neįprastų šriftų, esant nevienodoms apšvietimo sąlygoms ar didesniems vaizdo iškraipymams.
Svarbu pasiekti tokį vaizdo atpažinimą, kad konvertuotas tekstas būtų labai kokybiškas ir be klaidų vaizdo atpažinimo stadijoje. Nes bet kokiame scenarijuje aukštos kokybės originalo kalbos tekstas yra kritiškai svarbus. Jei yra klaida originalo tekste, ji visada lemia klaidą vertimo tekste. Tyrimų rezultatai kol kas tokie, kad pakankama kokybė generuojama trumpo teksto atveju, daugiausiai iki vieno nesudėtingo sakinio.
Žmonėms su regėjimo negalia labai pasitarnautų kokybiškas ženklų atpažinimas ir vertimas. Tačiau ženklai dažnai turi ar patys yra santrumpos. Jų reikšmė gali skirtis priklausomai nuo kultūros ar srities, o srities identifikavimas jau tampa sudėtinga užduotimi mašininiam vertimui, nes ženklai yra trumpi ir negali suteikti daug konteksto.
Be to, netobulas ženklo kaip vaizdo atpažinimas automatiškai dar labiau apsunkina vertimą, kai tuo tarpu daugeliu atvejų žmogus galėtų teisingai nuspėti ženklo reikšmę pagal kontekstą.
Analizuoja knygų viršelių atpažinimą
Kauno technologijos universiteto (KTU) tyrėjai ir studentai atlieka šnekos atpažinimo, vaizdo atpažinimo ir mašininio vertimo technologijų integracijos kokybės vertinimo tyrimus.
Kaip tik šiuo metu KTU atliekamas tyrimas, kuriame analizuojamas knygų viršelių vaizdų atpažinimas ir vertimas. Jau dabar galima pastebėti bendras tendencijas, kad vertimo kokybė labai priklauso ir nuo vaizdo atpažinime veikiančių parametrų, pavyzdžiui, apšvietimo, viršelio spalvos, viršelio blizgumo, t. y., iš esmės nuo vaizdo atpažinimo.
Šnekos atpažinime vienas svarbiausių momentų yra šnekos įvesties fiksavimas. Tam gali turėti įtakos įvairūs faktoriai – foniniai garsai, kalbančiojo akcentas, kartais net intonacija, atstumas tarp garsiakalbio ir mikrofono, įšnekamo teksto ilgis ir kiti veiksniai.
Nors mokslininkai ir vystytojai kai kurias iš šių problemų sprendžia integruodami įrankius, padedančius nustatyti, kada signalas yra šnekos signalas, vis dėlto egzistuoja įvairūs veiksniai, lemiantys neatitikimus tarp to, kas buvo įkalbėta ir to, ką šnekos atpažinimo įrenginys užregistruoja.
Pavyzdžiui, plačiai naudojama Google vertėjo programėlė su integruotu šnekos atpažinimu jau šnekos atpažinimo stadijoje tinkamai ir teisingai atpažįsta tik apie 20 proc. nesudėtingos struktūros ir tematikos sakinių. Nukandamos sakinio pabaigos, pakeičiamos žodžių galūnės ar netinkamai atpažįstami žodžiai, o kiek dar klaidų atsiranda po mašininio vertimo.
Tobulintina sritis
Tad tiek vaizdo, šnekos atpažinimas, tiek mašininis vertimas savaime, tiek visų šių technologijų integravimas į prieinamus, lengvai naudojamus technologinius sprendinius dar yra tobulintina sritis.
Nors dirbtinis intelektas sėkmingai pasitarnauja įvairiose srityse, mokslininkai pripažįsta, kad dirbtinio intelekto ir mašininio mokymosi panaudojimas vystant kalbos technologijas kelia daugiausiai iššūkių. Dažnai prognozuojama, kad dirbtinio intelekto vystymas ypatingai paveiks ir leis ištobulinti būtent šnekos, vaizdo atpažinimo ir mašininio vertimo technologijas.
Tad pagrindinė užduotis mokslininkams ir technologijų vystytojams yra įvertinti, kaip geriausiai galima panaudoti dirbtinį intelektą, siekiant mašininį vertimą pasitelkti visuomenės poreikiams ir interesams be didelių rizikų, ypač nuo tokių technologinių sprendimų priklausomiems visuomenės nariams. Ir be abejo, edukuoti visuomenę apie tai, ką šios technologijos gali ir ko ne.
Ramunė Kasperavičienė, Kauno technologijos universiteto Socialinių, humanitarinių mokslų ir menų fakulteto profesorė.