Taikomojo dirbtinio intelekto įmonės AAI Labs vadovaujamas konsorciumas laimėjo „Eurostars“ kvietimą, kuriame finansuojamas inovatyvių produktų ir paslaugų kūrimas tarptautinėje rinkoje. Įmonė siekia išplėtoti dirbtiniu intelektu valdomą audioknygų kūrimo sistemą, kurioje leidėjai ir autoriai galės tekstus sintezuoti už prieinamą kainą, išlaikant aukščiausią pasakotojo balso kokybę.
Pasaulyje šiuo metu audioknygos sudaro apie 6 proc. visos knygų rinkos, kuri kasmet auga. Tačiau dauguma leidinių nėra prieinami garsiniu formatu dėl didelių gamybos sąnaudų. Ši tendencija itin ryški mažų resursų kalbose, tokiose kaip lietuvių, estų ar islandų, kur kokybiško įgarsinimo kaštai yra aukšti, o balso aktorių – nedaug.
„Neseniai įvykęs proveržis natūralios kalbos apdorojimo srityje leidžia dirbtinio intelekto modelius apmokyti taip, kad jų sintezuotas balsas prilygtų žmogaus kokybei. Tikime, kad tai leis daugiau žmonių skaityti klausantis ir populiarins mažesnių leidėjų bei autorių literatūrą“, – sako AAI Labs vadovas prof. dr. Aistis Raudys.
Projekto metu bus sukurta daugiakalbė, aukštos kokybės pusiau automatizuota garso knygų kūrimo sistema, pagrįsta itin tiksliais kalbos sintezės algoritmais. Be to, projekte taip pat siekiama pristatyti tokius parametrus, kurie leistų perkelti balso ypatybes (vaikų balsus, užsienio akcentus) iš vienos kalbos į kitą, taip užtikrinant teatralizuotą vartotojo patirtį.
Balso sintezės sistema pirmiausia veiks lietuvių, kroatų, danų, lenkų, čekų ir kt. kalbomis, kurioms šiuo metu rinkoje siūlomų sintezuoto balso paslaugų kokybė yra menka. Šią technologiją bus siekiama taikyti tose srityse, kuriose audioknygų gamyba tradiciniais metodais yra nepelninga. Tai išplės vartotojų prieigą prie įvairesnės literatūros, įskaitant medžiagą, skirtą mažumų grupėms ir nišinėms rinkoms. Šiam tikslui įgyvendinti AAI Labs pasirinko partnerius iš Kroatijos ir Pietų Afrikos.
Tikimasi, kad projekto rezultatai rinkai bus pristatyti iki 2025-ųjų. AAI Labs jau dabar bendradarbiauja su šalies leidyklomis kuriant pilotinius sintezuotų knygų projektus. Be to, balandį įmonė kartu su Lietuvos audiosensorine biblioteka vartotojams pristatė tris dirbtinio intelekto balsu įrašytas knygas, pasiekiamas virtualioje bibliotekoje ELVIS.
„Dauguma kalbos sintezės sprendimų naudoja 22050 Hz dažnio įrašus. Tokia kokybė atidaus klausytojo gali netenkinti, nes 44100-48000 Hz dažnis yra šiuolaikinis standartas. Glaudus bendradarbiavimas su leidėjais ir bibliotekomis suteikia galimybių sėkmingai testuoti sistemas, palaikančias tokį aukštesnės kokybės garsą“, – teigia AAI Labs technologijų vadovas Tadas Šubonis.
„Eurostars“ yra didžiausia tarptautinė finansavimo programa, skirta mažoms ir vidutinėms įmonėms, norinčioms bendradarbiauti vykdant mokslinių tyrimų ir eksperimentinės plėtros projektus, kuriais kuriami inovatyvūs produktai, procesai ar paslaugos. Projektas yra Europos inovatyviųjų MVĮ partnerystės dalis, finansuojama per Europos Sąjungos programą „Europos Horizontas“.