„OpenAI“ pristato „Voice Engine AI“, kuris klonuoja jūsų balsą iš 15 sekundžių pavyzdžio

Publikuota:	2024-04-03 21:07
Tematika:	Kompiuterija

Aut. teisės:	©MoksloTaskas.lt
Inf. šaltinis:	MoksloTaskas.lt

„OpenAI“ pristatė preliminaraus „Voice Engine AI“ modelio, kuris, remdamasis 15 sekundžių pavyzdžiu, gali realistiškai įvesti tekstą balsu, stengdamasis tiksliai perteikti kalbėtojo balsą ir kalbos ypatybes, bandymų rezultatus.

„Voice Engine“ pirmą kartą buvo sukurtas 2022 m. pabaigoje ir buvo naudojamas teksto keitimo į kalbą API bei kartu su „ChatGPT Voice“ ir „Read Aloud“.

„OpenAI“ pristato „Voice Engine AI“, kuris klonuoja jūsų balsą iš 15 sekundžių pavyzdžio

Asociatyvi nuotr.

Organizacija „OpenAI“ supranta galimo netinkamo sintezuoto balso technologijos naudojimo pasekmes, todėl tikisi gauti bendruomenės atsiliepimų apie galimus pavojus ir panaudojimo būdus.

Kalbant apie pastarąją, nuo praėjusių metų „OpenAI“ pasiūlė nedidelei partnerių grupei išbandyti „Voice Engine“.

Buvo gauti šie atsiliepimai:

Pagalba skaitymo sutrikimų turintiems asmenims ir vaikams pasitelkiant natūralius, emocinius ir įvairius balsus. Pavyzdžiui, švietimo technologijų bendrovė „Age of Learning“ naudoja „Voice Engine“, kad įgarsintų turinį ir kartu su GPT-4 realiuoju laiku pateiktų asmeninius atsakymus besimokantiesiems.

Verčiant turinį, pavyzdžiui, vaizdo įrašus ir podcast’us, autoriai ir įmonės galės išplėsti auditoriją visame pasaulyje, nes informaciją perduos savo ir darbuotojų balsais. Viena iš pradininkių yra „HeyGen“ – dirbtiniu intelektu pagrįsta vaizdinių pasakojimų kūrimo platforma, skirta įmonių klientams kurti į žmogų panašius avatarus įvairiems tikslams – nuo produktų rinkodaros iki pardavimo pristatymų. „Voice Engine“ išsaugo kalbančiojo gimtąjį akcentą, todėl kai anglišką tekstą įgarsina prancūzas, bus girdimas prancūziškas akcentas.

Pagalba žmonėms, turintiems kalbos sutrikimų, terapinės programos, edukacinės priemonės. „Livox“ – dirbtinio intelekto programėlė, skirta alternatyvaus ir papildyto bendravimo įrenginiams, padeda žmonėms, turintiems bendravimo problemų.

Pagalba atkuriant staigių ir degeneracinių kalbos sutrikimų balsą. Normano Princo neurologijos institutas (NPNI) vykdo bandomąją programą, skirtą padėti žmonėms, sergantiems vėžiu ar neurologiniais kalbos sutrikimais. Dėl „Voice Engine“ gebėjimo atkurti kalbą iš 15 sekundžių mėginio daktarai Fatima Mirza, Rohaidas Ali ir Konstantina Svokos, naudodami mokykliniam projektui skirtą vaizdo įrašo garsą, atkūrė balsą jaunam pacientui, turinčiam kalbos sutrikimų dėl smegenų auglio.

Tiesa, „OpenAI“ partneriai sutiko su naudojimo taisyklėmis, pagal kurias draudžiama naudojantis šia technologija apsimesti kitu asmeniu, o tai negalioja potencialiems užpuolikams, kurie vis dažniau naudoja neuroninių tinklų technologiją nusikalstamais tikslais.