Praėjusią savaitę „OpenAI“ pristatė „Sora“ – dirbtinio intelekto modelį, apmokytą kurti tikroviškus vaizdo įrašus pagal tekstinius aprašymus. Startuolis „ElevenLabs“ pasiūlė savo sprendimą, skirtą tokių vaizdo įrašų garso efektams.
„ElevenLabs“ 2022 m. įkūrė buvęs „Google“ inžinierius Piotras Dabkowskis ir buvęs „Palantir“ įgyvendinimo strategas Mati Staniszewskis.
Įmonė išleido teksto vertimo į kalbą ir įgarsinto vertimo į 20 kalbų modelį, išsaugant originalų balso toną ir tembrą. Naujasis „ElevenLabs“ projektas vadinasi „Sound Effects“ – jis skirtas garso efektams įrašuose kurti. Garsas čia bus generuojamas pagal teksto aprašymą.
Bendrovė pademonstravo kito dirbtinio intelekto modelio darbą, remdamasi „OpenAI Sora“ neuroninio tinklo „OpenAI“ sukurtų klipų pavyzdžiu. Tam buvo naudojami paprasti aprašymai, tokie kaip „metalo garsas“, „paukščių čiulbėjimas“ ir „lenktyninio automobilio variklis“.
„ElevenLabs“ neatskleidė techninių dirbtinio intelekto sistemos detalių, tačiau naujojo modelio rezultatai gana įtikinami – fono garsai yra tikroviški: miesto triukšmas, žingsniai judrioje gatvėje, humanoidinio roboto signalai ir tekstas užkadriniu balsu skamba taip, tarsi jį skaitytų Holivudo aktorius.
Bendrovė dar neatskleidė, kaip ketina apsaugoti savo projektą mat „ElevenLabs Sound Effects“, tikrai gali sudominti sukčius.