„OpenAI“ pristatė „Sora“ dirbtinį intelektą, kuris tekstą paverčia tikroviškais vaizdo įrašais

Publikuota:	2024-02-19 12:52
Tematika:	Kompiuterija

Aut. teisės:	©MoksloTaskas.lt
Inf. šaltinis:	MoksloTaskas.lt

„OpenAI“ pristatė naująjį „Sora“ dirbtinį intelektą, skirtą vaizdo įrašams kurti. Bendrovė teigia, kad „Sora“ „gali kurti realistines ir išgalvotas scenas iš tekstinių instrukcijų“.

Teksto konvertavimo į vaizdo įrašą modelis leidžia naudotojams pagal tekstinius aprašymus kurti fotorealistinius iki minutės trukmės Full HD (1920 × 1080 pikselių) raiškos vaizdo įrašus.

„OpenAI“ tinklaraštyje rašoma, kad „Sora“ gali kurti „sudėtingas scenas su keliais veikėjais, specifiniais judesiais ir tiksliomis objektų bei fono detalėmis“.

Bendrovė taip pat pažymi, kad dirbtinis intelektas gali suprasti, kaip objektai „egzistuoja fiziniame pasaulyje“, taip pat „tiksliai atkartoti tekstą ir kurti įtikinamus personažus, išreiškiančius ryškias emocijas“.

Dirbtinis intelektas gali sukurti vaizdo įrašą iš paveikslėlio, užpildyti trūkstamus esamo vaizdo įrašo kadrus arba jį išplėsti.

„OpenAI“ tinklaraštyje rodomos su „Sora“ sukurtos demonstracinės versijos: aukso karštinės laikų Kalifornijos scena, vaizdo įrašas, nufilmuotas tarsi iš Tokijo traukinio vidaus, ir kt. Daugelyje iš jų dar yra dirbtinio intelekto veikimą rodančių faktų. Pavyzdžiui, įtartinai judančios grindys muziejaus vaizdo įraše.

Pati „OpenAI“ teigia, kad dirbtiniam intelektui „gali kilti sunkumų tiksliai modeliuojant sudėtingos scenos fiziką“, tačiau apskritai rezultatai gana įspūdingi.

Prieš kelerius metus tokie teksto ir vaizdo generatoriai, kaip „Midjourney“, geriausiai pademonstravo dirbtinio intelekto gebėjimą žodžius paversti vaizdais.

Tačiau pastaruoju metu generatyviniai vaizdo įrašai tobulėja nepaprastai sparčiai: tokios bendrovės kaip „Runway“ ir „Pika“ demonstruoja įspūdingus teksto ir vaizdo įrašų modelius, o „Google Lumiere“: atrodo, taps vienu pagrindinių „OpenAI“ konkurentų šioje srityje.

Kaip ir „Sora“, „Lumiere“ suteikia naudotojams įrankius tekstui konvertuoti į vaizdo įrašą, taip pat leidžia sukurti vaizdo įrašą iš paveikslėlio.

Šiuo metu „Sora“ yra prieinama tik atskiriems bandytojams, kurie įvertina, ar modelis nekelia galimos žalos ir rizikos. Be to, „OpenAI“ siūlo užsakomąją prieigą atskiriems menininkams, dizaineriams ir filmų kūrėjams, kad gautų atsiliepimus.

Bendrovė pažymi, kad esamas modelis gali netiksliai imituoti sudėtingos scenos fiziką ir klaidingai interpretuoti kai kuriuos realius atvejus.

Anksčiau šį mėnesį „OpenAI“ paskelbė, kad į savo DALL-E 3 teksto konvertavimo į vaizdą įrankį įtraukė ženklinimą, tačiau pažymi, kad jį galima lengvai pašalinti.

Kaip ir kiti dirbtiniu intelektu pagrįsti produktai, „OpenAI“ turės kovoti su pasekmėmis, kai dirbtinio intelekto sukurti fotorealistiniai vaizdo įrašai bus pateikiami dezinformacijai.