„Fotošopu“ pagražintos nuotraukos, vaizdo įrašuose „įklijuotos“ kitų žmonių galvos ar iš gabaliukų sumontuoti garso įrašai… Visa tai – jau praeitis. Šiandien naujausios technologijos leidžia sukurti įspūdingas klastotes, kurios keičia tai, kaip suprantame pasaulį ir naujienas apie jį.
Asociatyvi „Pixabay“ nuotr.
Sunku tuo patikėti, bet „vaizdo manipuliacijos“ egzistuoja jau maždaug nuo tada, kai buvo išrastos paprasčiausios fotografijos technologijos – net nuo XIX-ojo amžiaus. Visgi rašalu retušuotos nuotraukos – niekis, palyginus su vėliau išrastomis technologijomis.
XX-ajame amžiuje atsiradusios kompiuterinės technologijos, vėliau tapusios prieinamomis kone kiekvienam, gerokai pralinksmino pasaulį, bei pakeitė žurnalistikos, kinematografijos, net porno industrijas. „Fotošopu“ neredaguotos nuotraukos, nepagražinti modeliai žurnaluose tapo retenybe. O piktesniems ar kerštingiems tapo įmanoma norimus veidus „užklijuoti“ net ant N-18 filmų ir nuotraukų herojų...
Tačiau kad ir kokie išradingi būtų tokių montažų kūrėjai ir kompiuterinės programos, klastotę nuo tikrovės atskirti nebuvo taip jau sudėtinga. Na, bent jau vaizdo įrašuose ar tekstuose. Tačiau šiandien sparčiai besivystančios dirbtinio intelekto technologijos po truputį naikina ir šią ribą. Ar jau atėjo ta diena, kai realybės nuo padirbinio šansų atskirti beveik nebėra?
„Deepfake“ vaizdų sintezės technologija
Pastaraisiais metais pasaulį sudrebino „deepfakes“ – pažodžiui išvertus, „gilieji padirbiniai“. Kodėl toks keistas pavadinimas? „Deepfake“ technologija veikia giluminio mokymosi (angl., „deep learning“) pagalba. Kitaip tariant, dirbtinio intelekto algoritmas, gavęs daugybę duomenų – skirtingų veidų nuotraukų, geba pats išmokti juos atpažinti, bei vieną veidą pakeisti kitu. Tokiu būdu sukuriami itin įtikinami, tačiau „netikri“ vaizdo įrašai.
Kuo daugiau duomenų ir laiko „deepfake“ algoritmas turi mokymuisi, tuo tikslesnis ir ryškesnis rezultatas. Vis dėl to, kol kas net geriausi „deepfake“ algoritmai negali pasiekti 100 % tikslumo. Stopkadras iš „Mokslo sriubos“ reportažo: „Kaip kuriamos „deepfake“ giluminės kaukės?“.
© „Mokslo sriuba“
„Deepfake“ – tai gerokai daugiau nei tiesiog iškirpti ir įklijuoti. Dirbtinio intelekto pagalba, kompiuteris transformuoja vieną veidą kitu iki mažiausios detalės – net lūpų judesių. Pasak mokslininkų, geriausiai šis metodas veikia, kai veidai yra pakankamai panašūs. Vis dėl to šios, kaip ir visų mašininio mokymosi technologijų, efektyvumas priklauso nuo duomenų kiekio. Kuo daugiau medžiagos algoritmas gauna, tuo tiksliau gali atkurti norimas veido detales, išraiškas ir t. t.
Jei turite akylą akį, ir gerai gebate atskirti „fotošopintas“ nuotraukas nuo tikrų, „deepfakes“ įveikti gali būti daug sudėtingiau. Šias technologijas kuriantys ir tyrinėjantis mokslininkai teigia, jog bent jau kol kas dar įmanoma pastebėti tam tikrų požymių padedančių atskirti tikrą įrašą nuo klastotės. „Deepfake“ būdu transformuoti veidai dažnai turi vos pastebimų pikselių, be to, algoritmas atpažįsta ir keičia tik veidą, tuo tarpu fonas lieka nepaliestas, taigi gali atrodyti nenatūraliai. Vis dėl to, žmogaus smegenys yra itin gerai išsivysčiusios atpažinti veidus, todėl į akį krenta net mažiausios detalės. Bet laikui bėgant, o dirbtinio intelekto technologijoms tobulėjant, „deepfakes“ gali visiškai įsilieti į mūsų realybę.
Nenuostabu, jog ypač didelės „deepfake“ sėkmės tikimasi kino industrijoje. Tiesą sakant, per 99 % šiuo metu cirkuliuojančių „deepfake“ yra pornografiniai vaizdo įrašai, kuriuose aktorių veidai pakeičiami žinomų žmonių ir kino žvaigždžių veidais. Kuriami ir daugybė humoristinių įrašų, kur žinomų filmų scenose vienų aktorių veidai pakeičiami kitais.
Manoma, jog „deepfake“ galėtų pakeisti judesių fiksavimo (angl., „motion capture“ arba „performance capture“) ir kitas technologijas iki šiol naudotas animuoti fantastiniams herojams, tokiuose filmuose „Avataras“, „Beždžionių planeta“ ir kt. Gebėjimas susintetinti realistinius aktorių lūpų judesius padėtų nebrangiai sukurti ir filmo versijas skirtingomis kalbomis. Aktorius būtų galima nesunkiai pajauninti, pasendinti, pakeisti dublių veidus pagrindinių aktorių veidais. O susiklosčius tragiškomis aplinkybėms – net „prikelti“ aktorius, žuvusius nebaigus filmuoti juostos. Galbūt ateityje netgi naudoti virtualius aktorius, ar iš skirtingų aktorių bruožų sukurti naujus, aktorius-hibridus.
Tačiau „deepfake“ technologija prieinama ne tik profesionalams. Tokios atviro kodo programos kaip „FaceSwap“ ir „DeepFaceLab“ nemokamai prieinamos bet kuriam norinčiam sukurti „deepfake“ vaizdo įrašą, o internete gausu ir instrukcijų mėgėjams. Ir nors anksčiau nuotraukų ir vaizdo įrašų „fotošopinimas“ sluoksnis po sluoksnio užtrukdavo valandų valandas, „deepfake“ pagalba visą sunkųjį darba atlieka kompiuteris. Tereikia jam pateikti norimų veidų pavyzdžių, palaukti, ir vualia! O technologijoms tobulėjant, tokių algoritmų apmokymui net nebereikia itin didelių kompiuterinių resursų. Pakanka asmeninio kompiuterio, kurį beveik kiekvienas turime namie!
Vis dėl to, toks šių technologijų prieinamumas reiškia ir tai, jog bet kas gali kurti itin įtikinamas netikras naujienas (angl., „fake news“) bei politines atakas. 2008-aisiais pasaulį sudrebino portalo „BuzzFeed“ ir aktoriaus Jordan Peele sukurtas „deepfake“ kuriame buvęs JAV prezidentas Barack Obama tariamai įžeidinėja Donaldą Trumpą. Nors tikslas buvo parodyti žmonėms „deepfake“ technologijų potencialą, šis vaizdo įrašas greitai tapo melagienų bei technologijų kuriamų pavojų simboliu.
Sintetinami ir garso įrašai bei ištisi tekstai
Dar daugiau nerimo kelia dirbtinio intelekto pažanga kitose medijų srityse. „Deep Voice“ ir kitos dirbtinio intelekto programos jau kuria ir garso įrašų padirbinius. Jei prieš kelerius metus šiems algoritmams reikėdavo kelių minučių balso įrašo, kad galėtų jį pamėgdžioti, šiandien tam užtenka vos poros sekundžių. Taip pat kaip „deepfake“ vaizdo įrašus kuriančios programos, audio klastotės kuriamos mašininio mokymosi pagalba, algoritmui mokantis susintetinti žmogaus balsą iš pavyzdžio. Kuo daugiau duomenų algoritmas gauna mokymuisi, tuo tiksliau jį pamėgdžioja.
Tiesa, ir ši technologija dar nėra 100 % tobula, tačiau net prastesnėse audio klastotėse nesunku atpažinti konkretaus žmogaus balsą, net jo akcentą ir kalbėjimo manierą. O įrašo netobulumus bei pašalinius garsus nesunku supainioti su tiesiog prastesne kokybe įrašytu audio.
Dėl šių priežasčių baiminamasi, kad kartu panaudojus „deepfake“ ir balso klastojimo technologijas gali būti pradėtos kurti itin įtikinamos melagienos. Tokiu būdu būtų galima surežisuoti ir susintetinti ištisus interviu, reportažus, politinius pasisakymus.
Negana to, tobulėja ir teksto sintetinimo technologijos. 2019-aisiais dirbtinio intelekto tyrimų laboratorija „OpenAI“ išleido „GPT-2“ – programą, gebančią sukurti turiningus straipsnius, istorijas, net poeziją ir programinį kodą.
Neįtikėtina, tačiau algoritmui užtenka tiesiog pasufleruoti straipsnio pavadinimą, kad tam tikra tema sukurti ištisą istoriją, ar vienos eilutės, kad sukurtų visą eilėraštį. Algoritmas mokosi iš milijonų internete rastų tekstinių dokumentų, kuriuos parsisiunčia ir apdoroja, taip tobulindamas savo teksto „rašymo“ sugebėjimus. Nors kol kas tokiame „netikrame“ tekste vis dar galima aptikti jį išduodančių požymių – pavyzdžiui, ilgesniame straipsnyje nuo vietos temos nukrypstama prie kitos, supainiojami herojų vardai, tačiau dažnai „GPT-2“ kurtas tekstas yra neįtikėtinai realistiškas bei primena mąstančios būtybės, kitaip tariant – žmogaus, kurtą tekstą.
Dėl programos galingumo, pilna „GPT-2“ versija buvo išleista ne iškart. Pasak jos kūrėjų, programa jiems pasirodė per daug pavojinga, kad galėtų būti paleista į pasaulį. Tuo metu jie teigė, jog jei kiekvienas norintis galėtų šia programa nevaržomai naudotis, itin išaugtų pavojingų melagienų kūrimo ir platinimo rizika. Todėl iš pradžių buvo paleista ribotų galimybių programos versija.
Vis dėl to po kelių mėnesių išleista ir pilnų galimybių „GPT-2“. Pasak „OpenAI“, rimtų piknaudžiavimų šia technologija nebuvo pastebėta.
Dabar jau išleista galutinė „GPT-2“ atviro kodo versija. Įvairias jos atmainas galima išbandyti ir mėgėjams internete. Be to, išleistas ir programinis kodas, padedantis atpažinti „GPT-2“ programa sukurtus sintetinius tekstus, taigi ir netikras naujienas. Panašius įrankius melagienoms atpažinti kuria ir kiti tyrimų institutai. Visgi baiminamasi, jog šių ir kitų medijas sintetinančių technologijų pagalba sukurtas turinys gali visiškai užtvindyti socialinius tinklus ir sukelti didelę globalinę suirutę pasklidus melagienoms.
Prie šių baimių prisideda ir įvairių socialinių botų kūrimas. Netikros automatizuotos anketos socialiniuose tinkluose, tokiuose kaip „Twitter“, „Facebook“, „Instagram“ ir kt., gali itin greitai paskleisti netikrus faktus ir suklastotą turinį. O kai šis sukurtas pažangių dirbtinio intelekto technologijų kaip „deepfake“ ir kt. pagalba, pelus nuo grūdų žinių sraute atskirti gali tapti itin sudėtinga.
Vis dėl to, pasak mokslininkų, nors botai naujienas platina itin efektyviai, jų pagalba taip pat greitai platinamos tiek tikros, tiek netikros žinios. Tuo tarpu melagienos socialiniuose tinkluose plinta gerokai greičiau ne dėl botų, o būtent žmonių elgesio. Melagienos dažnai labiau patraukia akį, yra labiau šokiruojančios, todėl mūsų pačių yra žaibiškai paskleidžiamos socialiniuose tinkluose.
Todėl tobulėjant technologijoms turėtume būti dar atsargesni. Išvydę šokiruojantį vaizdo įrašą, netikėtą politiko straipsnį ar abejonių keliantį straipsnį neskubėkime juo dalintis. Pirma paklauskime savęs – iš kur jis atsirado? Ar yra daugiau medžiagos patvirtinančios šiuos faktus? Ar vaizdo ar garso įrašas neturi klastotės požymių? Būkime atidūs!
Šaltiniai:
- Deepfakes and the technology behind it – BBC.
- Kaip kuriamos „deepfake“ giluminės kaukės? – „Mokslo sriuba“.
- Deepfake Technology in the Entertainment industry: Potential, Limitations and Protections.
- „Deep Voice“ Software Can Clone Anyone's Voice With Just 3.7 Seconds of Audio.
- OpenAI has published the text-generating AI it said was too dangerous to share.
- Soroush Vosoughi, Deb Roy, and Sinan Aral. „The spread of true and false news online“. Science 359, no. 6380 (2018): 1146-1151.