Praėjusią savaitę dirbtinio intelekto (DI) rinką sudrebino bene svarbiausi pristatymai metuose. Generatyvinio DI pionierė „OpenAI“ išleido smarkiai patobulintą „ChatGPT-4o“ asistento versiją, o „Google“ jai įkandin nutraukė uždangą nuo spartesnio „Gemini Flash“ DI variklio bei DI papildytos „Google“ paieškos. Didžiausiu proveržiu „Telia“ Skaitmeninės pažangos centro ekspertai įvardina atsiradusį pagerėjusį lietuvių kalbos palaikymą ir dar didesnį DI įrankių žmogiškumą – gebėjimą suprasti juokelius, bendrauti bei užduotis atlikti realiu laiku.
Asociatyvi „Pixabay“ nuotr.
„DI industrija šiuo metu yra įkaitusi iki maksimumo ir tai gerai iliustruoja faktas, kad „OpenAI“ savo produktus specialiai pristatė likus vos vienai dienai iki kasmetinio „Google I/O“ renginio. Laimė, iš tokios didelės konkurencijos labiausiai išlošia vartotojai. Naujasis „ChatGPT-4o“ nuo šiol daug geriau supras paveikslėlius, gebės bendrauti natūraliau balsu ir nemokamai pasiūlys daug galimybių, kurios iki šiol buvo prieinamos tik prenumeratoriams. Tuo metu „Google Gemini“ pajėgs apdoroti dar didesnes užklausas ir atsakymus į „Google“ paieškas leis gauti vienu mygtuko paspaudimu“, – teigia „Telia“ Skaitmeninės pažangos centro skaitmenizacijos ekspertė Diana Gold.
Iš roboto – į žmogų
„OpenAI“ atstovai dar pristatymo metu pripažino, jog kurdama „ChatGPT-4o“ bendrovė savo dėmesį sutelkė ne į kardinaliai naujus gebėjimus, o į naudojimo paprastumą. Iki šiol pagrindinis kelias bendrauti su šiuo DI asistentu buvo klaviatūra surinkti savo klausimą ir lygiai taip pat laukti atsakymo raštu. Tuometinė balso sąsaja buvo ganėtinai lėta, o paprašius atsakymą suformuluoti užsienio kalba tekdavo kentėti kankinamai ilgas pauzes.
„Įdiegti patobulinimai „GPT-4o“ modeliu paremtam asistentui suteikia galimybę atlikti sinchroninį vertimą iš 50 užsienio kalbų, įskaitant ir lietuvių. Maža to, roboto balsas tapo natūralesnis, o pasakę kandų pokštą jo pusėje netgi galime išgirsti juoką. Intonacijos ir emocijos balse leidžia jam patikėti tokias įdomias užduotis, kaip pasakos vaikams skaitymą dramatišku tonu ją pabaigiant lopšinės padainavimu, ar tiesiog būti mūsų pašnekovu tada, kai neturime kam pasiguosti. Įrankio kūrėjai netgi planuoja netolimoje ateityje įgalinti komunikavimą su asistentu per vaizdo skambutį, kas visai patirčiai pridėtų dar vieną žmogiškumo „sluoksnį“, – pasakoja D. Gold.
„ChatGPT-4o“ pristatymas nemenkai nudžiugino ir skeptiškai beveik 20 eurų per mėnesį kainuojančios prenumeratos atžvilgiu nusiteikusius žmones. Naujasis asistentas be jokio papildomo mokesčio suteiks iki tol tik prenumeratoriams prieinamo pajėgesnio „GPT-4“ modelio sumanumą, gebės atsakymų į klausimus ieškoti internete ir analizuoti įkeltus failus. Su robotu taip pat bus galima pabendrauti apie jam pateiktas nuotraukas, paprašant daugiau papasakoti apie kelionėje užfiksuotą objektą arba nufotografavus šaldytuvą gauti patarimą, ką pasigaminti vakarienei iš turimų produktų.
Tiesa, atšaukti jau turimos „ChatGPT Plus“ prenumeratos nereikėtų skubėti. Naująją asistento versiją prenumeratoriai galės išbandyti anksčiau ir užduoti penkis kartus daugiau užklausų, kol „ChatGPT“ persijungs į senesnį 3.5 modelį. Deja, tikslios nemokamame paslaugos lygyje prieinamo užklausų skaičiaus kūrėjai neatskleidžia.
Maksimalus dėmesys veikimo spartai
Kasmetinėje „Google I/O“ konferencijoje, kaip ir tikėtasi, taip pat netrūko generatyvinio DI naujienų. Panašiai kaip ir svarbiausi varžovai iš „OpenAI“ stovyklos, „Google“ šįkart didelį prioritetą skyrė savo DI variklių našumui. Bendrovė pristatė kiek supaprastintą „Gemini 1.5 Pro“ modelio variantą „Gemini Flash“, kuris atsakymus į užklausas geba pateikti juntamai greičiau, nei jo pirmtakai.
Be didesnės veikimo spartos „Gemini 1.5 Flash“ įgavo galimybę apdoroti maždaug aštuonis kartus didesnės apimties užklausas, nei „GPT-4o“. Tai reiškia, jog šis DI modelis bus daug tinkamesnis vaizdo įrašų redagavimui, didelio kiekio nuotraukų analizei ir viskam kitam, kas nėra susiję su tekstu. Lyg to būtų maža, patobulintas „Gemini 1.5 Pro“ konteksto apimtį turėtų kilstelėti dar du kartus, įgalindamas apdoroti 22 valandų ilgio garso įrašus, dviejų valandų trukmės filmuotą medžiagą ir 1,4 milijono eilučių kodą.
„Nors abiejų kompanijų naujienos atrodo daug žadančiai, bent jau pirmieji nepriklausomi testai rutininėse užduotyse rodo visišką „GPT-4o“ pranašumą. Kol kas „ChatGPT“ už „Gemini 1.5 Pro“ daug tiksliau atsako į tokius elementarius klausimus, kaip „Kas sveria daugiau – kilogramas plunksnų ar svaras vinių?“, įkeltuose paveikslėliuose atpažįsta pageidaujamus objektus ir kuria kompiuterinius žaidimus pagal pateiktas jų ekrano nuotraukas. Panašu, kad „Google“ į „Gemini“ vis dar žiūri kaip į įrankį, papildantį „Google“ paiešką ir labiau skirtą atlikti sudėtingas užklausas, kur praverčia didelis jo naudojamo variklio našumas“, – kompanijų vizijų skirtumą detalizuoja „Telia“ Skaitmeninės pažangos centro ekspertė.
DI netrukus atsiras ir „Google“ paieškoje
Programuotojams skirtame savo renginyje be DI modelių patobulinimų technologijų milžinė pristatė ir didelį atgarsį sukėlusį „Google“ paieškos papildymą DI rezultatais. Netrukus įvedę užklausą į „Google“ laukelį tarp paieškos rezultatų išvys DI apibendrintus atsakymus į jų užklausas.
Pavyzdžiui, ieškant informacijos apie mitybos planą, „AI Overviews“ pavadinta funkcija iškart pateiks keletą standartinių jo variantų, kurie pasikeis įvedus daugiau jam taikomų reikalavimų. Tuo metu paieškoje paklausus, kaip temperatūra veikia maisto kepimą, prieš mus iššoks konkretus atsakymas su galimybe pakeisti jo formatą. Vartotojas galės rinktis tarp standartinės, supaprastintos ir punktais pateikiamos jo formos.
„Šie pokyčiai žmonėms padės greičiau gauti reikiamą informaciją be būtinybės peržiūrėti daugybę skirtingų internetinių puslapių, tačiau skeptikai baiminasi, jog tai smarkiai pakenks interneto objektyvumui ir svarbiais klausimais klaidins visuomenę . Kad ir kaip smarkiai tobulėtų DI modeliai, kol kas nė vienas jų nesugeba išvengti taip vadinamų „DI haliucinacijų“, kai įvairūs faktai yra išgalvojami ir pateikiami kaip neginčijama tiesa. „Google“ tokios grėsmės neneigia ir atskleidžia įdiegusi eilę apsaugos mechanizmų, o šios funkcijos trūkumus nuolat tirs specialiai tam skirta komanda“, – sako D. Gold.
Kol kas „AI Overviews“ prieinami tik anglų kalba ir tik JAV gyvenantiems vartotojams. Tikimasi, kad DI apibendrinti rezultatai kitose šalyse pradės veikti dar iki šių metų pabaigos bei taps pasiekiami beveik milijardui planetos gyventojų.
„Google I/O“ taip pat debiutavo DI paremta „Ask Photos“ funkcija, kuri remdamasi vartotojo archyvu gebės atsakyti į tokius klausimus, kaip „Kada mano dukra išmoko plaukti?“ ar „Kokie yra mano automobilio valstybiniai numeriai?“. Renginyje taip pat buvo pademonstruota, kaip „Gemini 1.5 Pro“ automatiškai sutvarkys „Gmail“ pašto dėžutę, pateikdama svarbiausių laiškų santraukas ir išanalizuodama prisegtukus, o „Google Lens" išties pagalbos ranką, iš nuotraukos ar filmuotos medžiagos nustatydamas elektronikos prietaisų gedimus.