Pasaulis kompiuterio akimis: nuo autonominių automobilių iki medicininių diagnozių

Kompiuterinė rega (angl. Computer Vision) yra viena iš labiausiai stulbinančių dirbtinio intelekto sričių, o be jos taikymų sunkiai įsivaizduotume šiuolaikinį pasaulį. Forbes teigia, kad artėja milžiniška kompiuterinės regos technologijų startuolių banga ir prognozuoja, kad iki 2022 metų kompiuterinės regos technologijų rinka pasieks 49 mlrd. JAV dolerių.

Asociatyvi „Pixabay“ nuotr.

Skamba daug žadančiai. O ar visi žinome, kas slepiasi po šiuo terminu? Džordžo Orvelo fantazijos vertos technologijos? Pabandykime suprasti.

Kas yra kompiuterinė rega?

Kompiuterinė rega yra viena iš dirbtinio intelekto sričių. 1960-aisiais dirbtinis intelektas tapo akademine disciplina. Būtent šiuo laikotarpiu kompiuterinė rega pirmą kartą buvo pristatyta kaip Masačusetso technologijos instituto (angl. Massachusetts Institute of Technology, MIT) vasaros projektas, kuris buvo laikomas laipteliu aukštyn kuriant kompiuterį, galintį atlikti žmogaus pažinimo funkcijas, tokias kaip matymas, mokymasis, samprotavimas ir problemų sprendimas.

Tai pažymėjo oficialų kompiuterinės regos, kaip mokslo srities, gimimą, kuria siekiama suteikti kompiuteriams galimybę automatiškai matyti, identifikuoti ir suprasti vizualinį pasaulį, imituojant tą patį, ką daro žmogaus regėjimas. Tuo metu šis projektas nebuvo sėkmingas, kadangi turimos technologijos tiesiog nebuvo tam pasirengusios.

Ilgai laukti nereikėjo ir šiuo metu kompiuterinė rega yra prieinama kiekvienam. Per pastaruosius dešimtmečius konvoliuciniai neuroniniai tinklai (konvoliucinis neuroninis tinklas yra dirbtinio neuroninio tinklo rūšis, dažniausiai taikoma kompiuterinės regos srityje) įrodė objektų atpažinimo tikslumą, geresnį nei žmogaus arba palyginami su juo.

Vienas iš veiksnių, lemiančių kompiuterinio regėjimo progresą, yra šiandien generuojamų duomenų kiekis, kuris panaudojamas kompiuteriniam regėjimui lavinti ir tobulinti. Mūsų pasaulyje yra nesuskaičiuojama daugybė vaizdų ir vaizdo įrašų vien tik iš mūsų mobiliuosiuose įrenginiuose integruotų kamerų.

Tačiau nors vaizduose gali būti nuotraukų ir vaizdo įrašų, tai taip pat gali reikšti duomenis iš šiluminių ar infraraudonųjų spindulių jutiklių ir kitų šaltinių. Kartu su didžiuliu vaizdinių duomenų kiekiu (įsivaizduokite: internete kasdien pasidalijama daugiau nei 3 mlrd. vaizdų), dabar yra prieinama ir pigesnė skaičiavimo galia, reikalinga duomenims analizuoti.

Kadangi kompiuterinio matymo sritis labai sparčiai vystosi dėl naujos techninės įrangos ir algoritmų, didėja objektų identifikavimo tikslumo rodikliai. Per mažiau nei dešimtmetį sistemos pasiekė 99 proc. tikslumą kai kuriose užduotyse.

Kaip veikia kompiuterinė rega?

Vienas iš svarbiausių komponentų, norint realizuoti visas dirbtinio intelekto galimybes, yra suteikti mašinoms regėjimo galią. Kad imituotų žmogaus regėjimą, mašinos turi gauti, apdoroti, analizuoti ir suprasti vaizdus. Didžiulis kompiuterinės regos progresas buvo pasiektas dėl neuroninių tinklų panaudojimo sprendžiant šią užduotį.

Tai yra daroma pasitelkiant iš anksto sudarytą duomenų rinkinį, padedantį kompiuteriui išmokti spręsti tam tikrą užduotį. Jei, pavyzdžiui, tikslas yra atskirti vaizdo įrašus su katėmis (kaip tai buvo atliekama korporacijos „Google“ 2012 metais), tai duomenų rinkinyje yra pateikiami vaizdo įrašai ir paveikslėliai su katėmis, taip pat ir be jų. Šie paveikslėliai yra iš anksto sužymėti, kuriai kategorijai („katė“ ir „ne katė“) jie yra priskiriami, o tai leidžia neuroninių tinklų modeliui išmokti tam tikras paveikslėlių savybes.

Užuot žmogus nurodęs, kokios turi būti savybės, pavyzdžiui, uodega, smailios ausys ar panašiai, – tai suprasti leidžia pačiam modeliui iš milijonų ar milijardų paveikslėlių. Pirmiausia jie aptinka pikselius, tada kraštus ir kontūrus, tada ištisus objektus, o paskui spėja, ką mato.

Kur yra panaudojama kompiuterinė rega?

Šių technologijų panaudojimas yra ypatingai platus: jos padarė didelę pažangą sprendžiant sudėtingas verslo problemas, tokias kaip produktų defektų nustatymas realiuoju laiku, klientų tapatybės patikrinimas ar draudimo išmokų pateikimo automatizavimas, – tad nemažai įmonių šioms technologijoms skiria daug dėmesio.

Įsivaizduokite bet kokią užduotį, kurią leidžia atlikti žmogaus regėjimas. Bene kiekvieną jų dažniausiai gali atlikti ir kompiuterinė rega. Kai kuriose užduotyse kompiuteriai gali net pranokti žmones, pavyzdžiui, klasifikuojant nuotraukas (šuo ar vilkas?) ar aptinkant medicininių vaizdų anomalijas. Ir tai, kaip dirbtiniai neuronų tinklai apdoroja vaizdinius duomenis, vis labiau skiriasi nuo to, kaip tai daro žmonės. Apžvelkime keletą įdomių pavyzdžių, kur yra panaudojama kompiuterinė rega.

Vienas iš pavyzdžių yra autonominės transporto priemonės. Kompiuterinis matymas būtinas norint įgalinti savarankiškai važiuojančius automobilius. Gamintojai, tokie kaip „Tesla“, BMW, „Volvo“ ir „Audi“ naudoja kelias kameras, radarą ir ultragarsinius jutiklius, kad gautų vaizdus iš aplinkos, o jų savarankiškai važiuojantys automobiliai galėtų aptikti objektus, juostų ženklinimą, ženklus ir eismo signalus.

Dažnu atveju „Google“ vertėjas yra suprantamas, kaip teksto apdorojimo įrankis, tačiau jis turi funkciją, kuri leidžia vertimą gauti vien tik nukreipus kamerą į tekstą. Ši programa naudoja optinį simbolių atpažinimą ir papildytąją realybę, kad būtų pateiktas tikslus ir patogus vertimas.

Kompiuterinė rega labai pasitarnauja medicinos ir sveikatos priežiūros sektoriuje – bene 90 proc. visų medicininių duomenų yra pagrįsti vaizdais. Nuo naujų medicininės diagnostikos metodų, leidžiančių analizuoti rentgeno nuotraukas ir kitus skenavimus iki pacientų stebėjimo, siekiant anksčiau nustatyti sveikatos problemas ir padėti atlikti operaciją. Prognozuojama, kad šių technologijų taikymas sveikatos priežiūroje tik augs.

Dirbtinis intelektas ir sportas? Tikrai taip. Kamuoliukų, kamuolių ir ritulių stebėjimas per televiziją mums įprastas, tačiau kompiuterinės matymo sistemos padeda analizuoti žaidimą ir strategiją, žaidėjų rezultatus ir reitingus, taip pat stebėti prekės ženklo rėmimo matomumą sporto transliacijose.

Kompiuterinė rega padeda gamintojams įvairiais būdais dirbti saugiau, protingiau ir efektyviau. Pavyzdžiui, įranga stebima naudojant kompiuterinį vaizdą, kad sureaguotų į trikdžius, kol gedimas nesukelia brangių prastovų, stebima pakuotė ir gaminių kokybė.

Ir tai yra tik maža dalis kompiuterinės regos panaudojimo ir taikymo galimybių. Tobulėjant ir vis daugiau kompiuterinės regos technologijų taikant versle ir viešajame sektoriuje, žmonėms vis mažiau reikės atlikti mechaninius darbus, kas jiems leis labiau susikoncentruoti į didesnę pridėtinę vertę kuriančias užduotis.

Mantas Lukauskas yra KTU Matematikos ir gamtos mokslų fakulteto doktorantas (MGMF), bendrovės „Zyro“ duomenų mokslininkas.