Didieji duomenys ir dirbtinis intelektas: įrankiai visiems prieinami, svarbu – suvokti metodų esmę

Didžiųjų duomenų (angl. Big Data) nauda jau niekas neabejoja. Tiek verslo gigantai, tiek ir mažesnės įmonės investuoja į didžiųjų duomenų valdymą. Bet kaip tuos duomenis valdyti ir kokius metodus pasitelkti? Ar dirbtinio intelekto (DI) technologijos yra panacėja norint tapti rinkos lyderiu, klausiame šių metų KTU Big Data School vieno iš lektorių – KU Leveno universiteto mokslininko Wannes Meert.

Asociatyvi „Unsplash“ nuotr.

W. Meert šiuo metu yra tyrimų vadovas DTAI (angl. Declarative Languages and Artificial Intelligence) tyrimų grupėje KU Leveno universitete Belgijoje. Mokslininkas dirba DI, mašininio mokymosi (MM) ir anomalijų detekcijos srityse.

– Wannes, pasaulyje kasdien sugeneruojamas duomenų kiekis – stulbinantis ir dar vis sparčiai auga. Ar mes pajėgūs tuos duomenis suvaldyti? Kas laukia ateityje?

– Jei kalbėtume apie skaitmeninių didelių duomenų apdorojimą, pavyzdžiui, apsipirkimų elektroninėse parduotuvėse duomenis, socialinių tinklų informaciją, tai dabartinės sistemos yra gana įspūdingos. Pagalvokite apie socialinį tinklą „Twitter“, kuris beveik akimirksniu apdoroja milijonus „like“ ir žinučių.

Tačiau visai kas kita, kai kalbame apie analoginį pasaulį. Turima vis daugiau ir daugiau duomenų, bet dažnai iškyla dvi problemos: yra baigtinis skaičius jutiklių arba trūksta metaduomenų, t. y. informacijos apie duomenų struktūrą ir jų prasmę.

Įsivaizduokite, stebime veikiantį mechanizmą, bet nežinome, ar jis skleidžia išmetamąsias dujas, kuo jis varomas ar panašiai. Lygiai taip pat dažnai mums trūksta informacijos apie duomenis.

Tarkime, mechanizmas nustoja veikti. Mums svarbu žinoti, ar taip yra dėl gedimo, ar, pavyzdžiui, dėl planuojamos techninės patikros. Paprastai šios informacijos nėra arba yra, bet netiesiogiai, kaip kad techninėje mechanizmo kortelėje, kuri yra surašyta ant popieriaus. Čia įžvelgiu nemažų iššūkių.

– Visgi, duomenys, kad ir kartais nepilni, tampa vienu vertingiausiu įmonių ištekliu. Ar tie, kas neinvestuos į duomenų valdymą ir analizę, taps nekonkurencingi?

– Įmonės, norėdamos valdyti ir suvaldyti didžiuosius duomenis, siekia taikyti DI, tačiau joms tenka susidoroti su dviem iššūkiais: visų pirma, nėra trumpo kelio prie tinkamų ir teisingų DI sprendimų, todėl ilgalaikis bendradarbiavimas tarp skirtingų mokslo ir verslo partnerių yra labai svarbus.

Antra, iš pažiūros panašios problemos reikalauja taikyti visiškai skirtingus jau egzistuojančius ar dar net nesukurtus DI metodus, o tai įgyvendinti gali tik vieningai veikianti skirtingų disciplinų ekspertų komanda. O ekspertų nėra tiek ir daug.

Jei šie iššūkiai nėra sprendžiami, tuomet DI naudojimas dažnai yra nuviliantis ir neatitinkantis lūkesčių. Šis pastebėjimas nėra grįstas vien tik mano patirtimi – apie tai kalba daug įmonių, kurios yra mėginę panaudoti savo veikloje DI.

Vis tik, dauguma bendrovių planuoja didinti investicijas į DI. Ir ne vien tik todėl, kad tikimasi gauti didelę grąžą, bet ir todėl, kad konkurentai, sėkmingai panaudoję DI, gali pradėti dominuoti rinkoje.

Bėda ta, kad yra sudėtinga prognozuoti, ar bus lengva veiklą automatizuoti. Bet prisiminkime tokias įmones kaip „Amazon“, „Booking“ ar „Uber“, kurios atsikovojo didelę rinkos dalį automatizavę savo paslaugas ir taip pasiekė labai didelius pelnus.

– Panašu, kad verslas supranta didžiųjų duomenų ir DI naudą, – skatinti investuoti, matyt, nereikia. Bet ar jie turi pakankamai profesionalų, galinčių sprendimus įgyvendinti? Juos įgalinti?

– Manau, egzistuoja didelis ekspertų trūkumas. Ypatingai tų, kurie supranta metodų esmę. Įvairūs DI įrankiai tampa vis geresni ir lengvai prieinami naudoti neekspertams, tačiau svarbu suvokti naudojamų metodų ribas.

Manau, Wiener‘io dėsnis aviacijai ir žmogaus klaidoms yra tinkamas ir DI: „Skaitmeniniai prietaisai eliminuoja nedideles klaidas, sukurdami galimybes atsirasti didelėms“.

– Nebandydamas klaidų neišvengsi. Ir per pastaruosius metus didieji duomenys ir jų valdymas labai pakeitė verslo modelius ir kultūrą. Kas laukia ateityje? Kokiose srityse jie turės didžiausią poveikį, potencialą?

– Kaip matyti iš jau esančių pavyzdžių, didžiausią potencialą turės skaitmeninės paslaugos. Kuo daugiau gali išmatuoti ir įvertinti, tuo lengviau automatizuoti. Viskas, kas vyksta internete – lengvai stebima, o kas vyksta analoginiame pasaulyje – fiksuoti žymiai sudėtingiau.

Taikymai medicinoje taip pat greitai tobulėja. Esu nusiteikęs optimistiškai, bet vis tik, žmogaus kūnas yra labai sudėtingas.

Išmanios gamyklos, daiktų internetas, pramonė 4.0, manau, yra esminis faktorius, įgalinantis didžiųjų duomenų ir dirbtinio intelekto taikymus industrijoje.

– Taigi, didieji duomenys skverbiasi į labai daug sričių. Naudos daug, o žalos? Ar nekyla rizikų? Kokie gali būti neigiami padariniai? Kokios kyla rizikos pasitelkiant didžiuosius duomenis sprendimų priėmimui?

– Rizika? Nesupratimas modelių taikymo galimybių ribų ir duomenų stochastinės prigimties. Vėlgi, ir čia verta prisiminti Wiener‘io dėsnį. Kad sumažintume riziką, modeliai, manau, turėtų turėti atsakymų į klausimus galimybę, tokiu būdu įgalinant kontrafaktinį mąstymą.

Pavyzdžiui, ką turėčiau padaryti, kad gaučiau paskolą? Šiuo atžvilgiu, tyrimai paaiškinamo DI (angl. Explainable AI) metodų kūrimo srityje yra ypatingai daug žadantys. Taip pat intriguoja priežastingumo sąvoka šiame kontekste – J. Pearl ir D. Mackenzie knyga „The Book of Why“ yra šiuo požiūriu labai įdomi.

KTU Big Data School 2020, renginys mokslininkams ir praktikams, dirbantiems su didžiaisiais duomenimis, vyks šių metų rusgėjo 30-spalio 2 dienomis. Jo metu bus aptariamos duomenų klasifikavimo ir klasterizavimo problemos, rekurentinių dirbtinių neuronų tinklų taikymas bei duomenų mokslo ir DI metodų taikymas bankų veikloje bei finansuose.