Įstaigos, valstybės tarnybos, mobiliojo ryšio operatoriai, bankai, parduotuvės, transporto ir kitų verslo sričių įmonės, socialiniai tinklai ir išmanieji įrenginiai kasdien sukaupia milžinišką duomenų kiekį. Patys savaime duomenys nieko nereiškia ir niekur nepanaudojami, tačiau atsidūrę specialisto rankose jie tampa prasminga ir galinga informacija, rašoma pranešime žiniasklaidai. Jie leidžia įmonėms suprasti vartotojų poreikius ir diegti naujoves, didinti produktyvumą ir mažinti išlaidas, efektyviau panaudoti išteklius, užkirsti kelią stichinėms nelaimėms, gerinti gamybos efektyvumą ir kartu mažinti atliekų kiekį. Tai – tik keletas pavyzdžių.
„Spot“ robotas iš „Boston Dynamics“
Supratus duomenų vertę, juos apdoroti gebančių specialistų paklausa pastaruosius keletą metų itin sparčiai auga. Ar tokia paklausa rinkoje išliks, ar atsiras programinės įrangos sistemos, galinčios automatizuoti duomenų mokslininkų darbą?
„Ši situacija man atrodo analogiška prieš dešimtmetį buvusiai, kai buvo kalbama, jog IT specialistų poreikis ilgai netruks, nes atsiras programos, kurios pakeis programuotojus. Esą, užsakovui reikės tik apibrėžti užduotį ir kodas jau bus parašytas. Kaip žinome, to neįvyko. Esu tikras, kad lygiai taip pat bus su žmonėmis, gebančiais naudoti duomenis sprendžiant realaus pasaulio uždavinius – duomenų inžinieriais, duomenų mokslininkais, statistikos ekspertais“, – sako vyriausiuoju duomenų mokslininku Norvegijos įmonėje „Cognite AS“ dirbantis Vilniaus Gedimino technikos universiteto („Vilnius Tech“) Fundamentinių mokslų fakulteto absolventas Dmitrij Melichov. Jis pasakoja apie duomenų mokslo svarbą bei jo atveriamas galimybes.
Kodėl šiuolaikiniame pasaulyje svarbūs duomenys ir gebėjimas juos tvarkyti?
Kasdieniniame darbe mums reikia priiminėti vis daugiau sprendimų. Pasikartojantys procesai gali virsti gana nuobodžiu rutininiu darbu, kurį galima lengvai automatizuoti ir atlaisvinti žmones įdomesniems ir prasmingesniems darbams. Juo labiau, kad dažnai pavienis sprendimas bendrame kontekste nėra labai svarbus.
Be to, priimdami sprendimus žmonės iš prigimties yra linkę daryti klaidas, būti šališki, naudoti turimą asmeninę patirtį ar nuojautą. Ar galime tikėtis, kad toks priimtas sprendimas bus tinkamas? Vargu. Tačiau aktualiais duomenimis, surinkta informacija, statistika paremtas sprendimas kur kas dažniau gali duoti norimus rezultatus. O kad tie duomenys būtų gauti, o iš jų padarytos išvados būtų pagrįstos, žmonės privalo turėti tam tikrą duomenų rinkimo ir apdorojimo kultūrą, įgūdžius, kuriuos suteikia matematikos ir statistikos žinios.
Kas tai yra duomenų mokslas (angl. data science)?
Duomenų mokslas – tai žinios ir kompetencijos, kurios, taikant duomenis, leidžia spręsti realaus pasaulio bei verslo iššūkius. Jie būna labai skirtingi, tad ir pats terminas, laikui bėgant, pasidarė platus. Per pastaruosius keletą metų iš didžiulės ir nelabai aiškiai apibrėžtos visumos, vadinamos duomenų mokslu, išsiskyrė dvi kiek siauriau apibrėžtos profesijos – duomenų inžinierius ir save mokančių sistemų/mašinų inžinierius.
Duomenų inžinierius (angl. data engineer) – tai žmogus, kuris moka surinkti duomenis iš skirtingų šaltinių, tokių kaip duomenų bazės, įvairūs jutikliai, saitynas (www) ir t. t., sutvarkyti juos, sujungti tarpusavyje, jei reikia, ir galutinai pateikti juos tokiu pavidalu, kuris leidžia atlikti tolimesnę analizę. Visi šie procesai turi būti tinkamai automatizuoti, tad duomenų inžinieriaus darbas reikalauja gerų programavimo žinių, bet mažiau duomenų analizės ar statistikos žinių.
Save mokančių sistemų/mašinų inžinierius (angl. machine learning engineer) – tai žmogus, kuris paima duomenų inžinieriaus paruoštus duomenis, ir juos taikydamas kuria bei tobulina save mokančių sistemų/mašinų modelius. Įprastai šie žmonės turi labai geras statistikos bei save mokančių sistemų/mašinų žinias.
Tai kas gi tas duomenų mokslininkas (angl. data scientist)? Tai universalus specialistas, žmogus, turintis pakankamai žinių keliose srityse, bet nebūtinai esantis ekspertu kurioje nors vienoje iš jų. Šio termino prasmė labai priklauso nuo įmonės, kurioje šis specialistas dirba. Pas mus – tai žmogus, sugebantis tiek bendraujant su klientais padėti suformuluoti užduotis, tiek tas užduotis išspręsti. Paprastai tam reikia ir programavimo, ir statistikos bei save mokančių sistemų/mašinų, ir duomenų vizualizacijos, ir net aplikacijų kūrimo įgūdžių.
Dirbate vyriausiuoju duomenų mokslininku – kaip atrodo jūsų darbas?
Mūsų įmonės pagrindinis produktas – platforma, skirta kaupti bei tarpusavyje jungti duomenis. Pats dirbu skyriuje, kuriame siekiama padėti klientams teisingai pritaikyti mūsų platformos galimybes savo įmonės uždavinių sprendimui. Dirbame su naftos ir dujų, gamybos, transporto, elektros tiekimo paslaugų įmonėmis.
Pats dirbu su elektros tiekimo sritimi. Elektros poreikiai visą laiką kinta, tad tinklo planavimas bei vystymas gali būti gyvybiškai svarbus visos šalies ekonomikai. Aš dirbu su išmanios įrenginių priežiūros (angl. smart maintenance) uždaviniais. Įprastai įrenginių gamintojai pateikia instrukcijas, kada įrenginiai ar jų dalys turi būti keičiami. Tačiau mūsų užduotis šiuos įrenginius prižiūrėti išmaniai – vietoje to, kad būtų aklai vadovaujamasi instrukcijomis, mes renkame duomenis apie įrangos eksploatavimo sąlygas ir rengiame įžvalgas, pagal kurias sprendžiama, ar įranga tinkama, jos nereikia keisti, o gal atvirkščiai – būtina keisti anksčiau, norint išvengti potencialios avarijos.
Taip pat labai dažnai mūsų klientų duomenys būna išskirstyti po keletą skirtingų, tarpusavyje nekomunikuojančių, sistemų, o tai labai apsunkina darbą, reikalauja daug papildomai atliekamų žingsnių. Mes užsiimame automatizacija – savo platformoje jungiame duomenis iš skirtingų sistemų, nustatome tarp jų ryšius bei kuriame klientui patogius įrankius, palengvinančius jo kasdienį darbą su duomenimis. Taip pat dažnai automatizuojame ir analizės procedūras bei bandome įspėti apie galimas avarijas anksčiau, negu jos įvyksta.
Apdorodami vaizdo bei garso duomenis, taikome tiek moderniausius save mokančių sistemų/mašinų įrankius, tokius kaip neuronų tinklai, tiek ir klasikinius signalo apdorojimo metodus. Dirbame ir su robotais – turime du „Spot“ robotus iš „Boston Dynamics“, nagrinėjame jų taikymo galimybes objektų priežiūrai, nereikalaujančiai žmonių buvimo vietoje.
Dalyvaujate ir naujų darbuotojų atrankose – turbūt pastebite, kokių įgūdžių reikia, norint sėkmingai įsidarbinti šioje srityje?
Mūsų komandos pagrindinis darbas yra konsultacinio pobūdžio, todėl mums svarbiausios kompetencijos yra programavimo žinios (labiausiai Python), statistikos bei save mokančių sistemų/mašinų išmanymas ir komunikacijos gebėjimai.
Programavimo žinių reikia tam, kad darbuotojas galėtų ne tik pasiūlyti ir suplanuoti sprendimą, bet ir sėkmingai jį įgyvendinti. Save mokančių sistemų/mašinų bei statistikos metodų išmanymas suteikia „įrankių dėžę“, iš kurios galima parinkti kažką tinkančio turimai problemai spręsti. Komunikavimo įgūdžiai reikalingi dirbant su žmonėmis, kurie, greičiausiai, visiškai neturės nei programavimo, nei statistikos žinių; svarbu mokėti jiems paprastai ir suprantamai paaiškinti sudėtingus techninius dalykus, kad užduotis būtų teisingai suprasta, o parinktas sprendimo būdas atvestų į naudingus pokyčius. Paprastai ieškome žmonių, kurie turi visas šias kompetencijas. Dažniausiai nauji darbuotojai neturi konkrečios srities, su kuria tenka dirbti, patirties, bet ji įgyjama per realią praktiką.
Kuo jums asmeniškai įdomi duomenų mokslo sritis?
Aš visada norėjau dirbti matematikos ir programavimo sankirtoje, tad, manau, kaip tik tokį darbą ir radau. Darbas duomenų mokslo srityje leidžia pritaikyti save beveik kiekvienoje visuomenės gyvenimo srityje – nuo medicinos iki miestų planavimo. Man asmeniškai įdomiausia dirbti su „apčiuopiamais“ dalykais, kaip kad sunkioji mašinerija, su kuria šiuo metu ir dirbu. Matyti didžiulius įrenginius, tikrus inžinerijos šedevrus, ir žinoti, kad tu gali pagerinti jų veikimą – mane tai išties įkvepia.