„Rūbų ar batų prekybos tinklai nuolaidų korteles dalija ne iš draugiškumo – taip renkami duomenys apie jus“, – primena Švedijos įmonių „Entropics Asset Management AB“ ir „FM Försäkringsmatematik“ rizikos analitikė Agnė Burauskaitė-Harju.
Pirkėjų elgsenos realiu laiku stebėjimas. Pirkinių krepšelių analizė. Geografinių koordinačių fiksavimas. Naršymo internete sekimas. Tai tik nedidelė kasdien verslo renkamų duomenų dalis, toli gražu neatspindinti didžiųjų duomenų („Big Data“) aprėpčių ir potencialo.
Švedijoje rizikos analitike dirbančios Kauno technologijos universiteto (KTU) absolventės A. Burauskaitės-Harju karjeros kelyje – tokie darbo su didžiųjų duomenų analitika pavyzdžiai, kaip modelių, skirtų prognozuoti, kurie klientai, greitu laiku gali atsisakyti banko paslaugų, kūrimas ar darbas su gamtos katastrofų nuostolių prognozavimo modeliais, grįstais didžiaisiais duomenimis.
Tai ne fantastika. Tai didžiųjų duomenų panaudojimas
„Bendradarbiavimas su ekstremalių įvykių modeliavimo kompanija, integruotos orų prognozės, atstatymo sąnaudų prognozavimo programos ir dirbtinio intelekto algoritmai leidžia greitu, beveik realiu laiku prognozuoti nuostolių mastą po gamtos sukeltų katastrofų. Tai, savo ruožtu, įgalina efektyviau paskirstyti išteklius, informuoti draudėjus ir apdraustuosius“, – apie didžiųjų duomenų panaudojimą draudimo sektoriuje pasakoja A. Burauskaitė-Harju.
Pavyzdžiu Agnė pateikia JAV kompaniją „Geomni“, neseniai pradėjusią taikyti naują strategiją – nuotoliniu būdu rinkti duomenis apie gamtos katastrofų žalą. Uraganas Irma, nusiaubęs Floridos krantus, šiai kompanijai tapo pirmu rimtu išbandymu. Panašu, kad įmonė susidorojo su išsikeltais tikslais – preliminarūs žalos nustatymo rezultatai pateikti jau kitą rytą po uragano.
Kaip tai pavyko? „Kompanija turi įspūdingą oro laivyną – daugiau nei 125 lėktuvus ir malūnsparnius, kurie iš 15 strategiškai dislokuotų taškų gali pasiekti bet kurią JAV vietą per valandą. Oro laivyno surinkti duomenys centralizuotai apdorojami moderniomis technologijomis, vaizdo atpažinimo algoritmais, analizės programomis, – pasakoja A. Burauskaitė-Harju. – Dar prieš katastrofą kompanija sukaupė didelę bazę pastatų infrastruktūros ir panašaus tipo duomenų, kurie gamtos katastrofos atveju lyginami su naujomis nuotraukomis, analizuojami skirtumai ir nustatoma žala“.
Tokie duomenys naudojami ne tik draudimo įvykių analizei ir išmokų po draudiminio įvykio nustatymui, bet ir galimų išmokų ateityje prognozei.
Skamba mistiškai, kaip iš kino filmo? Didžiųjų duomenų analitikos entuziaste save vadinanti Agnė teigia, kad praktikoje naudojami analitikos metodai matematiškai yra paprasti. Labai retai ir tik labai siauroms problemoms spręsti būtini sudėtingi metodai.
Didžiųjų duomenų iššūkiai – kiekis, greitis, patikimumas
Didžiaisiais duomenimis grindžiama vis daugiau verslo strategijų – „Uber“, „Amazon“, „Spotify“ ir kt. Nepaisant to, tyrimai rodo, kad vienas iš trijų vadovų nepasitiki duomenimis grįstais sprendimais, nes nėra tikras dėl duomenų kokybės. Kodėl?
„Didieji duomenys sudėtingi ir sunkūs įvairiomis prasmėmis, – teigia rizikos analitikė. – Jų ne tik daug. Problema gali būti labai greiti duomenų srautai, kuomet duomenis reikia apdoroti čia ir dabar, nes visų išsaugoti neįmanoma ar nėra prasmės. Be to, didžioji dalis (apie 90 proc.) sukuriamų duomenų yra nestruktūrizuoti – foto, video, teksto dalys ir pan. Prieš taikant analizę, juos būtina apdoroti, struktūrizuoti. O tai užima daug laiko, kyla rizika prarasti dalį vertingos informacijos“.
Kitas iššūkis – duomenų patikimumas. „Dėl didelio duomenų kiekio, dažnai naudojami ne visi duomenys, o jų dalis arba apibendrinti duomenys. Neretai kintamųjų pasirinkimą modelyje riboja technologiniai ypatumai, o pats modelis kuriamas remiantis jau pasenusiais duomenimis. Tad susiduriama su rizika, jog duomenimis grįstas rizikos vertinimo modelis įdiegus gali būti ne(be)aktualus,“ – aiškina KTU absolventė.
Netikrų priklausomybių įžiūrėjimo rizika
A. Burauskaitė-Harju nuomone, didieji duomenys atveria plačias erdves įžiūrėti netikras priklausomybes ir atrasti tai, ko nori. „Duomenų yra tiek daug, o technologijos tokios įvairios, kad duomenimis pagrįstų blogų sprendimų galima priimti tiek pat, kiek ir gerų. Tad analitikui būtinas gebėjimas tiksliai ir savikritiškai aprašyti prielaidas, o rezultatus įvertinti platesniame kontekste“, – pataria rizikos analitikė. Klasikinis pavyzdys: analizuodami pirkinių krepšelius, prekybos tinklai nustato, kokie produktai perkami kartu. Siekiant didinti pardavimus, tokie produktai paprastai sudėliojami netoli vienas kito. Vieno prekybos tinklo duomenys parodė, kad dažnai kartu perkamos sauskelnės ir alus. Tiesmuka rezultatų interpretacija negalima, būtinas platesnis konteksto suvokimas. Paaiškėjo, kad sauskelnės kartu su alumi perkamos tik vakarais, kuomet į parduotuvę sauskelnių keliauti tenka vyrams.
Gausu neetiško duomenų panaudojimo galimybių
„Surenkama vis daugiau ir vis įvairesnių duomenų. Aplink – begalė įvairių įrenginių ir sensorių, kurie fiksuoja labai asmeniškus duomenis. Net šunų savininkus lengva identifikuoti iš geografinių koordinačių – jų judėjimo trajektorija dažnai nenuosekli. Neišvengiamai kyla verslo etikos ir žmogaus teisės į privatumą klausimas“, – su didžiųjų duomenų bumu susijusius iššūkius komentavo A. Burauskaitė-Harju.
Rizikos analitikės manymu, su naujomis technologijomis atsiranda naujos galimybės panaudoti duomenis ne tik gerais, bet ir blogais tikslais. Pavyzdžiui, analizuojant duomenis, lengva nustatyti nemokius asmenis, kuriems lengva įsiūlyti paskolą ir kurie vėliau ilgus metus mokėtų dideles palūkanas. Arba panaudojant interneto naršymo istorijos duomenis, lošimų internete svetainėse pasiūlyti individualizuotus, lengvai įtraukiančius, lošti skatinančius sprendimus.
Kompiuteriai pakeis analitikus?
Ir taip, ir ne. A. Burauskaitės-Harju nuomone, situacija primena XX amžių, kuomet automatizuoti procesai fabrikuose išstūmė rankų darbą. Tam tikrose srityse didžiųjų duomenų technologijos, dirbtinis intelektas (angl. „artificial intelligence“) ir kompiuterio mokymasis (angl. „machine learning“) konkuruos su profesionaliomis žiniomis ir specialistais.
„Drąsiai galima teigti, kad repetityvaus, rutininio darbo analitikams ir specialistams bus mažiau, o jų darbo pobūdis radikaliai keisis“, – įžvalgomis dalijasi rizikos analitikė.
„Įmonėms ir specialistams lieka prisitaikyti prie esamų ir laukiamų permainų, siekti naujų žinių ir mokytis dirbti naujai – kartu su technologijomis, o ne prieš jas ar vietoje jų. Šiandien kalbama apie žmogaus ir įrenginio kooperaciją, apie darbą kartu“, – teigia A. Burauskaitė-Harju.
Duomenų analitikai labiau patenkinti savo darbu?
Agnės teigimu, socialiniuose tinkluose sklandantis juokelis, kad analitikai 80 proc. laiko tvarko duomenis, o 20 proc. skundžiasi dėl to – netoli realybės. Pasak jos, duomenų „išplovimui“ (tvarkymui) analitikai vidutiniškai skiria apie 90 proc. darbo laiko, tik 10 proc. laiko lieka tikrajai analitikai ir matematiniam modeliavimui.
Nepaisant to, dalindamasi profesine patirtimi su KTU studentais, A. Burauskaitė-Harju pabrėžė, kad duomenų analitiko darbas savaime motyvuoja: užduočių daug ir įvairių, erdvė asmeniniam tobulėjimui – plati. Gerai nuteikia ir darbo autonomiškumas bei kompetentingi kolegos, su kuriais aptariami nauji metodai ar technologijos.
Studentams: imkite, kiek galite ir kiek duoda
A. Burauskaitė-Harju susidomėjimo matematika ir informacinėmis technologijomis pradžia įvardija KTU gimnaziją, kur „buvo puiki aplinka kūrybinei minčiai“. Stiprias matematikos žinias Agnė gavo studijuodama taikomąją matematiką KTU. Ji pastebi, kad apie lietuvių analitikų matematinį pasirengimą, darbštumą ir sumanumą švedai atsiliepia tik gerais žodžiais.
Didžiuosius duomenis pamilo A. Burauskaitė-Harju doktorantūros studijų Linšiopingo universitete metu. „Daugiausia su didžiaisiais duomenimis teko dirbti SAS institute: nuo klientų duomenų analizės, klientų elgesio ir pardavimų prognozavimo iki sukčiavimo atpažinimo sistemų bankinėse operacijose“. Šiandien Agnė dirba draudimo srityje, kur mato dideles, kol kas dar nepanaudotas šių duomenų analitikos taikymo galimybes. Viena iš šiandien įdomiausių užduočių Agnė įvardija darbą su gamtos katastrofų rizikos vertinimo modeliais. Anot jos, tai džiuginantis sugrįžimas prie studijų KTU ir Lundo universitetuose nagrinėtos matematinių ekstremumų tematikos.
Visiems Kauno technologijos universitete studijuojantiems matematiką ir didžiųjų verslo duomenų analitiką absolventė pataria: „Imkite, kiek galite ir kiek duoda“. Nes šiandien duomenų analitikai ypatingai reikalingi.