Dėl šiuolaikinių technologijų galime kaupti ir greitai perduoti didelius kiekius duomenų. Jie gali būti labai įvairūs – vaizdiniai, skaitiniai, srautiniai, susiję su žmonių elgsena, fiziologiniais parametrais ir kt. Ar tai bus tik sausi skaičiai, menkaverčiai vaizdai, ar padės spręsti aktualias problemas, prognozuoti ateitį, priklauso nuo to, ar sugebėsime juos apdoroti ir analizuoti. Duomenų mokslas (angl. data science) – sparčiai besivystanti mokslo šaka.
Plėtojant duomenų mokslą daug nuveikė Vilniaus universiteto (VU) mokslininkai prof. Gintautas Dzemyda ir prof. Olga Kurasova, sukūrę pasaulyje gerai žinomą mokslinę vizualios duomenų tyrybos mokyklą.
Asociatyvi nuotr.
„Duomenų mokslas yra daugiadisciplininis. Jis siejamas su duomenų gavyba, dirbtiniu intelektu, mašininiu mokymusi, žinių atradimu, duomenų bazėmis ir apdorojimu, statistika, vizualizavimu, vaizdų analize. Taip pat daug sąsajų sieja su optimizavimu, blokų grandinėmis, kibersocialinėmis ir kiberfizinėmis sistemomis, daiktų internetu. Visos išvardytos kryptys taip pat glaudžiai susijusios tarpusavyje“, – sako VU Duomenų mokslo ir skaitmeninių technologijų instituto direktorius, Lietuvos mokslų akademijos narys prof. G. Dzemyda.
Vaizdinius metodus mokslininkai taiko duomenims analizuoti, kai nori patys juos betarpiškai pažinti ir patys priimti sprendimus pagal tai, ką mato, o ne ką rekomenduoja formalūs klasifikatoriai, kitos kompiuterinės programos ar duomenų tyrybos sistemos. Įsivaizduokime, kad turime grupę žmonių, kurių kiekvienam būdingos skirtingos savybės – ūgis, svoris, kraujo grupė ir kt. Kiekvieną tiriamąjį atvaizdavus kaip tašką, kurio vieta plokštumoje priklauso nuo jo savybių, galima matyti tiriamųjų pasidalijimą pagal panašumus į smulkesnes grupes – klasterius ir taip betarpiškai pažinti sudėtingą duomenų rinkinį.
„Taikydami vizualiąją duomenų tyrybą pagal tiriamus požymius galime įvertinti, kokių sąsajų turi to paties klasterio asmenys, pavyzdžiui, kokios bendros ligos, veiklos ar kt., ieškoti jas lėmusių priežasčių, įvertinti, kiek šis klasteris nutolęs nuo pagrindinio duomenų rinkinio, analizuoti tendencijas ir priimti tam tikrus sprendimus, – pasakoja prof. G. Dzemyda. – Atvaizduojant duomenis plokštumoje galima gilesnė analizė nei naudojant klasikinius, standartinius duomenų klasifikatorius.“
Vizualioji duomenų tyryba gali būti taikoma daugelyje sričių, viena jų – medicina. Pavyzdžiui, plokštumoje pavaizdavus moterų kraujo ir ląstelių tyrimų rezultatus, išryškėjo du klasteriai – sveikos moterys ir sergančios piktybiniu vėžiu. Sveikų moterų organizmas funkcionuoja harmoningai, jas atitinkančių taškų aibė plokštumoje gana glausta, o štai sergančiųjų išsibarsto daug platesniu spektru. Suvedus naujos moters duomenis, priklausomai nuo to, kur bus padėtas taškas plokštumoje, galima įvertinti jos riziką susirgti krūties vėžiu. „Tai įrankis ne tiek medikams, kiek pacientams. Jis leidžia įvertinti sveikatos būklę, ir jei rezultatai rodo didelę ligos tikimybę, būtina kuo skubiau kreiptis į medikus dėl papildomų tyrimų“, – paaiškina profesorius.
Panašus įrankis padėtų stebėti ir sportininkų sveikatos būklę, tarkim, tikimybę susirgti širdies ligomis. Stebint sportininko sveikatos būklę ir atvaizduojant jo duomenis plokštumoje greta daugelio žinomų atvejų, galima matyti, kada jis pervargo, išaugo širdies ligų rizika, ir taip užtikrinti darnų treniruočių procesą.
Prof. G. Dzemyda prisimena, kai dar 2002 m. taikydamas vizualiosios tyrybos metodus ir susiejęs mokinių skaičių su pedagogų poreikiu įspėjo, kad teks atleisti apie pusantro tūkstančio pradinių klasių mokytojų. „Tada niekas tuo netikėjo, nemažino apsukų ruošiant būsimus pradinių klasių mokytojus, tačiau prognozė išsipildė su kaupu, ypač vėliau prisidėjus ir emigracijai“, – kalba mokslininkas.
Prof. G. Dzemyda kartu su prof. O. Kurasova taip pat pasiūlė ir išplėtojo technologijas bei metodus, leidžiančius vertinti miokardo pažeidimą, stebėti širdies audinio temperatūros pokyčius, analizuoti vartotojų elgseną internete, vertinti žmogaus emocijas pagal šnekos signalą, planuoti transporto maršrutus, palyginti kompiuterinės tomografijos nuotraukas, analizuoti akies dugno kraujagyslių tinklą ir t. t. Pasirodo, kiekvieno žmogaus kraujagyslių tinklas yra unikalus, kaip pirštų atspaudai ar akies rainelė.
Didėjant duomenų mokslo specialistų, duomenų analitikų poreikiui, daugelyje pasaulio ir Lietuvos universitetų kuriamos naujos studijų programos, steigiamos mokslinės tyrimų grupės. Vizuali duomenų tyryba yra neatsiejama tokių programų dalis.