Didžiųjų duomenų mokykla: tendencijos, į kurias vertėtų atkreipti dėmesį

Publikuota:	2021-09-27 08:42
Tematika:	Kompiuteriai, IT
Skirta:	Profesionalams

Aut. teisės:	©15min, UAB
Inf. šaltinis:	15min.lt / Pranešimas žiniasklaidai

Prognozuojama, kad iki 2025 metų kasdien sugeneruojamų duomenų kiekis pasieks 463 eksabitų. Akivaizdu, kad tradicinių duomenų apdorojimo priemonių, skirtų tvarkytis su šiais duomenimis, jau seniai nebepakanka. Dabar dorotis su visais duomenų eksabaitais pasitelkiami sudėtingi matematiniai algoritmai, mašininis mokymasis ir dirbtinio intelekto technologijos.

Šiandienis pasaulis labai sparčiai skaitmenizuojasi, o COVID-19 pandemija šiuos procesus dar labiau pagreitino. Prognozuojama, kad iki 2025 metų kasdien sugeneruojamų duomenų kiekis pasieks 463 eksabitų (įsivaizduokite – 212 765 957 DVD per dieną!).

Didžiųjų duomenų mokykla: tendencijos, į kurias vertėtų atkreipti dėmesį

Asociatyvi „Pixabay“ nuotr.

Verslo organizacijos ir viešosios įstaigos šiuos duomenis integruoja į savo veiklas. Vieniems tai pavyksta geriau, kitiems sėkmės šioje srityje dar reikia lukterėti. Akivaizdu, kad tradicinių duomenų apdorojimo priemonių, skirtų tvarkytis su šiais duomenimis, jau seniai nebepakanka. Dabar dorotis su visais duomenų eksabaitais pasitelkiami sudėtingi matematiniai algoritmai, mašininis mokymasis ir dirbtinio intelekto technologijos.

Pasak KTU Matematikos ir gamtos mokslų fakulteto (MGMF) mokslininko matematiko dr. Tomo Iešmanto, kartu su komanda kasmet organizuojančio tarptautinę didžiųjų duomenų mokyklą (angl. Big Data School), tam, kad duomenys atskleistų tendencijas ir padėtų priimti tinkamus sprendimus, organizacijos turi investuoti į didžiųjų duomenų technologijas ir naujų įsisavinimą.

„Atsiranda vis naujų metodų ir įrankių, tad labai svarbu laikyti ranką ant pulso“, – teigia mokslininkas.

Vis naujos tendencijos

Turint galvoje mastus, kokiu greičiu auga duomenų kiekiai, naujų apdorojimo metodų atsiradimas tikrai nestebina. Jei pasiteisins specialistų prognozės ir iki 2025 metų pasaulinė duomenų sfera pasieks 175 zetabaitų duomenų (skaičiuojama, kad 2020 m. ją sudarė 44 zetabaitai), tai technologinis progresas turi būti labai spartus.

Šimtų zetabaitų dar nepasiekėme, bet organizacijos duomenų sugeneruoja tikrai didžiulius kiekius. Ką su jais daryti ir kas naujo didžiųjų duomenų fronte dabar, 2021-aisiais? Pasak Pompeu Fabra universiteto Barselonoje mokslininko dr. Christian Brownlees, kuris šiemet patirtimi dalysis su KTU didžiųjų duomenų mokyklos dalyviais, yra trys pagrindinės tendencijos, apie kurias svarbu kalbėti.

„Viena iš trijų pagrindinių didžiųjų duomenų tendencijų yra (vis dar) didelio masto modeliavimas (angl. large-dimensional modeling). Norint išnaudoti visą didžiųjų duomenų potencialą, reikia daugiau ištirti tinkamas metodikas, skirtas dideliems duomenų rinkiniams tvarkyti, ir tai vis dar yra svarbi tyrimų sritis“, – teigia Ch. Brownlees.

Kita dabartinė tendencija yra nestandartinių duomenų naudojimas. Pasak mokslininko, per pastaruosius kelerius metus sprogo nestandartinių duomenų, skirtų prognozuoti, analizė.

„Pavyzdžiui, prognozė, pagrįsta teksto duomenimis ar vaizdais. Vienas populiarių taikymų šioje srityje yra sentimentų matavimas ekonomikoje naudojant tekstą, pavyzdžiui, socialinio tinklo „Twitter“ įrašus / žinutes“, – vardija Ch. Brownlees.

Pasak lektoriaus, labai svarbi tema, kuri turi būti nagrinėjama, yra ir prognozių tikrinimas, nes vien todėl, kad turime daugiau duomenų, dar nereiškia, kad galime ir geriau prognozuoti.

„Duomenų mokslo atstovams svarbu sukurti patikimas metodikas, skirtas įvertinti, kokia yra tikroji naujų metodų nauda, palyginus su standartine praktika“, – teigia Ch. Brownlees.

Greitesnis sprendimų priėmimas

Mokslininkas taip pat pabrėžia, kad artimiausioje ateityje didžiųjų duomenų technologijos gali turėti didelę įtaką sprendimų priėmimui realiuoju laiku: „realiu laiku surinkti duomenys atveria kelią verslui ir vyriausybėms greičiau priimti geresnius sprendimus“.

Ypatingai dideliu dažniu gaunamų duomenų prognozė (angl. High-frequency-based forecasting) tampa vis populiaresne tema. Čia mokslininkas mintyse turi duomenis, surinktus ypač mažais intervalais. Nemažai tyrėjų įrodo, kad naudojant realiu laiku surinktus duomenis, pavyzdžiui, paieškos sistemos „Google“ paieškas ar piniginių atsiskaitymų operacijų duomenis (angl. point of sale, POS), galima tiksliai numatyti ir vartotojo realius veiksmus.

Akivaizdu, kad pandemija smarkiai pagreitino skaitmenizavimosi tempą daugelyje pramonės šakų. Todėl šioje naujoje realybėje realiu laiku gautų įžvalgų panaudojimas siekiant priimti tinkamus sprendimus turėtų būti prioritetas bendrovėms, ypač tai aktualu prekybos sektoriams.

Svarbus vaidmuo reguliavimui

Nepaisant nieko, duomenų kiekiai auga ir augs toliau, o pikas – dar toli gražu nepasiektas. Pasak Ch. Brownlees, sunku nuspėti, kas laukia duomenų rinkimo ir apdorojimo technologijų: „prognozuoti sunku, nes neaišku, koks bus vyriausybių atsakas, kokia bus vykdoma reguliavimo politika šiose srityse“.

Dr. T.Iešmantas pabrėžia, kad labai svarbi su didžiaisiais duomenimis susijusi problema – tai privatumas. Kadangi neišvengiamai auga surenkamų duomenų kiekiai, tai didėja ir kiekiai apie žmones bei jų veiksmus. Tad kyla privatumo išlaikymo problema, o taip pat ir kitos etinės problemos, pavyzdžiui: ar reikia žmogui, prieš pateikiant sutikimą naudoti jo duomenis, detaliai aiškinti, kokiais algoritmais jie bus apdorojami, kur bus panaudojami ir pan.

Skaitmeninė ekonomika sparčiai vystosi, duomenų surenkama vis daugiau, todėl natūralu, kad vartotojams kyla neraminančių klausimų: kaip renkami tie duomenys ir, pavyzdžiui, kaip jie naudojami jų elgesiui paveikti? Įmonės ir reguliavimo institucijos turi sudaryti sąlygas užtikrinti duomenų privatumą ir skaidrumą, bet taip pat ir neužkirsti kelio technologinių naujovių vystymui.

Ch. Brownlees įsitikinęs, kad artimiausiu metu bus svarbu sukurti pasaulinius duomenų standartus, kurie subalansuotų vartotojų privatumą ir kartu užtikrintų prieigą prie duomenų, kuriuos būtų galima panaudoti naujoms paslaugoms kurti bei esamoms tobulinti.