Didieji duomenys: kuo jie pavojingi?

Per pastaruosius 15 metų kone kiekvienam prieinamų skaitmeninių duomenų spektras tapo nesuvokiamai platus. Duomenis galime gauti iš interneto svetainių, socialinių tinklų, tyrimams skirtos įrangos, išmaniųjų telefonų, stebėjimo kamerų ir daugelio kitų šaltinių. Gerokai pagausėjo ir visiems šiems duomenims tvarkyti skirtų kompiuterių technologijų. Nėra abejonės, kad didieji duomenys – būtent taip vadinama kaupiamų duomenų visuma – labai reikšmingi mokslinių tyrimų, technologijų ir medicinos srityse. Tačiau jei didieji duomenys būtų naudojami ne pagal paskirtį arba jei jais būtų piktnaudžiaujama, galėtų kilti nemažų grėsmių, portale project-syndicate.com rašo Niujorko universiteto Kuranto matematikos mokslų instituto kompiuterijos profesorius Ernestas Davisas.

Tobulinant tokias technologijas kaip interneto paieškos varikliai, mašininis vertimas ar vaizdų ženklinimas, jau kurį laiką specialiomis programomis tvarkomi didžiuliai duomenų rinkiniai. Netolimoje ateityje didieji duomenys galėtų padėti tobulinti net ir tokias sritis kaip valdžios sprendimų priėmimo procesas, socialinės gerovės programų įgyvendinimas ar moksliniai tyrimai.

Kiekybė nelygu kokybė

Vis dėlto turėti daug duomenų dar nereiškia turėti kokybiškus duomenis. Pavyzdžiui, neseniai mokslo žurnale „Nature“ publikuotame straipsnyje rašoma, kad Jungtinėse Valstijose visuomenės nuomonės apklausų organizatoriai neriasi iš kailio, kad tik galėtų apklausti iš tiesų reprezentatyvią gyventojų imtį. Teisiškai jiems leidžiama naudotis tik laidiniu telefonu, nors vis daugiau amerikiečių renkasi mobilųjį ryšį. Ir nors begales nuomonių galima susirasti kad ir socialiniuose tinkluose, jų reiškėjai vis tiek neatspindi visų rinkėjų nuomonės. Beje, kaip pažymi E. Davisas, nemaža dalis tviterio ir feisbuko pranešimų politinėmis temomis yra sugeneruojama automatiškai.

Pastaraisiais metais dėl subjektyviais duomenimis pagrįstų automatizuotų programų yra kilę nemažai triukšmo. Štai praėjusį balandį vienai koledžo studentei „Google“ vaizdų paieškoje pateikus užklausą „neprofesionalios šukuosenos darbui“ (angl. unprofessional hairstyles for work), daugumoje pateiktų nuotraukų buvo vaizduojami juodaodžiai. Kai pirmąjį užklausos žodį studentė pakeitė į „profesionalios“ (angl. professional), daugumoje pateiktų nuotraukų jau buvo baltaodžiai. Tačiau tai lėmė ne „Google“ programų subjektyvumas, o tai, kokias etiketes nuotraukoms internete yra suteikę patys interneto naudotojai.

Gali būti, kad didžiųjų duomenų sistema, kuri šiuos paieškos rezultatus panaudoja sprendimų dėl darbuotojų samdymo ir paaukštinimo vertinimui, juodaodžius kandidatus nustumia į mažiau palankią padėtį, taip dar labiau įtvirtindama visuomenėje nusistovėjusius stereotipus. Ir tai nėra vien spėjimas. Pernai naujienų platformoje „ProPublica“ publikuotoje recidyvizmo rizikos modelių tyrimo ataskaitoje nurodoma, kad, taikant plačiai paplitusią metodiką, pagal kurią sprendžiama dėl bausmės nusikaltimus padariusiems asmenims, sistemiškai pervertinama tikimybė, kad juodaodžiai kaltinamieji bus linkę nusikalsti vėl, ir nuvertinama tikimybė, kad pakartotinai gali nusikalsti ir baltaodžiai.

Algoritmai nėra apsaugoti nuo manipuliacijų

Pasak E. Daviso, dar vienas didžiųjų duomenų trūkumas yra tai, kad juos galima apžaisti. Kai žmonės žino, kad duomenys naudojami priimant jiems svarbius sprendimus, jie gali neatsispirti pagundai nusverti svarstykles savo pusėn. Pavyzdžiui, mokytojai, kurie yra vertinami pagal moksleivių testų rezultatus, galėtų į šiuos testus orientuoti visą mokymo procesą ar net imtis sukčiavimo.

Net ir „Google“ paieškos variklis šiuo požiūriu nėra visiškai saugus. Nors yra varomas milžiniškos apimties geriausių pasaulio mokslininkų prižiūrimo duomenų srauto, šio variklio rezultatai yra imlūs paieškos optimizavimo, įvairių manipuliacijų, pavyzdžiui, vadinamųjų „Google“ bombų ar paieškos brukalo, ir kitų siauro rato interesams parankių priemonių įtakai.

Trečiasis trūkumas – privatumo pažeidimai. Straipsnio autorius atkreipia dėmesį, kad šiais laikais itin daug duomenų, be kita ko, apima ir asmeninę informaciją. Pastaraisiais metais nuskambėjo ne vienas atvejis, kai iš komercinių ir vyriausybinių svetainių buvo pavogti didžiuliai kiekiai konfidencialių duomenų. Tyrėjai jau yra ne sykį yra pademonstravę, kaip iš, atrodytų, visiškai nekaltų komentarų ar pasisakymų internete, net kai jie skelbiami anonimiškai, galima labai tiksliai įvardyti žmonių politinius įsitikinimus ar net seksualines preferencijas.

Kiekvienas turi teisę gauti paaiškinimą

Pagaliau, rašo E. Davisas, kalbant apie didžiuosius duomenis, labai keblus yra atskaitomybės klausimas. Jei žmogui atrodo, kad algoritmo sugeneruotas sprendimas buvo jam kokiu nors požiūriu kenksmingas, jis net neturi kam pasiskųsti. Taip nutinka arba todėl, kad nėra galimybės konkrečių rezultatų interpretuoti, arba todėl, kad algoritmo autoriai atsisako atskleisti algoritmo veikimo principą. Ir nors vyriausybės ir korporacijos kiekvienam, kuris skųsis, gali atrėžti, kad jų naudojami algoritmai yra grynai matematiniai arba moksliniai, jų „sutvėrimų“ elgesys neretai ir joms pačioms tampa galvos skausmu. Europos Sąjunga neseniai sutarė dėl priemonės, kuria algoritmų sprendimais nepatenkintiems žmonėms užtikrinama teisė gauti paaiškinimą, tačiau tik laikas parodys, ar ši priemonė bus veiksminga praktiškai.

Jei tokio pobūdžio žalos patyrę žmonės neturės į ką kreiptis, galima tikėtis nemalonių ir ilgalaikių padarinių. Apie tai savo neseniai išleistoje knygoje „Matematinio naikinimo ginklai“ (angl. Weapons of Math Destruction) rašo duomenų analitikė Cathy O’Neil.

Vis dėlto, pasak E. Daviso, yra ir paguodžiančių naujienų – į didžiųjų duomenų pinkles galima ir neįkliūti. Tačiau to padaryti nepavyks, jei pastangos užtikrinti žmonių privatumą taip ir liks tik paviršutiniškos, jei nebus stengiamasi aptikti ir pašalinti pažeidimų, jei algoritminėmis rekomendacijomis nebus naudojamasi išmintingai ir jei algoritmų veikimo principai ir tai, kaip duomenys nulemia jų elgesį, liks neįsisąmoninti.