Atvira duomenų bazė, kurioje daugiau nei pusė milijono įrašų, o joje esantys duomenys gali būti naudojami medžiagotyroje ir vaistų kūrime. Skamba neįtikėtinai? Tokia unikalia kristalografine duomenų baze, vadinama COD Vilniaus universiteto (VU) mokslininkai rūpinasi jau nuo 2007 m. Kaip vyksta darbas su tokia duomenų baze ir ar visi gali ja naudotis?
Asociatyvi nuotr. / Unsplash.com
Kristalografinė duomenų bazė COD yra pasaulinės bendruomenės kūrinys, kurios duomenis pildyti ir naudoti gali kiekvienas – duomenų bazėje įgyvendinta paieška pagal daugybę parametrų, tačiau norintys gali ir tiesiog atsisiųsti visus COD esančius įrašus ir paiešką bei peržiūrą atlikti savo kompiuteryje arba naudoti specialius programinius įrankius darbui su kristalografiniais duomenimis. Vienas iš žmonių, besirūpinančių duomenų bazės priežiūra, jos duomenų kokybe yra VU Gyvybės mokslo centro (VU GMC) vyr. mokslo darbuotojas ir VU Matematikos ir informatikos fakulteto (VU MIF) alumnas dr. Andrius Merkys. A. Merkys yra vienas iš mokslininkų, vystančių COD projektą. VU MIF bioinformatikos studijas, sujungiančias biologiją, informatiką ir matematiką, baigęs vyras prie jo dirba jau nuo trečio kurso. Mokslininkas šią duomenų bazę lygina su laisvąja interneto enciklopedija „Vikipedija“: „Norint kažką į COD duomenų bazę įrašyti būtina atitikti duomenų kokybei keliamus reikalavimus bei nurodyti duomenų kilmę – labai panašiai kaip ir „Vikipedijoje“, kur teigiant vieną ar kitą dalyką reikia šaltinio“. Jau ne vienerius metus COD „gyvena“ VU serveriuose, septynioliktus metus jos vystymui vadovauja VU GMC mokslininkas dr. Saulius Gražulis.
Andrius Merkys / Ugniaus Bagdonavičiaus (VU) nuotr.
Šiuo metu duomenų bazę sudaro įspūdingas įrašų skaičius – daugiau kaip pusė milijono, ją perėmus VU mokslininkams, įrašų kiekis padidėjo dešimt kartų ir kasmet paauga maždaug po 40 tūkstančių. Anot A. Merkio, pagrindinė COD ypatybė ir stiprioji pusė yra atvirumas: ši duomenų bazė yra didžiausias atviras tokio pobūdžio duomenų resursas. Esant tokiam duomenų kiekiui, itin svarbu užtikrinti jų kokybę. Nors dauguma procesų automatizuoti, tačiau jos prižiūrėtojams tenka užtikrinti, kad duomenų bazė visą laiką būtų pasiekiama, susitvarkytų su apkrovomis. „Taip pat turime stebėti diagnostinius pranešimus, reguliariai atnaujinti programinę įrangą, užbėgti už akių galimoms klaidoms, atsakyti į bendruomenės klausimus“, – apie darbą su viena didžiausių kristalografinių duomenų bazių kalba A. Merkys.
Vienas didžiausių iššūkių, prižiūrint duomenų bazės veiklą – duomenų kokybės užtikrinimas. „Be kokybiškų duomenų nebus ir kokybiškų įžvalgų ar taikymui skirtų produktų, o klaidos duomenyse gali ir nemažai kainuoti“, – atviras A. Merkys. Savo darbe COD vystytojai pirmiausia vadovaujasi Tarptautinės kristalografijos draugijos (IUCr) paskelbtais kristalografinių duomenų kokybės kriterijais. Kadangi duomenų srautas yra itin didelis, šiuo metu kuriama programinė įranga, kuri aptiktų nusižengimus kriterijams: „Tokius nusižengimų sąrašus peržiūrime patys ir, jei įmanoma, taisome arba pažymime taip, kad matytųsi naudotojams“, – pasakoja A. Merkys.
Kaip mokslo labui pasitarnauja duomenų bazėje sukaupti duomenys? Pagrindinės jos duomenų panaudojimo sritys yra medžiagotyra ir vaistų kūrimas. Medžiagotyrininkai dažniausiai ieško jau egzistuojančių medžiagų, pasižyminčių jiems norimomis savybėmis arba siekia tokias medžiagas sukurti. Kaip sėkmingus COD esančių duomenų panaudojimo pavyzdžius, A. Merkys pateikia Glazgo universiteto mokslininkų efektyvių vandenilio talpyklų bei Lozanos politechnikos instituto tyrėjų medžiagų tinkamų naudoti elektronikoje paieškas. „Tą daryti mokslininkus paskatino grafeno sėkmė – ši vieno anglies atomo storio medžiaga pasižymi įdomiomis savybėmis, žadančiomis inovatyvius taikymus medicinoje, elektronikoje, optikoje, be kita ko ir baterijų bei sensorių pramonėje“, – apie praktinius duomenų bazės pritaikymo būdus pasakoja A. Merkys.