Mokslininkų komanda, dirbanti kompanijoje „Google“, sukūrė kompiuterinę dirbtinio intelekto programą „deep Q-network“ arba trumpiau – DQN. Programa gali išmokti žaisti konsolei „Atari 2600“ sukurtus kompiuterinius žaidimus.
Siekdami sukurti naująją dirbtinio intelekto programą, mokslininkai sukūrė dirbtinį neuronų tinklą, kuris paremtas „gilaus mokymosi“ algoritmu (angl. „deep learning“). Šis algoritmas sukuria abstraktesnes žalių, neapdorotų duomenų reprezentacijas. Jis naudojamas daugelyje „Google“ produktų, nuo „Google“ paieškos iki vertėjo.
Dirbtinio intelekto programa DQN imituoja keletą žmonių smegenų principų ir gali išmokti žaisti žaidimus taip pat gerai kaip profesionalus žaidėjas žmogus, ar net geriau. Žmonės ir dauguma gyvūnų mokosi dėl paskatinimų – kartoja elgesį, kurį atlikus, gaunamas apdovanojimas. Panašiai mokosi ir dirbtinio intelekto programa.
Tai, jog dirbtinis intelektas nugali žmogų žaidimuose nėra naujiena. Jau 1997 metais kompanijos IMB sukurtas kompiuteris „Deep Blue“ nugalėjo profesionalų šachmatininką Garry Kasparovą. 2011 metais kompiuteris „Watson“, turintis dirbtinį intelektą, laimėjo viktoriną „Jeopardy!“. Šias dirbtinio intelekto sistemas nuo naujojo „Google“ išradimo skiria tai, kad „Google“ dirbtinio intelekto programa sugeba pati savarankiškai mokytis naujų žaidimų žaidimo.
Mokslininkai išbandė programą DQN su 49 klasikiniais kompiuterinėms konsolėms „Atari 2600“ sukurtais žaidimais, tokiais kaip „Pong“ arba „Space Invaders“. Kad išmoktų žaisti žaidimą, programai reikia tik labai minimalios informacijos. Vienintelė informaciją, kurią programa gaudavo apie žaidimą, buvo ekrano pikseliai ir žaidimo taškai. Sistema išmoksta žaisti atlikdama atsitiktinius veiksmus ir siekdama surinkti kuo daugiau taškų. Vėliau ji kartoja tokį elgesį, kurį atlikdama gaudavo daugiausiai taškų.
Vos pradėjusi žaisti sistema daro daug klaidų, tačiau bėgant laikui, ji patobulėja ir žaidimą žaidžia vis geriau. Po kelių savaičių treniravimosi, programa DQN daug žaidimų jau žaidė taip pat gerai kaip profesionalai žaidėjai žmonės. Žaisdama kai kuriuos žaidimus programa netgi atrado naujų žaidimo strategijų, apie kurias mokslininkai nė nebuvo pagalvoję. Pavyzdžiui, žaidime „Seaquest“ žaidėjas valdo povandeninį laivą, turi vengti kliūčių ir rinkti arba naikinti objektus skirtinguose gyliuose. Dirbtinio intelekto programa suprato, jog gali nepralaimėti tiesiog laikant povandeninį laivą vos žemiau vandens paviršiaus.
Mokantis sudėtingesnio elgesio, smegenys turi apdoroti informaciją, ateinančią per jusles, prisiminti ankstesnės patirties metu gautą informaciją ir pritaikyti ją naujoms situacijoms. Panašiai DNQ įsiminė ankstesnę patirtį ir panaudodavo ją žaidimo metu. Skirtumas tas, jog žmonės neprisimena visų įvykių vienodai. Jie geriau įsimena emociškai stiprias patirtis, kurios yra svarbesnės. Mokslininkai sako, jog DQN ateities versijos turės panašią atmintį, įsimins ne visas patirtis.
Vienas iš projekto autorių, dirbantis Londone įsikūrusioje kompanijoje „Google DeepMind“, Demis Hassabis, mano, kad ateityje patobulintos šios programos versijos gali būti plačiau naudojamos įvairesnėse srityse, kuriose reikia priimti sprendimus, pavyzdžiui, autonominiuose automobiliuose ar orų prognozėse.
Kadangi programa jau išmoko paprastus klasikinius žaidimus, mokslininkai jau pradėjo ją testuoti su sudėtingesniais žaidimais, tokiais kaip 3D lenktynės. D. Hassabis sako, kad jei šis algoritmas gali lenktyniauti žaidime, tai jį patobulinus, jis turėtų gebėti vairuoti ir tikrą automobilį. Patobulinta sistema greičiausiai galės atlikti įvairias praktiškas užduotis, pavyzdžiui suplanuoti kelionę, nupirkti bilietus ir užrezervuoti viešbučio kambarius.