Энгийн видео тоглоомоор дамжуулан мэдрэлийн сүлжээг ажиллуулах нь дамжуулалтын үр дүнг үнэлэх энгийн чадвараас шалтгаалан сургалтын үр нөлөөг шалгах хамгийн тохиромжтой арга юм. DeepMind (Alphabet холдингийн нэг хэсэг) 2012 онд боловсруулсан 57 алдартай Atari 2600 тоглоомын жишиг нь өөрөө суралцах системийн чадавхийг шалгах лакмус тест болсон. Нөгөө өдөр нь DeepMind-ийн ахисан түвшний RL агент (Reinforcement Learning) Agent57 энд байна.
Agent57 AI нь компанийн өмнөх системүүдийн туршлагыг харгалзан үзэж, байгаль орчныг үр ашигтай хайгуул хийх алгоритмыг мета хяналттай хослуулсан. Ялангуяа Agent57 нь өмнөх мэдрэлийн сүлжээнүүдэд ноцтой сорилт болж байсан Pitfall, Montezuma's Revenge, Solaris болон Skiing тоглоомуудад өөрийн ер бусын ур чадвараа баталсан. Судалгаанаас харахад Pitfall болон Montezuma's Revenge нь илүү сайн үр дүнд хүрэхийн тулд хиймэл оюун ухааныг илүү их туршилт хийхийг шаарддаг. Solaris болон Skiing нь мэдрэлийн сүлжээнд хэцүү байдаг, учир нь амжилтанд хүрэх олон шинж тэмдэг байдаггүй - AI зөв зүйл хийж байгаа эсэхийг удаан хугацаанд мэдэхгүй. DeepMind нь хуучин хиймэл оюун ухааны агентууд дээрээ суурилагдсан бөгөөд ингэснээр Agent57 тоглоомын байгаль орчны судалгаа, гүйцэтгэлийн үнэлгээний талаар илүү сайн шийдвэр гаргахаас гадна цанаар гулгах зэрэг тоглоомуудын богино болон урт хугацааны үйл ажиллагааны хоорондын уялдаа холбоог оновчтой болгох боломжтой юм.
Үр дүн нь гайхалтай боловч хиймэл оюун ухаанд маш их зам бий. Эдгээр системүүд нь нэг удаад зөвхөн нэг тоглоомыг удирдах боломжтой бөгөөд энэ нь хүний чадавхитай зөрчилдөж байна гэж хөгжүүлэгчдийн үзэж байгаагаар: "Хүний тархинд амархан ирдэг жинхэнэ уян хатан байдал нь хиймэл оюун ухаанд хүрэх боломжгүй хэвээр байна."
Эх сурвалж: 3dnews.ru