Хуучны сайн нуугдмал тоглоом нь хиймэл оюун ухаан (AI) роботуудад хэрхэн шийдвэр гаргаж, бие биетэйгээ болон эргэн тойрныхоо янз бүрийн объектуудтай хэрхэн харьцаж байгааг харуулах гайхалтай тест болж чадна.
Үүнд
Эрдэмтэд алдар нэрээ удаан хугацаанд олж авсан аргыг хэрэглэсэн
Хиймэл оюун ухааныг нуугдаж тоглоход сургахын тулд эрдэмтэд "Шиглээгүй хайгуул" хэмээх аргыг ашигласан бөгөөд энэ нь агентууд тоглоомын ертөнцийн талаарх ойлголтоо хөгжүүлж, ялалтын стратеги боловсруулах бүрэн эрх чөлөөтэй байдаг. Энэ нь DeepMind-ийн судлаачдын олон хиймэл оюун ухааны системийг ашиглах үед ашигладаг олон агентын сургалтын арга барилтай төстэй юм.
Нуугдах тоглоомын үеэр ажил нь нуугдаж байсан хэд хэдэн агентууд эрэн сурвалжлах агентуудын баг хөдөлгөөнгүй байх хооронд бага зэрэг хөдөлсний дараа өрсөлдөгчийнхөө хараанаас зайлсхийх шаардлагатай байв. Түүгээр ч үл барам, энэ нөхцөлд "харагдах шугам" нь бие даасан ботын өмнө байрлах 135 градусын конус юм. Агентууд тоглоомын талбайн гадна хэт хол явах боломжгүй байсан бөгөөд эргэн тойронд тархсан гадны объектуудыг (хайрцаг, хөдлөх хана, тусгай налуу зам) ашиглах чадвартай, санамсаргүй байдлаар бий болсон өрөөнүүдийг чиглүүлэхээс өөр аргагүйд хүрч, бүрхэвч үүсгэх, дотор нь нэвчих боломжтой байв. .
Удаан хугацааны сургалтын явцад хиймэл оюун ухааны агентууд зургаан өвөрмөц стратегийг сурсан бөгөөд тус бүр нь тоглоомын дараагийн шатанд шилжихэд тусалсан. Эхэндээ хайгч, нуугчийн багууд зүгээр л зугтаж, бие биенийгээ хөөж байсан бол 25 сая орчим тоглолтын дараа нуугдах багийнхан хайрцгаар гарцуудыг хааж, тэдгээрээс хоргодох байр барьж сурсан. Дахиад 75 сая тоглолтын дараа баг эдгээр нуувч руу орохын тулд налуу замыг ашиглах аргыг олж мэдэв. Дахиад 10 сая тойргийн дараа нуугдагч нар налууг тоглоомын талбайн зах руу чирж, өрсөлдөгчөө ашиглахаас сэргийлж, түгжиж сурсан.
388 сая шүдэнзний дараа хайгчид хаагдсан налуу замуудыг ашиглан өөрсдөд авчирсан хайрцагнууд дээр авирч, дараа нь шууд түүн рүү шилжиж, зөөврийн хананаас бий болгосон дайсны нуувч руу нэвтэрч сурсан. Эцэст нь 458 сая тоглолтын дараа нуугдаж байсан баг бүх объектыг хааж, дараа нь хоргодох байр барих шаардлагатай гэж дүгнэсэн нь эцсийн ялалтад хүргэсэн бололтой.
Хамгийн гайхалтай нь 22 сая тоглолтын дараа агентууд өөрсдийн үйлдлээ зохицуулж сурсан бөгөөд хамтын ажиллагааны үр ашиг нь ирээдүйд улам бүр нэмэгддэг, жишээлбэл, тус бүр өөрийн хайрцаг эсвэл ханыг авчирч хоргодох байр бий болгож, объектын хувиа сонгосон явдал юм. Өрсөлдөгчдөө тоглоомыг илүү хэцүү болгохын тулд блок.
Эрдэмтэд сургалтын хурдад сургалтын объектын тоо (мэдрэлийн сүлжээгээр дамжуулж буй өгөгдлийн хэмжээ - "Багцын хэмжээ") үзүүлэх нөлөөтэй холбоотой чухал зүйлийг тэмдэглэв. Анхдагч загвар нь 132,3 цагийн турш бэлтгэл хийхэд 34 сая шүдэнз шаардагдах бөгөөд нуугдаж буй баг налуу замыг хааж сурсан бол илүү их мэдээлэл нь сургалтын цагийг мэдэгдэхүйц багасгасан. Жишээлбэл, параметрийн тоог (сургалтын явцад олж авсан мэдээллийн нэг хэсэг) 0,5 саяас 5,8 сая болгон нэмэгдүүлснээр түүвэрлэлтийн үр ашгийг 2,2 дахин, оролтын өгөгдлийн хэмжээг 64 КБ-аас 128 КБ болгон нэмэгдүүлснээр сургалт багассан. цаг бараг нэг хагас дахин.
Ажлынхаа төгсгөлд судлаачид тоглоом доторх сургалт нь агентуудад тоглоомын гаднах ижил төстэй ажлуудыг даван туулахад хэр их тусалж болохыг шалгахаар шийджээ. Нийтдээ таван шалгалт байсан: объектын тоог мэддэг байх (объект нь харагдахгүй, ашиглаагүй байсан ч оршин тогтносоор байна гэдгийг ойлгох); "түгжих, буцах" - анхны байр сууриа санаж, нэмэлт даалгаврыг гүйцэтгэсний дараа буцаж очих чадвар; "Дараалсан хаалт" - 4 хайрцгийг хаалгагүй гурван өрөөнд санамсаргүй байдлаар байрлуулсан боловч дотогшоо орох налуу замтай тул агентууд бүгдийг нь олж, хаах шаардлагатай байв; урьдчилан тодорхойлсон сайтууд дээр хайрцаг байрлуулах; цилиндр хэлбэртэй объектын эргэн тойронд хоргодох байр бий болгох.
Үүний үр дүнд таван даалгаврын гуравт нь тоглоомын урьдчилсан бэлтгэлд хамрагдсан роботууд асуудлыг эхнээс нь шийдэж сургасан хиймэл оюун ухаанаас илүү хурдан сурч, илүү сайн үр дүн үзүүлсэн байна. Тэд даалгавраа биелүүлж, анхны байрлал руугаа буцах, хаалттай өрөөнд хайрцгийг дараалан хааж, өгөгдсөн хэсэгт хайрцгийг байрлуулах зэрэгт арай илүү сайн гүйцэтгэлтэй байсан бол объектын тоог таньж, өөр объектын эргэн тойронд бүрхэвч үүсгэхдээ бага зэрэг сул ажилласан.
Судлаачид хиймэл оюун ухаан тодорхой ур чадварыг хэрхэн сурч, санаж байгаатай холбоотой холимог үр дүнг тайлбарладаг. "Тоглоомын өмнөх бэлтгэлийг хамгийн сайн гүйцэтгэсэн ажлууд нь өмнө нь сурсан ур чадвараа танил байдлаар ашиглах, харин үлдсэн даалгавруудыг эхнээс нь сургасан хиймэл оюун ухаанаас илүү сайн гүйцэтгэхийн тулд тэдгээрийг өөр аргаар ашиглах шаардлагатай гэж бид бодож байна. илүү хэцүү" гэж уг бүтээлийн хамтран зохиогчид бичжээ. "Энэ үр дүн нь сургалтаар олж авсан ур чадвараа нэг орчноос нөгөөд шилжүүлэхэд үр дүнтэй ашиглах арга зүйг боловсруулах хэрэгцээг харуулж байна."
Энэхүү заах аргыг ашиглах хэтийн төлөв нь аливаа тоглоомын хязгаараас хол байгаа тул хийсэн ажил нь үнэхээр гайхалтай юм. Судлаачид тэдний ажил нь өвчнийг оношлох, нарийн төвөгтэй уургийн молекулуудын бүтцийг урьдчилан таамаглах, CT сканнерд дүн шинжилгээ хийх боломжтой "физик дээр суурилсан" болон "хүнтэй төстэй" зан авиртай хиймэл оюун ухааныг бий болгоход чухал алхам гэж үзэж байна.
Доорх видеоноос та бүхэл бүтэн сургалтын үйл явц хэрхэн өрнөж, хиймэл оюун ухаан хэрхэн багаар ажиллахад суралцаж, стратеги нь улам зальтай, төвөгтэй болж байгааг тодорхой харж болно.
Эх сурвалж: 3dnews.ru