OpenAI нь нуугдмал тоглоомд хиймэл оюун ухааны багаар ажиллахыг заадаг

Хуучны сайн нуугдмал тоглоом нь хиймэл оюун ухаан (AI) роботуудад хэрхэн шийдвэр гаргаж, бие биетэйгээ болон эргэн тойрныхоо янз бүрийн объектуудтай хэрхэн харьцаж байгааг харуулах гайхалтай тест болж чадна.

Үүнд шинэ нийтлэл, алдартай болсон OpenAI, ашгийн бус хиймэл оюун ухааны судалгааны байгууллагын судлаачдын нийтэлсэн. дэлхийн аваргуудыг ялсан Dota 2 компьютерийн тоглоомд эрдэмтэд хиймэл оюун ухаанаар удирддаг агентуудыг виртуал орчинд бие биенээсээ хайх, нуух зэрэгт илүү боловсронгуй болгож сургасан тухай тайлбарлажээ. Судалгааны үр дүнгээс харахад хоёр ботоос бүрдсэн баг холбоотнуудгүйгээр ганц агентаас илүү үр дүнтэй, хурдан сурдаг.

OpenAI нь нуугдмал тоглоомд хиймэл оюун ухааны багаар ажиллахыг заадаг

Эрдэмтэд алдар нэрээ удаан хугацаанд олж авсан аргыг хэрэглэсэн арматуртай машин сургалт, Хиймэл оюун ухааныг үл мэдэгдэх орчинд байрлуулж, түүнтэй харилцах тодорхой арга барил, түүнчлэн түүний үйл ажиллагааны нэг эсвэл өөр үр дүнд нь урамшуулал, торгуулийн тогтолцоог бий болгодог. Энэхүү арга нь хиймэл оюун ухаан нь виртуал орчинд янз бүрийн үйлдлүүдийг асар хурдтайгаар, хүний ​​төсөөлж байгаагаас хэдэн сая дахин хурдан гүйцэтгэх чадвартай учраас нэлээд үр дүнтэй юм. Энэ нь өгөгдсөн асуудлыг шийдвэрлэх хамгийн үр дүнтэй стратегийг олох боломжийг сорилт, алдаа гаргадаг. Гэхдээ энэ арга нь бас зарим хязгаарлалттай байдаг, жишээлбэл, орчинг бүрдүүлэх, олон тооны сургалтын цикл хийх нь асар их тооцооллын нөөц шаарддаг бөгөөд үйл явц нь өөрөө хиймэл оюун ухааны үйл ажиллагааны үр дүнг зорилгодоо харьцуулах үнэн зөв системийг шаарддаг. Нэмж дурдахад, төлөөлөгчийн ийм аргаар олж авсан ур чадвар нь тайлбарласан даалгавраар хязгаарлагддаг бөгөөд хиймэл оюун ухаан үүнийг даван туулж сурмагц цаашид сайжруулалт хийхгүй.

Хиймэл оюун ухааныг нуугдаж тоглоход сургахын тулд эрдэмтэд "Шиглээгүй хайгуул" хэмээх аргыг ашигласан бөгөөд энэ нь агентууд тоглоомын ертөнцийн талаарх ойлголтоо хөгжүүлж, ялалтын стратеги боловсруулах бүрэн эрх чөлөөтэй байдаг. Энэ нь DeepMind-ийн судлаачдын олон хиймэл оюун ухааны системийг ашиглах үед ашигладаг олон агентын сургалтын арга барилтай төстэй юм. Quake III Arena-д туг барих горимд тоглохоор бэлтгэгдсэн. Энэ тохиолдолд хиймэл оюун ухааны агентууд өмнө нь тоглоомын дүрмээр бэлтгэгдээгүй байсан ч цаг хугацаа өнгөрөхөд тэд үндсэн стратегиудыг сурч, тэр ч байтугай өчүүхэн бус шийдлүүдээр судлаачдыг гайхшруулж чадсан юм.

Нуугдах тоглоомын үеэр ажил нь нуугдаж байсан хэд хэдэн агентууд эрэн сурвалжлах агентуудын баг хөдөлгөөнгүй байх хооронд бага зэрэг хөдөлсний дараа өрсөлдөгчийнхөө хараанаас зайлсхийх шаардлагатай байв. Түүгээр ч үл барам, энэ нөхцөлд "харагдах шугам" нь бие даасан ботын өмнө байрлах 135 градусын конус юм. Агентууд тоглоомын талбайн гадна хэт хол явах боломжгүй байсан бөгөөд эргэн тойронд тархсан гадны объектуудыг (хайрцаг, хөдлөх хана, тусгай налуу зам) ашиглах чадвартай, санамсаргүй байдлаар бий болсон өрөөнүүдийг чиглүүлэхээс өөр аргагүйд хүрч, бүрхэвч үүсгэх, дотор нь нэвчих боломжтой байв. .

OpenAI нь нуугдмал тоглоомд хиймэл оюун ухааны багаар ажиллахыг заадаг

Удаан хугацааны сургалтын явцад хиймэл оюун ухааны агентууд зургаан өвөрмөц стратегийг сурсан бөгөөд тус бүр нь тоглоомын дараагийн шатанд шилжихэд тусалсан. Эхэндээ хайгч, нуугчийн багууд зүгээр л зугтаж, бие биенийгээ хөөж байсан бол 25 сая орчим тоглолтын дараа нуугдах багийнхан хайрцгаар гарцуудыг хааж, тэдгээрээс хоргодох байр барьж сурсан. Дахиад 75 сая тоглолтын дараа баг эдгээр нуувч руу орохын тулд налуу замыг ашиглах аргыг олж мэдэв. Дахиад 10 сая тойргийн дараа нуугдагч нар налууг тоглоомын талбайн зах руу чирж, өрсөлдөгчөө ашиглахаас сэргийлж, түгжиж сурсан.

OpenAI нь нуугдмал тоглоомд хиймэл оюун ухааны багаар ажиллахыг заадаг

388 сая шүдэнзний дараа хайгчид хаагдсан налуу замуудыг ашиглан өөрсдөд авчирсан хайрцагнууд дээр авирч, дараа нь шууд түүн рүү шилжиж, зөөврийн хананаас бий болгосон дайсны нуувч руу нэвтэрч сурсан. Эцэст нь 458 сая тоглолтын дараа нуугдаж байсан баг бүх объектыг хааж, дараа нь хоргодох байр барих шаардлагатай гэж дүгнэсэн нь эцсийн ялалтад хүргэсэн бололтой.

Хамгийн гайхалтай нь 22 сая тоглолтын дараа агентууд өөрсдийн үйлдлээ зохицуулж сурсан бөгөөд хамтын ажиллагааны үр ашиг нь ирээдүйд улам бүр нэмэгддэг, жишээлбэл, тус бүр өөрийн хайрцаг эсвэл ханыг авчирч хоргодох байр бий болгож, объектын хувиа сонгосон явдал юм. Өрсөлдөгчдөө тоглоомыг илүү хэцүү болгохын тулд блок.

OpenAI нь нуугдмал тоглоомд хиймэл оюун ухааны багаар ажиллахыг заадаг

Эрдэмтэд сургалтын хурдад сургалтын объектын тоо (мэдрэлийн сүлжээгээр дамжуулж буй өгөгдлийн хэмжээ - "Багцын хэмжээ") үзүүлэх нөлөөтэй холбоотой чухал зүйлийг тэмдэглэв. Анхдагч загвар нь 132,3 цагийн турш бэлтгэл хийхэд 34 сая шүдэнз шаардагдах бөгөөд нуугдаж буй баг налуу замыг хааж сурсан бол илүү их мэдээлэл нь сургалтын цагийг мэдэгдэхүйц багасгасан. Жишээлбэл, параметрийн тоог (сургалтын явцад олж авсан мэдээллийн нэг хэсэг) 0,5 саяас 5,8 сая болгон нэмэгдүүлснээр түүвэрлэлтийн үр ашгийг 2,2 дахин, оролтын өгөгдлийн хэмжээг 64 КБ-аас 128 КБ болгон нэмэгдүүлснээр сургалт багассан. цаг бараг нэг хагас дахин.

OpenAI нь нуугдмал тоглоомд хиймэл оюун ухааны багаар ажиллахыг заадаг

Ажлынхаа төгсгөлд судлаачид тоглоом доторх сургалт нь агентуудад тоглоомын гаднах ижил төстэй ажлуудыг даван туулахад хэр их тусалж болохыг шалгахаар шийджээ. Нийтдээ таван шалгалт байсан: объектын тоог мэддэг байх (объект нь харагдахгүй, ашиглаагүй байсан ч оршин тогтносоор байна гэдгийг ойлгох); "түгжих, буцах" - анхны байр сууриа санаж, нэмэлт даалгаврыг гүйцэтгэсний дараа буцаж очих чадвар; "Дараалсан хаалт" - 4 хайрцгийг хаалгагүй гурван өрөөнд санамсаргүй байдлаар байрлуулсан боловч дотогшоо орох налуу замтай тул агентууд бүгдийг нь олж, хаах шаардлагатай байв; урьдчилан тодорхойлсон сайтууд дээр хайрцаг байрлуулах; цилиндр хэлбэртэй объектын эргэн тойронд хоргодох байр бий болгох.

Үүний үр дүнд таван даалгаврын гуравт нь тоглоомын урьдчилсан бэлтгэлд хамрагдсан роботууд асуудлыг эхнээс нь шийдэж сургасан хиймэл оюун ухаанаас илүү хурдан сурч, илүү сайн үр дүн үзүүлсэн байна. Тэд даалгавраа биелүүлж, анхны байрлал руугаа буцах, хаалттай өрөөнд хайрцгийг дараалан хааж, өгөгдсөн хэсэгт хайрцгийг байрлуулах зэрэгт арай илүү сайн гүйцэтгэлтэй байсан бол объектын тоог таньж, өөр объектын эргэн тойронд бүрхэвч үүсгэхдээ бага зэрэг сул ажилласан.

Судлаачид хиймэл оюун ухаан тодорхой ур чадварыг хэрхэн сурч, санаж байгаатай холбоотой холимог үр дүнг тайлбарладаг. "Тоглоомын өмнөх бэлтгэлийг хамгийн сайн гүйцэтгэсэн ажлууд нь өмнө нь сурсан ур чадвараа танил байдлаар ашиглах, харин үлдсэн даалгавруудыг эхнээс нь сургасан хиймэл оюун ухаанаас илүү сайн гүйцэтгэхийн тулд тэдгээрийг өөр аргаар ашиглах шаардлагатай гэж бид бодож байна. илүү хэцүү" гэж уг бүтээлийн хамтран зохиогчид бичжээ. "Энэ үр дүн нь сургалтаар олж авсан ур чадвараа нэг орчноос нөгөөд шилжүүлэхэд үр дүнтэй ашиглах арга зүйг боловсруулах хэрэгцээг харуулж байна."

Энэхүү заах аргыг ашиглах хэтийн төлөв нь аливаа тоглоомын хязгаараас хол байгаа тул хийсэн ажил нь үнэхээр гайхалтай юм. Судлаачид тэдний ажил нь өвчнийг оношлох, нарийн төвөгтэй уургийн молекулуудын бүтцийг урьдчилан таамаглах, CT сканнерд дүн шинжилгээ хийх боломжтой "физик дээр суурилсан" болон "хүнтэй төстэй" зан авиртай хиймэл оюун ухааныг бий болгоход чухал алхам гэж үзэж байна.

Доорх видеоноос та бүхэл бүтэн сургалтын үйл явц хэрхэн өрнөж, хиймэл оюун ухаан хэрхэн багаар ажиллахад суралцаж, стратеги нь улам зальтай, төвөгтэй болж байгааг тодорхой харж болно.



Эх сурвалж: 3dnews.ru

сэтгэгдэл нэмэх