OpenAI кори дастаҷамъонаи AI-ро дар бозии пинҳону ҷӯстан таълим медиҳад

Бозии хуби пинҳон ва ҷустан метавонад як озмоиши олиҷаноб барои ботҳои зеҳни сунъӣ (AI) бошад, то нишон диҳад, ки онҳо чӣ гуна қарор қабул мекунанд ва бо ҳамдигар ва объектҳои мухталифи атрофи онҳо муносибат мекунанд.

Дар вай мақолаи нав, ки аз ҷониби муҳаққиқони OpenAI нашр шудааст, як ташкилоти ғайритиҷоратии тадқиқотии зеҳни сунъӣ, ки машҳур шудааст галаба бар чемпионхои чахон дар бозии компютерии Dota 2, олимон тасвир мекунанд, ки чӣ гуна агентҳои аз ҷониби зеҳни сунъӣ идорашаванда таълим дода шуданд, ки дар ҷустуҷӯ ва пинҳон шудан аз ҳамдигар дар муҳити виртуалӣ мураккабтар бошанд. Натиҷаҳои таҳқиқот нишон доданд, ки як гурӯҳи ду бот назар ба ҳама агенти ягона бидуни иттифоқчиён самараноктар ва тезтар меомӯзанд.

OpenAI кори дастаҷамъонаи AI-ро дар бозии пинҳону ҷӯстан таълим медиҳад

Олимон усулеро истифода бурданд, ки кайхо боз шухрати худро ба даст овардааст омӯзиши мошинсозӣ бо тақвият, ки дар он зеҳни сунъӣ дар муҳити ба ӯ номаълум ҷойгир карда мешавад, дар ҳоле ки дорои роҳҳои муайяни ҳамкорӣ бо он, инчунин системаи мукофот ва ҷарима барои ин ё он натиҷаи амали он. Ин усул аз сабаби қобилияти AI барои иҷро кардани амалҳои гуногун дар муҳити виртуалӣ бо суръати бениҳоят, миллионҳо маротиба тезтар аз он ки шахс тасаввур карда метавонад, хеле самаранок аст. Ин имкон медиҳад, ки озмоиш ва хатогиҳо стратегияҳои самараноктаринро барои ҳалли мушкилоти додашуда пайдо кунанд. Аммо ин равиш инчунин баъзе маҳдудиятҳо дорад, масалан, эҷоди муҳит ва гузаронидани давраҳои сершумори таълим захираҳои бузурги ҳисоббарориро талаб мекунад ва худи раванд системаи дақиқи муқоисаи натиҷаҳои амалҳои AI бо ҳадафи худро талаб мекунад. Илова бар ин, малакаҳое, ки агент бо ин роҳ ба даст овардааст, бо вазифаи тавсифшуда маҳдуд аст ва вақте ки AI мубориза бо онро меомӯзад, беҳбудии минбаъда нахоҳад буд.

Барои омӯзонидани AI барои бозӣ кардани пинҳону ҷӯстан, олимон як равишеро бо номи "Таҳқиқи бесамар" истифода бурданд, ки дар он агентҳо озодии комил барои рушди фаҳмиши худ дар бораи ҷаҳони бозӣ ва таҳияи стратегияҳои бурднок доранд. Ин ба равиши омӯзиши бисёрҷониба монанд аст, ки муҳаққиқон дар DeepMind ҳангоми системаҳои зеҳни сунъӣ истифода мебаранд. барои бозӣ кардани ҳолати парчам дар Quake III Arena омӯзонида шуданд. Тавре ки дар ин ҳолат, агентҳои AI қаблан дар қоидаҳои бозӣ омӯзонида нашуда буданд, аммо бо мурури замон онҳо стратегияҳои асосиро омӯхтанд ва ҳатто тавонистанд муҳаққиқонро бо ҳалли ғайриоддӣ ба ҳайрат оранд.

Дар бозии пинҳон ва ҷустуҷӯ, аз чанд агенте, ки кори онҳо пинҳон кардан буд, талаб карда мешуд, ки пас аз оғози каме дар ҳоле ки дастаи агентҳои ҷустуҷӯӣ ҳаракат накарда буд, аз нуқтаи назари рақибони худ канорагирӣ кунанд. Гузашта аз ин, "хатти чашм" дар ин замина конуси 135 дараҷа дар назди боти инфиродӣ аст. Агентҳо наметавонистанд берун аз майдони бозӣ хеле дуртар раванд ва маҷбур шуданд, ки утоқҳои ба таври тасодуфӣ тавлидшуда бо қобилияти истифодаи баъзе ашёҳои беруна (қуттиҳо, деворҳои ҳаракаткунанда, пандусҳои махсус) дар гирду атроф пароканда, ки ҳам барои сохтани сарпӯш ва ҳам ворид шудан ба онҳо истифода мешуданд, ҳаракат кунанд. .

OpenAI кори дастаҷамъонаи AI-ро дар бозии пинҳону ҷӯстан таълим медиҳад

Тавассути як раванди тӯлонии омӯзиш, агентҳои AI шаш стратегияи беназирро омӯхтанд, ки ҳар кадоми онҳо ба онҳо дар гузаштан ба марҳилаи навбатии бозӣ кӯмак карданд. Дар аввал дастаҳои ҷустуҷӯ ва пинҳонкор танҳо гурехта, якдигарро таъқиб мекарданд, аммо пас аз тақрибан 25 миллион бозӣ, дастаи пинҳонкор гузаргоҳҳоро бо қуттиҳо баста ва аз онҳо паноҳгоҳҳо сохтанро ёд гирифт. Пас аз 75 миллион бозии дигар, даста роҳҳои истифодаи пандусҳоро барои ворид шудан ба ин пинҳонгоҳҳо кашф кард. Пас аз 10 миллион даври дигар, пинхонкорон ба канори майдони бозӣ кашола кардани пандусҳоро ёд гирифтанд ва онҳоро дар ҷояшон маҳкам кунанд, то рақибон аз онҳо истифода накунанд.

OpenAI кори дастаҷамъонаи AI-ро дар бозии пинҳону ҷӯстан таълим медиҳад

Пас аз 388 миллион гӯгирд, ҷӯяндагон истифодаи пандусҳои басташударо ёд гирифтанд, то ба қуттиҳои ба онҳо овардашуда баромаданд ва сипас мустақиман ба онҳо ҳаракат карда, ба пинҳонгоҳҳои душман, ки аз деворҳои сайёр сохта шудаанд, ворид шаванд. Ва ниҳоят, пас аз 458 миллион бозӣ, дастаи пинҳоншуда ба хулосае омад, ки онҳо бояд ҳама объектҳоро баста, сипас паноҳгоҳ созанд, ки зоҳиран ба пирӯзии ниҳоии онҳо оварда расонд.

Чизи ҷолиб он аст, ки пас аз 22 миллион бозӣ, агентҳо ҳамоҳангсозии амалҳои худро омӯхтанд ва самаранокии ҳамкории онҳо танҳо дар оянда афзоиш ёфт, масалан, ҳар як қуттии худ ё девори худро барои сохтани паноҳгоҳ овардааст ва ҳиссаи объектҳои худро интихоб мекунад. блок, барои душвор кардани бозии душвор ба рақибон.

OpenAI кори дастаҷамъонаи AI-ро дар бозии пинҳону ҷӯстан таълим медиҳад

Олимон инчунин як нуктаи муҳимеро, ки бо таъсири шумораи объектҳои таълимӣ (ҳаҷми маълумоте, ки тавассути шабакаи нейронӣ гузаронида мешаванд - «Андозаи партия») ба суръати омӯзиш алоқаманд аст, қайд карданд. Модели пешфарз 132,3 миллион гӯгирдро дар тӯли 34 соати омӯзиш талаб мекард, то ба он ҷое, ки гурӯҳи пинҳонкор бастани пандусҳоро ёд гирифт, дар ҳоле ки маълумоти бештар боиси коҳиши назарраси вақти омӯзиш гардид. Масалан, аз 0,5 миллион то 5,8 миллион зиёд кардани шумораи параметрҳо (қисми маълумоте, ки дар давоми тамоми раванди таълим гирифта шудааст) самаранокии интихобро 2,2 маротиба афзоиш дод ва андозаи маълумоти воридшударо аз 64 КБ то 128 КБ зиёд кардани омӯзишро коҳиш дод. вакт кариб якуним баробар.

OpenAI кори дастаҷамъонаи AI-ро дар бозии пинҳону ҷӯстан таълим медиҳад

Дар охири кори худ, муҳаққиқон тасмим гирифтанд, ки санҷанд, ки то чӣ андоза омӯзиши дохили бозӣ метавонад ба агентҳо дар ҳалли вазифаҳои шабеҳи берун аз бозӣ кӯмак кунад. Дар маҷмӯъ панҷ санҷиш вуҷуд дошт: огоҳӣ аз шумораи ашё (фаҳмидани он, ки объект ҳатто агар он аз назар дур бошад ва истифода нашавад ҳам мавҷудияти худро идома медиҳад); "қуфл кардан ва баргаштан" - қобилияти дар хотир нигоҳ доштани мавқеи аслии худ ва пас аз иҷрои ягон вазифаи иловагӣ ба он баргаштан; "Бастани пайдарпай" - 4 қуттиҳо ба таври тасодуфӣ дар се ҳуҷраи бе дарҳо ҷойгир карда шуданд, аммо бо пандусҳо барои ворид шудан ба дохили агентҳо лозим буданд, ки ҳамаи онҳоро пайдо ва баста кунанд; ҷойгир кардани қуттиҳо дар ҷойҳои пешакӣ муайяншуда; сохтани паноҳгоҳ дар атрофи объект дар шакли силиндр.

Дар натиҷа, дар се аз панҷ вазифа, ботҳое, ки дар бозӣ аз омӯзиши пешакӣ гузаштаанд, назар ба AI, ки барои ҳалли мушкилот аз сифр омӯзонида шуда буд, зудтар омӯхтанд ва натиҷаҳои беҳтар нишон доданд. Онҳо дар иҷрои супориш ва баргаштан ба мавқеи ибтидоӣ, пайдарпай бастани қуттиҳо дар ҳуҷраҳои пӯшида ва ҷойгир кардани қуттиҳо дар минтақаҳои додашуда каме беҳтар кор карданд, аммо дар шинохти шумораи ашё ва сохтани сарпӯши атрофи объекти дигар каме сусттар кор карданд.

Тадқиқотчиён натиҷаҳои омехтаро ба он меҳисобанд, ки чӣ гуна AI малакаҳои муайянро меомӯзад ва ба ёд меорад. "Мо фикр мекунем, ки вазифаҳое, ки дар он машқҳои пеш аз бозӣ беҳтар иҷро мешуданд, истифодаи дубораи малакаҳои қаблан омӯхташуда ба таври ошноиро дар бар мегирифт, дар ҳоле ки иҷрои вазифаҳои боқимонда нисбат ба AI аз сифр омӯзонидашуда беҳтар истифода бурдани онҳоро ба тарзи дигар талаб мекунад, ки хеле зиёд аст. душвортар аст, — менависанд хаммуаллифони асар. "Ин натиҷа зарурати таҳияи усулҳои истифодаи самараноки малакаҳои тавассути омӯзиш ба даст овардашударо ҳангоми интиқоли онҳо аз як муҳит ба муҳити дигар нишон медиҳад."

Кори анҷомдодашуда воқеан таъсирбахш аст, зеро дурнамои истифодаи ин усули таълим аз доираи ҳама гуна бозиҳо дуртар аст. Муҳаққиқон мегӯянд, ки кори онҳо як қадами муҳим дар роҳи эҷоди AI бо рафтори "ба физика асосёфта" ва "шахси одам" аст, ки метавонад бемориҳоро ташхис кунад, сохторҳои молекулаҳои мураккаби сафедаҳоро пешгӯӣ кунад ва сканҳои КТ-ро таҳлил кунад.

Дар видеои зер шумо метавонед ба таври равшан бубинед, ки тамоми раванди омӯзиш чӣ гуна сурат гирифтааст, AI чӣ гуна кори дастаҷамъиро омӯхтааст ва стратегияҳои он торафт маккорона ва мураккабтар мешаванд.



Манбаъ: 3dnews.ru

Илова Эзоҳ