🥇OpenAI ngajarkeun AI gawé babarengan dina kaulinan sumputkeun jeung neangan

Kaulinan baheula anu hadé pikeun nyumput sareng milarian tiasa janten ujian anu hadé pikeun bot kecerdasan buatan (AI) pikeun nunjukkeun kumaha aranjeunna nyandak kaputusan sareng berinteraksi sareng anu sanés sareng sagala rupa objék di sakurilingna.

Dina anjeunna artikel anyar, diterbitkeun ku panalungtik ti OpenAI, hiji organisasi panalungtikan kecerdasan jieunan nirlaba nu geus jadi kawentar meunangna leuwih jawara dunya dina kaulinan komputer Dota 2, élmuwan ngajelaskeun kumaha agén dikawasa ku kecerdasan jieunan dilatih pikeun jadi leuwih canggih dina néangan jeung nyumputkeun ti silih di lingkungan virtual. Hasil panilitian nunjukkeun yén tim dua bot diajar langkung efektif sareng langkung gancang tibatan agén tunggal tanpa sekutu.

Élmuwan geus ngagunakeun métode anu geus lila meunang Kinérja na learning machine kalawan tulangan, dimana intelijen buatan disimpen dina lingkungan anu teu dipikanyaho ku éta, bari gaduh cara anu tangtu pikeun berinteraksi sareng éta, ogé sistem ganjaran sareng denda pikeun hiji atanapi hasil anu sanés tina tindakanna. Metoda ieu cukup éféktif alatan kamampuh AI pikeun ngalakukeun rupa-rupa lampah dina lingkungan maya dina speed gede pisan, jutaan kali leuwih gancang ti hiji jalma bisa ngabayangkeun. Hal ieu ngamungkinkeun trial and error pikeun manggihan strategi paling éféktif pikeun ngajawab masalah dibikeun. Tapi pendekatan ieu ogé ngagaduhan sababaraha watesan, contona, nyiptakeun lingkungan sareng ngalaksanakeun sababaraha siklus pelatihan peryogi sumber komputasi anu ageung, sareng prosésna nyalira peryogi sistem anu akurat pikeun ngabandingkeun hasil tindakan AI sareng tujuanana. Salaku tambahan, kaahlian anu dicandak ku agén ku cara ieu dugi ka tugas anu dijelaskeun sareng, sakali AI diajar pikeun ngatasi éta, moal aya perbaikan salajengna.

Pikeun ngalatih AI pikeun maén nyumput sareng milarian, para ilmuwan ngagunakeun pendekatan anu disebut "Eksplorasi henteu diarahkeun," dimana agén gaduh kabébasan lengkep pikeun ngembangkeun pamahaman kana dunya kaulinan sareng ngembangkeun strategi unggul. Ieu sami sareng pendekatan diajar multi-agén anu peneliti di DeepMind dianggo nalika sababaraha sistem intelijen buatan dilatih pikeun maénkeun modeu bandéra dina Quake III Arena. Sapertos dina hal ieu, agén AI henteu acan dilatih sateuacana dina aturan kaulinan, tapi kana waktosna aranjeunna diajar strategi dasar sareng bahkan tiasa kaget peneliti kalayan solusi anu henteu penting.

Dina kaulinan sumputkeun, sababaraha agén anu tugasna nyumput diwajibkeun pikeun ngahindarkeun garis panénjo lawanna saatos ngamimitian sakedik nalika tim agén milarian teu tiasa gerak. Leuwih ti éta, "garis tetempoan" dina konteks ieu congcot 135 derajat di hareup hiji bot individu. Agén henteu tiasa usaha jauh teuing di luar tempat maén sareng kapaksa nganapigasi kamar anu dihasilkeun sacara acak kalayan kamampuan ngagunakeun sababaraha objék éksternal (kotak, témbok anu tiasa dipindah-pindah, tanjakan khusus) sumebar di sabudeureun anu tiasa dianggo pikeun nyiptakeun panutup sareng nyusup di jerona. .

Ngaliwatan prosés diajar anu panjang, agén AI diajar genep strategi unik, anu masing-masing ngabantosan aranjeunna maju ka tahap salajengna pertandingan. Mimitina, tim pencari sareng panyumputan ngan saukur kabur sareng silih ngudag, tapi saatos kira-kira 25 juta pertandingan, tim hider diajar pikeun meungpeuk petikan sareng kotak-kotak sareng ngawangun tempat perlindungan. Saatos 75 juta patandingan deui, tim éta mendakan cara ngagunakeun tanjakan pikeun asup ka tempat-tempat panyumputan ieu. Saatos 10 juta ronde deui, panyumputan diajar nyered tanjakan ka ujung tempat maén sareng ngonci aranjeunna dina tempatna pikeun nyegah lawan tina ngagunakeunana.

Saatos 388 juta patandingan, anu milari diajar ngagunakeun tanjakan anu diblokir pikeun naek kana peti anu dibawa ka aranjeunna, teras, langsung ngalih ka aranjeunna, nembus tempat nyumput musuh anu diciptakeun tina témbok portabel. Sarta pamustunganana, sanggeus 458 juta patandingan, tim nyumput menyimpulkan yén maranéhna kudu meungpeuk sakabeh objék lajeng ngawangun panyumputan, nu katingalina ngarah ka meunangna final maranéhanana.

Anu paling pikaresepeun nyaéta saatos 22 juta patandingan, agén diajar koordinat lampahna sareng efisiensi kolaborasina ngan ukur ningkat di hareup, contona, masing-masing nyandak kotak atanapi témbok sorangan pikeun nyiptakeun panyumputan sareng milih barang-barang na. blok, pikeun ngahesekeun kaulinan kasusah ka lawan.

Élmuwan ogé nyatet hiji titik penting patali jeung pangaruh jumlah objék latihan (jumlah data ngaliwatan jaringan neural - "Ukuran angkatan") dina speed learning. Modél standar diperlukeun 132,3 juta patandingan leuwih 34 jam latihan pikeun ngahontal titik dimana tim nyumput diajar meungpeuk tanjakan, bari leuwih data nyababkeun réduksi noticeable dina waktu latihan. Contona, ngaronjatna jumlah parameter (bagian tina data diala salila sakabéh prosés latihan) ti 0,5 juta nepi ka 5,8 juta ngaronjat efisiensi sampling ku 2,2 kali, sarta ngaronjatkeun ukuran data input ti 64 KB ka 128 KB ngurangan latihan. waktos ampir hiji satengah kali.

Dina ahir karya maranéhanana, panalungtik mutuskeun pikeun nguji sabaraha latihan dina kaulinan bisa mantuan agén Cope jeung tugas sarupa di luar kaulinan. Aya lima tés dina total: kasadaran jumlah objék (pamahaman yén hiji obyék terus aya sanajan éta kaluar tina tetempoan sarta henteu dipaké); "Konci jeung mulang" - kamampuhan pikeun nginget posisi aslina tur balik deui ka dinya sanggeus completing sababaraha tugas tambahan; "Sequential blocking" - 4 kotak anu acak lokasina di tilu kamar tanpa panto, tapi kalawan ramps asup ka jero, agén diperlukeun pikeun manggihan tur meungpeuk kabeh; panempatan buleud dina situs predetermined; nyieun panyumputan sabudeureun hiji obyék dina bentuk silinder a.

Hasilna, dina tilu ti lima pancén, bot-bot anu ngalaman latihan awal di buruan diajar langkung gancang sareng nunjukkeun hasil anu langkung saé tibatan AI anu dilatih pikeun ngabéréskeun masalah ti mimiti. Aranjeunna ngalaksanakeun rada hadé dina ngarengsekeun tugas jeung balik deui ka posisi awal, sequentially blocking buleud di kamar katutup, sarta nempatkeun kotak di wewengkon dibikeun, tapi dipigawé rada lemah dina recognizing jumlah objék jeung nyieun panutup sabudeureun objék séjén.

Panaliti nunjukkeun hasil anu dicampur sareng kumaha AI diajar sareng nginget kaahlian anu tangtu. "Kami nganggap yén tugas-tugas dimana pra-latihan dina kaulinan anu paling hadé kalebet ngagunakeun deui kaahlian anu diajar sateuacana ku cara anu biasa, bari ngalaksanakeun tugas anu sésana langkung saé tibatan AI anu dilatih ti mimiti ngabutuhkeun ngagunakeunana ku cara anu béda, anu seueur pisan. langkung hese," nyerat ko-panulis karya. "Hasil ieu nyorot kabutuhan pikeun ngembangkeun metode pikeun ngagunakeun deui kaahlian anu dipikabutuh ku latihan nalika mindahkeun tina hiji lingkungan ka lingkungan anu sanés."

Karya anu dilakukeun leres-leres nyéépkeun, sabab prospek ngagunakeun metode pangajaran ieu jauh saluareun wates kaulinan naon waé. Para panalungtik nyatakeun yén karyana mangrupikeun léngkah anu penting pikeun nyiptakeun AI kalayan paripolah "basis fisika" sareng "kawas manusa" anu tiasa mendiagnosis panyakit, ngaduga struktur molekul protéin kompleks sareng nganalisis scan CT.

Dina pidéo di handap ieu anjeun jelas tiasa ningali kumaha sadayana prosés diajar lumangsung, kumaha AI diajar gawé babarengan, sareng strategina janten langkung licik sareng rumit.

sumber: 3dnews.ru

OpenAI ngajarkeun AI gawé babarengan dina kaulinan sumputkeun jeung neangan

Tambahkeun komentar ngabolaykeun reply