Kaulinan baheula anu hadé pikeun nyumput sareng milarian tiasa janten ujian anu hadé pikeun bot kecerdasan buatan (AI) pikeun nunjukkeun kumaha aranjeunna nyandak kaputusan sareng berinteraksi sareng anu sanés sareng sagala rupa objék di sakurilingna.
Dina anjeunna
Élmuwan geus ngagunakeun métode anu geus lila meunang Kinérja na
Pikeun ngalatih AI pikeun maén nyumput sareng milarian, para ilmuwan ngagunakeun pendekatan anu disebut "Eksplorasi henteu diarahkeun," dimana agén gaduh kabébasan lengkep pikeun ngembangkeun pamahaman kana dunya kaulinan sareng ngembangkeun strategi unggul. Ieu sami sareng pendekatan diajar multi-agén anu peneliti di DeepMind dianggo nalika sababaraha sistem intelijen buatan
Dina kaulinan sumputkeun, sababaraha agén anu tugasna nyumput diwajibkeun pikeun ngahindarkeun garis panénjo lawanna saatos ngamimitian sakedik nalika tim agén milarian teu tiasa gerak. Leuwih ti éta, "garis tetempoan" dina konteks ieu congcot 135 derajat di hareup hiji bot individu. Agén henteu tiasa usaha jauh teuing di luar tempat maén sareng kapaksa nganapigasi kamar anu dihasilkeun sacara acak kalayan kamampuan ngagunakeun sababaraha objék éksternal (kotak, témbok anu tiasa dipindah-pindah, tanjakan khusus) sumebar di sabudeureun anu tiasa dianggo pikeun nyiptakeun panutup sareng nyusup di jerona. .
Ngaliwatan prosés diajar anu panjang, agén AI diajar genep strategi unik, anu masing-masing ngabantosan aranjeunna maju ka tahap salajengna pertandingan. Mimitina, tim pencari sareng panyumputan ngan saukur kabur sareng silih ngudag, tapi saatos kira-kira 25 juta pertandingan, tim hider diajar pikeun meungpeuk petikan sareng kotak-kotak sareng ngawangun tempat perlindungan. Saatos 75 juta patandingan deui, tim éta mendakan cara ngagunakeun tanjakan pikeun asup ka tempat-tempat panyumputan ieu. Saatos 10 juta ronde deui, panyumputan diajar nyered tanjakan ka ujung tempat maén sareng ngonci aranjeunna dina tempatna pikeun nyegah lawan tina ngagunakeunana.
Saatos 388 juta patandingan, anu milari diajar ngagunakeun tanjakan anu diblokir pikeun naek kana peti anu dibawa ka aranjeunna, teras, langsung ngalih ka aranjeunna, nembus tempat nyumput musuh anu diciptakeun tina témbok portabel. Sarta pamustunganana, sanggeus 458 juta patandingan, tim nyumput menyimpulkan yén maranéhna kudu meungpeuk sakabeh objék lajeng ngawangun panyumputan, nu katingalina ngarah ka meunangna final maranéhanana.
Anu paling pikaresepeun nyaéta saatos 22 juta patandingan, agén diajar koordinat lampahna sareng efisiensi kolaborasina ngan ukur ningkat di hareup, contona, masing-masing nyandak kotak atanapi témbok sorangan pikeun nyiptakeun panyumputan sareng milih barang-barang na. blok, pikeun ngahesekeun kaulinan kasusah ka lawan.
Élmuwan ogé nyatet hiji titik penting patali jeung pangaruh jumlah objék latihan (jumlah data ngaliwatan jaringan neural - "Ukuran angkatan") dina speed learning. Modél standar diperlukeun 132,3 juta patandingan leuwih 34 jam latihan pikeun ngahontal titik dimana tim nyumput diajar meungpeuk tanjakan, bari leuwih data nyababkeun réduksi noticeable dina waktu latihan. Contona, ngaronjatna jumlah parameter (bagian tina data diala salila sakabéh prosés latihan) ti 0,5 juta nepi ka 5,8 juta ngaronjat efisiensi sampling ku 2,2 kali, sarta ngaronjatkeun ukuran data input ti 64 KB ka 128 KB ngurangan latihan. waktos ampir hiji satengah kali.
Dina ahir karya maranéhanana, panalungtik mutuskeun pikeun nguji sabaraha latihan dina kaulinan bisa mantuan agén Cope jeung tugas sarupa di luar kaulinan. Aya lima tés dina total: kasadaran jumlah objék (pamahaman yén hiji obyék terus aya sanajan éta kaluar tina tetempoan sarta henteu dipaké); "Konci jeung mulang" - kamampuhan pikeun nginget posisi aslina tur balik deui ka dinya sanggeus completing sababaraha tugas tambahan; "Sequential blocking" - 4 kotak anu acak lokasina di tilu kamar tanpa panto, tapi kalawan ramps asup ka jero, agén diperlukeun pikeun manggihan tur meungpeuk kabeh; panempatan buleud dina situs predetermined; nyieun panyumputan sabudeureun hiji obyék dina bentuk silinder a.
Hasilna, dina tilu ti lima pancén, bot-bot anu ngalaman latihan awal di buruan diajar langkung gancang sareng nunjukkeun hasil anu langkung saé tibatan AI anu dilatih pikeun ngabéréskeun masalah ti mimiti. Aranjeunna ngalaksanakeun rada hadé dina ngarengsekeun tugas jeung balik deui ka posisi awal, sequentially blocking buleud di kamar katutup, sarta nempatkeun kotak di wewengkon dibikeun, tapi dipigawé rada lemah dina recognizing jumlah objék jeung nyieun panutup sabudeureun objék séjén.
Panaliti nunjukkeun hasil anu dicampur sareng kumaha AI diajar sareng nginget kaahlian anu tangtu. "Kami nganggap yén tugas-tugas dimana pra-latihan dina kaulinan anu paling hadé kalebet ngagunakeun deui kaahlian anu diajar sateuacana ku cara anu biasa, bari ngalaksanakeun tugas anu sésana langkung saé tibatan AI anu dilatih ti mimiti ngabutuhkeun ngagunakeunana ku cara anu béda, anu seueur pisan. langkung hese," nyerat ko-panulis karya. "Hasil ieu nyorot kabutuhan pikeun ngembangkeun metode pikeun ngagunakeun deui kaahlian anu dipikabutuh ku latihan nalika mindahkeun tina hiji lingkungan ka lingkungan anu sanés."
Karya anu dilakukeun leres-leres nyéépkeun, sabab prospek ngagunakeun metode pangajaran ieu jauh saluareun wates kaulinan naon waé. Para panalungtik nyatakeun yén karyana mangrupikeun léngkah anu penting pikeun nyiptakeun AI kalayan paripolah "basis fisika" sareng "kawas manusa" anu tiasa mendiagnosis panyakit, ngaduga struktur molekul protéin kompleks sareng nganalisis scan CT.
Dina pidéo di handap ieu anjeun jelas tiasa ningali kumaha sadayana prosés diajar lumangsung, kumaha AI diajar gawé babarengan, sareng strategina janten langkung licik sareng rumit.
sumber: 3dnews.ru