Chwarae Tîm Meistr DeepMind AI ac yn perfformio'n well na bodau dynol yn Quake III

Mae dal y faner yn fodd cystadleuol eithaf syml a geir mewn llawer o saethwyr poblogaidd. Mae gan bob tîm farciwr wedi'i leoli yn ei waelod, a'r nod yw dal marciwr y tîm arall a dod ag ef ato'i hun yn llwyddiannus. Fodd bynnag, nid yw'r hyn sy'n hawdd i bobl ei ddeall mor hawdd i beiriannau. Er mwyn dal y faner, mae cymeriadau nad ydynt yn chwaraewyr (bots) yn cael eu rhaglennu'n draddodiadol gan ddefnyddio heuristics ac algorithmau syml sy'n darparu rhyddid dewis cyfyngedig ac sy'n sylweddol israddol i fodau dynol. Ond mae deallusrwydd artiffisial a dysgu peiriant yn addo newid y sefyllfa hon yn llwyr.

В Erthygl, a gyhoeddwyd yr wythnos hon yn y cyfnodolyn Science tua blwyddyn ar ôl rhagargraffyn ogystal â eich blog, mae ymchwilwyr o DeepMind, is-gwmni Alphabet yn Llundain, yn disgrifio system a all nid yn unig ddysgu chwarae dal y faner ar fapiau Quake III Arena id Software, ond sydd hefyd yn datblygu strategaethau tîm cwbl newydd, mewn unrhyw ffordd yn israddol i fod dynol.

Chwarae Tîm Meistr DeepMind AI ac yn perfformio'n well na bodau dynol yn Quake III

“Ni ddywedodd neb wrth yr AI sut i chwarae’r gêm hon, dim ond y canlyniad a gafodd – boed yr AI yn curo ei wrthwynebydd ai peidio. Harddwch defnyddio’r dull hwn yw nad ydych chi byth yn gwybod pa ymddygiad fydd yn dod i’r amlwg pan fyddwch chi’n hyfforddi asiantau,” meddai Max Jaderberg, gwyddonydd ymchwil yn DeepMind a fu’n gweithio’n flaenorol ar y system dysgu peirianyddol AlphaStar (yn fwy diweddar rhagori tîm dynol o weithwyr proffesiynol yn StarCraft II). Eglurodd ymhellach mai dull allweddol eu gwaith newydd, yn gyntaf, yw dysgu wedi'i atgyfnerthu, sy'n defnyddio math o system wobrwyo i wthio asiantau meddalwedd i gyflawni nodau gosodedig, ac roedd y system wobrwyo yn gweithio ni waeth a enillodd y tîm AI ai peidio. , ond yn -secondly, hyfforddwyd asiantau mewn grwpiau, a oedd yn gorfodi'r AI i feistroli rhyngweithio tîm o'r cychwyn cyntaf.

“O safbwynt ymchwil, mae hwn yn newydd-deb ar gyfer dull algorithmig sy’n wirioneddol gyffrous,” ychwanegodd Max. “Mae’r ffordd y gwnaethom hyfforddi ein AI yn dangos yn dda sut i raddio a gweithredu rhai syniadau esblygiadol clasurol.”

Chwarae Tîm Meistr DeepMind AI ac yn perfformio'n well na bodau dynol yn Quake III

Wedi'i enwi'n bryfoclyd For The Win (FTW), mae asiantau DeepMind yn dysgu'n uniongyrchol o bicseli sgrin gan ddefnyddio rhwydwaith niwral convolutional, set o swyddogaethau mathemategol (niwronau) wedi'u trefnu mewn haenau wedi'u modelu ar ôl y cortecs gweledol dynol. Mae'r data a dderbynnir yn cael ei drosglwyddo i ddau rwydwaith gyda chof tymor byr lluosog (cof tymor byr Saesneg - LSTM), sy'n gallu adnabod dibyniaethau hirdymor. Mae un ohonynt yn rheoli data gweithredol gyda chyflymder ymateb cyflym, tra bod y llall yn gweithio'n araf i ddadansoddi a llunio strategaethau. Mae'r ddau yn gysylltiedig â chof amrywiadol, y maent yn ei ddefnyddio gyda'i gilydd i ragfynegi newidiadau ym myd y gêm a chyflawni gweithredoedd trwy'r rheolydd gêm efelychiedig.

Chwarae Tîm Meistr DeepMind AI ac yn perfformio'n well na bodau dynol yn Quake III

At ei gilydd, hyfforddodd DeepMind 30 o asiantau, rhoddodd amrywiaeth o gyd-chwaraewyr a gwrthwynebwyr iddynt chwarae gyda nhw, a dewis cardiau gêm ar hap i atal yr AI rhag eu cofio. Roedd gan bob asiant ei arwydd gwobr ei hun, gan ganiatáu iddo greu ei nodau mewnol ei hun, megis dal y faner. Chwaraeodd pob AI yn unigol tua 450 mil o gemau o ddal y faner, sy'n cyfateb i tua phedair blynedd o brofiad hapchwarae.

Mae asiantau FTW sydd wedi'u hyfforddi'n llawn wedi dysgu cymhwyso strategaethau sy'n gyffredin i unrhyw fap, rhestr ddyletswyddau tîm, a maint tîm. Dysgon nhw ymddygiadau dynol fel dilyn cyd-chwaraewyr, gwersylla mewn canolfan gelyn, ac amddiffyn eu sylfaen rhag ymosodwyr, ac yn raddol fe gollon nhw batrymau llai buddiol fel gwylio cynghreiriad yn rhy agos.

Felly pa ganlyniadau a gafwyd? Mewn twrnamaint o 40 person lle chwaraeodd bodau dynol ac asiantau ar hap gyda'i gilydd ac yn erbyn ei gilydd, perfformiodd asiantau FTW yn sylweddol well na chyfradd ennill chwaraewyr dynol. Graddfa Elo AI, sef y tebygolrwydd o ennill, oedd 1600, o'i gymharu â 1300 ar gyfer chwaraewyr dynol "cryf" a 1050 ar gyfer y chwaraewr dynol "cyfartalog".

Chwarae Tîm Meistr DeepMind AI ac yn perfformio'n well na bodau dynol yn Quake III

Nid yw hyn yn syndod, gan fod cyflymder adwaith AI yn sylweddol uwch na chyflymder dynol, a roddodd fantais sylweddol i'r cyntaf yn yr arbrofion cychwynnol. Ond hyd yn oed pan leihawyd cywirdeb yr asiantau a chynyddodd amser ymateb diolch i'r 257 milieiliad hwyrni adeiledig, roedd yr AI yn dal i berfformio'n well na bodau dynol. Enillodd chwaraewyr uwch ac achlysurol 21% yn unig a 12% o gyfanswm y gemau, yn y drefn honno.

Ar ben hynny, ar ôl cyhoeddi'r astudiaeth, penderfynodd gwyddonwyr brofi asiantau ar fapiau Quake III Arena llawn gyda phensaernïaeth lefel gymhleth a gwrthrychau ychwanegol, megis Future Crossings ac Ironwood, lle dechreuodd yr AI herio bodau dynol yn llwyddiannus mewn gemau prawf. . Pan edrychodd yr ymchwilwyr ar batrymau actifadu rhwydwaith niwral yr asiantau, hynny yw, swyddogaethau'r niwronau sy'n gyfrifol am bennu allbwn yn seiliedig ar wybodaeth sy'n dod i mewn, daethant o hyd i glystyrau yn cynrychioli ystafelloedd, cyflwr baneri, gwelededd cyd-chwaraewyr a gwrthwynebwyr, a presenoldeb neu absenoldeb asiantau yn sylfaen y gelyn, neu mewn tîm, ac agweddau arwyddocaol eraill ar chwarae gêm. Roedd yr asiantau hyfforddedig hyd yn oed yn cynnwys niwronau a oedd yn amgodio sefyllfaoedd penodol yn uniongyrchol, megis pan gymerwyd baner gan asiant neu pan oedd cynghreiriad yn ei dal.

“Rwy’n meddwl mai un o’r pethau i edrych arno yw bod y timau aml-asiant hyn yn hynod bwerus, ac mae ein hastudiaeth yn dangos hynny,” meddai Jaderberg. “Dyna beth rydyn ni wedi bod yn dysgu ei wneud yn well ac yn well dros yr ychydig flynyddoedd diwethaf - sut i ddatrys problem dysgu atgyfnerthu.” Ac fe weithiodd yr hyfforddiant uwch yn wych.”

Mae Thore Graepel, athro cyfrifiadureg yng Ngholeg Prifysgol Llundain a gwyddonydd DeepMind, yn credu bod eu gwaith yn amlygu potensial dysgu aml-asiant ar gyfer dyfodol AI. Gall hefyd fod yn sail ar gyfer ymchwil i ryngweithiad dynol-peiriant a systemau sy'n ategu ei gilydd neu'n cydweithio.

“Mae ein canlyniadau yn dangos y gall dysgu atgyfnerthu aml-asiant feistroli gêm gymhleth yn llwyddiannus i'r pwynt bod chwaraewyr dynol hyd yn oed yn dod i gredu bod chwaraewyr cyfrifiadurol yn gwneud cyd-chwaraewyr gwell. Mae'r astudiaeth hefyd yn darparu dadansoddiad manwl hynod ddiddorol o sut mae asiantau hyfforddedig yn ymddwyn ac yn gweithio gyda'i gilydd, meddai Grapel. “Yr hyn sy’n gwneud y canlyniadau hyn mor gyffrous yw bod yr asiantau hyn yn gweld eu hamgylchedd yn y person cyntaf, [hynny yw] yn union fel chwaraewr dynol. Er mwyn dysgu sut i chwarae'n dactegol a chydweithio â'u cyd-chwaraewyr, roedd yn rhaid i'r asiantau hyn ddibynnu ar adborth o ganlyniadau'r gêm, heb i unrhyw athro neu hyfforddwr ddangos iddynt beth i'w wneud."



Ffynhonnell: 3dnewyddion.ru

Ychwanegu sylw