Mae OpenAI yn dysgu gwaith tîm AI mewn gêm o guddfan

Gall gêm guddio hen-ffasiwn dda fod yn brawf gwych ar gyfer botiau deallusrwydd artiffisial (AI) i ddangos sut maen nhw'n gwneud penderfyniadau ac yn rhyngweithio â'i gilydd a gwrthrychau amrywiol o'u cwmpas.

Yn ei erthygl newydd, a gyhoeddwyd gan ymchwilwyr o OpenAI, sefydliad ymchwil deallusrwydd artiffisial di-elw sydd wedi dod yn enwog buddugoliaeth dros bencampwyr y byd yn y gêm gyfrifiadurol Dota 2, mae gwyddonwyr yn disgrifio sut y cafodd asiantau a reolir gan ddeallusrwydd artiffisial eu hyfforddi i fod yn fwy soffistigedig wrth chwilio a chuddio oddi wrth ei gilydd mewn amgylchedd rhithwir. Dangosodd canlyniadau'r astudiaeth fod tîm o ddau bot yn dysgu'n fwy effeithiol ac yn gyflymach nag unrhyw asiant unigol heb gynghreiriaid.

Mae OpenAI yn dysgu gwaith tîm AI mewn gêm o guddfan

Mae gwyddonwyr wedi defnyddio dull sydd wedi ennill ei enwogrwydd ers amser maith dysgu peiriant gydag atgyfnerthiad, lle mae deallusrwydd artiffisial yn cael ei roi mewn amgylchedd nad yw'n hysbys iddo, tra bod ganddo ffyrdd penodol o ryngweithio ag ef, yn ogystal â system o wobrwyon a dirwyon am un neu'r llall o ganlyniad ei weithredoedd. Mae'r dull hwn yn eithaf effeithiol oherwydd gallu AI i gyflawni gweithredoedd amrywiol mewn amgylchedd rhithwir ar gyflymder enfawr, filiynau o weithiau'n gyflymach nag y gall person ei ddychmygu. Mae hyn yn galluogi treial a chamgymeriad i ddod o hyd i'r strategaethau mwyaf effeithiol ar gyfer datrys problem benodol. Ond mae gan y dull hwn rai cyfyngiadau hefyd, er enghraifft, mae creu amgylchedd a chynnal nifer o gylchoedd hyfforddi yn gofyn am adnoddau cyfrifiadurol enfawr, ac mae'r broses ei hun yn gofyn am system gywir ar gyfer cymharu canlyniadau gweithredoedd AI â'i nod. Yn ogystal, mae'r sgiliau a gaffaelir gan yr asiant yn y modd hwn yn gyfyngedig i'r dasg a ddisgrifir a, cyn gynted ag y bydd yr AI yn dysgu ymdopi ag ef, ni fydd unrhyw welliannau pellach.

Er mwyn hyfforddi AI i chwarae cuddio, defnyddiodd gwyddonwyr ddull o’r enw “Archwilio heb ei gyfeirio,” sef lle mae gan asiantau ryddid llwyr i ddatblygu eu dealltwriaeth o fyd y gêm a datblygu strategaethau buddugol. Mae hyn yn debyg i'r dull dysgu aml-asiant a ddefnyddiodd ymchwilwyr yn DeepMind pan oedd systemau deallusrwydd artiffisial lluosog eu hyfforddi i chwarae dal y modd baner yn Quake III Arena. Fel yn yr achos hwn, nid oedd yr asiantau AI wedi'u hyfforddi'n flaenorol yn rheolau'r gêm, ond dros amser fe wnaethant ddysgu strategaethau sylfaenol a gallent hyd yn oed synnu ymchwilwyr gydag atebion nad ydynt yn ddibwys.

Mewn gêm o guddio, bu'n ofynnol i sawl asiant a oedd â'u gwaith i guddio osgoi llinell olwg eu gwrthwynebwyr ar ôl ychydig o gychwyn tra bod y tîm o asiantau chwilio yn ansymudol. Ar ben hynny, y “llinell welediad” yn y cyd-destun hwn yw côn 135 gradd o flaen bot unigol. Ni allai asiantau fentro’n rhy bell y tu allan i’r maes chwarae ac fe’u gorfodwyd i lywio ystafelloedd a gynhyrchwyd ar hap gyda’r gallu i ddefnyddio rhai gwrthrychau allanol (bocsys, waliau symudol, rampiau arbennig) wedi’u gwasgaru o gwmpas y gellid eu defnyddio i greu gorchudd ac i ymdreiddio ynddynt. .

Mae OpenAI yn dysgu gwaith tîm AI mewn gêm o guddfan

Trwy broses ddysgu hir, dysgodd yr asiantau AI chwe strategaeth unigryw, pob un ohonynt yn eu helpu i symud ymlaen i gam nesaf y gêm. Ar y dechrau, rhedodd y timau ceiswyr a chuddwyr i ffwrdd ac erlid ei gilydd, ond ar ôl tua 25 miliwn o gemau, dysgodd y tîm cuddwyr i rwystro darnau â blychau ac adeiladu llochesi allan ohonynt. Ar ôl 75 miliwn o gemau eraill, darganfu'r tîm ffyrdd o ddefnyddio rampiau i fynd i mewn i'r cuddfannau hyn. Ar ôl 10 miliwn o rowndiau eraill, dysgodd cuddwyr i lusgo rampiau i ymyl yr ardal chwarae a'u cloi yn eu lle i atal gwrthwynebwyr rhag eu defnyddio.

Mae OpenAI yn dysgu gwaith tîm AI mewn gêm o guddfan

Ar ôl 388 miliwn o gemau, mae ceiswyr wedi dysgu sut i ddefnyddio rampiau wedi'u blocio i ddringo ar gewyll a ddygwyd atynt, ac yna, gan symud yn syth atynt, treiddio i guddfannau gelyn a grëwyd o waliau symudol. Ac yn olaf, ar ôl 458 miliwn o gemau, daeth y tîm cuddio i'r casgliad bod angen iddynt rwystro pob gwrthrych ac yna adeiladu lloches, a arweiniodd at eu buddugoliaeth derfynol yn ôl pob tebyg.

Yr hyn sy'n arbennig o drawiadol yw bod yr asiantau, ar ôl 22 miliwn o gemau, wedi dysgu i gydlynu eu gweithredoedd ac mai dim ond yn y dyfodol y cynyddodd effeithlonrwydd eu cydweithrediad, er enghraifft, daeth pob un â'i flwch neu wal ei hun i greu lloches a dewisodd ei gyfran o wrthrychau i bloc, i gymhlethu'r gêm anhawster i wrthwynebwyr.

Mae OpenAI yn dysgu gwaith tîm AI mewn gêm o guddfan

Nododd gwyddonwyr hefyd bwynt pwysig yn ymwneud â dylanwad nifer y gwrthrychau hyfforddi (faint o ddata a basiwyd trwy'r rhwydwaith niwral - "Maint Swp") ar y cyflymder dysgu. Roedd y model rhagosodedig angen 132,3 miliwn o gemau dros 34 awr o hyfforddiant i gyrraedd y pwynt lle dysgodd y tîm cuddio i rwystro rampiau, tra bod mwy o ddata wedi arwain at ostyngiad amlwg mewn amser hyfforddi. Er enghraifft, cynyddodd nifer y paramedrau (rhan o'r data a gafwyd yn ystod y broses hyfforddi gyfan) o 0,5 miliwn i 5,8 miliwn yr effeithlonrwydd samplu 2,2 gwaith, a gostyngodd cynyddu maint y data mewnbwn o 64 KB i 128 KB hyfforddiant. amser bron unwaith a hanner.

Mae OpenAI yn dysgu gwaith tîm AI mewn gêm o guddfan

Ar ddiwedd eu gwaith, penderfynodd yr ymchwilwyr brofi faint o hyfforddiant yn y gêm a allai helpu asiantau i ymdopi â thasgau tebyg y tu allan i'r gêm. Roedd pum prawf i gyd: ymwybyddiaeth o nifer y gwrthrychau (deall bod gwrthrych yn parhau i fodoli hyd yn oed os yw allan o'r golwg ac nad yw'n cael ei ddefnyddio); “cloi a dychwelyd” - y gallu i gofio eich safle gwreiddiol a dychwelyd ato ar ôl cwblhau rhywfaint o dasg ychwanegol; “blocio dilyniannol” - gosodwyd 4 blwch ar hap mewn tair ystafell heb ddrysau, ond gyda rampiau i fynd i mewn, roedd angen i asiantau ddod o hyd iddynt a'u rhwystro i gyd; gosod blychau ar safleoedd a bennwyd ymlaen llaw; creu lloches o amgylch gwrthrych ar ffurf silindr.

O ganlyniad, mewn tair o bob pum tasg, dysgodd bots a oedd wedi cael hyfforddiant rhagarweiniol yn y gêm yn gyflymach a dangosodd well canlyniadau nag AI a hyfforddwyd i ddatrys problemau o'r dechrau. Fe wnaethant berfformio ychydig yn well wrth gwblhau'r dasg a dychwelyd i'r man cychwyn, gan flocio blychau mewn ystafelloedd caeedig yn olynol, a gosod blychau mewn ardaloedd penodol, ond perfformio ychydig yn wannach o ran adnabod nifer y gwrthrychau a chreu gorchudd o amgylch gwrthrych arall.

Mae ymchwilwyr yn priodoli canlyniadau cymysg i sut mae AI yn dysgu ac yn cofio rhai sgiliau. “Rydyn ni’n meddwl bod y tasgau lle’r oedd y rhag-hyfforddiant yn y gêm yn perfformio orau yn cynnwys ailddefnyddio sgiliau a ddysgwyd yn flaenorol mewn ffordd gyfarwydd, tra byddai perfformio’r tasgau sy’n weddill yn well na’r AI a hyfforddwyd o’r dechrau yn gofyn am eu defnyddio mewn ffordd wahanol, sy’n llawer anos," ysgrifena cyd-awduron y gwaith. “Mae’r canlyniad hwn yn amlygu’r angen i ddatblygu dulliau ar gyfer ailddefnyddio’r sgiliau a enillwyd trwy hyfforddiant yn effeithiol wrth eu trosglwyddo o un amgylchedd i’r llall.”

Mae'r gwaith a wneir yn wirioneddol drawiadol, gan fod y syniad o ddefnyddio'r dull addysgu hwn ymhell y tu hwnt i derfynau unrhyw gemau. Dywed yr ymchwilwyr fod eu gwaith yn gam sylweddol tuag at greu AI gydag ymddygiad “seiliedig ar ffiseg” a “thebyg i ddyn” a all wneud diagnosis o glefydau, rhagweld strwythurau moleciwlau protein cymhleth a dadansoddi sganiau CT.

Yn y fideo isod gallwch weld yn glir sut y digwyddodd y broses ddysgu gyfan, sut y dysgodd AI waith tîm, a daeth ei strategaethau yn fwy a mwy cyfrwys a chymhleth.



Ffynhonnell: 3dnewyddion.ru

Ychwanegu sylw