Gall gêm guddio hen-ffasiwn dda fod yn brawf gwych ar gyfer botiau deallusrwydd artiffisial (AI) i ddangos sut maen nhw'n gwneud penderfyniadau ac yn rhyngweithio â'i gilydd a gwrthrychau amrywiol o'u cwmpas.
Yn ei
Mae gwyddonwyr wedi defnyddio dull sydd wedi ennill ei enwogrwydd ers amser maith
Er mwyn hyfforddi AI i chwarae cuddio, defnyddiodd gwyddonwyr ddull o’r enw “Archwilio heb ei gyfeirio,” sef lle mae gan asiantau ryddid llwyr i ddatblygu eu dealltwriaeth o fyd y gêm a datblygu strategaethau buddugol. Mae hyn yn debyg i'r dull dysgu aml-asiant a ddefnyddiodd ymchwilwyr yn DeepMind pan oedd systemau deallusrwydd artiffisial lluosog
Mewn gêm o guddio, bu'n ofynnol i sawl asiant a oedd â'u gwaith i guddio osgoi llinell olwg eu gwrthwynebwyr ar ôl ychydig o gychwyn tra bod y tîm o asiantau chwilio yn ansymudol. Ar ben hynny, y “llinell welediad” yn y cyd-destun hwn yw côn 135 gradd o flaen bot unigol. Ni allai asiantau fentro’n rhy bell y tu allan i’r maes chwarae ac fe’u gorfodwyd i lywio ystafelloedd a gynhyrchwyd ar hap gyda’r gallu i ddefnyddio rhai gwrthrychau allanol (bocsys, waliau symudol, rampiau arbennig) wedi’u gwasgaru o gwmpas y gellid eu defnyddio i greu gorchudd ac i ymdreiddio ynddynt. .
Trwy broses ddysgu hir, dysgodd yr asiantau AI chwe strategaeth unigryw, pob un ohonynt yn eu helpu i symud ymlaen i gam nesaf y gêm. Ar y dechrau, rhedodd y timau ceiswyr a chuddwyr i ffwrdd ac erlid ei gilydd, ond ar ôl tua 25 miliwn o gemau, dysgodd y tîm cuddwyr i rwystro darnau â blychau ac adeiladu llochesi allan ohonynt. Ar ôl 75 miliwn o gemau eraill, darganfu'r tîm ffyrdd o ddefnyddio rampiau i fynd i mewn i'r cuddfannau hyn. Ar ôl 10 miliwn o rowndiau eraill, dysgodd cuddwyr i lusgo rampiau i ymyl yr ardal chwarae a'u cloi yn eu lle i atal gwrthwynebwyr rhag eu defnyddio.
Ar ôl 388 miliwn o gemau, mae ceiswyr wedi dysgu sut i ddefnyddio rampiau wedi'u blocio i ddringo ar gewyll a ddygwyd atynt, ac yna, gan symud yn syth atynt, treiddio i guddfannau gelyn a grëwyd o waliau symudol. Ac yn olaf, ar ôl 458 miliwn o gemau, daeth y tîm cuddio i'r casgliad bod angen iddynt rwystro pob gwrthrych ac yna adeiladu lloches, a arweiniodd at eu buddugoliaeth derfynol yn ôl pob tebyg.
Yr hyn sy'n arbennig o drawiadol yw bod yr asiantau, ar ôl 22 miliwn o gemau, wedi dysgu i gydlynu eu gweithredoedd ac mai dim ond yn y dyfodol y cynyddodd effeithlonrwydd eu cydweithrediad, er enghraifft, daeth pob un â'i flwch neu wal ei hun i greu lloches a dewisodd ei gyfran o wrthrychau i bloc, i gymhlethu'r gêm anhawster i wrthwynebwyr.
Nododd gwyddonwyr hefyd bwynt pwysig yn ymwneud â dylanwad nifer y gwrthrychau hyfforddi (faint o ddata a basiwyd trwy'r rhwydwaith niwral - "Maint Swp") ar y cyflymder dysgu. Roedd y model rhagosodedig angen 132,3 miliwn o gemau dros 34 awr o hyfforddiant i gyrraedd y pwynt lle dysgodd y tîm cuddio i rwystro rampiau, tra bod mwy o ddata wedi arwain at ostyngiad amlwg mewn amser hyfforddi. Er enghraifft, cynyddodd nifer y paramedrau (rhan o'r data a gafwyd yn ystod y broses hyfforddi gyfan) o 0,5 miliwn i 5,8 miliwn yr effeithlonrwydd samplu 2,2 gwaith, a gostyngodd cynyddu maint y data mewnbwn o 64 KB i 128 KB hyfforddiant. amser bron unwaith a hanner.
Ar ddiwedd eu gwaith, penderfynodd yr ymchwilwyr brofi faint o hyfforddiant yn y gêm a allai helpu asiantau i ymdopi â thasgau tebyg y tu allan i'r gêm. Roedd pum prawf i gyd: ymwybyddiaeth o nifer y gwrthrychau (deall bod gwrthrych yn parhau i fodoli hyd yn oed os yw allan o'r golwg ac nad yw'n cael ei ddefnyddio); “cloi a dychwelyd” - y gallu i gofio eich safle gwreiddiol a dychwelyd ato ar ôl cwblhau rhywfaint o dasg ychwanegol; “blocio dilyniannol” - gosodwyd 4 blwch ar hap mewn tair ystafell heb ddrysau, ond gyda rampiau i fynd i mewn, roedd angen i asiantau ddod o hyd iddynt a'u rhwystro i gyd; gosod blychau ar safleoedd a bennwyd ymlaen llaw; creu lloches o amgylch gwrthrych ar ffurf silindr.
O ganlyniad, mewn tair o bob pum tasg, dysgodd bots a oedd wedi cael hyfforddiant rhagarweiniol yn y gêm yn gyflymach a dangosodd well canlyniadau nag AI a hyfforddwyd i ddatrys problemau o'r dechrau. Fe wnaethant berfformio ychydig yn well wrth gwblhau'r dasg a dychwelyd i'r man cychwyn, gan flocio blychau mewn ystafelloedd caeedig yn olynol, a gosod blychau mewn ardaloedd penodol, ond perfformio ychydig yn wannach o ran adnabod nifer y gwrthrychau a chreu gorchudd o amgylch gwrthrych arall.
Mae ymchwilwyr yn priodoli canlyniadau cymysg i sut mae AI yn dysgu ac yn cofio rhai sgiliau. “Rydyn ni’n meddwl bod y tasgau lle’r oedd y rhag-hyfforddiant yn y gêm yn perfformio orau yn cynnwys ailddefnyddio sgiliau a ddysgwyd yn flaenorol mewn ffordd gyfarwydd, tra byddai perfformio’r tasgau sy’n weddill yn well na’r AI a hyfforddwyd o’r dechrau yn gofyn am eu defnyddio mewn ffordd wahanol, sy’n llawer anos," ysgrifena cyd-awduron y gwaith. “Mae’r canlyniad hwn yn amlygu’r angen i ddatblygu dulliau ar gyfer ailddefnyddio’r sgiliau a enillwyd trwy hyfforddiant yn effeithiol wrth eu trosglwyddo o un amgylchedd i’r llall.”
Mae'r gwaith a wneir yn wirioneddol drawiadol, gan fod y syniad o ddefnyddio'r dull addysgu hwn ymhell y tu hwnt i derfynau unrhyw gemau. Dywed yr ymchwilwyr fod eu gwaith yn gam sylweddol tuag at greu AI gydag ymddygiad “seiliedig ar ffiseg” a “thebyg i ddyn” a all wneud diagnosis o glefydau, rhagweld strwythurau moleciwlau protein cymhleth a dadansoddi sganiau CT.
Yn y fideo isod gallwch weld yn glir sut y digwyddodd y broses ddysgu gyfan, sut y dysgodd AI waith tîm, a daeth ei strategaethau yn fwy a mwy cyfrwys a chymhleth.
Ffynhonnell: 3dnewyddion.ru