AI DeepMind ludum turmas compescuit et hominem in Quake III vicit

Vexillum capere est modus competitive satis simplex inventi in multis iaculatoribus popularibus. Singulae turmae titulum in basi positum habet, et finis est ut adversae turmae titulum capiat et eam ad se feliciter perducat. Sed id quod hominibus facile est ad intelligendum, non est tam facile machinis. Ad vexillum capiendum, characteribus non-ludioribus (auto) traditionaliter programmata sunt utentes heuristicos et algorithmos simplices, qui liberam electionis limitatam praebent et insigniter hominibus inferiores sunt. At artificialis intelligentia et machina discendi promittit se omnino mutare hanc condicionem.

Π’ articulus, hac septimana in ephemeride Scientiarum de anno post evulgata preprintTum tuum blogInquisitores ab DeepMind, subsidiario Alphabeti Londinensi fundato, systema describent quae non solum discunt ludere capere vexillum in tabulas geographicas id Software Quake III Arenae, sed etiam novas strategias omnino enucleare, nullo modo humano inferior.

AI DeepMind ludum turmas compescuit et hominem in Quake III vicit

β€œNemo indicavit AI quomodo hoc ludum ludere, tantum exitum habuit - utrum AI adversarium suum verberavit necne. Pulchritudo huius accessionis utendi est quod numquam scires quid mores provenient cum agentes exercebis", Max Jaderberg, scientificus inquisitionis apud DeepMind, qui antea in machina systematis discendi AlphaStar laboravit (nuper recentius vicisti turma hominum doctorum in StarCraft II). Exposuit porro clavem methodi sui operis novi esse, imprimis eruditionem auctam, qua utitur quadam mercede systematis ad activitates programmatum ad proposita proposita consequenda, et ratio mercedis laboravit, quantumcumque AI equos lucratus sit necne. sed in secundo agentes in coetibus exercitati sunt, qui AI ad commercium iunctum ab ipso principio coegerunt.

"Ex investigationis parte, haec novitas est accessus algorithmicus qui vere excitatur", Max addit. "Via quam instituimus nostrum AI bene ostendit quomodo aliquas notiones evolutionis classicas scandere et efficere."

AI DeepMind ludum turmas compescuit et hominem in Quake III vicit

Provocative nominatus Pro Win (FTW), Procuratores DeepMind directe discunt a pixellis screen utentes retis neuralis convolutionis, statuto functionum mathematicarum (neuronarum) in stratis exemplaribus post cortex visivae humano dispositae. Recepta notitia ad duas reticulas transmittitur cum multa memoria brevis-terminus (Memoria brevis-term longa Anglica - LSTM), potest agnoscere longi temporis clientelas. Una earum cum velocitate responsionis velocitate notitias operationales administrat, altera vero lente operatur ad consilia analysis et consilia elaboranda. Ambae cum variatione memoriae coniunguntur, quibus simul utuntur mutationes in ludo mundi praedicere et actiones exercere per ludum moderatoris aemulatum.

AI DeepMind ludum turmas compescuit et hominem in Quake III vicit

In summa, DeepMind 30 ministros eruditos dedit eis iunctis teammatibus et adversariis ad ludendum, et passim lusorias selectas ne AI eos recordetur. Unumquodque agens suum signum habuit praemium, permittens fines suos interiores creare, ut vexillum capere. Singuli AI singuli circiter 450 milia lusorum vexilli capiendae luserunt, quod aequivalet experientiae ludi circiter quattuor annos.

Plene exercitati FTW agentes didicerunt strategies commune cuilibet tabulae, turmae rostri, et bigae magnitudinis applicare. Mores humanos didicerunt ut teammates sequebantur, in hoste turpi castra, et ab oppugnatoribus turpia defendebant, paulatim minus utilia exempla amiserunt ut socium nimis arcte intuentes.

Quid ergo eventus consecutus est? In a 40-persona torneamentum in quo homines et agentes passim ambo simul et contra se invicem ludebant, FTW agentes significanter effecti sunt in histriones hominum lucrandi. AI's Elo rating, quod probabilitas conciliationis erat, 1600, comparatus est 1300 pro "forti" humano histriones et ML pro "mediocris" lusori humano.

AI DeepMind ludum turmas compescuit et hominem in Quake III vicit

Quod mirum non est, cum celeritas reactionis AI in experimentis initialibus insigniter altiorem sit quam humanae, quae illi in experimentis initialibus praestantem utilitatem dedit. Sed etiam cum accuratio agentium redacta est et reactionis tempus auctum est propter latentiam aedificatam in 257 milliseundarum, AI homines adhuc informati. Provectus et fortuita histriones vicit tantum 21% et 12% totius ludi, respective.

Praeterea, post evulgationem studii docti homines in tabulas geographicas Quake Quake III Arenae plenae plenae discriminis examinare placuit et obiectis adiectis, ut Future Crossings et Ironwood, ubi AI homines feliciter in certaminibus paribus tentare coeperunt. . Cum investigatores inspexerunt activation network neural exemplaria agentium, id est, functiones neuronum responsales ad output determinandum secundum ineuntes informationes, invenerunt ligaturas cameras repraesentantes, statum vexillorum, visibilitatem teammates et adversarios, et praesentia vel absentia agentium in basi hostium, vel quadrigis-basedum, et alias notabiles aspectus lusionis. Procuratores institutos etiam neuronos continebant quae certas condiciones directe encoded continebant, ut vexillum ab agente vel cum socius tenebat.

β€œCenseo unum ex his spectandum esse quod haec multi- agentis iugis valde potentes sunt, et studium nostrum demonstrat”, Jaderberg dicit. "Id quod melius ac melius per hos annos facere didicimus-quam problema subsidii discendi solvendum est." Et in disciplina consectetur vere egregie laboravi."

Thore Graepel, professor scientiarum computatrorum in Collegio Universitatis Londiniensi et physicus DeepMind, opus suum credit elucidare potentialem multorum agentis discendi in futurum AI. Potest etiam esse fundamentum inquisitionis in machinatione humana commercio et systemata, quae se invicem complent vel simul cooperantur.

"Proventus nostri ostendunt multi-agentes supplementum discendi feliciter posse ludum complexum superare ad id quod histriones humanos etiam ad credendum veniant quod histriones computatores meliores teammates faciunt. Studium etiam apprime interesting analysi in- vestigans praebet quomodo agentes exercitati simul agunt et operantur, dicit Grapel. "Quid facit hos eventus ita excitans est ut hi agentes in prima persona suum ambitum percipiant, [id est] sicut homo lusor. Discere quomodo ludere tactically et cooperari cum suis teammates, his agentium opinione nituntur ex eventibus ludi, sine magistro aut raeda ostendente quid faciendum sit."



Source: 3dnews.ru