OpenAI di lîstikek veşartî û lêgerînê de xebata tîmê AI hîn dike

Lîstikek baş a veşart û lêgerînê ya kevnare dikare ji bo botên îstîxbarata sûnî (AI) ceribandinek mezin be da ku nîşan bide ka ew çawa biryar didin û bi hev û din û tiştên cihêreng ên li dora wan re têkilî didin.

Di wî de gotara nû, ji hêla lêkolînerên OpenAI ve hatî weşandin, rêxistinek lêkolînê ya îstîxbarata sûnî ya neqezenc ku navdar bûye serkeftina li ser şampiyonên cîhanê di lîstika komputerê ya Dota 2 de, zanyar diyar dikin ka ajanên ku ji hêla îstîxbarata sûnî ve têne kontrol kirin çawa hatine perwerde kirin da ku di lêgerîn û veşartina hevûdu de di hawîrdorek virtual de bêtir sofîstîke bibin. Encamên lêkolînê destnîşan kir ku tîmek ji du botan ji her nûnerek bêyî hevalbendan bi bandortir û zûtir fêr dibe.

OpenAI di lîstikek veşartî û lêgerînê de xebata tîmê AI hîn dike

Zanyaran rêbazek ku demek dirêj navûdengê xwe bi dest xistiye bikar anîne fêrbûna makîneyê bi xurtkirinê, ku tê de îstîxbarata sûnî li hawîrdorek ku jê re nenas tê danîn, di heman demê de hin awayên danûstandinê bi wê re, û her weha pergalek xelat û cezayên ji bo yek an encamên kiryarên wê hene. Ev rêbaz ji ber şiyana AI-ê ku di hawîrdorek virtual de bi leza pir mezin, bi mîlyonan carî zûtir ji ya ku mirov dikare xeyal bike, çalakiyên cihêreng pêk bîne, bi bandor e. Ev rê dide ceribandin û xeletiyê ku ji bo çareserkirina pirsgirêkek diyar stratejiyên herî bi bandor bibînin. Lê ev nêzîkatî di heman demê de hin sînorên xwe jî hene, mînakî, afirandina hawîrdorek û meşandina gelek dewreyên perwerdehiyê hewceyê çavkaniyên mezin ên hesabkirinê ye, û pêvajo bixwe pergalek rast hewce dike ku encamên çalakiyên AI-ê bi armanca xwe re berhev bike. Digel vê yekê, jêhatîbûnên ku ji hêla ajan ve bi vî rengî têne wergirtin bi peywira diyarkirî ve têne sînorkirin û, gava ku AI fêr bibe ku pê re mijûl bibe, dê tu pêşkeftinên din çênebin.

Ji bo perwerdekirina AI-ê ji bo lîstina veşart û lêgerînê, zanyar nêzîkatiyek bi navê "Keşkirina nerasterê" bikar anîn, ku ev e ku ajan xwedî azadiya bêkêmasî ne ku têgihîştina xwe ya cîhana lîstikê pêşve bibin û stratejiyên serketî pêş bixin. Ev dişibihe nêzîkatiya fêrbûna pir-agentê ya ku lêkolînerên li DeepMind dema ku gelek pergalên îstîxbarata sûnî bikar tînin hatin perwerdekirin ku moda girtina ala li Quake III Arena bilîzin. Mîna ku di vê rewşê de, ajanên AI-ê berê di qaîdeyên lîstikê de nehatin perwerde kirin, lê bi demê re ew fêrî stratejiyên bingehîn bûn û tewra karîbûn lêkolîneran bi çareseriyên ne-tewre şaş bikin.

Di lîstikek veşart û lêgerînê de, çend ajanên ku karê wan veşartinê bû, pêdivî bû ku piştî serê sivik dest pê bikin dema ku tîmê ajanên lêgerînê bêseferber bû, ji çavê dijberên xwe dûr bikevin. Digel vê yekê, "xeta çavê" di vê çarçoveyê de 135 pileyek li ber botek kesane ye. Ajan nekarîn pir dûr li qada lîstikê bigerin û neçar bûn ku li odeyên ku bi rengekî rasthatî hatine çêkirin bi rê ve bibin bi şiyana karanîna hin tiştên derveyî (qutî, dîwarên guhezbar, rampên taybetî) yên li derdorê belav bûne ku dikarin hem ji bo çêkirina serpêhatî û hem jî ji bo ketina nav wan werin bikar anîn. .

OpenAI di lîstikek veşartî û lêgerînê de xebata tîmê AI hîn dike

Di nav pêvajoyek fêrbûnê ya dirêj de, nûnerên AI-ê şeş ​​stratejiyên bêhempa fêr bûn, ku her yek ji wan alîkariya wan kir ku derbasî qonaxa paşîn a lîstikê bibin. Di destpêkê de, tîmên lêger û veşartker bi tenê reviyan û hevdû dan dû hev, lê piştî nêzîkî 25 mîlyon maç, tîmê veşart hîn bû ku bi sindoqan rêbendan bigire û ji wan stargehan ava bike. Piştî 75 mîlyon maçên din, tîmê rêyên karanîna rampan vedîtin da ku têkevin van veşartgehan. Piştî 10 mîlyon gerokên din, veşart fêr bûn ku rampan bikşînin ber devê qada lîstikê û wan li cîhê xwe kilît bikin da ku nehêlin dijber wan bikar bînin.

OpenAI di lîstikek veşartî û lêgerînê de xebata tîmê AI hîn dike

Piştî 388 mîlyon maç, lêger fêr bûn ku bikar bînin rampên astengkirî bikar bînin da ku hilkişin ser kelûpelên ku ji wan re hatine anîn, û dûv re, rasterast li ser wan biçin, bikevin veşartgehên dijmin ên ku ji dîwarên portable hatine çêkirin. Û di dawiyê de, piştî 458 mîlyon maçan, tîmê veşartî gihîşt wê encamê ku ew hewce ne ku hemî tiştan asteng bikin û dûv re stargehek ava bikin, ku xuya ye ku bû sedema serkeftina wan a dawî.

Tiştê ku bi taybetî balkêş e ev e ku piştî 22 mîlyon maçan, ajan fêr bûn ku tevgerên xwe hevrêz bikin û bikêrhatina hevkariya wan tenê di pêşerojê de zêde dibe, mînakî, her yekê qutiyek an dîwarê xwe anîn da ku stargehek çêbikin û para xwe ji tiştên ku asteng bike, da ku lîstika dijwariyê ji dijberan re tevlihev bike.

OpenAI di lîstikek veşartî û lêgerînê de xebata tîmê AI hîn dike

Zanyaran her weha xalek girîng destnîşan kirin ku bi bandora hejmara tiştên perwerdehiyê (hejmara daneya ku di nav tora neuralî de derbas dibe - "Mezinahiya Batch") li ser leza fêrbûnê ve girêdayî ye. Modela xwerû hewce dike ku 132,3 mîlyon maç li ser 34 demjimêrên perwerdehiyê hewce bike da ku bigihîje cihê ku tîmê veşartî fêrî astengkirina rampan bû, di heman demê de daneyên bêtir di dema perwerdehiyê de kêmbûnek berbiçav bû. Mînakî, zêdekirina hejmara pîvanan (beşek ji daneyên ku di tevahiya pêvajoya perwerdehiyê de hatine bidestxistin) ji 0,5 mîlyonî berbi 5,8 mîlyonî, karbidestiya nimûneyê 2,2 carî zêde kir, û mezinbûna daneya têketinê ji 64 KB ber 128 KB perwerdehiyê kêm kir. dem hema yek û nîv car.

OpenAI di lîstikek veşartî û lêgerînê de xebata tîmê AI hîn dike

Di dawiya xebata xwe de, lêkolîneran biryar da ku biceribînin ka çiqas perwerdehiya di lîstikê de dikare alîkariya ajanan bike ku bi karên wekhev ên derveyî lîstikê re mijûl bibin. Bi tevayî pênc ceribandin hebûn: haybûna ji hejmara nesneyan (têgihîştina ku tiştek ji ber çavan be û neyê bikaranîn jî hebûna xwe didomîne); "Girtin û vegerandin" - şiyana ku meriv pozîsyona xweya orîjînal bi bîr bîne û piştî qedandina hin peywirên din vegere wê; "astengkirina li pey hev" - 4 sindoq bi rengek bêserûber di sê odeyên bê derî de hatine bicîh kirin, lê bi rampên ku têkevin hundur, pêdivî bû ku ajan hemî wan bibînin û asteng bikin; danîna sindoqan li ser malperên ji berê diyarkirî; di şiklê silindirekê de li dora heyberekê sitargehekê diafirîne.

Wekî encamek, di sê ji pênc peywiran de, botên ku di lîstikê de perwerdehiya pêşîn derbas kiribûn zûtir fêr bûn û ji AI-ya ku hatî perwerde kirin da ku pirsgirêkan ji sifirê çareser bike encamên çêtir nîşan dan. Wan di temamkirina peywirê û vegera li pozîsyona destpêkê de hinekî çêtir performansa wan kir, bi rêzê qutiyên li odeyên girtî bloke kirin, û qutiyan li deverên diyarkirî danîn, lê di naskirina hejmara tiştan de û çêkirina perdeya li dora tiştek din hinekî qelstir performansa xwe kirin.

Lekolînwan encamên tevlihev vedibêjin ka AI çawa hin jêhatîbûn fêr dibe û bi bîr tîne. "Em difikirin ku peywirên ku pêş-perwerdeya di lîstikê de çêtirîn pêk tê bi karanîna jêhatîbûnên berê yên fêrbûyî bi rengek naskirî vedihewîne, dema ku karên mayî ji AI-yek perwerdekirî çêtir kirina wan hewce dike ku wan bi rengek cûda bikar bînin, ku pir tevlihevtir e. ,” hev-nivîskarên xebatê dinivîsin. "Ev encam hewcedariya pêşdebirina rêbazên ji bo ji nû ve karanîna jêhatîbûnên ku bi perwerdehiyê ve hatine bidestxistin dema ku wan ji hawîrdorek bo hawîrdorek din vediguhezîne ronî dike."

Karê ku hatî kirin bi rastî balkêş e, ji ber ku perspektîfa karanîna vê rêbazê hînkirinê ji sînorên lîstikan wêdetir e. Lekolînwan dibêjin xebata wan ji bo afirandina AI-ê bi tevgerên "bingeha fizîkê" û "mirov-mirovan" ku dikare nexweşiyan teşhîs bike, strukturên molekulên proteîn ên tevlihev pêşbîn bike û skanên CT-ê analîz bike, gavek girîng e.

Di vîdyoya jêrîn de hûn dikarin bi zelalî bibînin ka tevahiya pêvajoya fêrbûnê çawa pêk hat, çawa AI-ê fêrî xebata tîmê bû, û stratejiyên wê her ku diçe qeşeng û tevlihevtir dibin.



Source: 3dnews.ru

Add a comment