Ուսուցման ուժեղացում, թե՞ էվոլյուցիոն ռազմավարություններ: - Երկուսն էլ

Հե՜յ Հաբր։

Մենք հաճախ չենք որոշում այստեղ տեղադրել երկու տարվա վաղեմության, առանց ծածկագրի և ակնհայտ ակադեմիական բնույթի տեքստերի թարգմանություններ, բայց այսօր բացառություն կանենք: Հուսով ենք, որ հոդվածի վերնագրում դրված երկընտրանքը անհանգստացնում է մեր ընթերցողներից շատերին, և դուք արդեն կարդացել եք էվոլյուցիոն ռազմավարությունների վերաբերյալ հիմնարար աշխատանքը, որի հետ այս գրառումը վիճում է բնօրինակում կամ կկարդաք այն հիմա: Բարի գալուստ կատու:

Ուսուցման ուժեղացում, թե՞ էվոլյուցիոն ռազմավարություններ: - Երկուսն էլ

2017 թվականի մարտին OpenAI-ը մեծ ալիք բարձրացրեց խորը ուսուցման համայնքում «թղթի» միջոցովԷվոլյուցիայի ռազմավարությունները որպես ուժեղացման ուսուցման մասշտաբային այլընտրանք»: Այս աշխատանքը տպավորիչ արդյունքներ է նկարագրել հօգուտ այն բանի, որ ամրապնդման ուսուցումը (RL) չի դարձել սեպ, և բարդ նեյրոնային ցանցեր մարզելիս խորհուրդ է տրվում փորձել այլ մեթոդներ: Այնուհետև սկսվեց բանավեճ՝ կապված ամրապնդման ուսուցման կարևորության և դրա կարգավիճակի վրա՝ որպես «անհրաժեշտ» տեխնոլոգիա խնդիրների լուծման դասավանդման համար: Այստեղ ես ուզում եմ ասել, որ այս երկու տեխնոլոգիաները չպետք է դիտարկել որպես մրցակցային, որոնցից մեկը ակնհայտորեն ավելի լավն է, քան մյուսը. ընդհակառակը, նրանք ի վերջո լրացնում են միմյանց։ Իսկապես, եթե մի փոքր մտածեք, թե ինչ է անհրաժեշտ ստեղծելու համար ընդհանուր AI և այնպիսի համակարգեր, որոնք իրենց գոյության ընթացքում ունակ կլինեն սովորելու, դատելու և պլանավորելու, ապա մենք գրեթե անկասկած կգանք այն եզրակացության, որ կպահանջվի այս կամ այն ​​համակցված լուծումը։ Ի դեպ, հենց այս համակցված լուծմանը եկավ բնությունը, որը էվոլյուցիայի ընթացքում բարդ բանականությամբ օժտեց կաթնասուններին և մյուս բարձրակարգ կենդանիներին:

Էվոլյուցիոն ռազմավարություններ

OpenAI փաստաթղթի հիմնական թեզն այն էր, որ ավանդական ետ տարածման հետ համակցված ամրապնդման ուսուցումն օգտագործելու փոխարեն նրանք հաջողությամբ վարժեցրին նեյրոնային ցանցը բարդ խնդիրներ լուծելու համար՝ օգտագործելով այն, ինչ նրանք անվանում էին «էվոլյուցիոն ռազմավարություն» (ES): Այս ES մոտեցումը բաղկացած է կշիռների ամբողջ ցանցի բաշխման պահպանումից՝ ներգրավելով մի քանի գործակալներ, որոնք աշխատում են զուգահեռ և օգտագործելով այս բաշխումից ընտրված պարամետրերը: Յուրաքանչյուր գործակալ գործում է իր միջավայրում, և դրվագի որոշակի քանակի դրվագների կամ փուլերի ավարտից հետո ալգորիթմը վերադարձնում է կուտակային պարգև՝ արտահայտված որպես ֆիթնես միավոր: Հաշվի առնելով այս արժեքը՝ պարամետրերի բաշխումը կարող է տեղափոխվել դեպի ավելի հաջողակ գործակալներ՝ զրկելով ավելի քիչ հաջողակներին: Հարյուրավոր գործակալների մասնակցությամբ նման գործողությունը միլիոնավոր անգամ կրկնելով՝ հնարավոր է կշիռների բաշխումը տեղափոխել մի տարածություն, որը թույլ կտա գործակալներին մշակել իրենց հանձնարարված առաջադրանքը լուծելու որակյալ քաղաքականություն։ Իրոք, հոդվածում ներկայացված արդյունքները տպավորիչ են. ցույց է տրված, որ եթե դուք զուգահեռաբար աշխատեք հազար գործակալ, ապա երկու ոտքերի վրա մարդակերպ շարժումը կարելի է սովորել կես ժամից պակաս ժամանակում (մինչդեռ ամենաառաջադեմ RL մեթոդները պահանջում են ավելի շատ ծախսեր. մեկ ժամից ավելի): Ավելի մանրամասն տեղեկությունների համար խորհուրդ եմ տալիս կարդալ գերազանցը գրառում փորձի հեղինակներից, ինչպես նաև գիտական ​​հոդված.

Ուսուցման ուժեղացում, թե՞ էվոլյուցիոն ռազմավարություններ: - Երկուսն էլ

Մարդաբանական ուղղաձիգ քայլելու ուսուցման տարբեր ռազմավարություններ, որոնք ուսումնասիրվել են OpenAI-ի ES մեթոդով:

Սև տուփ

Այս մեթոդի մեծ առավելությունն այն է, որ այն կարելի է հեշտությամբ զուգահեռացնել: Մինչ RL մեթոդները, ինչպիսիք են A3C-ը, պահանջում են տեղեկատվության փոխանակում աշխատանքային թելերի և պարամետրային սերվերի միջև, ES-ին անհրաժեշտ են միայն համապատասխանության գնահատումներ և պարամետրերի բաշխման ընդհանրացված տեղեկատվություն: Այս պարզության շնորհիվ է, որ այս մեթոդը մեծապես առաջ է ժամանակակից RL մեթոդներից՝ մասշտաբային հնարավորությունների առումով: Սակայն այս ամենն իզուր չէ՝ պետք է օպտիմիզացնել ցանցը սեւ արկղի սկզբունքով։ Այս դեպքում «սև արկղը» նշանակում է, որ մարզումների ժամանակ ցանցի ներքին կառուցվածքն ամբողջությամբ անտեսվում է, և օգտագործվում է միայն ընդհանուր արդյունքը (դրվագի համար պարգևատրումը), և դրանից է կախված՝ արդյոք որոշակի ցանցի կշիռները ժառանգել հաջորդ սերունդները: Իրավիճակներում, երբ մենք շատ արձագանք չենք ստանում շրջակա միջավայրից, և շատ ավանդական RL խնդիրների դեպքում պարգևների հոսքը շատ սակավ է, խնդիրը դառնում է «մասամբ սև արկղ» լինելուց մինչև «լիովին սև արկղ»: Այս դեպքում դուք կարող եք զգալիորեն բարձրացնել արտադրողականությունը, ուստի, իհարկե, նման փոխզիջումը արդարացված է: «Ո՞ւմ են պետք գրադիենտները, եթե դրանք, այնուամենայնիվ, անհույս աղմկոտ են»: - սա է ընդհանուր կարծիքը։

Այնուամենայնիվ, իրավիճակներում, երբ հետադարձ կապն ավելի ակտիվ է, ամեն ինչ սկսում է սխալվել ES-ի համար: OpenAI-ի թիմը նկարագրում է, թե ինչպես է ուսուցանվել պարզ MNIST դասակարգման ցանցը՝ օգտագործելով ES, և այս անգամ ուսուցումն անցել է 1000 անգամ ավելի դանդաղ: Փաստն այն է, որ պատկերների դասակարգման գրադիենտ ազդանշանը չափազանց տեղեկատվական է, թե ինչպես կարելի է ցանցին ավելի լավ դասակարգել: Այսպիսով, խնդիրն ավելի քիչ է RL տեխնիկայի և ավելի շատ նոսր պարգևների հետ կապված միջավայրերում, որոնք առաջացնում են աղմկոտ գրադիենտներ:

Բնության լուծում

Եթե ​​փորձենք դասեր քաղել բնության օրինակից՝ մտածելով արհեստական ​​ինտելեկտի զարգացման ուղիների մասին, ապա որոշ դեպքերում AI-ն կարելի է պատկերացնել որպես. խնդրին ուղղված մոտեցում. Ի վերջո, բնությունը գործում է այն սահմանափակումների շրջանակներում, որոնք համակարգչային գիտնականները պարզապես չունեն: Կարծիք կա, որ կոնկրետ խնդրի լուծման զուտ տեսական մոտեցումը կարող է ավելի արդյունավետ լուծումներ տալ, քան էմպիրիկ այլընտրանքները։ Այնուամենայնիվ, ես դեռ կարծում եմ, որ արժե ստուգել, ​​թե ինչպես է որոշակի սահմանափակումների ներքո գործող դինամիկ համակարգը (Երկիրը) առաջացրել գործակալներ (կենդանիներ, մասնավորապես կաթնասուններ), որոնք ունակ են ճկուն և բարդ վարքագծի: Թեև այս սահմանափակումներից մի քանիսը չեն կիրառվում տվյալների նմանակված գիտության աշխարհներում, մյուսները պարզապես լավ են:

Ուսումնասիրելով կաթնասունների ինտելեկտուալ վարքը՝ մենք տեսնում ենք, որ այն ձևավորվում է երկու սերտ փոխկապակցված գործընթացների բարդ փոխադարձ ազդեցության արդյունքում. սովորել ուրիշների փորձից и անելով սովորել. Առաջինը հաճախ նույնացվում է բնական ընտրությամբ պայմանավորված էվոլյուցիայի հետ, բայց այստեղ ես ավելի լայն տերմին եմ օգտագործում՝ հաշվի առնելու էպիգենետիկան, միկրոբիոմները և այլ մեխանիզմները, որոնք հնարավորություն են տալիս կիսվել փորձառություններով գենետիկորեն կապ չունեցող օրգանիզմների միջև: Երկրորդ գործընթացը՝ փորձից սովորելը, այն ամբողջ ինֆորմացիան է, որը կենդանին կարողանում է սովորել իր ողջ կյանքի ընթացքում, և այդ տեղեկատվությունը ուղղակիորեն որոշվում է այս կենդանու փոխազդեցությամբ արտաքին աշխարհի հետ: Այս կատեգորիան ներառում է ամեն ինչ՝ սկսած առարկաները ճանաչելուց սովորելուց մինչև ուսումնական գործընթացին բնորոշ հաղորդակցության յուրացում:

Կոպիտ ասած՝ բնության մեջ տեղի ունեցող այս երկու գործընթացները կարելի է համեմատել նեյրոնային ցանցերի օպտիմալացման երկու տարբերակի հետ։ Էվոլյուցիոն ռազմավարությունները, որտեղ գրադիենտների մասին տեղեկատվությունը օգտագործվում է օրգանիզմի մասին տեղեկատվությունը թարմացնելու համար, մոտ է ուրիշների փորձից սովորելուն: Նմանապես, գրադիենտ մեթոդները, որտեղ այս կամ այն ​​փորձի ձեռքբերումը հանգեցնում է գործակալի վարքագծի այս կամ այն ​​փոփոխության, համեմատելի են սեփական փորձից սովորելու հետ: Եթե ​​մտածենք խելացի վարքագծի կամ կարողությունների մասին, որոնք այս երկու մոտեցումներից յուրաքանչյուրը զարգացնում է կենդանիների մոտ, համեմատությունն ավելի ընդգծված է դառնում։ Երկու դեպքում էլ «էվոլյուցիոն մեթոդները» նպաստում են ռեակտիվ վարքագծի ուսումնասիրմանը, որը թույլ է տալիս զարգացնել որոշակի ֆիթնես (բավարար կենդանի մնալու համար): Գերությունից քայլել կամ փախչել սովորելը շատ դեպքերում համարժեք է ավելի «բնազդային» վարքագծին, որը գենետիկ մակարդակով շատ կենդանիների մոտ «կապված» է: Բացի այդ, այս օրինակը հաստատում է, որ էվոլյուցիոն մեթոդները կիրառելի են այն դեպքերում, երբ պարգևատրման ազդանշանը չափազանց հազվադեպ է (օրինակ, երեխայի հաջող դաստիարակության փաստը): Նման դեպքում անհնար է պարգևը կապել որևէ կոնկրետ գործողությունների շարքի հետ, որոնք կարող էին իրականացվել այս փաստի ի հայտ գալուց շատ տարիներ առաջ: Մյուս կողմից, եթե հաշվի առնենք մի դեպք, երբ ES-ը ձախողվում է, այն է՝ պատկերների դասակարգումը, արդյունքները զգալիորեն համեմատելի են կենդանիների ուսուցման արդյունքների հետ, որոնք ձեռք են բերվել ավելի քան 100 տարի անց անցկացված վարքագծային հոգեբանական անհամար փորձերի ժամանակ:

Սովորել կենդանիներից

Ամրապնդման ուսուցման մեջ օգտագործվող մեթոդները շատ դեպքերում ուղղակիորեն վերցված են հոգեբանական գրականությունից գործառնական պայմանավորում, և օպերանտային պայմանավորումն ուսումնասիրվել է կենդանիների հոգեբանության միջոցով: Ի դեպ, ուժեղացման ուսուցման երկու հիմնադիրներից մեկը՝ Ռիչարդ Սաթոնը, ունի հոգեբանության բակալավրի կոչում։ Օպերանտ պայմանավորման համատեքստում կենդանիները սովորում են պարգևատրումը կամ պատիժը կապել հատուկ վարքագծերի հետ: Մարզիչները և հետազոտողները կարող են այս կամ այն ​​կերպ շահարկել այս պարգևատրման ասոցիացիան՝ հրահրելով կենդանիներին դրսևորել խելացիություն կամ որոշակի վարքագիծ: Այնուամենայնիվ, օպերանտային պայմանավորումը, ինչպես օգտագործվում է կենդանիների հետազոտության մեջ, ոչ այլ ինչ է, քան միևնույն պայմանավորման ավելի ընդգծված ձև, որի հիման վրա կենդանիները սովորում են իրենց ողջ կյանքի ընթացքում: Մենք մշտապես ստանում ենք շրջակա միջավայրից դրական ամրապնդման ազդանշաններ և համապատասխանաբար հարմարեցնում մեր վարքագիծը: Իրականում, շատ նյարդաբաններ և ճանաչողական գիտնականներ կարծում են, որ մարդիկ և այլ կենդանիներ իրականում գործում են ավելի բարձր մակարդակով և շարունակաբար սովորում են կանխատեսել իրենց վարքի արդյունքը ապագա իրավիճակներում՝ պոտենցիալ պարգևների հիման վրա:

Կանխատեսման կենտրոնական դերը փորձից սովորելու գործում էականորեն փոխում է վերը նկարագրված դինամիկան: Ազդանշանը, որը նախկինում համարվում էր շատ նոսր (էպիզոդիկ պարգև), պարզվում է, որ շատ խիտ է։ Տեսականորեն իրավիճակը մոտավորապես այսպիսին է. ցանկացած պահի կաթնասունի ուղեղը հաշվարկում է արդյունքները՝ հիմնված զգայական գրգռիչների և գործողությունների բարդ հոսքի վրա, մինչդեռ կենդանին պարզապես ընկղմված է այս հոսքի մեջ: Այս դեպքում կենդանու վերջնական վարքագիծը տալիս է ուժեղ ազդանշան, որը պետք է օգտագործվի կանխատեսումների ճշգրտման և վարքագծի զարգացման համար: Ուղեղն օգտագործում է այս բոլոր ազդանշանները ապագայում կանխատեսումները (և, համապատասխանաբար, կատարված գործողությունների որակը) օպտիմալացնելու համար։ Այս մոտեցման ակնարկը տրված է հիանալի գրքում «Սերֆինգի անորոշությունճանաչողական գիտնական և փիլիսոփա Էնդի Քլարկ. Եթե ​​նման պատճառաբանությունը արտանետենք արհեստական ​​գործակալների պատրաստմանը, ապա ուժեղացման ուսուցման հիմնարար թերությունը բացահայտվում է. Այն դեպքերում, երբ անհնար է բարձրացնել ազդանշանի հագեցվածությունը (գուցե այն պատճառով, որ դա ի սկզբանե թույլ է կամ կապված է ցածր մակարդակի ռեակտիվության հետ), հավանաբար ավելի լավ է նախընտրել ուսուցման մեթոդը, որը լավ զուգահեռ է, օրինակ, ES:

Նյարդային ցանցերի ավելի հարուստ ուսուցում

Հիմնվելով կաթնասունների ուղեղին բնորոշ ավելի բարձր նյարդային ակտիվության սկզբունքների վրա, որը մշտապես զբաղված է կանխատեսումներ անելով, վերջին առաջընթացները կատարվել են ուժեղացման ուսուցման ոլորտում, որն այժմ հաշվի է առնում նման կանխատեսումների կարևորությունը: Ես կարող եմ անմիջապես ձեզ խորհուրդ տալ երկու նմանատիպ աշխատանք.

Այս երկու աշխատություններում էլ հեղինակները լրացնում են իրենց նեյրոնային ցանցերի բնորոշ լռելյայն քաղաքականությունը ապագայում շրջակա միջավայրի վիճակի վերաբերյալ կանխատեսման արդյունքներով: Առաջին հոդվածում կանխատեսումը կիրառվում է տարբեր չափման փոփոխականների նկատմամբ, իսկ երկրորդում՝ կանխատեսումը կիրառվում է շրջակա միջավայրի և որպես այդպիսին գործակալի վարքագծի փոփոխությունների նկատմամբ։ Երկու դեպքում էլ դրական ամրապնդման հետ կապված նոսր ազդանշանը դառնում է շատ ավելի հարուստ և տեղեկատվական, ինչը թույլ է տալիս և՛ ավելի արագ սովորել, և՛ ավելի բարդ վարքագծի ձեռքբերում: Նման բարելավումները հասանելի են միայն այն մեթոդների դեպքում, որոնք օգտագործում են գրադիենտ ազդանշան, և ոչ այն մեթոդների դեպքում, որոնք գործում են «սև արկղի» սկզբունքով, ինչպիսին է ES-ը:

Բացի այդ, փորձից սովորելը և գրադիենտ մեթոդները շատ ավելի արդյունավետ են: Նույնիսկ այն դեպքերում, երբ հնարավոր էր որոշակի խնդիր ուսումնասիրել ES մեթոդով ավելի արագ, քան ուժեղացման ուսուցման միջոցով, շահույթը ձեռք էր բերվել այն պատճառով, որ ES ռազմավարությունը շատ անգամ ավելի շատ տվյալներ էր ներառում, քան RL-ի հետ: Անդրադառնալով այս դեպքում կենդանիների ուսուցման սկզբունքներին, մենք նշում ենք, որ ուրիշի օրինակից սովորելու արդյունքը դրսևորվում է շատ սերունդներից հետո, մինչդեռ երբեմն ինքնին ապրած մեկ իրադարձությունը բավական է, որ կենդանուն հավերժ սովորի դասը: Մինչդեռ հավանելը վերապատրաստում առանց օրինակների Թեև այն այնքան էլ չի տեղավորվում ավանդական գրադիենտ մեթոդների մեջ, այն շատ ավելի հասկանալի է, քան ES-ը: Կան, օրինակ, այնպիսի մոտեցումներ, ինչպիսիք են նյարդային էպիզոդիկ հսկողություն, որտեղ Q-արժեքները պահվում են մարզումների ժամանակ, որից հետո ծրագիրը ստուգում է դրանք նախքան գործողություններ ձեռնարկելը։ Արդյունքը գրադիենտ մեթոդ է, որը թույլ է տալիս սովորել, թե ինչպես լուծել խնդիրները շատ ավելի արագ, քան նախկինում: Նյարդային էպիզոդիկ հսկողության մասին հոդվածում հեղինակները նշում են մարդու հիպոկամպը, որն ի վիճակի է իրադարձության մասին տեղեկատվություն պահել նույնիսկ մեկ փորձից հետո և, հետևաբար, խաղում է. քննադատական ​​դեր հիշելու գործընթացում. Նման մեխանիզմները պահանջում են մուտք գործել գործակալի ներքին կազմակերպություն, ինչը նույնպես, ըստ սահմանման, անհնար է ES պարադիգմում:

Այսպիսով, ինչու չհամատեղել դրանք:

Հավանական է, որ այս հոդվածի մեծ մասը կարող է տպավորություն թողնել, որ ես պաշտպանում եմ RL մեթոդները: Այնուամենայնիվ, ես իրականում կարծում եմ, որ երկարաժամկետ հեռանկարում լավագույն լուծումը երկու մեթոդների համատեղումն է, որպեսզի յուրաքանչյուրն օգտագործվի այն իրավիճակներում, որոնցում լավագույնս համապատասխանում է: Ակնհայտ է, որ շատ ռեակտիվ քաղաքականության դեպքում կամ դրական ամրապնդման շատ հազվադեպ ազդանշաններով իրավիճակներում, ES-ը հաղթում է, հատկապես, եթե ձեր տրամադրության տակ ունեք հաշվողական հզորություն, որի վրա կարող եք զանգվածաբար զուգահեռ մարզումներ անցկացնել: Մյուս կողմից, ուժեղացման ուսուցման կամ վերահսկվող ուսուցման օգտագործմամբ գրադիենտ մեթոդները օգտակար կլինեն, երբ մենք հասանելի կլինենք լայնածավալ արձագանքներին և պետք է սովորենք, թե ինչպես լուծել խնդիրը արագ և ավելի քիչ տվյալներով:

Անդրադառնալով բնությանը, մենք գտնում ենք, որ առաջին մեթոդը, ըստ էության, հիմք է դնում երկրորդին: Ահա թե ինչու էվոլյուցիայի ընթացքում կաթնասունները զարգացրել են ուղեղներ, որոնք թույլ են տալիս նրանց չափազանց արդյունավետ սովորել շրջակա միջավայրից ստացվող բարդ ազդանշաններից: Այսպիսով, հարցը մնում է բաց. Միգուցե էվոլյուցիոն ռազմավարությունները մեզ կօգնեն հորինել արդյունավետ ուսուցման ճարտարապետություններ, որոնք նույնպես օգտակար կլինեն գրադիենտ ուսուցման մեթոդների համար: Ի վերջո, բնության կողմից գտած լուծումն իսկապես շատ հաջողված է։

Source: www.habr.com

Добавить комментарий