Окууну бекемдөөбү же эволюциялык стратегиябы? - Экөө тең

Эй Хабр!

Биз бул жерде эки жыл мурун коду жок жана так академиялык мүнөздөгү тексттердин котормолорун жарыялоону көп чечпейбиз, бирок бүгүн биз өзгөчөлүктү жасайбыз. Макаланын аталышындагы дилемма биздин окурмандарыбыздын көбүн түйшөлтөт деп үмүттөнөбүз жана сиз эволюциялык стратегиялар боюнча фундаменталдуу эмгекти окуп чыктыңыз, анда бул пост түпнускада талашып-тартышат же азыр окуйсуз. кош келиңиз!

Окууну бекемдөөбү же эволюциялык стратегиябы? - Экөө тең

2017-жылдын март айында OpenAI кагазы менен терең үйрөнүү коомчулугунда толкундарды жаратты.Эволюциялык стратегиялар күчөтүлгөн окутуунун масштабдуу альтернативасы катары" Бул иш бекемдөөчү окутуу (RL) клин болуп калбагандыгынын пайдасына таасирдүү натыйжаларды сүрөттөгөн жана татаал нейрон тармактарын үйрөтүүдө башка ыкмаларды колдонуу максатка ылайыктуу. Кийинчерээк талаш-тартыштар күчөтүлгөн окутуунун маанилүүлүгү жана анын проблеманы чечүүнү үйрөтүү үчүн «болушу керек» технологиясы катары статусуна канчалык татыктуу экендиги жөнүндө болду. Бул жерде мен бул эки технологияны атаандаш катары кароого болбойт деп айткым келет, алардын бири экинчисинен жакшыраак; тескерисинче, алар акыры бири-бирин толуктап турат. Чынында эле, сиз түзүү үчүн эмне керектиги жөнүндө бир аз ойлонсоңуз жалпы AI жана мындай системалар, алар бар болгон бою үйрөнүүгө, баалоого жана пландаштырууга жөндөмдүү болсо, анда биз тигил же бул биргелешкен чечим талап кылынат деген тыянакка келебиз. Айтмакчы, табият дал ушул бириккен чечимге келип, сүт эмүүчүлөргө жана башка жогорку жаныбарларга эволюциянын жүрүшүндө комплекстүү акыл берген.

Эволюциялык стратегиялар

OpenAI кагазынын негизги тезиси салттуу артка пропагация менен айкалыштырылган бекемдөөчү окутууну колдонуунун ордуна, алар "эволюциялык стратегия" (ES) деп атаган нерсени колдонуп, татаал маселелерди чечүү үчүн нейрон тармагын ийгиликтүү үйрөтүшкөн. Бул ES ыкмасы параллелдүү иштеген бир нече агенттерди камтыган жана бул бөлүштүрүүдөн тандалган параметрлерди колдонуу менен тарамдардын жалпы тармагы боюнча бөлүштүрүлүшүн сактоодон турат. Ар бир агент өзүнүн чөйрөсүндө иштейт жана эпизоддун белгилүү бир саны же этаптары аяктагандан кийин, алгоритм фитнес упайы катары көрсөтүлгөн жыйынды сыйлыкты кайтарат. Бул маанини эске алуу менен, параметрлерди бөлүштүрүү азыраак ийгиликтүү агенттерден ажырап, ийгиликтүү агенттерге жылдырылышы мүмкүн. Жүздөгөн агенттердин катышуусу менен мындай операцияны миллиондогон жолу кайталоо менен, салмактарды бөлүштүрүүнү агенттерге жүктөлгөн милдетти чечүү үчүн жогорку сапаттагы саясатты түзүүгө мүмкүндүк бере турган мейкиндикке которууга болот. Чынында эле, макалада келтирилген натыйжалар таасирдүү: эгер сиз миң агентти параллелдүү иштетсеңиз, анда эки буттагы антропоморфтук кыймылды жарым саатка жетпеген убакытта үйрөнүүгө болот (ал эми эң алдыңкы RL ыкмалары дагы көбүрөөк сарптоолорду талап кылат) Бул боюнча бир сааттан ашык). Көбүрөөк маалымат алуу үчүн, мен эң сонун окууну сунуштайм кызмат эксперименттин авторлорунан, ошондой эле илимий макала.

Окууну бекемдөөбү же эволюциялык стратегиябы? - Экөө тең

OpenAIден ES ыкмасын колдонуу менен изилденген антропоморфтук тик басууну үйрөтүүнүн ар кандай стратегиялары.

кара куту

Бул ыкманын чоң пайдасы - аны оңой параллелдештирүүгө болот. RL ыкмалары, мисалы, A3C, жумушчу жиптер менен параметр серверинин ортосунда маалымат алмашууну талап кылса, ES фитнес баалоолорун жана жалпыланган параметр бөлүштүрүү маалыматын гана талап кылат. Мына ушундай жөнөкөйлүгүнөн улам бул ыкма масштабдоо мүмкүнчүлүктөрү боюнча заманбап RL методдорунан алда канча алдыда турат. Бирок, мунун баары бекер эмес: тармакты кара куту принцибине ылайык оптималдаштыруу керек. Бул учурда, "кара куту" окутуу учурунда тармактын ички түзүмү толугу менен этибарга алынбай, жалпы натыйжа гана (эпизод үчүн сыйлык) колдонулат жана бул белгилүү бир тармактын салмагы же жокпу, ага көз каранды экенин билдирет. кийинки муундарга мураска калат. Биз айлана-чөйрөдөн көп пикир ала албаган жагдайларда – жана көптөгөн салттуу RL көйгөйлөрүндө сыйлыктардын агымы өтө сейрек – көйгөй “жарым-жартылай кара кутудан” “толугу менен кара кутуга” чейин барат. Бул учурда, сиз олуттуу өндүрүмдүүлүгүн жогорулатууга болот, ошондуктан, албетте, мындай компромисс негиздүү. "Эгер алар үмүтсүз ызы-чуу болсо, градиенттердин кимге кереги бар?" - Бул жалпы пикир.

Бирок, пикир көбүрөөк активдүү болгон кырдаалдарда, ES үчүн нерселер туура эмес болуп баштайт. OpenAI командасы жөнөкөй MNIST классификация тармагы ES аркылуу кантип үйрөтүлгөнүн сүрөттөйт жана бул жолу окутуу 1000 эсе жайыраак болду. Чындыгында, сүрөттөлүштү классификациялоодогу градиент сигналы тармакты жакшыраак классификациялоону кантип үйрөтүү керектиги жөнүндө абдан маалыматтуу. Ошентип, көйгөй RL техникасында азыраак жана ызы-чуу градиенттерди жараткан чөйрөлөрдө сейрек сыйлыктар менен көбүрөөк болот.

Табияттын чечими

Эгерде биз AI өнүктүрүү жолдору жөнүндө ойлонуп, табияттын мисалынан үйрөнүүгө аракет кылсак, анда кээ бир учурларда AI катары каралышы мүмкүн. көйгөйгө багытталган мамиле. Анткени, табият компьютер илимпоздорунда жок чектөөлөр менен иштейт. Белгилүү бир маселени чечүүгө таза теориялык мамиле эмпирикалык альтернативаларга караганда натыйжалуураак чечимдерди бере алат деген пикир бар. Бирок, мен дагы эле белгилүү бир чектөөлөр астында иштеген динамикалык системанын (Жер) ийкемдүү жана татаал жүрүм-турумга жөндөмдүү агенттерди (жаныбарлар, айрыкча сүт эмүүчүлөр) кантип жаратканын сынап көрүү максатка ылайыктуу деп ойлойм. Бул чектөөлөрдүн айрымдары симуляцияланган маалымат дүйнөсүндө колдонулбаса да, башкалары жакшы.

Сүт эмүүчүлөрдүн интеллектуалдык жүрүм-турумун карап чыгып, анын бири-бири менен тыгыз байланышкан эки процесстин татаал өз ара таасиринин натыйжасында пайда болгонун көрөбүз: башкалардын тажрыйбасынан үйрөнүү и жасап үйрөнүү. Биринчиси көбүнчө табигый тандалуу менен шартталган эволюцияга теңелет, бирок бул жерде мен кененирээк терминди колдонуп, эпигенетиканы, микробиомаларды жана генетикалык жактан байланышы жок организмдердин ортосунда тажрыйба алмашууга мүмкүндүк берген башка механизмдерди эске алам. Экинчи процесс, тажрыйбадан үйрөнүү - бул жаныбардын өмүр бою үйрөнө алган бардык маалыматтары жана бул маалымат бул жаныбардын тышкы дүйнө менен болгон мамилеси менен түздөн-түз аныкталат. Бул категорияга объекттерди таанууну үйрөнүүдөн баштап окуу процессине мүнөздүү болгон коммуникацияны өздөштүрүүгө чейинки бардык нерсе кирет.

Болжол менен айтканда, жаратылышта болуп жаткан бул эки процессти нейрондук тармактарды оптималдаштыруунун эки варианты менен салыштырууга болот. Эволюциялык стратегиялар, анда градиенттер жөнүндө маалымат организм жөнүндө маалыматты жаңыртуу үчүн колдонулат, башкалардын тажрыйбасынан үйрөнүүгө жакындайт. Ошо сыяктуу эле, тигил же бул тажрыйбаны алуу агенттин жүрүм-турумунун тигил же бул өзгөрүшүнө алып келген градиенттик ыкмаларды өз тажрыйбасынан үйрөнүү менен салыштырууга болот. Бул эки ыкманын ар бири жаныбарларда кандай акылдуу жүрүм-турум же жөндөмдүүлүктөргө ээ экени жөнүндө ойлонсок, салыштыруу айкыныраак болот. Эки учурда тең "эволюциялык методдор" адамдын белгилүү бир фитнести (тирүү калуу үчүн жетиштүү) өнүктүрүүгө мүмкүндүк берген реактивдүү жүрүм-турумду изилдөөгө көмөктөшөт. Басууну же туткундан качууну үйрөнүү көп учурда генетикалык деңгээлдеги көптөгөн жаныбарларда "катуу зымдуу" болгон "инстинктивдүү" жүрүм-турумга барабар. Мындан тышкары, бул мисал эволюциялык ыкмалар сыйлык сигналы өтө сейрек кездешкен учурларда колдонулаарын тастыктайт (мисалы, баланы ийгиликтүү тарбиялоо фактысы). Мындай учурда сыйлыкты бул факты пайда болгонго чейин көп жылдар мурун жасалган кандайдыр бир конкреттүү иш-аракеттердин комплекси менен байланыштыруу мүмкүн эмес. Башка жагынан алып караганда, эгерде биз ES ийгиликсиз болгон учурду, тактап айтканда, сүрөт классификациясын карасак, натыйжалар 100-плюс жыл бою жүргүзүлгөн сансыз жүрүм-турумдук психологиялык эксперименттерде жетишилген жаныбарларды үйрөнүүнүн натыйжалары менен укмуштуудай салыштырууга болот.

Жаныбарлардан үйрөнүү

Окутууну бекемдөөдө колдонулган методдор көп учурда түздөн-түз психологиялык адабияттардан алынат оперативдүү кондициялоо, жана операнттык кондиция жаныбарлар психологиясын колдонуу менен изилденген. Баса, Ричард Саттон, бекемдөөчү окутуунун эки негиздөөчүлөрүнүн бири, психология боюнча бакалавр даражасына ээ. Операнттык шартташуу контекстинде жаныбарлар сыйлыкты же жазаны белгилүү бир жүрүм-турум үлгүлөрү менен байланыштырууга үйрөнүшөт. Тренерлер жана изилдөөчүлөр бул сыйлык бирикмесин тигил же бул жол менен башкара алышат, жаныбарларды интеллект же белгилүү бир жүрүм-турумдарды көрсөтүү үчүн провокациялай алышат. Бирок, жаныбарларды изилдөөдө колдонулган операнттук кондициялоо, жаныбарлар өмүр бою үйрөнгөн бир эле кондициялоонун ачык-айкын түрү. Биз дайыма айлана-чөйрөдөн позитивдүү бекемдөө сигналдарын алабыз жана ошого жараша жүрүм-турумубузду тууралайбыз. Чындыгында, көптөгөн нейробиологдор жана когнитивдик илимпоздор адамдар жана башка жаныбарлар чындыгында андан да жогорку деңгээлде иштешет жана потенциалдуу сыйлыктардын негизинде келечектеги кырдаалдарда алардын жүрүм-турумунун натыйжасын алдын ала билүүнү дайыма үйрөнүшөт деп эсептешет.

Тажрыйбадан үйрөнүүдө болжолдоонун борбордук ролу жогоруда сүрөттөлгөн динамикаларды олуттуу түрдө өзгөртөт. Мурда өтө сейрек (эпизоддук сыйлык) деп эсептелген сигнал абдан тыгыз болуп чыгат. Теориялык жактан алганда, абал мындай: каалаган убакта сүт эмүүчүлөрдүн мээси сезүү стимулдарынын жана аракеттеринин татаал агымынын негизинде жыйынтыктарды эсептеп жатат, ал эми жаныбар бул агымга жөн эле чөмүлдү. Бул учурда, жаныбардын акыркы жүрүм-туруму болжолдоолорду тууралоо жана жүрүм-турумду өнүктүрүү үчүн колдонулушу керек болгон күчтүү сигнал берет. Мээ бул сигналдардын баарын келечекте болжолдоолорду (жана, ошого жараша, аткарылган иш-аракеттердин сапатын) оптималдаштыруу үчүн колдонот. Бул ыкманын баяндамасы эң сонун китепте берилген "Серфинг белгисиздикКогнитивдүү илимпоз жана философ Энди Кларк. Эгерде биз мындай ой жүгүртүүнү жасалма агенттерди окутууга экстраполяция кылсак, анда бекемдөөчү окутуунун негизги кемчилиги ачылат: бул парадигмада колдонулган сигнал ал болушу мүмкүн (же болушу керек) менен салыштырганда үмүтсүз алсыз. Сигналдын каныккандыгын жогорулатуу мүмкүн болбогон учурларда (балким, ал табиятынан алсыз же төмөнкү деңгээлдеги реактивдүүлүк менен байланыштуу болушу мүмкүн), балким, жакшы параллелдештирилген окутуу ыкмасына артыкчылык берүү жакшыраак, мисалы, ES.

Нейрондук тармактарды көбүрөөк окутуу

Дайыма божомолдоо менен алек болгон сүт эмүүчүлөрдүн мээсине мүнөздүү жогорку нейрондук активдүүлүктүн принциптерине таянуу менен, азыр мындай болжолдоолордун маанилүүлүгүн эске алган бекемдөөчү окутууда акыркы жетишкендиктер болду. Мен дароо сизге окшош эки чыгарманы сунуш кыла алам:

Бул эки макалада тең авторлор өздөрүнүн нейрон тармактарынын типтүү демейки саясатын келечекте айлана-чөйрөнүн абалы жөнүндө болжолдоо натыйжалары менен толукташат. Биринчи макалада болжолдоо ар кандай өлчөө өзгөрмөлөрүнө карата колдонулат, ал эми экинчисинде болжолдоо чөйрөдөгү өзгөрүүлөргө жана агенттин жүрүм-турумуна колдонулат. Эки учурда тең, позитивдүү бекемдөө менен байланышкан сейрек сигнал тезирээк үйрөнүүгө жана татаал жүрүм-турумга ээ болууга мүмкүндүк берүүчү кыйла бай жана маалыматтуу болуп калат. Мындай өркүндөтүүлөр ES сыяктуу “кара куту” принцибинде иштеген методдордо эмес, градиент сигналын колдонгон методдордо гана жеткиликтүү.

Мындан тышкары, тажрыйбадан үйрөнүү жана градиенттик ыкмалар алда канча натыйжалуу. Ал тургай, ES ыкмасын колдонуу менен конкреттүү бир көйгөйдү үйрөнүү бекемдөөчү окутууну колдонууга караганда тезирээк изилдөө мүмкүн болгон учурларда да, ES стратегиясы RL менен караганда бир нече эсе көп маалыматтарды камтыгандыктан, натыйжага жетишилди. Бул окуяда жаныбарлардын үйрөнүү принциптери жөнүндө ой жүгүртүп, башка бирөөнүн үлгүсүнөн үйрөнүүнүн натыйжасы көптөгөн муундар өткөндөн кийин көрүнөөрүн, ал эми кээде өзү башынан өткөргөн бир эле окуя жаныбарга түбөлүк сабак алуу үчүн жетиштүү болоорун белгилейбиз. Жактырганда мисалдарсыз окутуу Ал салттуу градиенттик методдорго такыр туура келбесе да, ESге караганда алда канча түшүнүктүү. сыяктуу ыкмалар бар, мисалы нейрон эпизоддук башкаруу, бул жерде Q-баалуулуктар тренинг учурунда сакталат, андан кийин программа иш-аракеттерди жасоодон мурун аларды текшерет. Жыйынтыгында көйгөйлөрдү мурункуга караганда тезирээк чечүүнү үйрөнүүгө мүмкүндүк берген градиенттик ыкма. Нейрондук эпизоддук көзөмөл боюнча макалада авторлор адамдын гиппокампусу жөнүндө сөз кылышат, ал окуя тууралуу маалыматты бир эле тажрыйбадан кийин да сактап калууга жөндөмдүү жана ошондуктан, чечүүчү ролу эстөө процессинде. Мындай механизмдер агенттин ички уюмуна жетүүнү талап кылат, бул да аныктама боюнча ES парадигмасында мүмкүн эмес.

Анда эмне үчүн аларды бириктирүүгө болбойт?

Бул макаланын көбү мен RL ыкмаларын жактап жаткандай таасир калтырышы мүмкүн. Бирок, мен чындыгында, узак мөөнөттүү келечекте эң жакшы чечим бул эки ыкманы тең айкалыштыруу деп ойлойм, андыктан ар бири эң ылайыктуу болгон жагдайларда колдонулат. Албетте, көптөгөн реактивдүү саясаттарда же позитивдүү күчөтүүнүн өтө сейрек сигналдары болгон кырдаалдарда, ES жеңет, айрыкча, сизде эсептөө күчү бар болсо, анда сиз массалык параллелдүү машыгууларды өткөрө аласыз. Башка жагынан алганда, градиенттик методдорду бекемдөөчү окутууну же көзөмөлдүк окутууну колдонуу биз кеңири пикирге ээ болгондо жана маселени тез жана азыраак маалымат менен чечүүнү үйрөнүү керек болгондо пайдалуу болот.

Табиятка кайрыла турган болсок, биз биринчи ыкманын, маңызы боюнча, экинчинин пайдубалын түзөрүн көрөбүз. Мына ушундан улам, эволюциянын жүрүшүндө сүт эмүүчүлөр айлана-чөйрөдөн келген татаал сигналдардан абдан натыйжалуу үйрөнүүгө мүмкүндүк берген мээлерди өрчүтүштү. Демек, суроо ачык бойдон калууда. Балким, эволюциялык стратегиялар бизге градиенттик окутуу ыкмалары үчүн пайдалуу болгон эффективдүү окуу архитектураларын ойлоп табууга жардам берет. Анткени, табият тарабынан табылган чечим чындап эле абдан ийгиликтүү.

Source: www.habr.com

Комментарий кошуу