🥇 د پیاوړتیا زده کړه یا تکامل ستراتیژیانې؟ - دواړه

اې حبره!

موږ اکثرا پریکړه نه کوو چې دلته د متنونو ژباړې پوسټ کړو چې دوه کاله زاړه وو، پرته له کوډ او په ښکاره ډول د اکاډمیک طبیعت - مګر نن به موږ یو استثناء وکړو. موږ امید لرو چې د مقالې په سرلیک کې رامینځته شوي مسایل زموږ ډیری لوستونکي اندیښمن کړي ، او تاسو دمخه د تکامل ستراتیژیو بنسټیز کار لوستلی وي چې دا پوسټ په اصل کې استدلال کوي یا اوس به یې ولولئ. بلی ته ښه راغلاست!

د 2017 په مارچ کې، OpenAI د کاغذ سره د ژورې زده کړې ټولنې کې څپې رامینځته کړې.د تکامل تګلارې د پیاوړتیا زده کړې لپاره د توزیع وړ بدیل په توګه" دې کار د دې حقیقت په حق کې اغیزمنې پایلې بیان کړې چې د تقویت زده کړې (RL) یوه څنډه نه ده رامینځته شوې ، او کله چې د پیچلي عصبي شبکو روزنه وي ، نو مشوره ورکول کیږي چې نور میتودونه هڅه وکړئ. بیا د پیاوړتیا زده کړې اهمیت او د تدریس ستونزې حل کولو لپاره د "لازمې" ټیکنالوژۍ په توګه د دې وضعیت د څرنګوالي په اړه بحث راپورته شو. دلته زه غواړم ووایم چې دا دوه ټیکنالوژي باید د سیالۍ په توګه ونه ګڼل شي، چې یو یې له بل څخه په ښکاره ډول ښه دی. برعکس، دوی په نهایت کې یو بل بشپړوي. په حقیقت کې ، که تاسو د هغه څه په اړه لږ فکر وکړئ چې رامینځته کولو ته اړتیا لري عمومي AI او داسې سیسټمونه، چې د دوی په ټول وجود کې به د زده کړې، قضاوت او پلان کولو توان ولري، نو موږ به یقینا دې پایلې ته ورسیږو چې دا یا هغه ګډ حل ته اړتیا وي. په هرصورت، دا دقیقا دا ګډ حل و چې طبیعت ورته راغی، کوم چې د تی لرونکو حیواناتو او نورو لوړو حیواناتو د تکامل په جریان کې پیچلي هوښیارتیا درلوده.

د تکامل تګلارې

د OpenAI مقالې اصلي مقاله دا وه چې د دودیز بیک پروپاګیشن سره یوځای د تقویه کولو زده کړې کارولو پرځای، دوی په بریالیتوب سره د عصبي شبکه روزلې ترڅو پیچلې ستونزې حل کړي د هغه څه په کارولو سره چې دوی یې د "تقویقي ستراتیژۍ" (ES) په نوم یادوي. د ES کړنلاره د شبکې په کچه د وزنونو ویش ساتل شامل دي، چې ډیری اجنټان په موازي توګه کار کوي او د دې ویش څخه غوره شوي پیرامیټونه کاروي. هر اجنټ په خپل چاپیریال کې کار کوي، او د یوې ځانګړې پیښې یا مرحلې د ټاکل شوي شمیر بشپړولو وروسته، الګوریتم مجموعي انعام بیرته راولي، چې د فټنس سکور په توګه څرګند شوی. د دې ارزښت په پام کې نیولو سره، د پیرامیټونو ویش د ډیرو بریالي استازو په لور لیږدول کیدی شي، چې لږ بریالي کسان یې بې برخې کوي. د دې ډول عملیاتو په ملیونونه ځله تکرار سره د سلګونو استازو په ګډون ، دا ممکنه ده چې د وزنونو توزیع داسې ځای ته لاړ شي چې اجنټانو ته اجازه ورکړي چې دوی ته د ټاکل شوي دندې حل کولو لپاره د لوړ کیفیت پالیسي جوړه کړي. په حقیقت کې، په مقاله کې وړاندې شوي پایلې اغیزمنې دي: دا ښودل شوي چې که تاسو په موازي توګه زر اجنټان چلوئ، نو په دوو پښو کې د انټروپومورفیک لوکوموشن له نیم ساعت څخه لږ وخت کې زده کیدی شي (پداسې حال کې چې د RL خورا پرمختللي میتودونه ډیر لګښت ته اړتیا لري. په دې اړه د یو ساعت څخه زیات). د نورو تفصيلي معلوماتو لپاره ، زه د عالي لوستلو وړاندیز کوم پوسته د تجربې لیکوالانو څخه، او همدارنګه علمي مقاله.

د انتروپومورفیک مستقیم چلولو ښوونې لپاره مختلف ستراتیژۍ، د OpenAI څخه د ES میتود په کارولو سره مطالعه شوي.

تور بکس

د دې میتود لویه ګټه دا ده چې دا په اسانۍ سره موازي کیدی شي. پداسې حال کې چې د RL میتودونه، لکه A3C، د کارګر تارونو او د پیرامیټر سرور تر مینځ د تبادلې لپاره معلوماتو ته اړتیا لري، ES یوازې د فټنس اټکلونو او د پیرامیټ توزیع عمومي معلوماتو ته اړتیا لري. دا د دې سادګۍ له امله دی چې دا میتود د پیمانه کولو وړتیاو له مخې د عصري RL میتودونو څخه خورا مخکې دی. په هرصورت، دا ټول بې ګټې ندي: تاسو باید د تور بکس اصولو سره سم شبکه اصلاح کړئ. په دې حالت کې، د "تور بکس" معنی دا ده چې د روزنې په جریان کې د شبکې داخلي جوړښت په بشپړه توګه له پامه غورځول کیږي، او یوازې ټولیزه پایله (د قسط لپاره انعام) کارول کیږي، او دا پدې پورې اړه لري چې آیا د یوې ځانګړې شبکې وزن به وي. د راتلونکو نسلونو لخوا په میراث پاتې شي. په داسې شرایطو کې چې موږ د چاپیریال څخه ډیر فیډبیک نه ترلاسه کوو - او په ډیری دودیزو RL ستونزو کې د انعام جریان خورا لږ دی - ستونزه د "جزوي تور بکس" څخه "په بشپړ ډول تور بکس" ته ځي. په دې حالت کې، تاسو کولی شئ د پام وړ محصول زیات کړئ، نو البته، دا ډول جوړجاړی توجیه کیږي. "څوک تدریجي ته اړتیا لري که دوی په هرصورت نا امیده شور وي؟" - دا عمومي نظر دی.

په هرصورت، په داسې شرایطو کې چې فیډبیک ډیر فعال وي، شیان د ES لپاره غلط پیل کیږي. د OpenAI ټیم تشریح کوي چې څنګه د ES په کارولو سره د MNIST ډلبندۍ ساده شبکه روزل شوې، او دا ځل روزنه 1000 ځله ورو وه. حقیقت دا دی چې د عکس ډلبندۍ کې د تدریجي سیګنال خورا معلوماتي دی چې څنګه د شبکې غوره طبقه بندي زده کړي. په دې توګه، ستونزه د RL تخنیک سره کمه ده او په چاپیریال کې د لږو انعامونو سره چې د شور ګریډینټ تولیدوي.

د طبیعت د حل لاره

که موږ هڅه وکړو چې د طبیعت له مثال څخه زده کړو، د AI د پراختیا لپاره د لارو چارو په اړه فکر وکړو، نو په ځینو مواردو کې د AI په اړه فکر کیدی شي. د ستونزې پر بنسټ چلند. په هرصورت، طبیعت د محدودیتونو دننه کار کوي چې کمپیوټر ساینس پوهان په ساده ډول نه لري. داسې نظر شتون لري چې د یوې ځانګړې ستونزې د حل لپاره خالص نظري چلند کولی شي د تجربوي بدیلونو په پرتله ډیر اغیزمن حلونه وړاندې کړي. په هرصورت، زه لاهم فکر کوم چې دا به د ارزښت وړ وي چې دا ازموینه وکړو چې څنګه یو متحرک سیسټم د ځینې محدودیتونو لاندې کار کوي (ځمکه) اجنټان (حیوانات، په ځانګړې توګه تی لرونکي) تولید کړي چې د انعطاف وړ او پیچلي چلند وړتیا لري. پداسې حال کې چې د دې محدودیتونو څخه ځینې د ډیټا ساینس نړۍ کې نه پلي کیږي، نور یوازې ښه دي.

د تی لرونکو حیواناتو د فکري چلند په معاینه کولو سره، موږ ګورو چې دا د دوه نږدې تړلو پروسو د پیچلي متقابل نفوذ په پایله کې رامینځته کیږي: د نورو له تجربو څخه زده کړه и په کولو سره زده کړه. پخوانی اکثرا د طبیعي انتخاب لخوا پرمخ وړل شوي تکامل سره مساوي کیږي ، مګر دلته زه پراخه اصطلاح کاروم ترڅو ایپیګینیټکس ، مایکرو بایومونه ، او نور میکانیزمونه په پام کې ونیسم چې د جینیکي پلوه غیر اړونده ارګانیزمونو ترمینځ د تجربو شریکولو وړتیا ورکوي. دویمه پروسه، د تجربې څخه زده کړه، ټول هغه معلومات دي چې یو حیوان د خپل ژوند په اوږدو کې زده کوي، او دا معلومات په مستقیم ډول د بهرنۍ نړۍ سره د دې حیوان د تعامل له لارې ټاکل کیږي. په دې کټګورۍ کې د شیانو پیژندلو له زده کړې څخه نیولې تر زده کړې پروسې کې د مخابراتو د مهارت ترلاسه کولو پورې هرڅه شامل دي.

په لنډه توګه، دا دوه پروسې چې په طبیعت کې واقع کیږي د عصبي شبکو د ښه کولو لپاره دوه اختیارونو سره پرتله کیدی شي. د تکامل ستراتیژۍ، چیرې چې د تدریجي معلوماتو په اړه معلومات د ژوندیزم په اړه د معلوماتو تازه کولو لپاره کارول کیږي، د نورو تجربو څخه زده کړې ته نږدې کیږي. په ورته ډول، تدریجي میتودونه، چیرې چې د یوې یا بلې تجربې ترلاسه کول د اجنټ په چلند کې د یو یا بل بدلون لامل کیږي، د خپل تجربې څخه د زده کړې سره د پرتلې وړ دي. که موږ د هوښیار چلند یا وړتیاو ډولونو په اړه فکر وکړو چې د دې دوه چلندونو څخه هر یو په حیواناتو کې وده کوي ، پرتله کول خورا څرګند کیږي. په دواړو حالتونو کې، "ترقۍ میتودونه" د غبرګوني چلندونو مطالعې ته وده ورکوي چې یو څوک ته اجازه ورکوي چې یو ځانګړي فټنس رامینځته کړي (د ژوندي پاتې کیدو لپاره کافي). له بند څخه د تګ یا تیښتې زده کول په ډیری قضیو کې د ډیرو "فطري" چلندونو سره مساوي دي چې په جینیاتي کچه په ډیری څارویو کې "سخت تار" دي. برسېره پر دې، دا مثال تاییدوي چې ارتقايي میتودونه په هغه قضیو کې پلي کیږي چیرې چې د انعام سیګنال خورا نادر وي (د مثال په توګه، د ماشوم بریالیتوب حقیقت). په داسې حالت کې دا ناشونې ده چې اجر د کوم ځانګړي عمل سره تړاو ولري چې ممکن د دې حقیقت له ظهور څخه څو کاله مخکې ترسره شوي وي. له بلې خوا، که موږ یوه قضیه په پام کې ونیسو په کوم کې چې ES ناکامیږي، د بیلګې په توګه د انځور درجه بندي، پایلې د 100 څخه زیاتو کلونو په اوږدو کې د بې شمیره چلند رواني تجربو کې ترلاسه شوي د څارویو زده کړې پایلو سره د پام وړ پرتله کول دي.

له حیواناتو زده کړه

هغه میتودونه چې د پیاوړتیا زده کړې کې کارول کیږي په ډیری قضیو کې مستقیم د رواني ادبياتو څخه اخیستل کیږي عملیاتي کنډیشن، او عملیاتي حالت د څارویو ارواپوهنې په کارولو سره مطالعه شوی. په هرصورت، ریچارډ سټون، د پیاوړتیا زده کړې له دوو بنسټ ایښودونکو څخه یو، په ارواپوهنه کې د لیسانس سند لري. د عملیاتي حالت په شرایطو کې، څارویان زده کوي چې انعام یا مجازات د ځانګړي چلند نمونو سره شریک کړي. روزونکي او څیړونکي کولی شي دا انعام اتحادیه په یو ډول یا بل ډول اداره کړي، څارویان هڅوي چې د استخباراتو یا ځینې چلندونو ښودنه وکړي. په هرصورت، عملیاتي کنډیشن، لکه څنګه چې د څارویو په څیړنه کې کارول کیږي، د ورته کنډکیشن یو ډیر څرګند شکل څخه پرته بل څه ندي چې پر بنسټ یې څاروی د خپل ژوند په اوږدو کې زده کوي. موږ په دوامداره توګه د چاپیریال څخه د مثبت پیاوړتیا نښې ترلاسه کوو او د هغې مطابق خپل چلند تنظیم کوو. په حقیقت کې ډیری عصبي ساینس پوهان او ادراکي ساینس پوهان پدې باور دي چې انسانان او نور حیوانات واقعیا حتی په لوړه کچه کار کوي او په دوامداره توګه زده کوي چې د احتمالي انعامونو پراساس په راتلونکي حالتونو کې د دوی د چلند پایلو وړاندوینه وکړي.

د تجربې څخه په زده کړه کې د وړاندوینې مرکزي رول د پام وړ لارو کې پورته بیان شوي متحرکات بدلوي. هغه سیګنال چې مخکې یې ډیر لږ ګڼل کیده (د قسط انعام) ډیر کثافت وګرځید. په تیوريکي توګه، وضعیت یو څه داسې دی: په هر وخت کې، د تی لرونکي مغز د حسي محرکاتو او عملونو د پیچلي جریان پراساس پایلې محاسبه کوي، پداسې حال کې چې حیوان په ساده ډول په دې جریان کې ډوب شوی. په دې حالت کې، د څارویو وروستی چلند یو قوي سیګنال ورکوي چې باید د وړاندوینې تنظیم کولو او د چلند پراختیا لارښود لپاره وکارول شي. مغز دا ټول سیګنالونه په راتلونکي کې د وړاندوینو د ښه کولو لپاره کاروي (او په وینا یې د عملونو کیفیت). د دې تګلارې یوه عمومي کتنه په غوره کتاب کې ورکړل شوې ده "د سرفنګ ناڅرګندتیاادراکي ساینس پوه او فیلسوف انډي کلارک. که موږ دا ډول استدلال د مصنوعي اجنټانو روزنې ته وسپارو، نو د پیاوړتیا زده کړې کې یو بنسټیز نیمګړتیا په ګوته کیږي: په دې تمثیل کې کارول شوي سیګنال د هغه څه په پرتله چې کیدی شي (یا باید وي) په پرتله نا امیده کمزوری وي. په هغه حالتونو کې چې د سیګنال سنتریت زیاتول ناممکن دي (شاید دا چې دا په طبیعي ډول ضعیف وي یا د ټیټ کچې عکس العمل سره تړاو لري) ، نو شاید غوره وي چې د روزنې میتود غوره کړئ چې ښه موازي وي ، د مثال په توګه ، ES.

د عصبي شبکو بډایه روزنه

د تی لرونکي مغز کې د لوړ عصبي فعالیت اصولو رامینځته کول ، کوم چې په دوامداره توګه د وړاندوینو په کولو بوخت وي ، د تقویت زده کړې کې وروستي پرمختګونه شوي ، کوم چې اوس د داسې وړاندوینو اهمیت په پام کې نیسي. زه سمدلاسه تاسو ته دوه ورته کارونه وړاندیز کولی شم:

په دې دواړو کاغذونو کې، لیکوالان په راتلونکي کې د چاپیریال د حالت په اړه د وړاندوینې پایلو سره د دوی د عصبي شبکو عادي ډیفالټ پالیسي ضمیمه کوي. په لومړۍ مقاله کې، وړاندوینه د اندازه کولو په مختلفو متغیرونو باندې تطبیق کیږي، او په دویمه برخه کې، وړاندوینه په چاپیریال کې بدلونونو او د اجنټ په چلند کې پلي کیږي. په دواړو حالتونو کې، د مثبت تقویت سره تړلی سپارس سیګنال خورا بډایه او ډیر معلوماتي کیږي، د چټک زده کړې او د ډیرو پیچلو چلندونو استملاک دواړو ته اجازه ورکوي. دا ډول پرمختګونه یوازې د هغو میتودونو سره شتون لري چې د تدریجي سیګنال کاروي، او نه د هغو میتودونو سره چې د "تور بکس" اصولو باندې کار کوي، لکه ES.

برسېره پردې، د تجربې او تدریجي میتودونو څخه زده کړه خورا اغیزمنه ده. حتی په هغو قضیو کې چې ممکنه وه چې د ES میتود په کارولو سره د یوې ځانګړې ستونزې مطالعه د تقویت زده کړې کارولو په پرتله ګړندۍ شي ، لاسته راوړنه د دې حقیقت له امله ترلاسه شوې چې د ES ستراتیژي د RL په پرتله څو ځله ډیر ډیټا پکې شامله وه. په دې قضیه کې په حیواناتو کې د زده کړې اصولو ته په پام سره، موږ یادونه کوو چې د بل چا د مثال څخه د زده کړې پایله د ډیرو نسلونو وروسته څرګندیږي، پداسې حال کې چې ځینې وختونه پخپله تجربه شوي یوه پیښه د تل لپاره د حیوان لپاره کافي وي. پداسې حال کې چې په څیر پرته د مثالونو روزنه پداسې حال کې چې دا په دودیز تدریجي میتودونو کې مناسب نه دی ، دا د ES په پرتله خورا ډیر د پوهیدو وړ دی. د بیلګې په توګه، داسې طریقې شتون لري لکه د عصبي پیښو کنټرول، چیرې چې د Q- ارزښتونه د روزنې په جریان کې زیرمه شوي ، وروسته له دې چې برنامه د عمل کولو دمخه دوی چیک کوي. پایله یو تدریجي میتود دی چې تاسو ته اجازه درکوي زده کړئ چې څنګه د پخوا په پرتله خورا ګړندي ستونزې حل کړئ. د عصبي پیښو کنټرول په اړه په یوه مقاله کې ، لیکوالان د انسان هپپوکیمپس یادونه کوي ، کوم چې د یوې تجربې وروسته حتی د پیښې په اړه معلومات ساتي او له همدې امله لوبې کوي. مهم رول د یادولو په بهیر کې. دا ډول میکانیزمونه د اجنټ داخلي سازمان ته لاسرسی ته اړتیا لري، کوم چې د تعریف له مخې، د ES تمثیل کې ناممکن دی.

نو، ولې دوی یوځای نه کړئ؟

احتمال لري چې د دې مقالې ډیره برخه دا تاثر پریږدي چې زه د RL میتودونو ملاتړ کوم. په هرصورت، زه واقعیا فکر کوم چې په اوږد مهال کې غوره حل د دواړو میتودونو سره یوځای کول دي، نو هر یو په هغه شرایطو کې کارول کیږي چې دا خورا مناسب وي. په ښکاره ډول ، د ډیری عکس العمل پالیسیو په حالت کې یا په داسې شرایطو کې چې د مثبت تقویت خورا لږ نښو سره ، ES وګټي ، په ځانګړي توګه که تاسو په خپل اختیار کې کمپیوټري ځواک ولرئ چې تاسو کولی شئ په پراخه کچه موازي روزنه پرمخ وړئ. له بلې خوا، د تقویت زده کړې یا څارل شوي زده کړې کارولو تدریجي میتودونه به ګټور وي کله چې موږ پراخه فیډبیک ته لاس رسی ولرو او اړتیا لرو چې زده کړه وکړو چې څنګه ستونزه په چټکۍ او لږ معلوماتو سره حل کړو.

طبیعت ته اړول، موږ ګورو چې لومړۍ طریقه، په اصل کې، د دویم لپاره بنسټ کېږدي. له همدې امله، د تکامل په جریان کې، تی لرونکو مغزونو ته وده ورکړه چې دوی ته اجازه ورکوي چې د چاپیریال څخه د پیچلو سیګنالونو څخه خورا اغیزمنه زده کړه وکړي. نو، پوښتنه خلاصه پاتې ده. شاید تکامل ستراتیژۍ به موږ سره د زده کړې مؤثره جوړښتونو په ایجاد کې مرسته وکړي چې د تدریجي زده کړې میتودونو لپاره به هم ګټور وي. په هرصورت، د طبیعت لخوا موندل شوی حل واقعیا خورا بریالی دی.

سرچینه: www.habr.com

د پیاوړتیا زده کړه یا تکامل ستراتیژۍ؟ - دواړه