OpenAI د پټولو او لټون په لوبه کې د AI ټیم کار درس ورکوي

د پټولو او لټون یوه ښه زوړ فیشن لوبه د مصنوعي استخباراتو (AI) بوټو لپاره عالي ازموینه کیدی شي ترڅو وښیې چې دوی څنګه پریکړې کوي او د یو بل سره تعامل کوي او د دوی شاوخوا مختلف شیان.

په هغه کې نوې مقالهد OpenAI د څیړونکو لخوا خپور شوی، د غیر انتفاعي مصنوعي استخباراتو څیړنیز سازمان چې مشهور شوی دی د نړۍ اتلانو ته بریا د کمپیوټر لوبې ډوټا 2 کې، ساینس پوهان تشریح کوي چې څنګه د مصنوعي استخباراتو لخوا کنټرول شوي اجنټان روزل شوي ترڅو په مجازی چاپیریال کې د یو بل څخه په لټون او پټولو کې خورا پیچلي وي. د مطالعې پایلې ښودلې چې د دوه بوټو ټیم د متحدینو پرته د هر یو اجنټ په پرتله خورا مؤثره او ګړندی زده کوي.

OpenAI د پټولو او لټون په لوبه کې د AI ټیم کار درس ورکوي

ساینس پوهانو داسې طریقه کارولې چې د اوږدې مودې لپاره یې شهرت ګټلی دی د پیاوړتیا سره د ماشین زده کړه، په کوم کې چې مصنوعي هوښیارتیا په داسې چاپیریال کې ځای په ځای کیږي چې ورته نامعلوم وي ، پداسې حال کې چې د هغې سره د متقابل عمل ځینې لارې شتون لري ، په بیله بیا د دې عمل د یوې یا بلې پایلې لپاره د انعامونو او جریمې سیسټم. دا طریقه د AI وړتیا له امله خورا مؤثره ده چې په مجازی چاپیریال کې په خورا سرعت سره مختلف عملونه ترسره کړي، د یو شخص په پرتله ملیونونه ځله ګړندی چې تصور یې کولی شي. دا محاکمې او تېروتنې ته اجازه ورکوي چې د ورکړل شوې ستونزې حل کولو لپاره خورا مؤثره ستراتیژۍ ومومي. مګر دا طریقه یو څه محدودیتونه هم لري، د بیلګې په توګه، د چاپیریال رامینځته کول او د ډیری روزنیز دورې ترسره کول لوی کمپیوټري سرچینو ته اړتیا لري، او پروسه پخپله د AI کړنو پایلې د خپل هدف سره پرتله کولو لپاره دقیق سیسټم ته اړتیا لري. سربیره پردې ، پدې لاره کې د اجنټ لخوا ترلاسه شوي مهارتونه تشریح شوي دندې پورې محدود دي او هرڅومره ژر چې AI د دې سره مقابله زده کړي ، نور به پرمختګ ونلري.

د پټولو او لټون کولو لپاره د AI روزنې لپاره، ساینس پوهانو د "غیر مستقیم اکتشاف" په نوم یوه طریقه کارولې، دا هغه ځای دی چې اجنټان د لوبې نړۍ په اړه د دوی د پوهاوي پراختیا او ګټلو ستراتیژیو ته وده ورکولو لپاره بشپړه آزادي لري. دا د څو اجنټ زده کړې طریقې ته ورته دی چې په ډیپ مینډ کې څیړونکو کارولې کله چې ډیری مصنوعي استخباراتو سیسټمونه د زلزلې III ارینا کې د پرچم حالت د نیولو لپاره روزل شوي. لکه څنګه چې پدې حالت کې ، د AI اجنټان دمخه د لوبې قواعدو کې نه و روزل شوي ، مګر د وخت په تیریدو سره دوی لومړني ستراتیژیانې زده کړې او حتی د دې وړتیا درلوده چې څیړونکي د غیر معمولي حلونو سره حیران کړي.

د پټولو او لټون په لوبه کې، څو اجنټانو چې دنده یې پټول وو، اړتیا درلوده چې د لږ سر پیل وروسته د خپلو مخالفینو د لید څخه ډډه وکړي پداسې حال کې چې د لټون اجنټانو ټیم بې حرکته و. سربیره پردې ، پدې شرایطو کې "د لید کرښه" د انفرادي بوټ مخې ته د 135 درجې شنک دی. اجنټان نشي کولی د لوبې له ساحې څخه ډیر لرې لاړ شي او مجبور و چې په تصادفي ډول تولید شوي خونې حرکت وکړي چې د ځینې بهرني شیانو (بکسونو ، حرکت وړ دیوالونو ، ځانګړي ریمپونو) په شاوخوا کې ویشل شوي کارول کیدی شي چې د پوښ جوړولو او نفوذ کولو لپاره کارول کیدی شي. .

OpenAI د پټولو او لټون په لوبه کې د AI ټیم کار درس ورکوي

د اوږدې زده کړې پروسې له لارې، د AI اجنټانو شپږ ځانګړي ستراتیژۍ زده کړې، چې هر یو یې د لوبې راتلونکي مرحلې ته پرمختګ کې مرسته وکړه. په لومړي سر کې، د پټونکي او پټونکي ټیمونه په ساده ډول وتښتېدل او یو بل یې تعقیب کړل، مګر د نږدې 25 ملیون سیالیو وروسته، پټونکي ټیم د بکسونو سره د لارو بندول او له هغې څخه د سرپناه جوړول زده کړل. د نورو 75 ملیون سیالیو وروسته، ټیم دې پټنځایونو ته د رسیدو لپاره د ریمپ کارولو لارې وموندلې. د نورو 10 ملیون راؤنڈونو وروسته، پټونکي زده کړل چې د لوبې ساحې څنډې ته ریمپونه راوباسي او په ځای کې یې بند کړي ترڅو مخالفین د دوی کارولو مخه ونیسي.

OpenAI د پټولو او لټون په لوبه کې د AI ټیم کار درس ورکوي

د 388 ملیون سیالیو وروسته، غوښتونکو د بند شوي ریمپونو کارول زده کړل ترڅو دوی ته راوړل شوي کریټونو ته پورته شي، او بیا په مستقیم ډول دوی ته حرکت وکړي، د پور وړ دیوالونو څخه جوړ شوي د دښمن پټنځایونو ته ننوځي. او په نهایت کې، د 458 ملیون سیالیو وروسته، پټ ټیم دې پایلې ته ورسید چې دوی اړتیا لري چې ټول شیان بند کړي او بیا یو سرپناه رامینځته کړي، کوم چې په ښکاره ډول د دوی وروستۍ بریا لامل شوې.

هغه څه چې په ځانګړې توګه د پام وړ دي دا دي چې د 22 ملیون سیالیو وروسته، اجنټانو د خپلو کړنو همغږي کول زده کړل او د دوی د همکارۍ موثریت یوازې په راتلونکي کې زیات شو، د بیلګې په توګه، هر یو خپل بکس یا دیوال راوړي ترڅو د سرپناه جوړ کړي او د شیانو برخه یې غوره کړي. بلاک کړئ ترڅو مخالفینو ته دا خورا ستونزمنه لوبه وکړي.

OpenAI د پټولو او لټون په لوبه کې د AI ټیم کار درس ورکوي

ساینس پوهانو د زده کړې سرعت باندې د روزنې شیانو شمیر (د عصبي شبکې له لارې د معلوماتو مقدار - "بیچ اندازه") د نفوذ پورې اړوند مهم ټکی هم یادونه وکړه. ډیفالټ ماډل د روزنې په 132,3 ساعتونو کې 34 ملیون میچونو ته اړتیا لري ترڅو هغه ځای ته ورسیږي چیرې چې پټ ټیم د ریمپونو بندول زده کړل ، پداسې حال کې چې ډیر ډیټا د روزنې په وخت کې د پام وړ کمښت پایله درلوده. د مثال په توګه، د پیرامیټونو شمیر زیاتول (د ټول روزنې پروسې په جریان کې ترلاسه شوي ډیټا برخه) له 0,5 ملیون څخه 5,8 ملیون ته د نمونې اخیستنې موثریت 2,2 ځله زیات شوی ، او د ان پټ ډیټا اندازه له 64 KB څخه 128 KB ته کمول روزنه کمه کړې. وخت تقریبا یو نیم ځله.

OpenAI د پټولو او لټون په لوبه کې د AI ټیم کار درس ورکوي

د دوی د کار په پای کې، څیړونکو پریکړه وکړه چې دا ازموینه وکړي چې د لوبې دننه روزنه څومره د اجنټانو سره مرسته کولی شي د لوبې څخه بهر ورته دندو سره مقابله وکړي. په مجموع کې پنځه ازموینې وې: د شیانو د شمیر په اړه پوهاوی (په دې پوهیدل چې یو شی شتون لري حتی که دا د لید څخه بهر وي او نه کارول کیږي)؛ "لاک او بیرته راستنیدل" - د یو اصلي موقعیت په یادولو او د ځینې اضافي دندې بشپړولو وروسته بیرته راستنیدو وړتیا؛ "تسلطي بلاک کول" - 4 بکسونه په تصادفي ډول په دریو خونو کې پرته له دروازو موقعیت درلود، مګر د ننوتلو لپاره ریمپ سره، اجنټانو ته اړتیا درلوده چې دا ټول ومومي او بند کړي؛ په مخکې ټاکل شوي سایټونو کې د بکسونو ځای په ځای کول؛ د سلنډر په شکل د شیانو شاوخوا سرپناه رامینځته کول.

د پایلې په توګه، له پنځو څخه په دریو دندو کې، هغه بوټونه چې په لوبو کې یې ابتدايي روزنه ترلاسه کړې وه ګړندۍ زده کړه وکړه او د AI په پرتله یې غوره پایلې وښودې چې د سکریچ څخه د ستونزو حل کولو لپاره روزل شوي. دوی د دندې په بشپړولو او د پیل ځای ته د بیرته راستنیدو په برخه کې یو څه ښه ترسره کړل، په ترتیب سره په تړلو خونو کې د بکسونو بندول، او په ورکړل شویو سیمو کې بکسونه ځای پرځای کول، مګر د شیانو د شمیر په پیژندلو او د بل شی په شاوخوا کې د پوښ په جوړولو کې یو څه کمزوري ترسره کړل.

څیړونکي مخلوط پایلې ته منسوبوي چې AI څنګه ځینې مهارتونه زده کوي او یاد ساتي. "موږ فکر کوو چې هغه دندې چیرې چې د لوبې دمخه روزنې غوره ترسره کړې د پخوانۍ زده کړې مهارتونه په پیژندل شوي ډول له سره کارول شامل دي، پداسې حال کې چې د پاتې کارونو ترسره کول د AI په پرتله چې له سکریچ څخه روزل شوي دي په بل ډول کارولو ته اړتیا لري، کوم چې ډیر ډیر ستونزمن، د کار شریک لیکوالان ولیکئ. "دا پایله د روزنې له لارې ترلاسه شوي مهارتونه په مؤثره توګه د بیا کارولو لپاره میتودونو رامینځته کولو اړتیا په ګوته کوي کله چې دوی له یو چاپیریال څخه بل ته لیږدول کیږي."

ترسره شوی کار واقعیا اغیزمن دی، ځکه چې د دې تدریس میتود کارولو احتمال د هرې لوبې له حدودو څخه ډیر دی. څیړونکي وايي چې د دوی کار د "فزیک پر بنسټ" او "انسان په څیر" چلند سره د AI رامینځته کولو په لور یو مهم ګام دی چې کولی شي ناروغۍ تشخیص کړي ، د پیچلو پروټین مالیکولونو جوړښت وړاندوینه وکړي او د CT سکین تحلیل کړي.

په لاندې ویډیو کې تاسو په روښانه توګه لیدلی شئ چې د زده کړې ټوله پروسه څنګه ترسره شوه، څنګه AI ټیم کار زده کړ، او د هغې ستراتیژۍ ورځ تر بلې په زړه پورې او پیچلې شوې.



سرچینه: 3dnews.ru

Add a comment