یک بازی خوب قدیمی از مخفی کاری می تواند یک آزمون عالی برای ربات های هوش مصنوعی (AI) باشد تا نشان دهد چگونه تصمیم می گیرند و با یکدیگر و اشیاء مختلف اطراف خود تعامل دارند.
در او
دانشمندان از روشی استفاده کرده اند که مدت هاست شهرت خود را به دست آورده است
برای آموزش هوش مصنوعی برای بازی مخفی کاری، دانشمندان از رویکردی به نام "اکتشاف غیرمستقیم" استفاده کردند که در آن عوامل آزادی کامل برای توسعه درک خود از دنیای بازی و توسعه استراتژی های برنده دارند. این شبیه به رویکرد یادگیری چند عاملی است که محققان در DeepMind از چندین سیستم هوش مصنوعی استفاده کردند
در یک بازی مخفی کاری، چندین مامور که وظیفه آنها مخفی شدن بود، مجبور شدند پس از یک ضربه سر خفیف در حالی که تیم ماموران جستجوگر بی حرکت بودند، از خط دید حریف خود دوری کنند. علاوه بر این، "خط دید" در این زمینه یک مخروط 135 درجه در مقابل یک ربات فردی است. ماموران نمیتوانستند خیلی دور از محوطه بازی بیرون بروند و مجبور شدند اتاقهایی را که بهطور تصادفی تولید میشد با قابلیت استفاده از برخی اشیاء خارجی (جعبهها، دیوارهای متحرک، رمپهای ویژه) که در اطراف پراکنده شده بودند که هم برای ایجاد پوشش و هم برای نفوذ در آنها مورد استفاده قرار میگرفت، حرکت کنند. .
عوامل هوش مصنوعی از طریق یک فرآیند طولانی یادگیری، شش استراتژی منحصر به فرد را یاد گرفتند که هر کدام به آنها کمک کرد تا به مرحله بعدی بازی بروند. در ابتدا تیم های جستجوگر و پنهان کننده به سادگی فرار می کردند و یکدیگر را تعقیب می کردند، اما پس از حدود 25 میلیون مسابقه، تیم پنهان کننده یاد گرفت که با جعبه ها گذرگاه ها را مسدود کند و از آنها پناهگاه بسازد. پس از 75 میلیون مسابقه دیگر، تیم راههایی برای استفاده از رمپ برای ورود به این مخفیگاهها کشف کرد. پس از 10 میلیون دور دیگر، پنهانکنندگان یاد گرفتند که رمپها را به لبه محوطه بازی بکشند و آنها را در جای خود قفل کنند تا از استفاده حریفان از آنها جلوگیری شود.
پس از 388 میلیون مسابقه، جویندگان یاد گرفتهاند که از رمپهای مسدود شده برای بالا رفتن از جعبههایی که به آنها آورده شده است، استفاده کنند و سپس، مستقیماً روی آنها حرکت کنند، به مخفیگاههای دشمن که از دیوارهای قابل حمل ایجاد شده است نفوذ کنند. و در نهایت، پس از 458 میلیون مسابقه، تیم پنهان کننده به این نتیجه رسیدند که باید همه اشیا را مسدود کرده و سپس یک پناهگاه بسازند که ظاهراً به پیروزی نهایی آنها منجر شد.
چیزی که به ویژه چشمگیر است این است که پس از 22 میلیون مسابقه، عوامل یاد گرفتند که اقدامات خود را هماهنگ کنند و کارایی همکاری آنها فقط در آینده افزایش یافت، به عنوان مثال، هر کدام جعبه یا دیوار خود را برای ایجاد یک پناهگاه آوردند و سهم خود را از اشیاء انتخاب کردند. بلاک کنید تا بازی برای حریفان دشوارتر شود.
دانشمندان همچنین به یک نکته مهم مربوط به تأثیر تعداد اشیاء آموزشی (مقدار داده ارسال شده از طریق شبکه عصبی - "اندازه دسته ای") بر سرعت یادگیری اشاره کردند. مدل پیشفرض به 132,3 میلیون مسابقه در طول 34 ساعت تمرین نیاز داشت تا به نقطهای برسد که تیم مخفیشده یاد بگیرد که رمپها را مسدود کند، در حالی که دادههای بیشتر منجر به کاهش قابل توجه زمان تمرین شد. به عنوان مثال، افزایش تعداد پارامترها (بخشی از داده های به دست آمده در کل فرآیند آموزش) از 0,5 میلیون به 5,8 میلیون، کارایی نمونه گیری را 2,2 برابر افزایش داد و افزایش حجم داده های ورودی از 64 کیلوبایت به 128 کیلوبایت باعث کاهش آموزش شد. زمان تقریبا یک و نیم بار.
در پایان کار، محققان تصمیم گرفتند آزمایش کنند که چقدر آموزش درون بازی می تواند به عوامل کمک کند تا با وظایف مشابه خارج از بازی کنار بیایند. در مجموع پنج آزمون وجود داشت: آگاهی از تعداد اشیاء (درک اینکه یک شیء به وجود خود ادامه می دهد حتی اگر خارج از دید باشد و استفاده نشده باشد). "قفل کردن و بازگشت" - توانایی به خاطر سپردن موقعیت اصلی و بازگشت به آن پس از انجام برخی کارهای اضافی. "انسداد متوالی" - 4 جعبه به طور تصادفی در سه اتاق بدون در قرار گرفتند، اما با رمپ هایی برای ورود به داخل، ماموران باید همه آنها را پیدا کرده و مسدود کنند. قرار دادن جعبه ها در سایت های از پیش تعیین شده؛ ایجاد پناهگاه در اطراف یک شی به شکل استوانه.
در نتیجه، در سه کار از پنج کار، رباتهایی که آموزشهای اولیه را در بازی گذرانده بودند، سریعتر یاد گرفتند و نتایج بهتری نسبت به هوش مصنوعی که برای حل مشکلات از ابتدا آموزش داده شده بود، نشان دادند. آنها در تکمیل کار و بازگشت به موقعیت شروع، به طور متوالی جعبهها را در اتاقهای بسته مسدود میکردند و جعبهها را در مناطق معین قرار میدادند کمی بهتر عمل میکردند، اما در تشخیص تعداد اشیاء و ایجاد پوشش در اطراف جسم دیگر کمی ضعیفتر عمل میکردند.
محققان نتایج متفاوتی را به نحوه یادگیری و به خاطر سپردن مهارتهای خاص توسط هوش مصنوعی نسبت میدهند. ما فکر میکنیم که وظایفی که در آنها پیشآموزش درونبازی به بهترین شکل انجام میشود، شامل استفاده مجدد از مهارتهای آموختهشده قبلی به روشی آشناست، در حالی که انجام کارهای باقی مانده بهتر از هوش مصنوعی آموزشدیده از ابتدا، نیازمند استفاده از آنها به شیوهای متفاوت است، که بسیار زیاد است. دشوارتر است»، نویسندگان همکار این اثر می نویسند. «این نتیجه نیاز به توسعه روشهایی را برای استفاده مجدد مؤثر از مهارتهای کسبشده از طریق آموزش هنگام انتقال آنها از یک محیط به محیط دیگر نشان میدهد».
کار انجام شده واقعاً چشمگیر است، زیرا چشم انداز استفاده از این روش آموزشی بسیار فراتر از محدودیت های هر بازی است. محققان می گویند کار آنها گام مهمی در جهت ایجاد هوش مصنوعی با رفتارهای «فیزیکی» و «شبیه انسان» است که می تواند بیماری ها را تشخیص دهد، ساختار مولکول های پروتئینی پیچیده را پیش بینی کند و سی تی اسکن را تجزیه و تحلیل کند.
در ویدیوی زیر به وضوح میتوانید ببینید که چگونه کل فرآیند یادگیری انجام شد، هوش مصنوعی چگونه کار تیمی را یاد گرفت و استراتژیهای آن بیشتر و بیشتر حیلهگر و پیچیدهتر شدند.
منبع: 3dnews.ru