OpenAI کار گروهی هوش مصنوعی را در یک بازی پنهان و جستجو آموزش می دهد

یک بازی خوب قدیمی از مخفی کاری می تواند یک آزمون عالی برای ربات های هوش مصنوعی (AI) باشد تا نشان دهد چگونه تصمیم می گیرند و با یکدیگر و اشیاء مختلف اطراف خود تعامل دارند.

در او مقاله جدیدمنتشر شده توسط محققان OpenAI، یک سازمان غیرانتفاعی تحقیقاتی هوش مصنوعی که به شهرت رسیده است پیروزی مقابل قهرمانان جهان در بازی کامپیوتری Dota 2، دانشمندان توضیح می‌دهند که چگونه عواملی که توسط هوش مصنوعی کنترل می‌شوند، آموزش داده می‌شوند تا در جستجو و پنهان شدن از یکدیگر در یک محیط مجازی پیچیده‌تر باشند. نتایج این مطالعه نشان داد که تیمی متشکل از دو ربات به طور موثرتر و سریع‌تر از هر عاملی بدون متحد یاد می‌گیرند.

OpenAI کار گروهی هوش مصنوعی را در یک بازی پنهان و جستجو آموزش می دهد

دانشمندان از روشی استفاده کرده اند که مدت هاست شهرت خود را به دست آورده است یادگیری ماشین با تقویت، که در آن هوش مصنوعی در محیطی ناشناخته قرار می گیرد و در عین حال راه های خاصی برای تعامل با آن دارد و همچنین سیستمی از پاداش ها و جریمه ها برای یک یا آن نتیجه اقداماتش وجود دارد. این روش به دلیل توانایی هوش مصنوعی در انجام اقدامات مختلف در یک محیط مجازی با سرعت بسیار زیاد، میلیون ها برابر سریعتر از تصور یک شخص، کاملاً مؤثر است. این به آزمون و خطا اجازه می دهد تا موثرترین استراتژی ها را برای حل یک مشکل مشخص پیدا کند. اما این رویکرد محدودیت هایی نیز دارد، به عنوان مثال، ایجاد یک محیط و انجام چرخه های آموزشی متعدد به منابع محاسباتی عظیمی نیاز دارد و خود این فرآیند نیازمند یک سیستم دقیق برای مقایسه نتایج اقدامات هوش مصنوعی با هدف خود است. علاوه بر این، مهارت‌هایی که از این طریق توسط نماینده به دست می‌آید، محدود به کار توصیف شده است و زمانی که هوش مصنوعی یاد بگیرد که با آن کنار بیاید، هیچ پیشرفت دیگری وجود نخواهد داشت.

برای آموزش هوش مصنوعی برای بازی مخفی کاری، دانشمندان از رویکردی به نام "اکتشاف غیرمستقیم" استفاده کردند که در آن عوامل آزادی کامل برای توسعه درک خود از دنیای بازی و توسعه استراتژی های برنده دارند. این شبیه به رویکرد یادگیری چند عاملی است که محققان در DeepMind از چندین سیستم هوش مصنوعی استفاده کردند برای بازی در حالت ضبط پرچم در Quake III Arena آموزش دیدند. همانطور که در این مورد، عوامل هوش مصنوعی قبلاً در مورد قوانین بازی آموزش ندیده بودند، اما به مرور زمان استراتژی های اساسی را یاد گرفتند و حتی توانستند با راه حل های غیر ضروری محققان را غافلگیر کنند.

در یک بازی مخفی کاری، چندین مامور که وظیفه آنها مخفی شدن بود، مجبور شدند پس از یک ضربه سر خفیف در حالی که تیم ماموران جستجوگر بی حرکت بودند، از خط دید حریف خود دوری کنند. علاوه بر این، "خط دید" در این زمینه یک مخروط 135 درجه در مقابل یک ربات فردی است. ماموران نمی‌توانستند خیلی دور از محوطه بازی بیرون بروند و مجبور شدند اتاق‌هایی را که به‌طور تصادفی تولید می‌شد با قابلیت استفاده از برخی اشیاء خارجی (جعبه‌ها، دیوارهای متحرک، رمپ‌های ویژه) که در اطراف پراکنده شده بودند که هم برای ایجاد پوشش و هم برای نفوذ در آنها مورد استفاده قرار می‌گرفت، حرکت کنند. .

OpenAI کار گروهی هوش مصنوعی را در یک بازی پنهان و جستجو آموزش می دهد

عوامل هوش مصنوعی از طریق یک فرآیند طولانی یادگیری، شش استراتژی منحصر به فرد را یاد گرفتند که هر کدام به آنها کمک کرد تا به مرحله بعدی بازی بروند. در ابتدا تیم های جستجوگر و پنهان کننده به سادگی فرار می کردند و یکدیگر را تعقیب می کردند، اما پس از حدود 25 میلیون مسابقه، تیم پنهان کننده یاد گرفت که با جعبه ها گذرگاه ها را مسدود کند و از آنها پناهگاه بسازد. پس از 75 میلیون مسابقه دیگر، تیم راه‌هایی برای استفاده از رمپ برای ورود به این مخفیگاه‌ها کشف کرد. پس از 10 میلیون دور دیگر، پنهان‌کنندگان یاد گرفتند که رمپ‌ها را به لبه محوطه بازی بکشند و آن‌ها را در جای خود قفل کنند تا از استفاده حریفان از آنها جلوگیری شود.

OpenAI کار گروهی هوش مصنوعی را در یک بازی پنهان و جستجو آموزش می دهد

پس از 388 میلیون مسابقه، جویندگان یاد گرفته‌اند که از رمپ‌های مسدود شده برای بالا رفتن از جعبه‌هایی که به آنها آورده شده است، استفاده کنند و سپس، مستقیماً روی آنها حرکت کنند، به مخفیگاه‌های دشمن که از دیوارهای قابل حمل ایجاد شده است نفوذ کنند. و در نهایت، پس از 458 میلیون مسابقه، تیم پنهان کننده به این نتیجه رسیدند که باید همه اشیا را مسدود کرده و سپس یک پناهگاه بسازند که ظاهراً به پیروزی نهایی آنها منجر شد.

چیزی که به ویژه چشمگیر است این است که پس از 22 میلیون مسابقه، عوامل یاد گرفتند که اقدامات خود را هماهنگ کنند و کارایی همکاری آنها فقط در آینده افزایش یافت، به عنوان مثال، هر کدام جعبه یا دیوار خود را برای ایجاد یک پناهگاه آوردند و سهم خود را از اشیاء انتخاب کردند. بلاک کنید تا بازی برای حریفان دشوارتر شود.

OpenAI کار گروهی هوش مصنوعی را در یک بازی پنهان و جستجو آموزش می دهد

دانشمندان همچنین به یک نکته مهم مربوط به تأثیر تعداد اشیاء آموزشی (مقدار داده ارسال شده از طریق شبکه عصبی - "اندازه دسته ای") بر سرعت یادگیری اشاره کردند. مدل پیش‌فرض به 132,3 میلیون مسابقه در طول 34 ساعت تمرین نیاز داشت تا به نقطه‌ای برسد که تیم مخفی‌شده یاد بگیرد که رمپ‌ها را مسدود کند، در حالی که داده‌های بیشتر منجر به کاهش قابل توجه زمان تمرین شد. به عنوان مثال، افزایش تعداد پارامترها (بخشی از داده های به دست آمده در کل فرآیند آموزش) از 0,5 میلیون به 5,8 میلیون، کارایی نمونه گیری را 2,2 برابر افزایش داد و افزایش حجم داده های ورودی از 64 کیلوبایت به 128 کیلوبایت باعث کاهش آموزش شد. زمان تقریبا یک و نیم بار.

OpenAI کار گروهی هوش مصنوعی را در یک بازی پنهان و جستجو آموزش می دهد

در پایان کار، محققان تصمیم گرفتند آزمایش کنند که چقدر آموزش درون بازی می تواند به عوامل کمک کند تا با وظایف مشابه خارج از بازی کنار بیایند. در مجموع پنج آزمون وجود داشت: آگاهی از تعداد اشیاء (درک اینکه یک شیء به وجود خود ادامه می دهد حتی اگر خارج از دید باشد و استفاده نشده باشد). "قفل کردن و بازگشت" - توانایی به خاطر سپردن موقعیت اصلی و بازگشت به آن پس از انجام برخی کارهای اضافی. "انسداد متوالی" - 4 جعبه به طور تصادفی در سه اتاق بدون در قرار گرفتند، اما با رمپ هایی برای ورود به داخل، ماموران باید همه آنها را پیدا کرده و مسدود کنند. قرار دادن جعبه ها در سایت های از پیش تعیین شده؛ ایجاد پناهگاه در اطراف یک شی به شکل استوانه.

در نتیجه، در سه کار از پنج کار، ربات‌هایی که آموزش‌های اولیه را در بازی گذرانده بودند، سریع‌تر یاد گرفتند و نتایج بهتری نسبت به هوش مصنوعی که برای حل مشکلات از ابتدا آموزش داده شده بود، نشان دادند. آنها در تکمیل کار و بازگشت به موقعیت شروع، به طور متوالی جعبه‌ها را در اتاق‌های بسته مسدود می‌کردند و جعبه‌ها را در مناطق معین قرار می‌دادند کمی بهتر عمل می‌کردند، اما در تشخیص تعداد اشیاء و ایجاد پوشش در اطراف جسم دیگر کمی ضعیف‌تر عمل می‌کردند.

محققان نتایج متفاوتی را به نحوه یادگیری و به خاطر سپردن مهارت‌های خاص توسط هوش مصنوعی نسبت می‌دهند. ما فکر می‌کنیم که وظایفی که در آن‌ها پیش‌آموزش درون‌بازی به بهترین شکل انجام می‌شود، شامل استفاده مجدد از مهارت‌های آموخته‌شده قبلی به روشی آشناست، در حالی که انجام کارهای باقی مانده بهتر از هوش مصنوعی آموزش‌دیده از ابتدا، نیازمند استفاده از آنها به شیوه‌ای متفاوت است، که بسیار زیاد است. دشوارتر است»، نویسندگان همکار این اثر می نویسند. «این نتیجه نیاز به توسعه روش‌هایی را برای استفاده مجدد مؤثر از مهارت‌های کسب‌شده از طریق آموزش هنگام انتقال آنها از یک محیط به محیط دیگر نشان می‌دهد».

کار انجام شده واقعاً چشمگیر است، زیرا چشم انداز استفاده از این روش آموزشی بسیار فراتر از محدودیت های هر بازی است. محققان می گویند کار آنها گام مهمی در جهت ایجاد هوش مصنوعی با رفتارهای «فیزیکی» و «شبیه انسان» است که می تواند بیماری ها را تشخیص دهد، ساختار مولکول های پروتئینی پیچیده را پیش بینی کند و سی تی اسکن را تجزیه و تحلیل کند.

در ویدیوی زیر به وضوح می‌توانید ببینید که چگونه کل فرآیند یادگیری انجام شد، هوش مصنوعی چگونه کار تیمی را یاد گرفت و استراتژی‌های آن بیشتر و بیشتر حیله‌گر و پیچیده‌تر شدند.



منبع: 3dnews.ru

اضافه کردن نظر