OpenAI สอนการทำงานเป็นทีมของ AI ในเกมซ่อนหา

เกมซ่อนหาที่ล้าสมัยอาจเป็นการทดสอบที่ยอดเยี่ยมสำหรับบอทปัญญาประดิษฐ์ (AI) เพื่อสาธิตว่าพวกเขาตัดสินใจและโต้ตอบกันอย่างไรและวัตถุต่างๆ รอบตัวพวกเขา

ในตัวเขา บทความใหม่เผยแพร่โดยนักวิจัยจาก OpenAI องค์กรวิจัยปัญญาประดิษฐ์ที่ไม่แสวงหาผลกำไรที่โด่งดัง ชัยชนะเหนือแชมป์โลก ในเกมคอมพิวเตอร์ Dota 2 นักวิทยาศาสตร์บรรยายถึงวิธีที่เจ้าหน้าที่ควบคุมด้วยปัญญาประดิษฐ์ได้รับการฝึกฝนให้มีความซับซ้อนมากขึ้นในการค้นหาและซ่อนตัวจากกันและกันในสภาพแวดล้อมเสมือนจริง ผลการศึกษาแสดงให้เห็นว่าทีมบอทสองตัวเรียนรู้ได้อย่างมีประสิทธิภาพและเร็วกว่าเอเจนต์เดี่ยวๆ ที่ไม่มีพันธมิตร

OpenAI สอนการทำงานเป็นทีมของ AI ในเกมซ่อนหา

นักวิทยาศาสตร์ได้ใช้วิธีการที่ได้รับชื่อเสียงมายาวนาน การเรียนรู้ของเครื่องด้วยการเสริมแรงซึ่งปัญญาประดิษฐ์ถูกวางไว้ในสภาพแวดล้อมที่ปัญญาประดิษฐ์ไม่รู้จัก ในขณะที่มีวิธีโต้ตอบบางอย่างกับปัญญาประดิษฐ์ เช่นเดียวกับระบบการให้รางวัลและค่าปรับสำหรับผลลัพธ์ของการกระทำอย่างใดอย่างหนึ่ง วิธีนี้ค่อนข้างมีประสิทธิภาพเนื่องจากความสามารถของ AI ในการดำเนินการต่างๆ ในสภาพแวดล้อมเสมือนจริงด้วยความเร็วมหาศาล เร็วกว่าที่บุคคลจะจินตนาการได้หลายล้านเท่า ซึ่งช่วยให้สามารถลองผิดลองถูกเพื่อค้นหากลยุทธ์ที่มีประสิทธิภาพสูงสุดในการแก้ปัญหาที่กำหนด แต่แนวทางนี้ก็ยังมีข้อจำกัดอยู่บ้าง เช่น การสร้างสภาพแวดล้อมและการดำเนินการรอบการฝึกอบรมจำนวนมากต้องใช้ทรัพยากรการประมวลผลจำนวนมาก และกระบวนการเองก็ต้องการระบบที่แม่นยำในการเปรียบเทียบผลลัพธ์ของการกระทำของ AI กับเป้าหมาย นอกจากนี้ ทักษะที่ได้รับจากตัวแทนในลักษณะนี้จะถูกจำกัดไว้เฉพาะงานที่อธิบายไว้ และเมื่อ AI เรียนรู้ที่จะรับมือกับมัน ก็จะไม่มีการปรับปรุงเพิ่มเติมอีก

ในการฝึก AI ให้เล่นซ่อนหา นักวิทยาศาสตร์ใช้วิธีการที่เรียกว่า "การสำรวจแบบไร้ทิศทาง" ซึ่งเป็นจุดที่เจ้าหน้าที่มีอิสระอย่างสมบูรณ์ในการพัฒนาความเข้าใจในโลกของเกมและพัฒนากลยุทธ์เพื่อชัยชนะ ซึ่งคล้ายกับแนวทางการเรียนรู้แบบหลายตัวแทนที่นักวิจัยของ DeepMind ใช้ในระบบปัญญาประดิษฐ์หลายระบบ ได้รับการฝึกฝนให้เล่นโหมดยึดธงใน Quake III Arena. ในกรณีนี้ เจ้าหน้าที่ AI ไม่เคยได้รับการฝึกอบรมเกี่ยวกับกฎของเกมมาก่อน แต่เมื่อเวลาผ่านไป พวกเขาได้เรียนรู้กลยุทธ์พื้นฐาน และยังสามารถทำให้นักวิจัยประหลาดใจด้วยวิธีแก้ปัญหาที่ไม่สำคัญอีกด้วย

ในเกมซ่อนหา เจ้าหน้าที่หลายคนที่มีหน้าที่ซ่อนต้องหลบสายตาของคู่ต่อสู้หลังจากออกสตาร์ทเล็กน้อยในขณะที่ทีมค้นหาถูกตรึงไว้ ยิ่งไปกว่านั้น “แนวการมองเห็น” ในบริบทนี้คือกรวย 135 องศาต่อหน้าบอทแต่ละตัว ตัวแทนไม่สามารถออกไปนอกพื้นที่เล่นได้ไกลเกินไป และถูกบังคับให้สำรวจห้องที่สร้างขึ้นแบบสุ่มด้วยความสามารถในการใช้วัตถุภายนอกบางอย่าง (กล่อง กำแพงที่เคลื่อนย้ายได้ ทางลาดพิเศษ) ที่กระจัดกระจายอยู่รอบ ๆ ซึ่งสามารถใช้ทั้งเพื่อสร้างที่กำบังและแทรกซึมเข้าไปในนั้น .

OpenAI สอนการทำงานเป็นทีมของ AI ในเกมซ่อนหา

ผ่านกระบวนการเรียนรู้ที่ยาวนาน ตัวแทน AI ได้เรียนรู้หกกลยุทธ์ที่ไม่ซ้ำกัน ซึ่งแต่ละกลยุทธ์ช่วยให้พวกเขาก้าวหน้าไปสู่ขั้นต่อไปของเกม ในตอนแรก ทีมผู้ค้นหาและผู้ซ่อนเพียงแต่วิ่งหนีและไล่ตามกัน แต่หลังจากการแข่งขันประมาณ 25 ล้านนัด ทีมผู้ซ่อนได้เรียนรู้ที่จะกั้นทางเดินด้วยกล่องและสร้างที่พักพิงจากสิ่งเหล่านั้น หลังจากผ่านไปอีก 75 ล้านแมตช์ ทีมงานได้ค้นพบวิธีใช้ทางลาดเพื่อเข้าไปในที่ซ่อนเหล่านี้ หลังจากผ่านไปอีก 10 ล้านรอบ ผู้ซ่อนตัวได้เรียนรู้ที่จะลากทางลาดไปที่ขอบของพื้นที่เล่นและล็อคมันไว้เพื่อป้องกันไม่ให้คู่ต่อสู้ใช้งาน

OpenAI สอนการทำงานเป็นทีมของ AI ในเกมซ่อนหา

หลังจากการแข่งขัน 388 ล้านนัด ผู้ค้นหาได้เรียนรู้ที่จะใช้ทางลาดที่ขวางไว้เพื่อปีนขึ้นไปบนลังที่นำมาให้พวกเขา จากนั้นจึงเคลื่อนที่ตรงไปยังพวกมัน เพื่อเจาะที่ซ่อนของศัตรูที่สร้างจากกำแพงแบบพกพา และในที่สุด หลังจากผ่านไป 458 ล้านแมตช์ ทีมซ่อนตัวก็สรุปว่าพวกเขาจำเป็นต้องปิดกั้นสิ่งของทั้งหมด จากนั้นจึงสร้างที่พักพิง ซึ่งดูเหมือนจะนำไปสู่ชัยชนะครั้งสุดท้าย

สิ่งที่น่าประทับใจเป็นพิเศษคือหลังจากการแข่งขัน 22 ล้านแมตช์ ตัวแทนได้เรียนรู้ที่จะประสานงานการกระทำของตน และประสิทธิภาพของการทำงานร่วมกันจะเพิ่มขึ้นในอนาคต ตัวอย่างเช่น แต่ละคนนำกล่องหรือกำแพงของตัวเองมาเพื่อสร้างที่กำบังและเลือกสิ่งของที่จะแบ่งปัน บล็อกเพื่อทำให้เกมยากขึ้นสำหรับคู่ต่อสู้

OpenAI สอนการทำงานเป็นทีมของ AI ในเกมซ่อนหา

นักวิทยาศาสตร์ยังตั้งข้อสังเกตถึงจุดสำคัญที่เกี่ยวข้องกับอิทธิพลของจำนวนวัตถุการฝึกอบรม (จำนวนข้อมูลที่ส่งผ่านโครงข่ายประสาทเทียม - "ขนาดแบทช์") ต่อความเร็วในการเรียนรู้ โมเดลเริ่มต้นต้องใช้เวลาฝึกฝน 132,3 ล้านแมตช์ในระยะเวลา 34 ชั่วโมงเพื่อไปถึงจุดที่ทีมซ่อนตัวเรียนรู้ที่จะบล็อกทางลาด ขณะที่ข้อมูลเพิ่มเติมส่งผลให้เวลาการฝึกลดลงอย่างเห็นได้ชัด ตัวอย่างเช่น การเพิ่มจำนวนพารามิเตอร์ (ส่วนหนึ่งของข้อมูลที่ได้รับระหว่างกระบวนการฝึกอบรมทั้งหมด) จาก 0,5 ล้านเป็น 5,8 ล้าน เพิ่มประสิทธิภาพการสุ่มตัวอย่าง 2,2 เท่า และการเพิ่มขนาดของข้อมูลอินพุตจาก 64 KB เป็น 128 KB ช่วยลดการฝึกอบรม เวลาเกือบหนึ่งทุ่มครึ่ง

OpenAI สอนการทำงานเป็นทีมของ AI ในเกมซ่อนหา

เมื่อสิ้นสุดการทำงาน นักวิจัยได้ตัดสินใจทดสอบว่าการฝึกอบรมในเกมสามารถช่วยเจ้าหน้าที่รับมือกับงานที่คล้ายกันนอกเกมได้มากเพียงใด มีการทดสอบทั้งหมดห้าครั้ง: การรับรู้ถึงจำนวนวัตถุ (ทำความเข้าใจว่าวัตถุยังคงมีอยู่แม้ว่าจะอยู่นอกสายตาและไม่ได้ใช้) “ ล็อคและกลับ” - ความสามารถในการจดจำตำแหน่งเดิมและกลับสู่ตำแหน่งเดิมหลังจากทำงานเพิ่มเติมเสร็จสิ้น “การบล็อกตามลำดับ” - กล่อง 4 กล่องถูกสุ่มวางไว้ในห้องสามห้องที่ไม่มีประตู แต่มีทางลาดเพื่อเข้าไปข้างใน เจ้าหน้าที่จำเป็นต้องค้นหาและปิดกั้นพวกเขาทั้งหมด การวางกล่องบนไซต์ที่กำหนดไว้ สร้างที่กำบังรอบวัตถุในรูปทรงกระบอก

เป็นผลให้ในสามในห้างาน บอทที่ได้รับการฝึกเบื้องต้นในเกมจะเรียนรู้ได้เร็วกว่าและแสดงผลลัพธ์ได้ดีกว่า AI ที่ได้รับการฝึกฝนเพื่อแก้ไขปัญหาตั้งแต่เริ่มต้น พวกเขาทำงานได้ดีขึ้นเล็กน้อยเมื่อทำงานให้เสร็จสิ้นและกลับสู่ตำแหน่งเริ่มต้น โดยเรียงบล็อกกล่องในห้องปิดตามลำดับ และวางกล่องในพื้นที่ที่กำหนด แต่จะด้อยกว่าเล็กน้อยเมื่อจดจำจำนวนวัตถุและสร้างที่กำบังรอบๆ วัตถุอื่น

นักวิจัยถือว่าผลลัพธ์ที่หลากหลายขึ้นอยู่กับวิธีที่ AI เรียนรู้และจดจำทักษะบางอย่าง “เราคิดว่างานที่การฝึกฝนล่วงหน้าในเกมทำได้ดีที่สุดเกี่ยวข้องกับการนำทักษะที่เรียนรู้มาก่อนหน้านี้กลับมาใช้ใหม่ในลักษณะที่คุ้นเคย ในขณะที่การทำงานที่เหลือได้ดีกว่า AI ที่ได้รับการฝึกตั้งแต่เริ่มต้นจะต้องใช้ทักษะเหล่านั้นในลักษณะที่แตกต่างออกไป ซึ่งมาก ยากขึ้น” ผู้ร่วมเขียนผลงานเขียน “ผลลัพธ์นี้เน้นย้ำถึงความจำเป็นในการพัฒนาวิธีการนำทักษะที่ได้รับจากการฝึกอบรมกลับมาใช้ใหม่อย่างมีประสิทธิภาพ เมื่อถ่ายโอนทักษะเหล่านั้นจากสภาพแวดล้อมหนึ่งไปอีกสภาพแวดล้อมหนึ่ง”

งานที่ทำเสร็จแล้วน่าประทับใจมาก เนื่องจากโอกาสในการใช้วิธีการสอนนี้อยู่นอกเหนือขีดจำกัดของเกมใดๆ เลย นักวิจัยกล่าวว่างานของพวกเขาเป็นก้าวสำคัญในการสร้าง AI ด้วยพฤติกรรม "ตามหลักฟิสิกส์" และ "เหมือนมนุษย์" ซึ่งสามารถวินิจฉัยโรค ทำนายโครงสร้างของโมเลกุลโปรตีนที่ซับซ้อน และวิเคราะห์การสแกน CT

ในวิดีโอด้านล่าง คุณจะเห็นได้อย่างชัดเจนว่ากระบวนการเรียนรู้ทั้งหมดเกิดขึ้นได้อย่างไร AI เรียนรู้การทำงานเป็นทีมอย่างไร และกลยุทธ์ต่างๆ ก็มีไหวพริบและซับซ้อนมากขึ้นเรื่อยๆ



ที่มา: 3dnews.ru

เพิ่มความคิดเห็น