การเล่นเป็นทีมของ DeepMind AI Masters และเหนือกว่ามนุษย์ใน Quake III

Capture the flag เป็นโหมดการแข่งขันที่ค่อนข้างง่ายซึ่งพบได้ในเกมยิงยอดนิยมหลายเกม แต่ละทีมจะมีเครื่องหมายอยู่ที่ฐาน และเป้าหมายคือการยึดเครื่องหมายของฝ่ายตรงข้ามและนำมันมาสู่ตัวมันเองได้สำเร็จ อย่างไรก็ตาม สิ่งที่ง่ายสำหรับมนุษย์ที่จะเข้าใจนั้นไม่ใช่เรื่องง่ายสำหรับเครื่องจักร ในการจับภาพธง ตัวละครที่ไม่ใช่ผู้เล่น (บอท) จะถูกตั้งโปรแกรมแบบดั้งเดิมโดยใช้การวิเคราะห์พฤติกรรมและอัลกอริธึมง่ายๆ ที่ให้อิสระในการเลือกอย่างจำกัด และด้อยกว่ามนุษย์อย่างมาก แต่ปัญญาประดิษฐ์และการเรียนรู้ของเครื่องสัญญาว่าจะเปลี่ยนแปลงสถานการณ์นี้ไปโดยสิ้นเชิง

В статьеซึ่งตีพิมพ์ในวารสาร Science ในสัปดาห์นี้ประมาณหนึ่งปีให้หลัง พิมพ์ล่วงหน้าเช่นเดียวกับใน บล็อกของคุณนักวิจัยจาก DeepMind ซึ่งเป็นบริษัทในเครือของ Alphabet ในลอนดอน อธิบายถึงระบบที่ไม่เพียงแต่เรียนรู้การเล่นยึดธงบนแผนที่ Quake III Arena ของ id Software เท่านั้น แต่ยังพัฒนากลยุทธ์ของทีมใหม่ทั้งหมด โดยไม่ด้อยกว่ามนุษย์เลย

การเล่นเป็นทีมของ DeepMind AI Masters และเหนือกว่ามนุษย์ใน Quake III

“ไม่มีใครบอก AI ว่าจะเล่นเกมนี้อย่างไร มีเพียงผลลัพธ์เท่านั้น ไม่ว่า AI จะเอาชนะคู่ต่อสู้ได้หรือไม่ก็ตาม ข้อดีของการใช้วิธีนี้คือคุณไม่มีทางรู้ได้เลยว่าพฤติกรรมจะเกิดขึ้นอย่างไรเมื่อคุณฝึกเจ้าหน้าที่” Max Jaderberg นักวิทยาศาสตร์การวิจัยของ DeepMind ซึ่งเคยทำงานเกี่ยวกับระบบการเรียนรู้ของเครื่อง AlphaStar กล่าว (ล่าสุดคือ ทะลุ ทีมงานมืออาชีพของมนุษย์ใน StarCraft II) เขาอธิบายเพิ่มเติมว่าวิธีการหลักในการทำงานใหม่ของพวกเขาคือ ประการแรก การเรียนรู้แบบเสริมกำลัง ซึ่งใช้ระบบการให้รางวัลประเภทหนึ่งเพื่อผลักดันตัวแทนซอฟต์แวร์ให้บรรลุเป้าหมายที่ตั้งไว้ และระบบการให้รางวัลจะทำงานไม่ว่าทีม AI จะชนะหรือไม่ก็ตาม แต่ประการที่สอง ตัวแทนได้รับการฝึกฝนเป็นกลุ่ม ซึ่งบังคับให้ AI เชี่ยวชาญการโต้ตอบในทีมตั้งแต่เริ่มต้น

“จากมุมมองการวิจัย นี่เป็นวิธีแปลกใหม่สำหรับแนวทางอัลกอริธึมที่น่าตื่นเต้นจริงๆ” Max กล่าวเสริม “วิธีที่เราฝึก AI ของเราแสดงให้เห็นได้ดีว่าจะปรับขนาดและนำแนวคิดวิวัฒนาการแบบคลาสสิกไปใช้ได้อย่างไร”

การเล่นเป็นทีมของ DeepMind AI Masters และเหนือกว่ามนุษย์ใน Quake III

ตัวแทนของ DeepMind ได้รับการตั้งชื่ออย่างเร้าใจว่า For The Win (FTW) เรียนรู้โดยตรงจากพิกเซลบนหน้าจอโดยใช้โครงข่ายประสาทเทียมแบบม้วน ซึ่งเป็นชุดของฟังก์ชันทางคณิตศาสตร์ (เซลล์ประสาท) ที่จัดเรียงเป็นชั้นต่างๆ ที่สร้างแบบจำลองตามเยื่อหุ้มสมองการมองเห็นของมนุษย์ ข้อมูลที่ได้รับจะถูกส่งไปยังสองเครือข่ายที่มีหน่วยความจำระยะสั้นหลายตัว (หน่วยความจำระยะสั้นแบบยาวภาษาอังกฤษ - LSTM) ซึ่งสามารถรับรู้การพึ่งพาระยะยาวได้ หนึ่งในนั้นจัดการข้อมูลการปฏิบัติงานด้วยความเร็วตอบสนองที่รวดเร็ว ในขณะที่อีกอันหนึ่งทำงานช้าเพื่อวิเคราะห์และกำหนดกลยุทธ์ ทั้งสองเกี่ยวข้องกับหน่วยความจำแปรผัน ซึ่งใช้ร่วมกันเพื่อทำนายการเปลี่ยนแปลงในโลกของเกมและดำเนินการผ่านตัวควบคุมเกมจำลอง

การเล่นเป็นทีมของ DeepMind AI Masters และเหนือกว่ามนุษย์ใน Quake III

โดยรวมแล้ว DeepMind ได้ฝึกฝนตัวแทน 30 คน มอบเพื่อนร่วมทีมและคู่ต่อสู้ให้เล่นด้วย และสุ่มเลือกการ์ดเกมเพื่อป้องกันไม่ให้ AI จดจำพวกเขา เจ้าหน้าที่แต่ละคนมีสัญญาณรางวัลของตัวเอง ทำให้สามารถสร้างเป้าหมายภายในของตนเองได้ เช่น ยึดธง AI แต่ละตัวเล่นเกม Capture the Flag ประมาณ 450 เกม ซึ่งเทียบเท่ากับประสบการณ์การเล่นเกมประมาณสี่ปี

เจ้าหน้าที่ FTW ที่ได้รับการฝึกอบรมอย่างเต็มที่ได้เรียนรู้ที่จะใช้กลยุทธ์ทั่วไปกับแผนที่ รายชื่อทีม และขนาดทีม พวกเขาเรียนรู้พฤติกรรมของมนุษย์ เช่น การติดตามเพื่อนร่วมทีม การตั้งแคมป์ในฐานศัตรู และการปกป้องฐานของตนจากผู้โจมตี และพวกเขาก็ค่อยๆ สูญเสียรูปแบบที่เป็นประโยชน์น้อยลง เช่น การเฝ้าดูพันธมิตรอย่างใกล้ชิดเกินไป

แล้วได้ผลอะไรบ้าง? ในทัวร์นาเมนต์ที่มีผู้เข้าร่วม 40 คน ซึ่งทั้งมนุษย์และเอเจนท์จะสุ่มเล่นทั้งร่วมกันและแข่งขันกัน ตัวแทน FTW มีผลงานเหนือกว่าอัตราการชนะของผู้เล่นที่เป็นมนุษย์อย่างมาก คะแนน Elo ของ AI ซึ่งก็คือความน่าจะเป็นที่จะชนะคือ 1600 เทียบกับ 1300 สำหรับผู้เล่นที่เป็นมนุษย์ "แข็งแกร่ง" และ 1050 สำหรับผู้เล่นที่เป็นมนุษย์ "โดยเฉลี่ย"

การเล่นเป็นทีมของ DeepMind AI Masters และเหนือกว่ามนุษย์ใน Quake III

ไม่น่าแปลกใจเลย เนื่องจากความเร็วปฏิกิริยาของ AI นั้นสูงกว่าความเร็วของมนุษย์อย่างมาก ซึ่งทำให้เทคโนโลยีนี้มีข้อได้เปรียบอย่างมากในการทดลองครั้งแรก แต่แม้ว่าความแม่นยำของตัวแทนจะลดลงและเวลาตอบสนองเพิ่มขึ้นด้วยเวลาแฝง 257 มิลลิวินาทีในตัว แต่ AI ก็ยังคงมีประสิทธิภาพเหนือกว่ามนุษย์ ผู้เล่นขั้นสูงและผู้เล่นทั่วไปชนะเพียง 21% และ 12% ของเกมทั้งหมดตามลำดับ

ยิ่งไปกว่านั้น หลังจากการตีพิมพ์ผลการศึกษา นักวิทยาศาสตร์ได้ตัดสินใจทดสอบตัวแทนบนแผนที่ Quake III Arena เต็มรูปแบบด้วยสถาปัตยกรรมระดับที่ซับซ้อนและวัตถุเพิ่มเติม เช่น Future Crossings และ Ironwood ซึ่ง AI เริ่มท้าทายมนุษย์ในการแข่งขันทดสอบได้สำเร็จ . เมื่อนักวิจัยดูรูปแบบการเปิดใช้งานโครงข่ายประสาทเทียมของเอเจนต์ ซึ่งก็คือ หน้าที่ของเซลล์ประสาทที่รับผิดชอบในการกำหนดเอาต์พุตตามข้อมูลที่เข้ามา พวกเขาพบกลุ่มที่เป็นตัวแทนของห้อง สถานะของธง การมองเห็นของเพื่อนร่วมทีมและฝ่ายตรงข้าม และ การมีหรือไม่มีตัวแทนที่ฐานศัตรู หรือแบบทีม และลักษณะสำคัญอื่น ๆ ของการเล่นเกม เจ้าหน้าที่ที่ได้รับการฝึกอบรมยังมีเซลล์ประสาทที่เข้ารหัสสถานการณ์เฉพาะโดยตรง เช่น เมื่อเจ้าหน้าที่ยึดธงหรือเมื่อพันธมิตรถือธง

“ฉันคิดว่าสิ่งหนึ่งที่ควรพิจารณาก็คือทีมที่มีตัวแทนหลายรายเหล่านี้มีประสิทธิภาพอย่างมาก และการศึกษาของเราแสดงให้เห็นว่าเป็นเช่นนั้น” Jaderberg กล่าว “นั่นคือสิ่งที่เราเรียนรู้มาเพื่อให้ดีขึ้นเรื่อยๆ ในช่วงไม่กี่ปีที่ผ่านมา—วิธีแก้ปัญหาการเรียนรู้แบบเสริมกำลัง” และการฝึกฝนที่ได้รับการปรับปรุงนั้นได้ผลดีเยี่ยมจริงๆ”

Thore Graepel ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ที่ University College London และนักวิทยาศาสตร์ DeepMind เชื่อว่างานของพวกเขาเน้นย้ำถึงศักยภาพของการเรียนรู้แบบหลายตัวแทนสำหรับอนาคตของ AI นอกจากนี้ยังสามารถใช้เป็นพื้นฐานสำหรับการวิจัยเกี่ยวกับการโต้ตอบระหว่างมนุษย์กับเครื่องจักรและระบบที่ส่งเสริมซึ่งกันและกันหรือทำงานร่วมกัน

“ผลลัพธ์ของเราแสดงให้เห็นว่าการเรียนรู้แบบเสริมกำลังแบบหลายตัวแทนสามารถเชี่ยวชาญเกมที่ซับซ้อนได้สำเร็จจนถึงจุดที่ผู้เล่นที่เป็นมนุษย์เชื่อว่าผู้เล่นคอมพิวเตอร์จะทำให้เพื่อนร่วมทีมดีขึ้น การศึกษายังนำเสนอการวิเคราะห์เชิงลึกที่น่าสนใจเป็นอย่างยิ่งว่าเจ้าหน้าที่ที่ได้รับการฝึกอบรมมีพฤติกรรมและทำงานร่วมกันอย่างไร Grapel กล่าว “สิ่งที่ทำให้ผลลัพธ์เหล่านี้น่าตื่นเต้นมากก็คือเจ้าหน้าที่เหล่านี้รับรู้สภาพแวดล้อมของพวกเขาในมุมมองบุคคลที่หนึ่ง [นั่นคือ] เช่นเดียวกับผู้เล่นที่เป็นมนุษย์ เพื่อเรียนรู้วิธีการเล่นอย่างมีกลยุทธ์และร่วมมือกับเพื่อนร่วมทีม ตัวแทนเหล่านี้ต้องอาศัยผลตอบรับจากผลการแข่งขัน โดยไม่มีครูหรือโค้ชคนใดแสดงให้พวกเขาเห็นว่าต้องทำอะไร"



ที่มา: 3dnews.ru

เพิ่มความคิดเห็น