Capture the flag เป็นโหมดการแข่งขันที่ค่อนข้างง่ายซึ่งพบได้ในเกมยิงยอดนิยมหลายเกม แต่ละทีมจะมีเครื่องหมายอยู่ที่ฐาน และเป้าหมายคือการยึดเครื่องหมายของฝ่ายตรงข้ามและนำมันมาสู่ตัวมันเองได้สำเร็จ อย่างไรก็ตาม สิ่งที่ง่ายสำหรับมนุษย์ที่จะเข้าใจนั้นไม่ใช่เรื่องง่ายสำหรับเครื่องจักร ในการจับภาพธง ตัวละครที่ไม่ใช่ผู้เล่น (บอท) จะถูกตั้งโปรแกรมแบบดั้งเดิมโดยใช้การวิเคราะห์พฤติกรรมและอัลกอริธึมง่ายๆ ที่ให้อิสระในการเลือกอย่างจำกัด และด้อยกว่ามนุษย์อย่างมาก แต่ปัญญาประดิษฐ์และการเรียนรู้ของเครื่องสัญญาว่าจะเปลี่ยนแปลงสถานการณ์นี้ไปโดยสิ้นเชิง
В
“ไม่มีใครบอก AI ว่าจะเล่นเกมนี้อย่างไร มีเพียงผลลัพธ์เท่านั้น ไม่ว่า AI จะเอาชนะคู่ต่อสู้ได้หรือไม่ก็ตาม ข้อดีของการใช้วิธีนี้คือคุณไม่มีทางรู้ได้เลยว่าพฤติกรรมจะเกิดขึ้นอย่างไรเมื่อคุณฝึกเจ้าหน้าที่” Max Jaderberg นักวิทยาศาสตร์การวิจัยของ DeepMind ซึ่งเคยทำงานเกี่ยวกับระบบการเรียนรู้ของเครื่อง AlphaStar กล่าว (ล่าสุดคือ
“จากมุมมองการวิจัย นี่เป็นวิธีแปลกใหม่สำหรับแนวทางอัลกอริธึมที่น่าตื่นเต้นจริงๆ” Max กล่าวเสริม “วิธีที่เราฝึก AI ของเราแสดงให้เห็นได้ดีว่าจะปรับขนาดและนำแนวคิดวิวัฒนาการแบบคลาสสิกไปใช้ได้อย่างไร”
ตัวแทนของ DeepMind ได้รับการตั้งชื่ออย่างเร้าใจว่า For The Win (FTW) เรียนรู้โดยตรงจากพิกเซลบนหน้าจอโดยใช้โครงข่ายประสาทเทียมแบบม้วน ซึ่งเป็นชุดของฟังก์ชันทางคณิตศาสตร์ (เซลล์ประสาท) ที่จัดเรียงเป็นชั้นต่างๆ ที่สร้างแบบจำลองตามเยื่อหุ้มสมองการมองเห็นของมนุษย์ ข้อมูลที่ได้รับจะถูกส่งไปยังสองเครือข่ายที่มีหน่วยความจำระยะสั้นหลายตัว (หน่วยความจำระยะสั้นแบบยาวภาษาอังกฤษ - LSTM) ซึ่งสามารถรับรู้การพึ่งพาระยะยาวได้ หนึ่งในนั้นจัดการข้อมูลการปฏิบัติงานด้วยความเร็วตอบสนองที่รวดเร็ว ในขณะที่อีกอันหนึ่งทำงานช้าเพื่อวิเคราะห์และกำหนดกลยุทธ์ ทั้งสองเกี่ยวข้องกับหน่วยความจำแปรผัน ซึ่งใช้ร่วมกันเพื่อทำนายการเปลี่ยนแปลงในโลกของเกมและดำเนินการผ่านตัวควบคุมเกมจำลอง
โดยรวมแล้ว DeepMind ได้ฝึกฝนตัวแทน 30 คน มอบเพื่อนร่วมทีมและคู่ต่อสู้ให้เล่นด้วย และสุ่มเลือกการ์ดเกมเพื่อป้องกันไม่ให้ AI จดจำพวกเขา เจ้าหน้าที่แต่ละคนมีสัญญาณรางวัลของตัวเอง ทำให้สามารถสร้างเป้าหมายภายในของตนเองได้ เช่น ยึดธง AI แต่ละตัวเล่นเกม Capture the Flag ประมาณ 450 เกม ซึ่งเทียบเท่ากับประสบการณ์การเล่นเกมประมาณสี่ปี
เจ้าหน้าที่ FTW ที่ได้รับการฝึกอบรมอย่างเต็มที่ได้เรียนรู้ที่จะใช้กลยุทธ์ทั่วไปกับแผนที่ รายชื่อทีม และขนาดทีม พวกเขาเรียนรู้พฤติกรรมของมนุษย์ เช่น การติดตามเพื่อนร่วมทีม การตั้งแคมป์ในฐานศัตรู และการปกป้องฐานของตนจากผู้โจมตี และพวกเขาก็ค่อยๆ สูญเสียรูปแบบที่เป็นประโยชน์น้อยลง เช่น การเฝ้าดูพันธมิตรอย่างใกล้ชิดเกินไป
แล้วได้ผลอะไรบ้าง? ในทัวร์นาเมนต์ที่มีผู้เข้าร่วม 40 คน ซึ่งทั้งมนุษย์และเอเจนท์จะสุ่มเล่นทั้งร่วมกันและแข่งขันกัน ตัวแทน FTW มีผลงานเหนือกว่าอัตราการชนะของผู้เล่นที่เป็นมนุษย์อย่างมาก คะแนน Elo ของ AI ซึ่งก็คือความน่าจะเป็นที่จะชนะคือ 1600 เทียบกับ 1300 สำหรับผู้เล่นที่เป็นมนุษย์ "แข็งแกร่ง" และ 1050 สำหรับผู้เล่นที่เป็นมนุษย์ "โดยเฉลี่ย"
ไม่น่าแปลกใจเลย เนื่องจากความเร็วปฏิกิริยาของ AI นั้นสูงกว่าความเร็วของมนุษย์อย่างมาก ซึ่งทำให้เทคโนโลยีนี้มีข้อได้เปรียบอย่างมากในการทดลองครั้งแรก แต่แม้ว่าความแม่นยำของตัวแทนจะลดลงและเวลาตอบสนองเพิ่มขึ้นด้วยเวลาแฝง 257 มิลลิวินาทีในตัว แต่ AI ก็ยังคงมีประสิทธิภาพเหนือกว่ามนุษย์ ผู้เล่นขั้นสูงและผู้เล่นทั่วไปชนะเพียง 21% และ 12% ของเกมทั้งหมดตามลำดับ
ยิ่งไปกว่านั้น หลังจากการตีพิมพ์ผลการศึกษา นักวิทยาศาสตร์ได้ตัดสินใจทดสอบตัวแทนบนแผนที่ Quake III Arena เต็มรูปแบบด้วยสถาปัตยกรรมระดับที่ซับซ้อนและวัตถุเพิ่มเติม เช่น Future Crossings และ Ironwood ซึ่ง AI เริ่มท้าทายมนุษย์ในการแข่งขันทดสอบได้สำเร็จ . เมื่อนักวิจัยดูรูปแบบการเปิดใช้งานโครงข่ายประสาทเทียมของเอเจนต์ ซึ่งก็คือ หน้าที่ของเซลล์ประสาทที่รับผิดชอบในการกำหนดเอาต์พุตตามข้อมูลที่เข้ามา พวกเขาพบกลุ่มที่เป็นตัวแทนของห้อง สถานะของธง การมองเห็นของเพื่อนร่วมทีมและฝ่ายตรงข้าม และ การมีหรือไม่มีตัวแทนที่ฐานศัตรู หรือแบบทีม และลักษณะสำคัญอื่น ๆ ของการเล่นเกม เจ้าหน้าที่ที่ได้รับการฝึกอบรมยังมีเซลล์ประสาทที่เข้ารหัสสถานการณ์เฉพาะโดยตรง เช่น เมื่อเจ้าหน้าที่ยึดธงหรือเมื่อพันธมิตรถือธง
“ฉันคิดว่าสิ่งหนึ่งที่ควรพิจารณาก็คือทีมที่มีตัวแทนหลายรายเหล่านี้มีประสิทธิภาพอย่างมาก และการศึกษาของเราแสดงให้เห็นว่าเป็นเช่นนั้น” Jaderberg กล่าว “นั่นคือสิ่งที่เราเรียนรู้มาเพื่อให้ดีขึ้นเรื่อยๆ ในช่วงไม่กี่ปีที่ผ่านมา—วิธีแก้ปัญหาการเรียนรู้แบบเสริมกำลัง” และการฝึกฝนที่ได้รับการปรับปรุงนั้นได้ผลดีเยี่ยมจริงๆ”
Thore Graepel ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ที่ University College London และนักวิทยาศาสตร์ DeepMind เชื่อว่างานของพวกเขาเน้นย้ำถึงศักยภาพของการเรียนรู้แบบหลายตัวแทนสำหรับอนาคตของ AI นอกจากนี้ยังสามารถใช้เป็นพื้นฐานสำหรับการวิจัยเกี่ยวกับการโต้ตอบระหว่างมนุษย์กับเครื่องจักรและระบบที่ส่งเสริมซึ่งกันและกันหรือทำงานร่วมกัน
“ผลลัพธ์ของเราแสดงให้เห็นว่าการเรียนรู้แบบเสริมกำลังแบบหลายตัวแทนสามารถเชี่ยวชาญเกมที่ซับซ้อนได้สำเร็จจนถึงจุดที่ผู้เล่นที่เป็นมนุษย์เชื่อว่าผู้เล่นคอมพิวเตอร์จะทำให้เพื่อนร่วมทีมดีขึ้น การศึกษายังนำเสนอการวิเคราะห์เชิงลึกที่น่าสนใจเป็นอย่างยิ่งว่าเจ้าหน้าที่ที่ได้รับการฝึกอบรมมีพฤติกรรมและทำงานร่วมกันอย่างไร Grapel กล่าว “สิ่งที่ทำให้ผลลัพธ์เหล่านี้น่าตื่นเต้นมากก็คือเจ้าหน้าที่เหล่านี้รับรู้สภาพแวดล้อมของพวกเขาในมุมมองบุคคลที่หนึ่ง [นั่นคือ] เช่นเดียวกับผู้เล่นที่เป็นมนุษย์ เพื่อเรียนรู้วิธีการเล่นอย่างมีกลยุทธ์และร่วมมือกับเพื่อนร่วมทีม ตัวแทนเหล่านี้ต้องอาศัยผลตอบรับจากผลการแข่งขัน โดยไม่มีครูหรือโค้ชคนใดแสดงให้พวกเขาเห็นว่าต้องทำอะไร"
ที่มา: 3dnews.ru