เฮ้ ฮับ!
เรามักไม่ตัดสินใจโพสต์คำแปลของข้อความที่มีอายุสองปี โดยไม่มีโค้ดและมีลักษณะทางวิชาการอย่างชัดเจนที่นี่ แต่วันนี้ เราจะให้ข้อยกเว้น เราหวังว่าปัญหาที่เกิดขึ้นในชื่อบทความจะทำให้ผู้อ่านหลายคนกังวล และคุณได้อ่านงานพื้นฐานเกี่ยวกับกลยุทธ์วิวัฒนาการที่โพสต์นี้โต้แย้งในต้นฉบับแล้วหรือจะอ่านตอนนี้ ยินดีต้อนรับสู่แมว!
ในเดือนมีนาคม 2017 OpenAI ได้สร้างกระแสในชุมชนการเรียนรู้เชิงลึกด้วยรายงาน “
กลยุทธ์วิวัฒนาการ
วิทยานิพนธ์หลักของรายงาน OpenAI คือ แทนที่จะใช้การเรียนรู้แบบเสริมกำลังร่วมกับการเผยแพร่กลับแบบดั้งเดิม พวกเขาประสบความสำเร็จในการฝึกอบรมโครงข่ายประสาทเทียมเพื่อแก้ไขปัญหาที่ซับซ้อนโดยใช้สิ่งที่พวกเขาเรียกว่า "กลยุทธ์เชิงวิวัฒนาการ" (ES) วิธีการ ES นี้ประกอบด้วยการรักษาการกระจายน้ำหนักทั่วทั้งเครือข่าย โดยให้ตัวแทนหลายรายทำงานแบบขนาน และใช้พารามิเตอร์ที่เลือกจากการแจกแจงนี้ เจ้าหน้าที่แต่ละคนทำงานในสภาพแวดล้อมของตัวเอง และเมื่อเสร็จสิ้นตามจำนวนตอนหรือขั้นตอนที่ระบุ อัลกอริธึมจะส่งคืนรางวัลสะสมซึ่งแสดงเป็นคะแนนความเหมาะสม เมื่อพิจารณาถึงค่านี้แล้ว การกระจายของพารามิเตอร์สามารถเปลี่ยนไปสู่ตัวแทนที่ประสบความสำเร็จมากขึ้น โดยกีดกันตัวแทนที่ประสบความสำเร็จน้อยกว่า การดำเนินการดังกล่าวซ้ำหลายล้านครั้งโดยมีส่วนร่วมของตัวแทนหลายร้อยคน ทำให้สามารถย้ายการกระจายตุ้มน้ำหนักไปยังพื้นที่ที่จะช่วยให้ตัวแทนสามารถกำหนดนโยบายคุณภาพสูงสำหรับการแก้ไขงานที่ได้รับมอบหมายได้ แท้จริงแล้ว ผลลัพธ์ที่นำเสนอในบทความนั้นน่าประทับใจ: แสดงให้เห็นว่าหากคุณใช้งานตัวแทนนับพันพร้อมกัน การเคลื่อนไหวของมนุษย์บนสองขาสามารถเรียนรู้ได้ในเวลาไม่ถึงครึ่งชั่วโมง (ในขณะที่วิธี RL ขั้นสูงสุดยังต้องใช้เวลามากกว่านั้น เกินหนึ่งชั่วโมงแล้ว) สำหรับข้อมูลโดยละเอียดเพิ่มเติม ฉันแนะนำให้อ่านบทความที่ยอดเยี่ยม
กลยุทธ์ต่างๆ ในการสอนการเดินตัวตรงโดยมนุษย์ ศึกษาโดยใช้วิธี ES จาก OpenAI
กล่องดำ
ข้อดีอย่างมากของวิธีนี้คือสามารถขนานกันได้ง่าย ในขณะที่วิธี RL เช่น A3C จำเป็นต้องมีการแลกเปลี่ยนข้อมูลระหว่างเธรดผู้ปฏิบัติงานและเซิร์ฟเวอร์พารามิเตอร์ ES ต้องการเพียงการประมาณความเหมาะสมและข้อมูลการกระจายพารามิเตอร์ทั่วไปเท่านั้น เนื่องจากความเรียบง่ายนี้วิธีนี้จึงล้ำหน้าวิธี RL สมัยใหม่ในแง่ของความสามารถในการปรับขนาด อย่างไรก็ตามทั้งหมดนี้ไม่ได้ไร้ประโยชน์: คุณต้องปรับเครือข่ายให้เหมาะสมตามหลักการของกล่องดำ ในกรณีนี้ "กล่องดำ" หมายความว่าในระหว่างการฝึกอบรม โครงสร้างภายในของเครือข่ายจะถูกละเว้นโดยสิ้นเชิง และใช้เฉพาะผลลัพธ์โดยรวม (รางวัลสำหรับตอน) เท่านั้น และขึ้นอยู่กับว่าน้ำหนักของเครือข่ายใดเครือข่ายหนึ่งจะ สืบทอดต่อมาจากรุ่นต่อๆ ไป ในสถานการณ์ที่เราไม่ได้รับการตอบรับจากสิ่งแวดล้อมมากนัก และในปัญหา RL แบบดั้งเดิม การให้รางวัลมีน้อยมาก ปัญหาเริ่มจากการเป็น "กล่องดำบางส่วน" ไปจนถึง "กล่องดำทั้งหมด" ในกรณีนี้ คุณสามารถเพิ่มผลผลิตได้อย่างมาก ดังนั้นแน่นอนว่าการประนีประนอมดังกล่าวเป็นสิ่งที่สมเหตุสมผล “ใครต้องการการไล่ระดับสีหากพวกมันยังส่งเสียงดังอย่างสิ้นหวังล่ะ?” - นี่เป็นความเห็นทั่วไป
อย่างไรก็ตาม ในสถานการณ์ที่เสียงตอบรับมีมากขึ้น สิ่งต่างๆ จะเริ่มผิดปกติสำหรับ ES ทีม OpenAI อธิบายว่าเครือข่ายการจัดหมวดหมู่ MNIST อย่างง่ายได้รับการฝึกอบรมโดยใช้ ES อย่างไร และครั้งนี้การฝึกอบรมช้าลง 1000 เท่า ความจริงก็คือสัญญาณการไล่ระดับสีในการจำแนกภาพนั้นมีข้อมูลอย่างมากเกี่ยวกับวิธีการสอนการจำแนกเครือข่ายให้ดีขึ้น ดังนั้นปัญหาจะน้อยลงเมื่อใช้เทคนิค RL และมากขึ้นด้วยผลตอบแทนที่เบาบางในสภาพแวดล้อมที่ทำให้เกิดการไล่ระดับสีที่มีเสียงดัง
ทางออกของธรรมชาติ
หากเราพยายามเรียนรู้จากตัวอย่างธรรมชาติ คิดหาวิธีพัฒนา AI แล้วในบางกรณี AI ก็อาจมองว่าเป็น
เมื่อตรวจสอบพฤติกรรมทางปัญญาของสัตว์เลี้ยงลูกด้วยนมแล้ว เราพบว่ามันเกิดขึ้นจากอิทธิพลซึ่งกันและกันที่ซับซ้อนของกระบวนการสองกระบวนการที่สัมพันธ์กันอย่างใกล้ชิด: การเรียนรู้จากประสบการณ์ของผู้อื่น и การเรียนรู้โดยการทำ. แบบแรกมักเทียบได้กับวิวัฒนาการที่ขับเคลื่อนโดยการคัดเลือกโดยธรรมชาติ แต่ในที่นี้ ฉันใช้คำที่กว้างกว่าเพื่อคำนึงถึงอีพิเจเนติกส์ ไมโครไบโอม และกลไกอื่น ๆ ที่ช่วยให้สามารถแบ่งปันประสบการณ์ระหว่างสิ่งมีชีวิตที่ไม่เกี่ยวข้องทางพันธุกรรมได้ กระบวนการที่สอง การเรียนรู้จากประสบการณ์ คือข้อมูลทั้งหมดที่สัตว์จัดการเพื่อเรียนรู้ตลอดชีวิต และข้อมูลนี้ถูกกำหนดโดยตรงจากปฏิสัมพันธ์ของสัตว์ตัวนี้กับโลกภายนอก หมวดหมู่นี้รวมทุกอย่างตั้งแต่การเรียนรู้ไปจนถึงการจดจำวัตถุไปจนถึงการเรียนรู้การสื่อสารที่มีอยู่ในกระบวนการเรียนรู้
โดยคร่าวๆ แล้ว กระบวนการทั้งสองนี้เกิดขึ้นในธรรมชาติสามารถเปรียบเทียบได้กับสองตัวเลือกในการเพิ่มประสิทธิภาพโครงข่ายประสาทเทียม กลยุทธ์เชิงวิวัฒนาการซึ่งใช้ข้อมูลเกี่ยวกับการไล่ระดับสีเพื่ออัปเดตข้อมูลเกี่ยวกับสิ่งมีชีวิต ใกล้เคียงกับการเรียนรู้จากประสบการณ์ของผู้อื่น ในทำนองเดียวกัน วิธีการไล่ระดับ ซึ่งการได้รับประสบการณ์อย่างใดอย่างหนึ่งนำไปสู่การเปลี่ยนแปลงพฤติกรรมของตัวแทนอย่างใดอย่างหนึ่ง เปรียบได้กับการเรียนรู้จากประสบการณ์ของตนเอง หากเราคิดถึงประเภทของพฤติกรรมหรือความสามารถอันชาญฉลาดที่แต่ละแนวทางทั้งสองนี้พัฒนาขึ้นในสัตว์ การเปรียบเทียบจะชัดเจนยิ่งขึ้น ในทั้งสองกรณี “วิธีการวิวัฒนาการ” ส่งเสริมการศึกษาพฤติกรรมปฏิกิริยาที่ช่วยให้เราสามารถพัฒนาสมรรถภาพบางอย่างได้ (เพียงพอที่จะมีชีวิตอยู่) การเรียนรู้ที่จะเดินหรือหลบหนีจากการถูกกักขังในหลายกรณีเทียบเท่ากับพฤติกรรม "ตามสัญชาตญาณ" ที่เป็น "สายแข็ง" ในสัตว์หลายชนิดในระดับพันธุกรรม นอกจากนี้ ตัวอย่างนี้ยังยืนยันว่าวิธีการวิวัฒนาการสามารถใช้ได้ในกรณีที่สัญญาณรางวัลหายากมาก (เช่น ข้อเท็จจริงในการเลี้ยงทารกที่ประสบความสำเร็จ) ในกรณีเช่นนี้ เป็นไปไม่ได้ที่จะเชื่อมโยงรางวัลกับชุดการกระทำใด ๆ ที่อาจทำมาหลายปีก่อนที่ข้อเท็จจริงนี้จะเกิดขึ้น ในทางกลับกัน ถ้าเราพิจารณากรณีที่ ES ล้มเหลว กล่าวคือ การจำแนกภาพ ผลลัพธ์ที่ได้จะเทียบได้กับผลลัพธ์ของการเรียนรู้ในสัตว์อย่างน่าทึ่งที่ประสบความสำเร็จในการทดลองทางจิตวิทยาเชิงพฤติกรรมจำนวนนับไม่ถ้วนที่ดำเนินการมานานกว่า 100 ปี
การเรียนรู้จากสัตว์
วิธีการที่ใช้ในการเรียนรู้แบบเสริมกำลังในหลายกรณีนำมาจากวรรณกรรมทางจิตวิทยาโดยตรง
บทบาทสำคัญของการทำนายในการเรียนรู้จากประสบการณ์จะเปลี่ยนแปลงพลวัตที่อธิบายไว้ข้างต้นในรูปแบบที่สำคัญ สัญญาณที่ก่อนหน้านี้ถือว่าเบาบางมาก (รางวัลเป็นตอน) กลับกลายเป็นว่าหนาแน่นมาก ตามทฤษฎีแล้ว สถานการณ์จะเป็นดังนี้ ในเวลาใดก็ตาม สมองของสัตว์เลี้ยงลูกด้วยนมกำลังคำนวณผลลัพธ์โดยอิงจากกระแสสิ่งกระตุ้นทางประสาทสัมผัสและการกระทำที่ซับซ้อน ในขณะที่สัตว์นั้นเพียงแต่จมอยู่ในกระแสนี้ ในกรณีนี้ พฤติกรรมขั้นสุดท้ายของสัตว์จะเป็นสัญญาณที่ชัดเจนว่าต้องใช้เพื่อเป็นแนวทางในการปรับเปลี่ยนการคาดการณ์และการพัฒนาพฤติกรรม สมองใช้สัญญาณทั้งหมดนี้เพื่อเพิ่มประสิทธิภาพการคาดการณ์ (และคุณภาพของการดำเนินการตาม) ในอนาคต ภาพรวมของแนวทางนี้มีอยู่ในหนังสือยอดเยี่ยม”
การฝึกอบรมโครงข่ายประสาทเทียมที่สมบูรณ์ยิ่งขึ้น
จากหลักการของกิจกรรมประสาทระดับสูงที่มีอยู่ในสมองของสัตว์เลี้ยงลูกด้วยนมซึ่งยุ่งอยู่กับการคาดการณ์อยู่ตลอดเวลา มีความก้าวหน้าล่าสุดในการเรียนรู้แบบเสริมกำลัง ซึ่งขณะนี้คำนึงถึงความสำคัญของการคาดการณ์ดังกล่าวแล้ว ฉันสามารถแนะนำงานที่คล้ายกันสองชิ้นให้คุณได้ทันที:
ในรายงานทั้งสองนี้ ผู้เขียนได้เสริมนโยบายเริ่มต้นทั่วไปของโครงข่ายประสาทเทียมด้วยผลการทำนายเกี่ยวกับสถานะของสภาพแวดล้อมในอนาคต ในบทความแรก การคาดการณ์จะนำไปใช้กับตัวแปรการวัดที่หลากหลาย และในบทความที่สอง การคาดการณ์จะนำไปใช้กับการเปลี่ยนแปลงในสภาพแวดล้อมและพฤติกรรมของตัวแทนในลักษณะดังกล่าว ในทั้งสองกรณี สัญญาณกระจัดกระจายที่เกี่ยวข้องกับการเสริมแรงเชิงบวกจะมีรายละเอียดมากขึ้นและให้ข้อมูลมากขึ้น ช่วยให้เรียนรู้ได้เร็วขึ้นและเรียนรู้พฤติกรรมที่ซับซ้อนมากขึ้น การปรับปรุงดังกล่าวใช้ได้เฉพาะกับวิธีการที่ใช้สัญญาณเกรเดียนต์เท่านั้น ไม่ใช่กับวิธีที่ทำงานบนหลักการ "กล่องดำ" เช่น ES
นอกจากนี้การเรียนรู้จากประสบการณ์และวิธีการไล่ระดับยังมีประสิทธิภาพมากกว่ามาก แม้ว่าในกรณีที่เป็นไปได้ที่จะศึกษาปัญหาเฉพาะโดยใช้วิธี ES ได้เร็วกว่าการใช้การเรียนรู้แบบเสริมกำลัง ก็ยังได้รับผลสำเร็จเนื่องจากความจริงที่ว่ากลยุทธ์ ES เกี่ยวข้องกับข้อมูลมากกว่า RL หลายเท่า เมื่อพิจารณาถึงหลักการเรียนรู้ในสัตว์ในกรณีนี้ เราสังเกตว่าผลลัพธ์ของการเรียนรู้จากตัวอย่างของผู้อื่นปรากฏออกมาหลังจากหลายชั่วอายุคน ในขณะที่บางครั้งเหตุการณ์เดียวที่ประสบด้วยตัวเองก็เพียงพอแล้วสำหรับสัตว์ที่จะเรียนรู้บทเรียนตลอดไป ในขณะที่ชอบ
แล้วทำไมไม่เอามารวมกันล่ะ?
มีแนวโน้มว่าบทความนี้ส่วนใหญ่อาจทำให้รู้สึกว่าฉันกำลังสนับสนุนวิธี RL อย่างไรก็ตาม จริงๆ แล้วฉันคิดว่าในระยะยาว ทางออกที่ดีที่สุดคือการรวมทั้งสองวิธีเข้าด้วยกัน เพื่อให้แต่ละวิธีถูกใช้ในสถานการณ์ที่เหมาะสมที่สุด แน่นอนว่าในกรณีของนโยบายเชิงรับจำนวนมากหรือในสถานการณ์ที่มีสัญญาณการเสริมกำลังเชิงบวกกระจัดกระจายมาก ES จะเป็นฝ่ายชนะ โดยเฉพาะอย่างยิ่งหากคุณมีพลังในการประมวลผลซึ่งคุณสามารถดำเนินการฝึกอบรมแบบคู่ขนานจำนวนมากได้ ในทางกลับกัน วิธีการไล่ระดับโดยใช้การเรียนรู้แบบเสริมกำลังหรือการเรียนรู้แบบมีผู้สอนจะมีประโยชน์เมื่อเราสามารถเข้าถึงคำติชมที่ครอบคลุม และจำเป็นต้องเรียนรู้วิธีการแก้ปัญหาอย่างรวดเร็วและใช้ข้อมูลน้อยลง
เมื่อหันไปหาธรรมชาติ เราพบว่าโดยพื้นฐานแล้ววิธีแรกเป็นการวางรากฐานสำหรับวิธีที่สอง นี่คือสาเหตุที่ตลอดช่วงวิวัฒนาการ สัตว์เลี้ยงลูกด้วยนมได้พัฒนาสมองที่ช่วยให้พวกมันเรียนรู้ได้อย่างมีประสิทธิภาพอย่างยิ่งจากสัญญาณที่ซับซ้อนที่มาจากสิ่งแวดล้อม ดังนั้นคำถามยังคงเปิดอยู่ บางทีกลยุทธ์เชิงวิวัฒนาการอาจช่วยให้เราคิดค้นสถาปัตยกรรมการเรียนรู้ที่มีประสิทธิภาพซึ่งจะเป็นประโยชน์สำหรับวิธีการเรียนรู้แบบไล่ระดับด้วย ท้ายที่สุดแล้ววิธีแก้ปัญหาที่ธรรมชาติค้นพบนั้นประสบความสำเร็จอย่างมาก
ที่มา: will.com