🥇การเรียนรู้แบบเสริมกำลังหรือกลยุทธ์วิวัฒนาการ? — ทั้งสอง

เฮ้ ฮับ!

เรามักไม่ตัดสินใจโพสต์คำแปลของข้อความที่มีอายุสองปี โดยไม่มีโค้ดและมีลักษณะทางวิชาการอย่างชัดเจนที่นี่ แต่วันนี้ เราจะให้ข้อยกเว้น เราหวังว่าปัญหาที่เกิดขึ้นในชื่อบทความจะทำให้ผู้อ่านหลายคนกังวล และคุณได้อ่านงานพื้นฐานเกี่ยวกับกลยุทธ์วิวัฒนาการที่โพสต์นี้โต้แย้งในต้นฉบับแล้วหรือจะอ่านตอนนี้ ยินดีต้อนรับสู่แมว!

ในเดือนมีนาคม 2017 OpenAI ได้สร้างกระแสในชุมชนการเรียนรู้เชิงลึกด้วยรายงาน “กลยุทธ์วิวัฒนาการเป็นทางเลือกที่ปรับขนาดได้เพื่อการเรียนรู้แบบเสริมกำลัง” งานนี้อธิบายผลลัพธ์ที่น่าประทับใจเนื่องจากการเรียนรู้แบบเสริมกำลัง (RL) ไม่ได้กลายเป็นลิ่ม และเมื่อฝึกโครงข่ายประสาทเทียมที่ซับซ้อน ขอแนะนำให้ลองใช้วิธีอื่น จากนั้นการถกเถียงก็ปะทุขึ้นเกี่ยวกับความสำคัญของการเรียนรู้แบบเสริมกำลัง และการสมควรได้รับสถานะเป็นเทคโนโลยีที่ "ต้องมี" ในการสอนการแก้ปัญหา ในที่นี้ฉันอยากจะบอกว่าเทคโนโลยีทั้งสองนี้ไม่ควรถือเป็นการแข่งขันกัน ซึ่งหนึ่งในนั้นดีกว่าเทคโนโลยีอื่นอย่างชัดเจน ในทางกลับกัน พวกเขาเสริมซึ่งกันและกันในท้ายที่สุด แน่นอนถ้าคุณคิดสักนิดเกี่ยวกับสิ่งที่จะต้องสร้าง เอไอทั่วไป และระบบดังกล่าว ซึ่งตลอดการดำรงอยู่ของมันจะสามารถเรียนรู้ ตัดสิน และวางแผนได้ จากนั้นเราเกือบจะได้ข้อสรุปอย่างแน่นอนว่าจำเป็นต้องมีวิธีแก้ปัญหาแบบผสมผสานนี้ อย่างไรก็ตาม มันเป็นวิธีแก้ปัญหาที่ผสมผสานกันอย่างลงตัวของธรรมชาติ ซึ่งทำให้สัตว์เลี้ยงลูกด้วยนมและสัตว์ชั้นสูงอื่น ๆ มีสติปัญญาที่ซับซ้อนในระหว่างการวิวัฒนาการ

กลยุทธ์วิวัฒนาการ

วิทยานิพนธ์หลักของรายงาน OpenAI คือ แทนที่จะใช้การเรียนรู้แบบเสริมกำลังร่วมกับการเผยแพร่กลับแบบดั้งเดิม พวกเขาประสบความสำเร็จในการฝึกอบรมโครงข่ายประสาทเทียมเพื่อแก้ไขปัญหาที่ซับซ้อนโดยใช้สิ่งที่พวกเขาเรียกว่า "กลยุทธ์เชิงวิวัฒนาการ" (ES) วิธีการ ES นี้ประกอบด้วยการรักษาการกระจายน้ำหนักทั่วทั้งเครือข่าย โดยให้ตัวแทนหลายรายทำงานแบบขนาน และใช้พารามิเตอร์ที่เลือกจากการแจกแจงนี้ เจ้าหน้าที่แต่ละคนทำงานในสภาพแวดล้อมของตัวเอง และเมื่อเสร็จสิ้นตามจำนวนตอนหรือขั้นตอนที่ระบุ อัลกอริธึมจะส่งคืนรางวัลสะสมซึ่งแสดงเป็นคะแนนความเหมาะสม เมื่อพิจารณาถึงค่านี้แล้ว การกระจายของพารามิเตอร์สามารถเปลี่ยนไปสู่ตัวแทนที่ประสบความสำเร็จมากขึ้น โดยกีดกันตัวแทนที่ประสบความสำเร็จน้อยกว่า การดำเนินการดังกล่าวซ้ำหลายล้านครั้งโดยมีส่วนร่วมของตัวแทนหลายร้อยคน ทำให้สามารถย้ายการกระจายตุ้มน้ำหนักไปยังพื้นที่ที่จะช่วยให้ตัวแทนสามารถกำหนดนโยบายคุณภาพสูงสำหรับการแก้ไขงานที่ได้รับมอบหมายได้ แท้จริงแล้ว ผลลัพธ์ที่นำเสนอในบทความนั้นน่าประทับใจ: แสดงให้เห็นว่าหากคุณใช้งานตัวแทนนับพันพร้อมกัน การเคลื่อนไหวของมนุษย์บนสองขาสามารถเรียนรู้ได้ในเวลาไม่ถึงครึ่งชั่วโมง (ในขณะที่วิธี RL ขั้นสูงสุดยังต้องใช้เวลามากกว่านั้น เกินหนึ่งชั่วโมงแล้ว) สำหรับข้อมูลโดยละเอียดเพิ่มเติม ฉันแนะนำให้อ่านบทความที่ยอดเยี่ยม เสา จากผู้เขียนการทดลองอีกด้วย บทความทางวิทยาศาสตร์.

กลยุทธ์ต่างๆ ในการสอนการเดินตัวตรงโดยมนุษย์ ศึกษาโดยใช้วิธี ES จาก OpenAI

กล่องดำ

ข้อดีอย่างมากของวิธีนี้คือสามารถขนานกันได้ง่าย ในขณะที่วิธี RL เช่น A3C จำเป็นต้องมีการแลกเปลี่ยนข้อมูลระหว่างเธรดผู้ปฏิบัติงานและเซิร์ฟเวอร์พารามิเตอร์ ES ต้องการเพียงการประมาณความเหมาะสมและข้อมูลการกระจายพารามิเตอร์ทั่วไปเท่านั้น เนื่องจากความเรียบง่ายนี้วิธีนี้จึงล้ำหน้าวิธี RL สมัยใหม่ในแง่ของความสามารถในการปรับขนาด อย่างไรก็ตามทั้งหมดนี้ไม่ได้ไร้ประโยชน์: คุณต้องปรับเครือข่ายให้เหมาะสมตามหลักการของกล่องดำ ในกรณีนี้ "กล่องดำ" หมายความว่าในระหว่างการฝึกอบรม โครงสร้างภายในของเครือข่ายจะถูกละเว้นโดยสิ้นเชิง และใช้เฉพาะผลลัพธ์โดยรวม (รางวัลสำหรับตอน) เท่านั้น และขึ้นอยู่กับว่าน้ำหนักของเครือข่ายใดเครือข่ายหนึ่งจะ สืบทอดต่อมาจากรุ่นต่อๆ ไป ในสถานการณ์ที่เราไม่ได้รับการตอบรับจากสิ่งแวดล้อมมากนัก และในปัญหา RL แบบดั้งเดิม การให้รางวัลมีน้อยมาก ปัญหาเริ่มจากการเป็น "กล่องดำบางส่วน" ไปจนถึง "กล่องดำทั้งหมด" ในกรณีนี้ คุณสามารถเพิ่มผลผลิตได้อย่างมาก ดังนั้นแน่นอนว่าการประนีประนอมดังกล่าวเป็นสิ่งที่สมเหตุสมผล “ใครต้องการการไล่ระดับสีหากพวกมันยังส่งเสียงดังอย่างสิ้นหวังล่ะ?” - นี่เป็นความเห็นทั่วไป

อย่างไรก็ตาม ในสถานการณ์ที่เสียงตอบรับมีมากขึ้น สิ่งต่างๆ จะเริ่มผิดปกติสำหรับ ES ทีม OpenAI อธิบายว่าเครือข่ายการจัดหมวดหมู่ MNIST อย่างง่ายได้รับการฝึกอบรมโดยใช้ ES อย่างไร และครั้งนี้การฝึกอบรมช้าลง 1000 เท่า ความจริงก็คือสัญญาณการไล่ระดับสีในการจำแนกภาพนั้นมีข้อมูลอย่างมากเกี่ยวกับวิธีการสอนการจำแนกเครือข่ายให้ดีขึ้น ดังนั้นปัญหาจะน้อยลงเมื่อใช้เทคนิค RL และมากขึ้นด้วยผลตอบแทนที่เบาบางในสภาพแวดล้อมที่ทำให้เกิดการไล่ระดับสีที่มีเสียงดัง

ทางออกของธรรมชาติ

หากเราพยายามเรียนรู้จากตัวอย่างธรรมชาติ คิดหาวิธีพัฒนา AI แล้วในบางกรณี AI ก็อาจมองว่าเป็น แนวทางที่มุ่งเน้นปัญหา. ท้ายที่สุดแล้ว ธรรมชาติดำเนินการภายใต้ข้อจำกัดที่นักวิทยาศาสตร์คอมพิวเตอร์ไม่มี มีความเห็นว่าแนวทางการแก้ปัญหาเชิงทฤษฎีล้วนๆ สามารถให้แนวทางแก้ไขที่มีประสิทธิผลมากกว่าทางเลือกเชิงประจักษ์ อย่างไรก็ตาม ฉันยังคงคิดว่ามันคงจะคุ้มค่าที่จะทดสอบว่าระบบไดนามิกที่ทำงานภายใต้ข้อจำกัดบางอย่าง (โลก) ได้สร้างสิ่งมีชีวิต (สัตว์ โดยเฉพาะสัตว์เลี้ยงลูกด้วยนม) ที่มีพฤติกรรมยืดหยุ่นและซับซ้อนได้อย่างไร แม้ว่าข้อจำกัดบางประการเหล่านี้ใช้ไม่ได้กับโลกวิทยาศาสตร์ข้อมูลจำลอง แต่ข้อจำกัดอื่นๆ ก็ยังใช้ได้

เมื่อตรวจสอบพฤติกรรมทางปัญญาของสัตว์เลี้ยงลูกด้วยนมแล้ว เราพบว่ามันเกิดขึ้นจากอิทธิพลซึ่งกันและกันที่ซับซ้อนของกระบวนการสองกระบวนการที่สัมพันธ์กันอย่างใกล้ชิด: การเรียนรู้จากประสบการณ์ของผู้อื่น и การเรียนรู้โดยการทำ. แบบแรกมักเทียบได้กับวิวัฒนาการที่ขับเคลื่อนโดยการคัดเลือกโดยธรรมชาติ แต่ในที่นี้ ฉันใช้คำที่กว้างกว่าเพื่อคำนึงถึงอีพิเจเนติกส์ ไมโครไบโอม และกลไกอื่น ๆ ที่ช่วยให้สามารถแบ่งปันประสบการณ์ระหว่างสิ่งมีชีวิตที่ไม่เกี่ยวข้องทางพันธุกรรมได้ กระบวนการที่สอง การเรียนรู้จากประสบการณ์ คือข้อมูลทั้งหมดที่สัตว์จัดการเพื่อเรียนรู้ตลอดชีวิต และข้อมูลนี้ถูกกำหนดโดยตรงจากปฏิสัมพันธ์ของสัตว์ตัวนี้กับโลกภายนอก หมวดหมู่นี้รวมทุกอย่างตั้งแต่การเรียนรู้ไปจนถึงการจดจำวัตถุไปจนถึงการเรียนรู้การสื่อสารที่มีอยู่ในกระบวนการเรียนรู้

โดยคร่าวๆ แล้ว กระบวนการทั้งสองนี้เกิดขึ้นในธรรมชาติสามารถเปรียบเทียบได้กับสองตัวเลือกในการเพิ่มประสิทธิภาพโครงข่ายประสาทเทียม กลยุทธ์เชิงวิวัฒนาการซึ่งใช้ข้อมูลเกี่ยวกับการไล่ระดับสีเพื่ออัปเดตข้อมูลเกี่ยวกับสิ่งมีชีวิต ใกล้เคียงกับการเรียนรู้จากประสบการณ์ของผู้อื่น ในทำนองเดียวกัน วิธีการไล่ระดับ ซึ่งการได้รับประสบการณ์อย่างใดอย่างหนึ่งนำไปสู่การเปลี่ยนแปลงพฤติกรรมของตัวแทนอย่างใดอย่างหนึ่ง เปรียบได้กับการเรียนรู้จากประสบการณ์ของตนเอง หากเราคิดถึงประเภทของพฤติกรรมหรือความสามารถอันชาญฉลาดที่แต่ละแนวทางทั้งสองนี้พัฒนาขึ้นในสัตว์ การเปรียบเทียบจะชัดเจนยิ่งขึ้น ในทั้งสองกรณี “วิธีการวิวัฒนาการ” ส่งเสริมการศึกษาพฤติกรรมปฏิกิริยาที่ช่วยให้เราสามารถพัฒนาสมรรถภาพบางอย่างได้ (เพียงพอที่จะมีชีวิตอยู่) การเรียนรู้ที่จะเดินหรือหลบหนีจากการถูกกักขังในหลายกรณีเทียบเท่ากับพฤติกรรม "ตามสัญชาตญาณ" ที่เป็น "สายแข็ง" ในสัตว์หลายชนิดในระดับพันธุกรรม นอกจากนี้ ตัวอย่างนี้ยังยืนยันว่าวิธีการวิวัฒนาการสามารถใช้ได้ในกรณีที่สัญญาณรางวัลหายากมาก (เช่น ข้อเท็จจริงในการเลี้ยงทารกที่ประสบความสำเร็จ) ในกรณีเช่นนี้ เป็นไปไม่ได้ที่จะเชื่อมโยงรางวัลกับชุดการกระทำใด ๆ ที่อาจทำมาหลายปีก่อนที่ข้อเท็จจริงนี้จะเกิดขึ้น ในทางกลับกัน ถ้าเราพิจารณากรณีที่ ES ล้มเหลว กล่าวคือ การจำแนกภาพ ผลลัพธ์ที่ได้จะเทียบได้กับผลลัพธ์ของการเรียนรู้ในสัตว์อย่างน่าทึ่งที่ประสบความสำเร็จในการทดลองทางจิตวิทยาเชิงพฤติกรรมจำนวนนับไม่ถ้วนที่ดำเนินการมานานกว่า 100 ปี

การเรียนรู้จากสัตว์

วิธีการที่ใช้ในการเรียนรู้แบบเสริมกำลังในหลายกรณีนำมาจากวรรณกรรมทางจิตวิทยาโดยตรง การปรับสภาพผู้ปฏิบัติงานและศึกษาการปรับสภาพผู้ปฏิบัติงานโดยใช้จิตวิทยาสัตว์ อย่างไรก็ตาม Richard Sutton หนึ่งในสองผู้ก่อตั้งการเรียนรู้แบบเสริมกำลัง สำเร็จการศึกษาระดับปริญญาตรีสาขาจิตวิทยา ในบริบทของการปรับสภาพของผู้ปฏิบัติงาน สัตว์เรียนรู้ที่จะเชื่อมโยงรางวัลหรือการลงโทษเข้ากับรูปแบบพฤติกรรมเฉพาะ ผู้ฝึกสอนและนักวิจัยสามารถจัดการการเชื่อมโยงรางวัลนี้ได้ไม่ทางใดก็ทางหนึ่ง กระตุ้นให้สัตว์แสดงสติปัญญาหรือพฤติกรรมบางอย่าง อย่างไรก็ตาม การปรับสภาพของผู้ปฏิบัติงานที่ใช้ในการวิจัยในสัตว์ทดลอง ไม่มีอะไรมากไปกว่ารูปแบบที่ชัดเจนของการปรับสภาพแบบเดียวกันโดยอาศัยพื้นฐานที่สัตว์เรียนรู้ตลอดชีวิต เรารับสัญญาณการเสริมแรงเชิงบวกจากสิ่งแวดล้อมอย่างต่อเนื่องและปรับพฤติกรรมของเราให้เหมาะสม ในความเป็นจริง นักประสาทวิทยาและนักวิทยาศาสตร์ด้านความรู้ความเข้าใจหลายคนเชื่อว่ามนุษย์และสัตว์อื่นๆ ทำงานในระดับที่สูงกว่านั้นจริงๆ และเรียนรู้อย่างต่อเนื่องที่จะทำนายผลลัพธ์ของพฤติกรรมของพวกเขาในสถานการณ์ในอนาคตโดยพิจารณาจากรางวัลที่อาจเกิดขึ้น

บทบาทสำคัญของการทำนายในการเรียนรู้จากประสบการณ์จะเปลี่ยนแปลงพลวัตที่อธิบายไว้ข้างต้นในรูปแบบที่สำคัญ สัญญาณที่ก่อนหน้านี้ถือว่าเบาบางมาก (รางวัลเป็นตอน) กลับกลายเป็นว่าหนาแน่นมาก ตามทฤษฎีแล้ว สถานการณ์จะเป็นดังนี้ ในเวลาใดก็ตาม สมองของสัตว์เลี้ยงลูกด้วยนมกำลังคำนวณผลลัพธ์โดยอิงจากกระแสสิ่งกระตุ้นทางประสาทสัมผัสและการกระทำที่ซับซ้อน ในขณะที่สัตว์นั้นเพียงแต่จมอยู่ในกระแสนี้ ในกรณีนี้ พฤติกรรมขั้นสุดท้ายของสัตว์จะเป็นสัญญาณที่ชัดเจนว่าต้องใช้เพื่อเป็นแนวทางในการปรับเปลี่ยนการคาดการณ์และการพัฒนาพฤติกรรม สมองใช้สัญญาณทั้งหมดนี้เพื่อเพิ่มประสิทธิภาพการคาดการณ์ (และคุณภาพของการดำเนินการตาม) ในอนาคต ภาพรวมของแนวทางนี้มีอยู่ในหนังสือยอดเยี่ยม”ท่องความไม่แน่นอนนักวิทยาศาสตร์ด้านความรู้ความเข้าใจและนักปรัชญา Andy Clark หากเราคาดการณ์เหตุผลดังกล่าวกับการฝึกอบรมตัวแทนเทียม ข้อบกพร่องพื้นฐานในการเรียนรู้แบบเสริมกำลังก็ถูกเปิดเผย: สัญญาณที่ใช้ในกระบวนทัศน์นี้อ่อนแออย่างสิ้นหวังเมื่อเทียบกับสิ่งที่อาจเป็น (หรือควรจะเป็น) ในกรณีที่ไม่สามารถเพิ่มความอิ่มตัวของสัญญาณได้ (อาจเป็นเพราะว่ามีความอ่อนแอโดยธรรมชาติหรือเกี่ยวข้องกับปฏิกิริยาในระดับต่ำ) อาจดีกว่าถ้าเลือกใช้วิธีการฝึกอบรมที่มีการขนานกันอย่างดี เช่น ES

การฝึกอบรมโครงข่ายประสาทเทียมที่สมบูรณ์ยิ่งขึ้น

จากหลักการของกิจกรรมประสาทระดับสูงที่มีอยู่ในสมองของสัตว์เลี้ยงลูกด้วยนมซึ่งยุ่งอยู่กับการคาดการณ์อยู่ตลอดเวลา มีความก้าวหน้าล่าสุดในการเรียนรู้แบบเสริมกำลัง ซึ่งขณะนี้คำนึงถึงความสำคัญของการคาดการณ์ดังกล่าวแล้ว ฉันสามารถแนะนำงานที่คล้ายกันสองชิ้นให้คุณได้ทันที:

ในรายงานทั้งสองนี้ ผู้เขียนได้เสริมนโยบายเริ่มต้นทั่วไปของโครงข่ายประสาทเทียมด้วยผลการทำนายเกี่ยวกับสถานะของสภาพแวดล้อมในอนาคต ในบทความแรก การคาดการณ์จะนำไปใช้กับตัวแปรการวัดที่หลากหลาย และในบทความที่สอง การคาดการณ์จะนำไปใช้กับการเปลี่ยนแปลงในสภาพแวดล้อมและพฤติกรรมของตัวแทนในลักษณะดังกล่าว ในทั้งสองกรณี สัญญาณกระจัดกระจายที่เกี่ยวข้องกับการเสริมแรงเชิงบวกจะมีรายละเอียดมากขึ้นและให้ข้อมูลมากขึ้น ช่วยให้เรียนรู้ได้เร็วขึ้นและเรียนรู้พฤติกรรมที่ซับซ้อนมากขึ้น การปรับปรุงดังกล่าวใช้ได้เฉพาะกับวิธีการที่ใช้สัญญาณเกรเดียนต์เท่านั้น ไม่ใช่กับวิธีที่ทำงานบนหลักการ "กล่องดำ" เช่น ES

นอกจากนี้การเรียนรู้จากประสบการณ์และวิธีการไล่ระดับยังมีประสิทธิภาพมากกว่ามาก แม้ว่าในกรณีที่เป็นไปได้ที่จะศึกษาปัญหาเฉพาะโดยใช้วิธี ES ได้เร็วกว่าการใช้การเรียนรู้แบบเสริมกำลัง ก็ยังได้รับผลสำเร็จเนื่องจากความจริงที่ว่ากลยุทธ์ ES เกี่ยวข้องกับข้อมูลมากกว่า RL หลายเท่า เมื่อพิจารณาถึงหลักการเรียนรู้ในสัตว์ในกรณีนี้ เราสังเกตว่าผลลัพธ์ของการเรียนรู้จากตัวอย่างของผู้อื่นปรากฏออกมาหลังจากหลายชั่วอายุคน ในขณะที่บางครั้งเหตุการณ์เดียวที่ประสบด้วยตัวเองก็เพียงพอแล้วสำหรับสัตว์ที่จะเรียนรู้บทเรียนตลอดไป ในขณะที่ชอบ การฝึกอบรมโดยไม่มีตัวอย่าง แม้ว่าจะไม่เหมาะกับวิธีการไล่ระดับสีแบบดั้งเดิม แต่ก็สามารถเข้าใจได้มากกว่า ES มาก มีแนวทางเช่น การควบคุมฉากประสาทโดยที่ค่า Q จะถูกจัดเก็บในระหว่างกระบวนการฝึกอบรม หลังจากนั้นโปรแกรมจะตรวจสอบก่อนดำเนินการ ผลลัพธ์ที่ได้คือวิธีการไล่ระดับสีที่ช่วยให้คุณเรียนรู้วิธีการแก้ปัญหาได้เร็วกว่าที่เคยมาก ในบทความเกี่ยวกับการควบคุมฉากของระบบประสาท ผู้เขียนกล่าวถึงฮิบโปแคมปัสของมนุษย์ ซึ่งสามารถเก็บข้อมูลเกี่ยวกับเหตุการณ์หนึ่งๆ ได้แม้ว่าจะมีประสบการณ์เพียงครั้งเดียวก็ตาม ดังนั้น จึงเล่น บทบาทที่สำคัญ อยู่ในกระบวนการจำ กลไกดังกล่าวจำเป็นต้องเข้าถึงองค์กรภายในของตัวแทน ซึ่งตามคำจำกัดความแล้ว เป็นไปไม่ได้ในกระบวนทัศน์ ES

แล้วทำไมไม่เอามารวมกันล่ะ?

มีแนวโน้มว่าบทความนี้ส่วนใหญ่อาจทำให้รู้สึกว่าฉันกำลังสนับสนุนวิธี RL อย่างไรก็ตาม จริงๆ แล้วฉันคิดว่าในระยะยาว ทางออกที่ดีที่สุดคือการรวมทั้งสองวิธีเข้าด้วยกัน เพื่อให้แต่ละวิธีถูกใช้ในสถานการณ์ที่เหมาะสมที่สุด แน่นอนว่าในกรณีของนโยบายเชิงรับจำนวนมากหรือในสถานการณ์ที่มีสัญญาณการเสริมกำลังเชิงบวกกระจัดกระจายมาก ES จะเป็นฝ่ายชนะ โดยเฉพาะอย่างยิ่งหากคุณมีพลังในการประมวลผลซึ่งคุณสามารถดำเนินการฝึกอบรมแบบคู่ขนานจำนวนมากได้ ในทางกลับกัน วิธีการไล่ระดับโดยใช้การเรียนรู้แบบเสริมกำลังหรือการเรียนรู้แบบมีผู้สอนจะมีประโยชน์เมื่อเราสามารถเข้าถึงคำติชมที่ครอบคลุม และจำเป็นต้องเรียนรู้วิธีการแก้ปัญหาอย่างรวดเร็วและใช้ข้อมูลน้อยลง

เมื่อหันไปหาธรรมชาติ เราพบว่าโดยพื้นฐานแล้ววิธีแรกเป็นการวางรากฐานสำหรับวิธีที่สอง นี่คือสาเหตุที่ตลอดช่วงวิวัฒนาการ สัตว์เลี้ยงลูกด้วยนมได้พัฒนาสมองที่ช่วยให้พวกมันเรียนรู้ได้อย่างมีประสิทธิภาพอย่างยิ่งจากสัญญาณที่ซับซ้อนที่มาจากสิ่งแวดล้อม ดังนั้นคำถามยังคงเปิดอยู่ บางทีกลยุทธ์เชิงวิวัฒนาการอาจช่วยให้เราคิดค้นสถาปัตยกรรมการเรียนรู้ที่มีประสิทธิภาพซึ่งจะเป็นประโยชน์สำหรับวิธีการเรียนรู้แบบไล่ระดับด้วย ท้ายที่สุดแล้ววิธีแก้ปัญหาที่ธรรมชาติค้นพบนั้นประสบความสำเร็จอย่างมาก

ที่มา: will.com

การเรียนรู้แบบเสริมกำลังหรือกลยุทธ์วิวัฒนาการ? - ทั้งคู่