Học tăng cường hay chiến lược tiến hóa? - Cả hai

Này Habr!

Chúng tôi thường không quyết định đăng ở đây bản dịch của các văn bản đã cách đây hai năm, không có mã và rõ ràng mang tính chất học thuật - nhưng hôm nay chúng tôi sẽ tạo ra một ngoại lệ. Chúng tôi hy vọng rằng tình thế tiến thoái lưỡng nan đặt ra trong tiêu đề của bài viết sẽ khiến nhiều độc giả của chúng tôi lo lắng và bạn đã đọc tác phẩm cơ bản về các chiến lược tiến hóa mà bài viết này tranh luận trong bản gốc hoặc sẽ đọc nó ngay bây giờ. Chào mừng đến với con mèo!

Học tăng cường hay chiến lược tiến hóa? - Cả hai

Vào tháng 2017 năm XNUMX, OpenAI đã làm dậy sóng cộng đồng deep learning với bài báo “Các chiến lược tiến hóa như một giải pháp thay thế có thể mở rộng cho việc học tăng cường.” Công trình này mô tả những kết quả ấn tượng ủng hộ thực tế là học tăng cường (RL) chưa trở thành một điểm yếu và khi đào tạo các mạng lưới thần kinh phức tạp, bạn nên thử các phương pháp khác. Sau đó, một cuộc tranh luận đã nổ ra về tầm quan trọng của học tăng cường và mức độ xứng đáng của nó như một công nghệ “phải có” để dạy giải quyết vấn đề. Ở đây tôi muốn nói rằng không nên coi hai công nghệ này là cạnh tranh nhau, một trong số đó rõ ràng là tốt hơn công nghệ kia; ngược lại, cuối cùng chúng bổ sung cho nhau. Quả thực, nếu bạn nghĩ một chút về những gì cần thiết để tạo ra trí tuệ nhân tạo chung và những hệ thống như vậy, trong suốt sự tồn tại của chúng sẽ có khả năng học hỏi, phán đoán và lập kế hoạch, thì chúng ta gần như chắc chắn sẽ đi đến kết luận rằng giải pháp kết hợp này hoặc giải pháp kết hợp kia sẽ là cần thiết. Nhân tiện, chính giải pháp kết hợp này mà thiên nhiên đã tìm đến, đã ban tặng cho động vật có vú và các động vật bậc cao khác trí thông minh phức tạp trong quá trình tiến hóa.

Chiến lược tiến hóa

Luận điểm chính của bài báo OpenAI là, thay vì sử dụng học tăng cường kết hợp với lan truyền ngược truyền thống, họ đã đào tạo thành công mạng lưới thần kinh để giải quyết các vấn đề phức tạp bằng cách sử dụng cái mà họ gọi là “chiến lược tiến hóa” (ES). Cách tiếp cận ES này bao gồm việc duy trì sự phân bổ trọng số trên toàn mạng, liên quan đến nhiều tác nhân làm việc song song và sử dụng các tham số được chọn từ phân phối này. Mỗi tác nhân hoạt động trong môi trường riêng của mình và sau khi hoàn thành một số tập hoặc giai đoạn cụ thể của một tập, thuật toán sẽ trả về phần thưởng tích lũy, được biểu thị dưới dạng điểm thể lực. Khi tính đến giá trị này, việc phân bổ các tham số có thể được chuyển sang các tác nhân thành công hơn, loại bỏ các tác nhân kém thành công hơn. Bằng cách lặp lại thao tác như vậy hàng triệu lần với sự tham gia của hàng trăm tác nhân, có thể chuyển việc phân bổ trọng số sang một không gian cho phép các tác nhân xây dựng chính sách chất lượng cao để giải quyết nhiệm vụ được giao cho họ. Thật vậy, kết quả được trình bày trong bài viết rất ấn tượng: nó cho thấy rằng nếu bạn chạy song song một nghìn tác nhân, thì bạn có thể học được cách vận động nhân hình trên hai chân trong vòng chưa đầy nửa giờ (trong khi ngay cả những phương pháp RL tiên tiến nhất cũng đòi hỏi phải chi nhiều hơn hơn một giờ về việc này). Để biết thêm thông tin chi tiết, tôi khuyên bạn nên đọc tài liệu xuất sắc gửi từ các tác giả của thí nghiệm, cũng như Bài báo khoa học.

Học tăng cường hay chiến lược tiến hóa? - Cả hai

Các chiến lược khác nhau để dạy cách đi thẳng theo hình người, được nghiên cứu bằng phương pháp ES của OpenAI.

Hộp đen

Lợi ích lớn nhất của phương pháp này là nó có thể dễ dàng song song hóa. Trong khi các phương thức RL, chẳng hạn như A3C, yêu cầu trao đổi thông tin giữa các luồng công việc và máy chủ tham số, thì ES chỉ cần ước tính mức độ phù hợp và thông tin phân phối tham số tổng quát. Chính vì sự đơn giản này mà phương pháp này vượt xa các phương pháp RL hiện đại về khả năng mở rộng quy mô. Tuy nhiên, tất cả những điều này không phải là vô ích: bạn phải tối ưu hóa mạng theo nguyên tắc hộp đen. Trong trường hợp này, “hộp đen” có nghĩa là trong quá trình đào tạo, cấu trúc bên trong của mạng hoàn toàn bị bỏ qua và chỉ sử dụng kết quả tổng thể (phần thưởng cho tập) và điều này phụ thuộc vào việc liệu trọng số của một mạng cụ thể có phù hợp hay không. được các thế hệ sau kế thừa. Trong những tình huống mà chúng ta không nhận được nhiều phản hồi từ môi trường—và trong nhiều vấn đề RL truyền thống, luồng phần thưởng rất thưa thớt—vấn đề sẽ chuyển từ "hộp đen một phần" sang "hộp đen hoàn toàn". Trong trường hợp này, bạn có thể tăng năng suất đáng kể, do đó, tất nhiên, sự thỏa hiệp như vậy là hợp lý. “Ai cần gradient nếu chúng quá ồn ào?” - đây là ý kiến ​​chung.

Tuy nhiên, trong những tình huống mà phản hồi tích cực hơn, mọi thứ bắt đầu không ổn đối với ES. Nhóm OpenAI mô tả cách đào tạo một mạng phân loại MNIST đơn giản bằng ES và lần này quá trình đào tạo chậm hơn 1000 lần. Thực tế là tín hiệu gradient trong phân loại hình ảnh cực kỳ hữu ích về cách hướng dẫn mạng phân loại tốt hơn. Do đó, vấn đề ít xảy ra hơn với kỹ thuật RL và gặp nhiều vấn đề hơn với phần thưởng thưa thớt trong môi trường tạo ra độ dốc nhiễu.

Giải pháp của thiên nhiên

Nếu chúng ta cố gắng học hỏi từ ví dụ của tự nhiên, nghĩ cách phát triển AI, thì trong một số trường hợp, AI có thể được coi là cách tiếp cận hướng vào vấn đề. Suy cho cùng, thiên nhiên vận hành trong những giới hạn mà các nhà khoa học máy tính đơn giản là không có. Có ý kiến ​​​​cho rằng cách tiếp cận thuần túy lý thuyết để giải quyết một vấn đề cụ thể có thể mang lại giải pháp hiệu quả hơn so với các giải pháp thay thế thực nghiệm. Tuy nhiên, tôi vẫn nghĩ sẽ rất đáng để kiểm tra xem một hệ thống động hoạt động dưới những ràng buộc nhất định (Trái đất) đã tạo ra các tác nhân (động vật, đặc biệt là động vật có vú) có khả năng hành vi linh hoạt và phức tạp như thế nào. Mặc dù một số hạn chế này không áp dụng trong thế giới khoa học dữ liệu mô phỏng, nhưng những hạn chế khác vẫn ổn.

Sau khi xem xét hành vi trí tuệ của động vật có vú, chúng ta thấy rằng nó được hình thành do sự ảnh hưởng lẫn nhau phức tạp của hai quá trình có liên quan chặt chẽ với nhau: học hỏi kinh nghiệm của người khác и Vừa học vừa làm. Cái trước thường được đánh đồng với sự tiến hóa do chọn lọc tự nhiên thúc đẩy, nhưng ở đây tôi sử dụng thuật ngữ rộng hơn để tính đến biểu sinh, hệ vi sinh vật và các cơ chế khác cho phép chia sẻ kinh nghiệm giữa các sinh vật không liên quan đến di truyền. Quá trình thứ hai, học hỏi từ kinh nghiệm, là tất cả thông tin mà động vật có thể học được trong suốt cuộc đời của nó và thông tin này được xác định trực tiếp bởi sự tương tác của động vật này với thế giới bên ngoài. Danh mục này bao gồm mọi thứ từ học cách nhận biết đồ vật đến nắm vững cách giao tiếp vốn có trong quá trình học tập.

Nói một cách đại khái, hai quá trình xảy ra trong tự nhiên này có thể được so sánh với hai lựa chọn để tối ưu hóa mạng lưới thần kinh. Các chiến lược tiến hóa, trong đó thông tin về độ dốc được sử dụng để cập nhật thông tin về sinh vật, tiến gần đến việc học hỏi kinh nghiệm của người khác. Tương tự, các phương pháp gradient, trong đó việc có được trải nghiệm này hay trải nghiệm khác dẫn đến thay đổi này hoặc thay đổi khác trong hành vi của tác nhân, có thể so sánh với việc học hỏi từ kinh nghiệm của chính một người. Nếu chúng ta nghĩ về các loại hành vi hoặc khả năng thông minh mà mỗi phương pháp trong số hai phương pháp này phát triển ở động vật, thì sự so sánh sẽ trở nên rõ ràng hơn. Trong cả hai trường hợp, “các phương pháp tiến hóa” thúc đẩy việc nghiên cứu các hành vi phản ứng cho phép một người phát triển một khả năng thích hợp nhất định (đủ để sống sót). Học cách đi bộ hoặc trốn thoát khỏi nơi giam cầm trong nhiều trường hợp tương đương với những hành vi “bản năng” hơn, “cứng rắn” ở nhiều loài động vật ở cấp độ di truyền. Ngoài ra, ví dụ này xác nhận rằng các phương pháp tiến hóa có thể áp dụng được trong những trường hợp tín hiệu khen thưởng cực kỳ hiếm (ví dụ: thực tế nuôi dưỡng thành công một đứa trẻ). Trong trường hợp như vậy, không thể liên hệ phần thưởng với bất kỳ tập hợp hành động cụ thể nào có thể đã được thực hiện nhiều năm trước khi sự việc này xảy ra. Mặt khác, nếu chúng ta xem xét một trường hợp ES thất bại, cụ thể là phân loại hình ảnh, kết quả có thể so sánh đáng kể với kết quả học tập của động vật đạt được trong vô số thí nghiệm tâm lý hành vi được thực hiện trong hơn 100 năm.

Học từ động vật

Các phương pháp được sử dụng trong học tăng cường trong nhiều trường hợp được lấy trực tiếp từ các tài liệu tâm lý học về điều hòa hoạt độngvà điều hòa hoạt động được nghiên cứu bằng cách sử dụng tâm lý động vật. Nhân tiện, Richard Sutton, một trong hai người sáng lập học tập tăng cường, có bằng cử nhân tâm lý học. Trong bối cảnh điều kiện hóa hoạt động, động vật học cách liên kết phần thưởng hoặc hình phạt với các mô hình hành vi cụ thể. Người huấn luyện và nhà nghiên cứu có thể thao túng sự liên kết phần thưởng này bằng cách này hay cách khác, kích động động vật thể hiện trí thông minh hoặc một số hành vi nhất định. Tuy nhiên, điều hòa hoạt động, như được sử dụng trong nghiên cứu động vật, không gì khác hơn là một dạng rõ ràng hơn của cùng một điều kiện trên cơ sở mà động vật học hỏi trong suốt cuộc đời của chúng. Chúng ta liên tục nhận được những tín hiệu củng cố tích cực từ môi trường và điều chỉnh hành vi của mình cho phù hợp. Trên thực tế, nhiều nhà khoa học thần kinh và khoa học nhận thức tin rằng con người và các động vật khác thực sự hoạt động ở mức độ cao hơn và liên tục học cách dự đoán kết quả hành vi của họ trong các tình huống tương lai dựa trên những phần thưởng tiềm năng.

Vai trò trung tâm của dự đoán trong việc học hỏi kinh nghiệm làm thay đổi các động lực được mô tả ở trên theo những cách đáng kể. Tín hiệu trước đây được coi là rất thưa thớt (phần thưởng theo từng đợt) hóa ra lại rất dày đặc. Về mặt lý thuyết, tình huống như thế này: tại bất kỳ thời điểm nào, bộ não của động vật có vú đang tính toán kết quả dựa trên một dòng hành động và kích thích giác quan phức tạp, trong khi con vật chỉ đơn giản là đắm mình trong dòng này. Trong trường hợp này, hành vi cuối cùng của con vật đưa ra một tín hiệu mạnh mẽ phải được sử dụng để hướng dẫn việc điều chỉnh dự báo và phát triển hành vi. Bộ não sử dụng tất cả các tín hiệu này để tối ưu hóa các dự báo (và theo đó là chất lượng của các hành động được thực hiện) trong tương lai. Tổng quan về phương pháp này được đưa ra trong cuốn sách xuất sắc “Lướt sóng không chắc chắn” nhà khoa học nhận thức và triết gia Andy Clark. Nếu chúng ta ngoại suy lý luận như vậy cho việc đào tạo các tác nhân nhân tạo, thì một lỗ hổng cơ bản trong học tăng cường sẽ lộ ra: tín hiệu được sử dụng trong mô hình này yếu đến mức vô vọng so với những gì nó có thể (hoặc lẽ ra phải như vậy). Trong trường hợp không thể tăng độ bão hòa tín hiệu (có lẽ do nó vốn yếu hoặc liên quan đến khả năng phản ứng ở mức độ thấp), có lẽ tốt hơn nên ưu tiên một phương pháp huấn luyện được song song hóa tốt, chẳng hạn như ES.

Đào tạo mạng lưới thần kinh phong phú hơn

Dựa trên các nguyên tắc hoạt động thần kinh cao hơn vốn có trong não của động vật có vú, vốn luôn bận rộn đưa ra các dự đoán, những tiến bộ gần đây đã được thực hiện trong việc học tăng cường, hiện đã tính đến tầm quan trọng của những dự đoán đó. Tôi có thể giới thiệu ngay cho bạn hai tác phẩm tương tự:

Trong cả hai bài viết này, các tác giả đều bổ sung chính sách mặc định điển hình của mạng lưới thần kinh của họ bằng các kết quả dự đoán về trạng thái môi trường trong tương lai. Trong bài viết đầu tiên, dự báo được áp dụng cho nhiều biến số đo lường khác nhau và trong bài viết thứ hai, dự báo được áp dụng cho những thay đổi trong môi trường và hành vi của tác nhân. Trong cả hai trường hợp, tín hiệu thưa thớt liên quan đến sự củng cố tích cực trở nên phong phú hơn và nhiều thông tin hơn, cho phép học hỏi nhanh hơn và tiếp thu các hành vi phức tạp hơn. Những cải tiến như vậy chỉ khả dụng với các phương pháp sử dụng tín hiệu gradient chứ không phải với các phương pháp hoạt động theo nguyên tắc “hộp đen”, chẳng hạn như ES.

Ngoài ra, việc học hỏi kinh nghiệm và phương pháp gradient sẽ hiệu quả hơn rất nhiều. Ngay cả trong những trường hợp có thể nghiên cứu một vấn đề cụ thể bằng phương pháp ES nhanh hơn so với sử dụng học tăng cường, thì hiệu quả đạt được là do chiến lược ES liên quan đến nhiều dữ liệu hơn nhiều lần so với RL. Trong trường hợp này, phản ánh các nguyên tắc học tập ở động vật, chúng tôi lưu ý rằng kết quả của việc học từ tấm gương của người khác sẽ thể hiện sau nhiều thế hệ, trong khi đôi khi chỉ một sự kiện mà bản thân nó trải qua cũng đủ để con vật học được bài học mãi mãi. Trong khi thích đào tạo không có ví dụ Mặc dù nó không hoàn toàn phù hợp với các phương pháp gradient truyền thống nhưng nó dễ hiểu hơn ES nhiều. Ví dụ, có những cách tiếp cận như kiểm soát từng giai đoạn thần kinh, trong đó các giá trị Q được lưu trữ trong quá trình đào tạo, sau đó chương trình sẽ kiểm tra chúng trước khi thực hiện hành động. Kết quả là một phương pháp gradient cho phép bạn học cách giải quyết vấn đề nhanh hơn nhiều so với trước đây. Trong một bài viết về kiểm soát các giai đoạn thần kinh, các tác giả đã đề cập đến vùng hải mã của con người, nơi có khả năng lưu giữ thông tin về một sự kiện ngay cả sau một trải nghiệm duy nhất và do đó, đóng vai trò quan trọng. vai trò quan trọng trong quá trình ghi nhớ. Các cơ chế như vậy yêu cầu quyền truy cập vào tổ chức nội bộ của tác nhân, theo định nghĩa, điều này cũng không thể thực hiện được trong mô hình ES.

Vậy tại sao không kết hợp chúng?

Có thể phần lớn bài viết này sẽ để lại ấn tượng rằng tôi đang ủng hộ các phương pháp RL. Tuy nhiên, tôi thực sự nghĩ rằng về lâu dài, giải pháp tốt nhất là kết hợp cả hai phương pháp, sao cho mỗi phương pháp được sử dụng trong những tình huống phù hợp nhất. Rõ ràng, trong trường hợp có nhiều chính sách phản ứng hoặc trong các tình huống có rất ít tín hiệu củng cố tích cực, ES sẽ thắng, đặc biệt nếu bạn có khả năng tính toán theo ý mình để có thể tiến hành đào tạo song song trên quy mô lớn. Mặt khác, các phương pháp gradient sử dụng học tăng cường hoặc học có giám sát sẽ hữu ích khi chúng ta có quyền truy cập vào phản hồi rộng rãi và cần học cách giải quyết vấn đề nhanh chóng và tốn ít dữ liệu hơn.

Trở lại với tự nhiên, chúng ta thấy rằng về bản chất, phương pháp thứ nhất đặt nền tảng cho phương pháp thứ hai. Đây là lý do tại sao trong quá trình tiến hóa, động vật có vú đã phát triển bộ não cho phép chúng học hỏi cực kỳ hiệu quả từ các tín hiệu phức tạp đến từ môi trường. Vì vậy, câu hỏi vẫn còn mở. Có lẽ các chiến lược tiến hóa sẽ giúp chúng ta phát minh ra các kiến ​​trúc học tập hiệu quả và cũng sẽ hữu ích cho các phương pháp học tập gradient. Suy cho cùng, giải pháp mà thiên nhiên tìm ra quả thực rất thành công.

Nguồn: www.habr.com

Thêm một lời nhận xét