🥇OpenAI dạy AI làm việc nhóm trong trò chơi trốn tìm

Một trò chơi trốn tìm cổ điển hay có thể là một thử nghiệm tuyệt vời cho các bot trí tuệ nhân tạo (AI) để chứng minh cách chúng đưa ra quyết định và tương tác với nhau cũng như các vật thể khác nhau xung quanh chúng.

trong mình bài báo mới, được xuất bản bởi các nhà nghiên cứu từ OpenAI, một tổ chức nghiên cứu trí tuệ nhân tạo phi lợi nhuận đã trở nên nổi tiếng chiến thắng trước nhà vô địch thế giới trong trò chơi máy tính Dota 2, các nhà khoa học mô tả cách các đặc vụ được điều khiển bởi trí tuệ nhân tạo được huấn luyện để tinh vi hơn trong việc tìm kiếm và lẩn trốn lẫn nhau trong môi trường ảo. Kết quả nghiên cứu đã chứng minh rằng một nhóm gồm hai bot học hiệu quả hơn và nhanh hơn bất kỳ tác nhân đơn lẻ nào không có đồng minh.

Các nhà khoa học đã sử dụng một phương pháp đã nổi tiếng từ lâu học máy có tăng cường, trong đó trí tuệ nhân tạo được đặt trong một môi trường mà nó không biết, đồng thời có những cách tương tác nhất định với nó, cũng như một hệ thống thưởng và phạt đối với kết quả này hoặc kết quả khác của hành động của nó. Phương pháp này khá hiệu quả nhờ khả năng AI thực hiện nhiều hành động khác nhau trong môi trường ảo với tốc độ cực lớn, nhanh hơn hàng triệu lần so với những gì con người có thể tưởng tượng. Điều này cho phép thử và sai để tìm ra các chiến lược hiệu quả nhất để giải quyết một vấn đề nhất định. Nhưng cách tiếp cận này cũng có một số hạn chế, chẳng hạn như việc tạo môi trường và thực hiện nhiều chu trình đào tạo đòi hỏi tài nguyên máy tính khổng lồ và bản thân quy trình này đòi hỏi một hệ thống chính xác để so sánh kết quả của các hành động AI với mục tiêu của nó. Ngoài ra, các kỹ năng mà tác nhân có được theo cách này chỉ giới hạn ở nhiệm vụ được mô tả và một khi AI học cách đối phó với nó, sẽ không có cải tiến nào nữa.

Để huấn luyện AI chơi trốn tìm, các nhà khoa học đã sử dụng một phương pháp gọi là “Khám phá vô hướng”, trong đó các đặc vụ có toàn quyền tự do phát triển hiểu biết của họ về thế giới trò chơi và phát triển các chiến lược chiến thắng. Điều này tương tự như phương pháp học tập đa tác nhân mà các nhà nghiên cứu tại DeepMind đã sử dụng khi nhiều hệ thống trí tuệ nhân tạo được huấn luyện chơi chế độ bắt cờ trong Quake III Arena. Như trong trường hợp này, các đặc vụ AI trước đây không được đào tạo về luật chơi, nhưng theo thời gian, họ đã học được các chiến lược cơ bản và thậm chí có thể khiến các nhà nghiên cứu ngạc nhiên bằng những giải pháp không hề tầm thường.

Trong trò chơi trốn tìm, một số đặc vụ có nhiệm vụ lẩn trốn được yêu cầu tránh tầm nhìn của đối thủ sau một khởi đầu nhẹ trong khi đội đặc vụ tìm kiếm bất động. Hơn nữa, “đường ngắm” trong bối cảnh này là một hình nón 135 độ phía trước một bot riêng lẻ. Các đặc vụ không thể đi quá xa bên ngoài khu vực chơi và buộc phải điều hướng các phòng được tạo ngẫu nhiên với khả năng sử dụng một số vật thể bên ngoài (hộp, tường di động, đường dốc đặc biệt) nằm rải rác xung quanh có thể được sử dụng để tạo vỏ bọc và xâm nhập vào chúng. .

Thông qua một quá trình học tập kéo dài, các đặc vụ AI đã học được sáu chiến lược độc đáo, mỗi chiến lược giúp họ tiến tới giai đoạn tiếp theo của trò chơi. Lúc đầu, đội tìm kiếm và đội trốn chỉ đơn giản là bỏ chạy và đuổi nhau, nhưng sau khoảng 25 triệu trận đấu, đội trốn đã học được cách chặn các lối đi bằng những chiếc hộp và xây dựng nơi trú ẩn từ chúng. Sau 75 triệu trận đấu khác, nhóm đã khám phá ra cách sử dụng các đường dốc để đi vào những nơi ẩn náu này. Sau 10 triệu vòng đấu nữa, những người đi trốn đã học cách kéo các đường dốc đến rìa khu vực chơi và khóa chúng tại chỗ để ngăn đối thủ sử dụng chúng.

Sau 388 triệu trận đấu, những người tìm kiếm đã học cách sử dụng những con đường dốc bị chặn để trèo lên những chiếc thùng được mang đến cho họ, sau đó di chuyển thẳng lên chúng, xuyên qua nơi ẩn náu của kẻ thù được tạo ra từ những bức tường di động. Và cuối cùng, sau 458 triệu trận đấu, đội ẩn náu kết luận rằng họ cần phải chặn tất cả các vật thể và sau đó xây dựng một nơi trú ẩn, điều này rõ ràng đã dẫn đến chiến thắng cuối cùng của họ.

Điều đặc biệt ấn tượng là sau 22 triệu trận đấu, các đặc vụ đã học được cách phối hợp hành động và hiệu quả hợp tác của họ chỉ tăng lên trong tương lai, chẳng hạn, mỗi người mang theo hộp hoặc bức tường của riêng mình để tạo nơi trú ẩn và chọn phần đồ vật để chia sẻ. chặn để làm cho trò chơi trở nên khó khăn hơn đối với đối thủ.

Các nhà khoa học cũng lưu ý một điểm quan trọng liên quan đến ảnh hưởng của số lượng đối tượng đào tạo (lượng dữ liệu được truyền qua mạng lưới thần kinh - “Batch Size”) đến tốc độ học tập. Mô hình mặc định yêu cầu 132,3 triệu trận đấu trong 34 giờ huấn luyện để đạt đến điểm mà đội ẩn nấp học cách chặn các đoạn đường dốc, trong khi nhiều dữ liệu hơn khiến thời gian huấn luyện giảm đáng kể. Ví dụ: việc tăng số lượng tham số (một phần dữ liệu thu được trong toàn bộ quá trình đào tạo) từ 0,5 triệu lên 5,8 triệu đã tăng hiệu suất lấy mẫu lên 2,2 lần và tăng kích thước của dữ liệu đầu vào từ 64 KB lên 128 KB đã giảm việc đào tạo thời gian gần như một lần rưỡi.

Khi kết thúc công việc, các nhà nghiên cứu quyết định kiểm tra mức độ đào tạo trong trò chơi có thể giúp các đặc vụ đối phó với các nhiệm vụ tương tự bên ngoài trò chơi. Tổng cộng có năm bài kiểm tra: nhận thức về số lượng đồ vật (hiểu rằng một đồ vật vẫn tiếp tục tồn tại ngay cả khi nó ở ngoài tầm nhìn và không được sử dụng); “khóa và quay lại” - khả năng ghi nhớ vị trí ban đầu của một người và quay lại vị trí đó sau khi hoàn thành một số nhiệm vụ bổ sung; “chặn tuần tự” - 4 chiếc hộp được đặt ngẫu nhiên trong XNUMX căn phòng không có cửa nhưng có đường dốc để vào bên trong, các đặc vụ phải tìm và phong tỏa tất cả; đặt các hộp trên các vị trí được xác định trước; tạo ra một nơi trú ẩn xung quanh một vật thể có dạng hình trụ.

Kết quả là, ở ba trong số năm nhiệm vụ, các bot đã trải qua quá trình đào tạo sơ bộ trong trò chơi sẽ học nhanh hơn và cho kết quả tốt hơn so với AI được đào tạo để giải quyết vấn đề từ đầu. Họ thực hiện tốt hơn một chút trong việc hoàn thành nhiệm vụ và quay trở lại vị trí bắt đầu, tuần tự chặn các hộp trong phòng kín và đặt các hộp vào các khu vực nhất định, nhưng hoạt động yếu hơn một chút trong việc nhận biết số lượng đồ vật và tạo vỏ bọc xung quanh một đồ vật khác.

Các nhà nghiên cứu cho rằng các kết quả khác nhau là do cách AI học và ghi nhớ một số kỹ năng nhất định. “Chúng tôi nghĩ rằng các nhiệm vụ mà quá trình đào tạo trước trong trò chơi thực hiện tốt nhất liên quan đến việc sử dụng lại các kỹ năng đã học trước đó theo cách quen thuộc, trong khi thực hiện các nhiệm vụ còn lại tốt hơn AI được đào tạo từ đầu sẽ yêu cầu sử dụng chúng theo một cách khác, điều này khiến phức tạp hơn,” các đồng tác giả của tác phẩm viết. “Kết quả này nhấn mạnh sự cần thiết phải phát triển các phương pháp tái sử dụng hiệu quả các kỹ năng có được thông qua đào tạo khi chuyển chúng từ môi trường này sang môi trường khác.”

Công việc được thực hiện thực sự ấn tượng vì triển vọng sử dụng phương pháp giảng dạy này vượt xa giới hạn của bất kỳ trò chơi nào. Các nhà nghiên cứu cho biết công việc của họ là một bước quan trọng hướng tới việc tạo ra AI có hành vi “dựa trên vật lý” và “giống con người”, có thể chẩn đoán bệnh, dự đoán cấu trúc của các phân tử protein phức tạp và phân tích ảnh chụp CT.

Trong video bên dưới, bạn có thể thấy rõ toàn bộ quá trình học tập diễn ra như thế nào, AI đã học cách làm việc nhóm như thế nào cũng như các chiến lược của nó ngày càng trở nên tinh ranh và phức tạp hơn.

Nguồn: 3dnews.ru

OpenAI dạy AI làm việc nhóm trong trò chơi trốn tìm

Thêm một lời nhận xét Hủy bỏ trả lời