一款優秀的老式捉迷藏遊戲對於人工智慧 (AI) 機器人來說是一個很好的測試,可以展示它們如何做出決策以及如何與彼此以及周圍的各種物體進行互動。
在他的
科學家們使用了一種久負盛名的方法
為了訓練人工智慧玩捉迷藏,科學家們使用了一種稱為「無向探索」的方法,在這種方法中,智能體可以完全自由地發展對遊戲世界的理解並製定獲勝策略。 這類似於 DeepMind 研究人員在多個人工智慧系統之間使用的多智能體學習方法
在一場捉迷藏的遊戲中,幾名以隱藏為己任的特工在稍稍領先之後,就被要求避開對手的視線,而搜查特工隊則一動不動。 此外,本文中的「視線」是單一機器人前面的 135 度圓錐體。 特工無法冒險離開遊戲區域太遠,被迫在隨機生成的房間中導航,並能夠使用散佈在周圍的一些外部物體(盒子、可移動的牆壁、特殊坡道),這些物體既可以用來創建掩護,也可以用來滲透其中。
透過漫長的學習過程,人工智慧代理學會了六種獨特的策略,每一種策略都幫助他們進入遊戲的下一個階段。 起初,尋找者和隱藏者團隊只是簡單地逃跑並互相追逐,但經過大約 25 萬次比賽後,隱藏者團隊學會了用盒子堵塞通道並用盒子建造庇護所。 在又進行了 75 萬場比賽後,團隊發現了使用坡道進入這些藏身處的方法。 又經過一千萬輪後,隱藏者學會了將坡道拖到比賽區域的邊緣並將其鎖定到位以防止對手使用它們。
經過 388 億場比賽,搜尋者學會了使用堵塞的坡道爬上帶給他們的板條箱,然後直接爬上板條箱,滲透到由便攜式牆壁創建的敵人藏身之處。 最後,經過 458 億次比賽,隱藏小組得出結論,他們需要阻擋所有物體,然後建造一個避難所,這顯然導致了他們的最終勝利。
尤其令人印象深刻的是,經過22 萬次匹配,智能體學會了協調自己的行動,並且他們的協作效率在未來只會增加,例如,每個人都帶著自己的盒子或牆壁來創建庇護所,並選擇自己分享的物品來進行躲避。阻止,使對手的遊戲難度變得複雜。
科學家也注意到與訓練對象數量(透過神經網路傳遞的資料量-「Batch Size」)對學習速度影響有關的重要一點。 預設模型需要 132,3 小時的訓練進行 34 億次配對才能達到隱藏團隊學會阻擋坡道的程度,而更多的資料導致訓練時間顯著減少。 例如,將參數數量(整個訓練過程中獲得的部分資料)從0,5萬個增加到5,8萬個,取樣效率提高了2,2倍,輸入資料大小從64 KB增加到128 KB,減少了訓練量時間差不多一倍半。
在工作結束時,研究人員決定測試遊戲中的訓練可以在多大程度上幫助智能體應對遊戲外的類似任務。 總共有五項測試: 對物體數量的認識(了解一個物體即使在看不見的地方並且沒有被使用,仍然繼續存在); 「鎖定並返回」-記住自己原來位置並在完成一些額外任務後返回原來位置的能力; 「順序封鎖」-4個盒子被隨機放置在三個沒有門的房間裡,但有坡道可以進入,特工需要找到並封鎖它們; 將箱子放置在預定地點; 以圓柱體的形式圍繞物體創建一個庇護所。
結果,在五分之三的任務中,在遊戲中接受過初步訓練的機器人比經過訓練從頭開始解決問題的機器人學得更快,並且表現出更好的結果。 他們在完成任務並返回起始位置、在封閉的房間中依次阻擋盒子以及將盒子放置在給定區域方面表現稍好,但在識別物體數量和在另一個物體周圍創建掩護方面表現稍弱。
研究人員將人工智慧學習和記憶某些技能的方式歸結為好壞參半的結果。 「我們認為,遊戲中預訓練表現最好的任務涉及以熟悉的方式重用以前學到的技能,而比從頭開始訓練的人工智慧更好地執行其餘任務則需要以不同的方式使用它們,這在很大程度上更困難,」該作品的合著者寫道。 “這一結果凸顯了需要開發方法,以便在將培訓所獲得的技能從一種環境轉移到另一種環境時,有效地重用這些技能。”
所做的工作確實令人印象深刻,因為使用這種教學方法的前景遠遠超出了任何遊戲的限制。 研究人員表示,他們的工作是朝著創建具有「基於物理」和「類人」行為的人工智慧邁出的重要一步,該人工智慧可以診斷疾病、預測複雜蛋白質分子的結構並分析 CT 掃描。
在下面的影片中你可以清楚地看到整個學習過程是如何發生的,AI是如何學會團隊合作的,它的策略變得越來越狡猾和複雜。
來源: 3dnews.ru