Eski moda güzel bir saklambaç oyunu, yapay zeka (AI) botlarının nasıl karar verdiklerini ve birbirleriyle ve etraflarındaki çeşitli nesnelerle nasıl etkileşime geçtiklerini göstermek için harika bir test olabilir.
in onun
Bilim insanları uzun zamandır ününü kazanan bir yöntem kullandı
Yapay zekayı saklambaç oynayacak şekilde eğitmek için bilim insanları, temsilcilerin oyun dünyasını anlama ve kazanma stratejileri geliştirme konusunda tam özgürlüğe sahip olduğu "Yönlendirilmemiş keşif" adı verilen bir yaklaşım kullandı. Bu, DeepMind'daki araştırmacıların birden fazla yapay zeka sistemi çalıştırıldığında kullandığı çoklu etmenli öğrenme yaklaşımına benzer.
Bir saklambaç oyununda, işi saklanmak olan birkaç ajanın, arama ajanlarından oluşan ekip hareketsiz durumdayken hafif bir avantajla rakiplerinin görüş alanından kaçınmaları gerekiyordu. Üstelik bu bağlamda "görüş hattı", bireysel bir robotun önündeki 135 derecelik bir konidir. Ajanlar oyun alanının çok dışına çıkamadılar ve etrafa dağılmış, hem koruma oluşturmak hem de içlerine sızmak için kullanılabilecek bazı harici nesneleri (kutular, hareketli duvarlar, özel rampalar) kullanma becerisine sahip rastgele oluşturulmuş odalarda gezinmek zorunda kaldılar. .
Yapay zeka temsilcileri, uzun bir öğrenme süreci sonunda, her biri oyunun bir sonraki aşamasına geçmelerine yardımcı olan altı benzersiz strateji öğrendi. İlk başta, arayan ve saklanan ekipler basitçe kaçıp birbirlerini kovaladılar, ancak yaklaşık 25 milyon maçın ardından, gizleyen ekip geçitleri kutularla kapatmayı ve bunlardan barınaklar inşa etmeyi öğrendi. 75 milyon maçın ardından ekip, bu saklanma yerlerine girmek için rampaları kullanmanın yollarını keşfetti. 10 milyon tur daha geçtikten sonra, saklananlar rampaları oyun alanının kenarına sürüklemeyi ve rakiplerin kullanmasını önlemek için onları yerlerine kilitlemeyi öğrendi.
388 milyon karşılaşmanın ardından arayıcılar, kendilerine getirilen sandıklara tırmanmak için kapalı rampaları kullanmayı ve ardından doğrudan bunların üzerine geçerek taşınabilir duvarlardan oluşturulan düşman sığınaklarına girmeyi öğrendi. Ve son olarak, 458 milyon maçın ardından, saklanan ekip tüm nesneleri bloke etmeleri ve ardından bir sığınak inşa etmeleri gerektiği sonucuna vardı ve bu da görünüşe göre nihai zaferlerine yol açtı.
Özellikle etkileyici olan şey, 22 milyon eşleşmeden sonra ajanların eylemlerini koordine etmeyi öğrenmeleri ve işbirliğinin verimliliğinin gelecekte daha da artması; örneğin her birinin bir barınak oluşturmak için kendi kutusunu veya duvarını getirmesi ve saklanacak nesnelerden kendi payını seçmesi. Rakiplere oyunu zorlaştırmak için blok yapın.
Bilim adamları ayrıca eğitim nesnesi sayısının (sinir ağından geçen veri miktarı - "Toplu Boyut") öğrenme hızı üzerindeki etkisiyle ilgili önemli bir noktaya dikkat çekti. Varsayılan model, saklanan ekibin rampaları engellemeyi öğrendiği noktaya ulaşmak için 132,3 saatlik eğitim boyunca 34 milyon maç gerektirdi; daha fazla veri ise eğitim süresinde gözle görülür bir azalmaya neden oldu. Örneğin, parametre sayısının (tüm eğitim süreci boyunca elde edilen verilerin bir kısmı) 0,5 milyondan 5,8 milyona çıkarılması, örnekleme verimliliğini 2,2 kat artırdı ve girdi verilerinin boyutunun 64 KB'den 128 KB'ye çıkarılması eğitimi azalttı. zaman neredeyse bir buçuk kat arttı.
Çalışmalarının sonunda araştırmacılar, oyun içi eğitimin, ajanların oyun dışındaki benzer görevlerle başa çıkmalarına ne kadar yardımcı olabileceğini test etmeye karar verdi. Toplamda beş test vardı: Nesnelerin sayısının farkındalığı (bir nesnenin görüş alanı dışında ve kullanılmasa bile varlığını sürdürdüğünün anlaşılması); “kilitleme ve geri dönme” - kişinin orijinal konumunu hatırlama ve bazı ek görevleri tamamladıktan sonra ona geri dönme yeteneği; "sıralı engelleme" - 4 kutu, kapısı olmayan üç odaya rastgele yerleştirildi, ancak içeri girmek için rampalar olduğundan, ajanların hepsini bulması ve engellemesi gerekiyordu; kutuların önceden belirlenmiş sitelere yerleştirilmesi; silindir şeklindeki bir nesnenin etrafında bir sığınak oluşturmak.
Sonuç olarak, oyundaki ön eğitimden geçen botlar, beş görevden üçünde, sorunları sıfırdan çözmek üzere eğitilmiş yapay zekaya göre daha hızlı öğrendi ve daha iyi sonuçlar gösterdi. Görevi tamamlama ve başlangıç pozisyonuna dönme, kapalı odalarda kutuları sırayla bloke etme ve belirli alanlara kutuları yerleştirme konusunda biraz daha iyi performans gösterdiler, ancak nesnelerin sayısını tanıma ve başka bir nesnenin etrafında koruma oluşturma konusunda biraz daha zayıf performans gösterdiler.
Araştırmacılar karışık sonuçları yapay zekanın belirli becerileri nasıl öğrendiğine ve hatırladığına bağlıyor. "Oyun içi eğitimin en iyi performans gösterdiği görevlerin önceden öğrenilen becerilerin tanıdık bir şekilde yeniden kullanılmasını içerdiğini, geri kalan görevlerin sıfırdan eğitilmiş yapay zekadan daha iyi gerçekleştirilmesinin ise bunların farklı bir şekilde kullanılmasını gerektirdiğini düşünüyoruz. daha karmaşık” diye yazıyor çalışmanın ortak yazarları. "Bu sonuç, eğitim yoluyla edinilen becerilerin bir ortamdan diğerine aktarılırken etkili bir şekilde yeniden kullanılmasına yönelik yöntemlerin geliştirilmesi ihtiyacını vurgulamaktadır."
Yapılan çalışma gerçekten etkileyici, çünkü bu öğretim yöntemini kullanma olasılığı herhangi bir oyunun sınırlarının çok ötesindedir. Araştırmacılar, çalışmalarının, hastalıkları teşhis edebilen, karmaşık protein moleküllerinin yapılarını tahmin edebilen ve BT taramalarını analiz edebilen "fizik tabanlı" ve "insan benzeri" davranışa sahip yapay zeka yaratmaya yönelik önemli bir adım olduğunu söylüyor.
Aşağıdaki videoda tüm öğrenme sürecinin nasıl gerçekleştiğini, yapay zekanın ekip çalışmasını nasıl öğrendiğini ve stratejilerinin giderek daha kurnaz ve karmaşık hale geldiğini açıkça görebilirsiniz.
Kaynak: 3dnews.ru