🥇OpenAI, saklambaç oyununda yapay zekaya ekip çalışmasını öğretiyor

Eski moda güzel bir saklambaç oyunu, yapay zeka (AI) botlarının nasıl karar verdiklerini ve birbirleriyle ve etraflarındaki çeşitli nesnelerle nasıl etkileşime geçtiklerini göstermek için harika bir test olabilir.

in onun Yeni makalekar amacı gütmeyen bir yapay zeka araştırma kuruluşu olan OpenAI araştırmacıları tarafından yayınlandı. dünya şampiyonlarına karşı zafer Bilgisayar oyunu Dota 2'de bilim insanları, yapay zeka tarafından kontrol edilen ajanların, sanal ortamda arama ve birbirlerinden saklanma konusunda daha gelişmiş olmaları için nasıl eğitildiklerini anlatıyor. Araştırmanın sonuçları, iki bottan oluşan bir ekibin, müttefiki olmayan tek bir ajandan daha etkili ve daha hızlı öğrendiğini gösterdi.

Bilim insanları uzun zamandır ününü kazanan bir yöntem kullandı takviyeli makine öğrenimiYapay zekanın bilmediği bir ortama yerleştirildiği, onunla belirli etkileşim yollarının yanı sıra eylemlerinin şu veya bu sonucu için bir ödül ve para cezası sistemine sahip olduğu. Bu yöntem, yapay zekanın sanal ortamda çeşitli eylemleri muazzam bir hızda, bir kişinin hayal edebileceğinden milyonlarca kat daha hızlı gerçekleştirme yeteneği nedeniyle oldukça etkilidir. Bu, belirli bir sorunu çözmek için en etkili stratejilerin bulunmasını deneme yanılma yoluyla sağlar. Ancak bu yaklaşımın bazı sınırlamaları da vardır; örneğin, bir ortam oluşturmak ve çok sayıda eğitim döngüsü yürütmek, büyük bilgi işlem kaynakları gerektirir ve sürecin kendisi, yapay zeka eylemlerinin sonuçlarını hedefiyle karşılaştırmak için doğru bir sistem gerektirir. Ek olarak, aracının bu şekilde edindiği beceriler açıklanan görevle sınırlıdır ve yapay zeka bununla başa çıkmayı öğrendiğinde daha fazla iyileştirme yapılmayacaktır.

Yapay zekayı saklambaç oynayacak şekilde eğitmek için bilim insanları, temsilcilerin oyun dünyasını anlama ve kazanma stratejileri geliştirme konusunda tam özgürlüğe sahip olduğu "Yönlendirilmemiş keşif" adı verilen bir yaklaşım kullandı. Bu, DeepMind'daki araştırmacıların birden fazla yapay zeka sistemi çalıştırıldığında kullandığı çoklu etmenli öğrenme yaklaşımına benzer. Quake III Arena'da bayrak yakalama modunu oynamak üzere eğitildi. Bu durumda olduğu gibi, AI ajanları daha önce oyunun kuralları konusunda eğitilmemişlerdi, ancak zamanla temel stratejileri öğrendiler ve hatta araştırmacıları önemsiz olmayan çözümlerle şaşırtmayı başardılar.

Bir saklambaç oyununda, işi saklanmak olan birkaç ajanın, arama ajanlarından oluşan ekip hareketsiz durumdayken hafif bir avantajla rakiplerinin görüş alanından kaçınmaları gerekiyordu. Üstelik bu bağlamda "görüş hattı", bireysel bir robotun önündeki 135 derecelik bir konidir. Ajanlar oyun alanının çok dışına çıkamadılar ve etrafa dağılmış, hem koruma oluşturmak hem de içlerine sızmak için kullanılabilecek bazı harici nesneleri (kutular, hareketli duvarlar, özel rampalar) kullanma becerisine sahip rastgele oluşturulmuş odalarda gezinmek zorunda kaldılar. .

Yapay zeka temsilcileri, uzun bir öğrenme süreci sonunda, her biri oyunun bir sonraki aşamasına geçmelerine yardımcı olan altı benzersiz strateji öğrendi. İlk başta, arayan ve saklanan ekipler basitçe kaçıp birbirlerini kovaladılar, ancak yaklaşık 25 milyon maçın ardından, gizleyen ekip geçitleri kutularla kapatmayı ve bunlardan barınaklar inşa etmeyi öğrendi. 75 milyon maçın ardından ekip, bu saklanma yerlerine girmek için rampaları kullanmanın yollarını keşfetti. 10 milyon tur daha geçtikten sonra, saklananlar rampaları oyun alanının kenarına sürüklemeyi ve rakiplerin kullanmasını önlemek için onları yerlerine kilitlemeyi öğrendi.

388 milyon karşılaşmanın ardından arayıcılar, kendilerine getirilen sandıklara tırmanmak için kapalı rampaları kullanmayı ve ardından doğrudan bunların üzerine geçerek taşınabilir duvarlardan oluşturulan düşman sığınaklarına girmeyi öğrendi. Ve son olarak, 458 milyon maçın ardından, saklanan ekip tüm nesneleri bloke etmeleri ve ardından bir sığınak inşa etmeleri gerektiği sonucuna vardı ve bu da görünüşe göre nihai zaferlerine yol açtı.

Özellikle etkileyici olan şey, 22 milyon eşleşmeden sonra ajanların eylemlerini koordine etmeyi öğrenmeleri ve işbirliğinin verimliliğinin gelecekte daha da artması; örneğin her birinin bir barınak oluşturmak için kendi kutusunu veya duvarını getirmesi ve saklanacak nesnelerden kendi payını seçmesi. Rakiplere oyunu zorlaştırmak için blok yapın.

Bilim adamları ayrıca eğitim nesnesi sayısının (sinir ağından geçen veri miktarı - "Toplu Boyut") öğrenme hızı üzerindeki etkisiyle ilgili önemli bir noktaya dikkat çekti. Varsayılan model, saklanan ekibin rampaları engellemeyi öğrendiği noktaya ulaşmak için 132,3 saatlik eğitim boyunca 34 milyon maç gerektirdi; daha fazla veri ise eğitim süresinde gözle görülür bir azalmaya neden oldu. Örneğin, parametre sayısının (tüm eğitim süreci boyunca elde edilen verilerin bir kısmı) 0,5 milyondan 5,8 milyona çıkarılması, örnekleme verimliliğini 2,2 kat artırdı ve girdi verilerinin boyutunun 64 KB'den 128 KB'ye çıkarılması eğitimi azalttı. zaman neredeyse bir buçuk kat arttı.

Çalışmalarının sonunda araştırmacılar, oyun içi eğitimin, ajanların oyun dışındaki benzer görevlerle başa çıkmalarına ne kadar yardımcı olabileceğini test etmeye karar verdi. Toplamda beş test vardı: Nesnelerin sayısının farkındalığı (bir nesnenin görüş alanı dışında ve kullanılmasa bile varlığını sürdürdüğünün anlaşılması); “kilitleme ve geri dönme” - kişinin orijinal konumunu hatırlama ve bazı ek görevleri tamamladıktan sonra ona geri dönme yeteneği; "sıralı engelleme" - 4 kutu, kapısı olmayan üç odaya rastgele yerleştirildi, ancak içeri girmek için rampalar olduğundan, ajanların hepsini bulması ve engellemesi gerekiyordu; kutuların önceden belirlenmiş sitelere yerleştirilmesi; silindir şeklindeki bir nesnenin etrafında bir sığınak oluşturmak.

Sonuç olarak, oyundaki ön eğitimden geçen botlar, beş görevden üçünde, sorunları sıfırdan çözmek üzere eğitilmiş yapay zekaya göre daha hızlı öğrendi ve daha iyi sonuçlar gösterdi. Görevi tamamlama ve başlangıç pozisyonuna dönme, kapalı odalarda kutuları sırayla bloke etme ve belirli alanlara kutuları yerleştirme konusunda biraz daha iyi performans gösterdiler, ancak nesnelerin sayısını tanıma ve başka bir nesnenin etrafında koruma oluşturma konusunda biraz daha zayıf performans gösterdiler.

Araştırmacılar karışık sonuçları yapay zekanın belirli becerileri nasıl öğrendiğine ve hatırladığına bağlıyor. "Oyun içi eğitimin en iyi performans gösterdiği görevlerin önceden öğrenilen becerilerin tanıdık bir şekilde yeniden kullanılmasını içerdiğini, geri kalan görevlerin sıfırdan eğitilmiş yapay zekadan daha iyi gerçekleştirilmesinin ise bunların farklı bir şekilde kullanılmasını gerektirdiğini düşünüyoruz. daha karmaşık” diye yazıyor çalışmanın ortak yazarları. "Bu sonuç, eğitim yoluyla edinilen becerilerin bir ortamdan diğerine aktarılırken etkili bir şekilde yeniden kullanılmasına yönelik yöntemlerin geliştirilmesi ihtiyacını vurgulamaktadır."

Yapılan çalışma gerçekten etkileyici, çünkü bu öğretim yöntemini kullanma olasılığı herhangi bir oyunun sınırlarının çok ötesindedir. Araştırmacılar, çalışmalarının, hastalıkları teşhis edebilen, karmaşık protein moleküllerinin yapılarını tahmin edebilen ve BT taramalarını analiz edebilen "fizik tabanlı" ve "insan benzeri" davranışa sahip yapay zeka yaratmaya yönelik önemli bir adım olduğunu söylüyor.

Aşağıdaki videoda tüm öğrenme sürecinin nasıl gerçekleştiğini, yapay zekanın ekip çalışmasını nasıl öğrendiğini ve stratejilerinin giderek daha kurnaz ve karmaşık hale geldiğini açıkça görebilirsiniz.

Kaynak: 3dnews.ru

OpenAI, saklambaç oyununda yapay zekaya ekip çalışmasını öğretiyor

Yorum ekle Cevabı iptal