Ey Habr!
İki yıllık, kodu olmayan ve açıkça akademik nitelikteki metinlerin çevirilerini burada yayınlamaya genellikle karar vermiyoruz - ancak bugün bir istisna yapacağız. Makalenin başlığındaki ikilemin okuyucularımızın çoğunu endişelendirdiğini umuyoruz ve bu yazının orijinalinde tartıştığı evrimsel stratejiler üzerine temel çalışmayı zaten okudunuz veya şimdi okuyacaksınız. Kediye hoş geldiniz!
Mart 2017'de OpenAI, derin öğrenme topluluğunda "
Evrimsel Stratejiler
OpenAI makalesinin ana tezi, geleneksel geri yayılımla birlikte takviyeli öğrenmeyi kullanmak yerine, karmaşık sorunları çözmek için "evrimsel strateji" (ES) adını verdikleri şeyi kullanarak bir sinir ağını başarıyla eğitmeleriydi. Bu ES yaklaşımı, paralel çalışan birden fazla aracıyı içeren ve bu dağılımdan seçilen parametreleri kullanan ağ çapında bir ağırlık dağılımının korunmasından oluşur. Her aracı kendi ortamında çalışır ve belirli sayıda bölümün veya bir bölümün aşamalarının tamamlanmasının ardından algoritma, uygunluk puanı olarak ifade edilen kümülatif bir ödül döndürür. Bu değer dikkate alınarak, parametrelerin dağılımı daha başarılı temsilcilere doğru kaydırılabilir ve daha az başarılı olanlardan mahrum bırakılabilir. Yüzlerce temsilcinin katılımıyla böyle bir operasyonun milyonlarca kez tekrarlanmasıyla, ağırlıkların dağılımını, temsilcilerin kendilerine verilen görevi çözmek için yüksek kaliteli bir politika oluşturmalarına olanak sağlayacak bir alana taşımak mümkündür. Gerçekten de makalede sunulan sonuçlar etkileyicidir: Binlerce ajanı paralel olarak çalıştırırsanız, iki ayak üzerinde antropomorfik hareketin yarım saatten daha kısa bir sürede öğrenilebileceği gösterilmiştir (en gelişmiş RL yöntemleri bile daha fazla harcama gerektirir). bu konuda bir saatten fazla). Daha detaylı bilgi için mükemmeli okumanızı tavsiye ederim.
Antropomorfik dik yürümeyi öğretmek için farklı stratejiler, OpenAI'nin ES yöntemi kullanılarak incelendi.
Siyah kutu
Bu yöntemin en büyük faydası kolaylıkla paralelleştirilebilmesidir. A3C gibi RL yöntemleri, çalışan iş parçacıkları ile bir parametre sunucusu arasında bilgi alışverişini gerektirirken, ES yalnızca uygunluk tahminlerine ve genelleştirilmiş parametre dağıtım bilgilerine ihtiyaç duyar. Bu basitlik nedeniyle bu yöntem, ölçeklendirme yetenekleri açısından modern RL yöntemlerinin çok ilerisindedir. Ancak tüm bunlar boşuna değildir: ağı kara kutu ilkesine göre optimize etmeniz gerekir. Bu durumda, "kara kutu", eğitim sırasında ağın iç yapısının tamamen göz ardı edildiği ve yalnızca genel sonucun (bölüm için ödül) kullanıldığı ve belirli bir ağın ağırlıklarının değişip değişmeyeceğine bağlı olduğu anlamına gelir. sonraki nesillere miras kalacak. Çevreden çok fazla geri bildirim almadığımız durumlarda ve birçok geleneksel RL probleminde ödül akışının çok seyrek olduğu durumlarda, sorun "kısmen kara kutu" olmaktan çıkıp "tamamen kara kutu"ya dönüşür. Bu durumda üretkenliği önemli ölçüde artırabilirsiniz, bu nedenle elbette böyle bir uzlaşma haklıdır. "Zaten son derece gürültülüyse eğimlere kimin ihtiyacı var ki?" - bu genel görüş.
Ancak geri bildirimin daha aktif olduğu durumlarda ES için işler ters gitmeye başlar. OpenAI ekibi, basit bir MNIST sınıflandırma ağının ES kullanılarak nasıl eğitildiğini ve bu sefer eğitimin 1000 kat daha yavaş olduğunu anlatıyor. Gerçek şu ki, görüntü sınıflandırmasındaki gradyan sinyali, ağa daha iyi sınıflandırmanın nasıl öğretileceği konusunda son derece bilgilendiricidir. Bu nedenle, RL tekniğinde sorun daha az, gürültülü eğimler üreten ortamlardaki seyrek ödüllerde ise daha fazladır.
Doğanın çözümü
Yapay zekayı geliştirmenin yollarını düşünerek doğa örneğinden öğrenmeye çalışırsak, bazı durumlarda yapay zeka şu şekilde düşünülebilir:
Memelilerin entelektüel davranışlarını inceledikten sonra, birbiriyle yakından ilişkili iki sürecin karmaşık karşılıklı etkisinin bir sonucu olarak oluştuğunu görüyoruz: başkalarının deneyimlerinden öğrenmek и yaparak öğrenmek. İlki genellikle doğal seçilim tarafından yönlendirilen evrimle eş tutuluyor, ancak burada epigenetiği, mikrobiyomları ve genetik olarak ilgisiz organizmalar arasında deneyimlerin paylaşılmasını sağlayan diğer mekanizmaları hesaba katmak için daha geniş bir terim kullanıyorum. Deneyimden öğrenme olan ikinci süreç, bir hayvanın hayatı boyunca öğrenmeyi başardığı tüm bilgilerdir ve bu bilgiler, doğrudan bu hayvanın dış dünyayla etkileşimi tarafından belirlenir. Bu kategori, nesneleri tanımayı öğrenmekten, öğrenme sürecinin doğasında bulunan iletişimde uzmanlaşmaya kadar her şeyi içerir.
Kabaca söylemek gerekirse, doğada meydana gelen bu iki süreç, sinir ağlarını optimize etmek için iki seçenekle karşılaştırılabilir. Gradyanlar hakkındaki bilgilerin organizma hakkındaki bilgileri güncellemek için kullanıldığı evrimsel stratejiler, başkalarının deneyimlerinden öğrenmeye yaklaşmaktadır. Benzer şekilde, şu veya bu deneyimi elde etmenin, aracının davranışında şu veya bu değişikliğe yol açtığı gradyan yöntemleri, kişinin kendi deneyiminden öğrenmeyle karşılaştırılabilir. Bu iki yaklaşımın her birinin hayvanlarda geliştirdiği akıllı davranış veya yetenek türlerini düşünürsek, karşılaştırma daha belirgin hale gelir. Her iki durumda da, "evrimsel yöntemler" kişinin belirli bir uyum (hayatta kalmak için yeterli) geliştirmesine olanak tanıyan tepkisel davranışların incelenmesini teşvik eder. Yürümeyi veya esaretten kaçmayı öğrenmek, çoğu durumda, birçok hayvanda genetik düzeyde "yapılandırılmış" daha "içgüdüsel" davranışlara eşdeğerdir. Ayrıca bu örnek, ödül sinyalinin son derece nadir olduğu durumlarda (örneğin, başarılı bir bebek büyütme olgusu) evrimsel yöntemlerin uygulanabilir olduğunu doğrulamaktadır. Böyle bir durumda ödülü, bu gerçeğin ortaya çıkmasından yıllar önce gerçekleştirilmiş olabilecek herhangi bir belirli eylem dizisiyle ilişkilendirmek imkansızdır. Öte yandan, ES'nin başarısız olduğu bir durumu, yani görüntü sınıflandırmayı ele alırsak, sonuçlar, 100'den fazla yıl boyunca yürütülen sayısız davranışsal psikolojik deneyde elde edilen hayvan öğreniminin sonuçlarıyla oldukça karşılaştırılabilir.
Hayvanlardan Öğrenmek
Takviyeli öğrenmede kullanılan yöntemler çoğu durumda doğrudan psikolojik literatürden alınır.
Deneyimlerden öğrenmede tahminin merkezi rolü, yukarıda açıklanan dinamikleri önemli şekillerde değiştirir. Daha önce çok seyrek olduğu düşünülen sinyalin (bölümsel ödül) çok yoğun olduğu ortaya çıktı. Teorik olarak durum şuna benzer: Herhangi bir zamanda, memelinin beyni, karmaşık bir duyusal uyaran ve eylem akışına dayalı olarak sonuçları hesaplarken, hayvan bu akışın içine dalmış durumdadır. Bu durumda hayvanın son davranışı, tahminlerin ayarlanmasına ve davranışın geliştirilmesine rehberlik etmek için kullanılması gereken güçlü bir sinyal verir. Beyin, tüm bu sinyalleri geleceğe yönelik tahminleri (ve buna bağlı olarak alınan eylemlerin kalitesini) optimize etmek için kullanır. Bu yaklaşıma genel bir bakış şu mükemmel kitapta verilmektedir:
Sinir ağlarının daha zengin eğitimi
Sürekli olarak tahminlerde bulunmakla meşgul olan memeli beyninin doğasında bulunan daha yüksek sinirsel aktivite ilkelerine dayanarak, artık bu tür tahminlerin önemini dikkate alan takviyeli öğrenmede son gelişmeler kaydedilmiştir. Size hemen iki benzer çalışma önerebilirim:
Bu makalelerin her ikisinde de yazarlar, sinir ağlarının tipik varsayılan politikasını, çevrenin gelecekteki durumuna ilişkin tahmin sonuçlarıyla tamamlıyorlar. İlk makalede tahmin, çeşitli ölçüm değişkenlerine uygulanırken, ikinci makalede, tahmin, ortamdaki değişikliklere ve aracının davranışına uygulandı. Her iki durumda da, olumlu pekiştirmeyle ilişkili seyrek sinyal çok daha zengin ve daha bilgilendirici hale gelir ve hem daha hızlı öğrenmeye hem de daha karmaşık davranışların edinilmesine olanak tanır. Bu tür iyileştirmeler yalnızca gradyan sinyali kullanan yöntemlerde mümkündür ve ES gibi "kara kutu" prensibiyle çalışan yöntemlerde mevcut değildir.
Ayrıca deneyimlerden öğrenme ve gradyan yöntemleri çok daha etkilidir. Belirli bir problemi ES yöntemini kullanarak takviyeli öğrenmeyi kullanmaktan daha hızlı incelemenin mümkün olduğu durumlarda bile, ES stratejisinin RL'ye göre çok daha fazla veri içermesi nedeniyle kazanç elde edildi. Bu durumda hayvanlarda öğrenmenin ilkelerini düşündüğümüzde, başkasının örneğinden öğrenmenin sonucunun nesiller sonra kendini gösterdiğini, bazen tek başına yaşanan tek bir olayın hayvanın sonsuza kadar dersi öğrenmesi için yeterli olduğunu görüyoruz. Gibi iken
Peki neden bunları birleştirmiyorsunuz?
Bu makalenin çoğunun RL yöntemlerini savunduğum izlenimini bırakması muhtemeldir. Ancak aslında uzun vadede en iyi çözümün, her iki yöntemi de birleştirerek her birinin en uygun olduğu durumlarda kullanılması olduğunu düşünüyorum. Açıkçası, birçok reaktif politika durumunda veya çok seyrek pozitif takviye sinyallerinin olduğu durumlarda, özellikle de büyük ölçüde paralel eğitim yürütebileceğiniz bilgi işlem gücünüzün emrinizde olması durumunda ES kazanır. Öte yandan, takviyeli öğrenmeyi veya denetimli öğrenmeyi kullanan gradyan yöntemleri, kapsamlı geri bildirime erişimimiz olduğunda ve bir sorunu hızlı ve daha az veriyle nasıl çözeceğimizi öğrenmemiz gerektiğinde yararlı olacaktır.
Doğaya döndüğümüzde, ilk yöntemin aslında ikinci yöntemin temelini oluşturduğunu görüyoruz. Bu nedenle evrim süreci boyunca memeliler, çevreden gelen karmaşık sinyalleri son derece etkili bir şekilde öğrenmelerine olanak tanıyan beyinler geliştirmişlerdir. Yani soru açık kalıyor. Belki de evrimsel stratejiler, aynı zamanda kademeli öğrenme yöntemleri için de yararlı olacak etkili öğrenme mimarileri icat etmemize yardımcı olacaktır. Sonuçta doğanın bulduğu çözüm gerçekten çok başarılı.
Kaynak: habr.com