Takviyeli öğrenme mi yoksa evrimsel stratejiler mi? - İkisi birden

Ey Habr!

İki yıllık, kodu olmayan ve açıkça akademik nitelikteki metinlerin çevirilerini burada yayınlamaya genellikle karar vermiyoruz - ancak bugün bir istisna yapacağız. Makalenin başlığındaki ikilemin okuyucularımızın çoğunu endişelendirdiğini umuyoruz ve bu yazının orijinalinde tartıştığı evrimsel stratejiler üzerine temel çalışmayı zaten okudunuz veya şimdi okuyacaksınız. Kediye hoş geldiniz!

Takviyeli öğrenme mi yoksa evrimsel stratejiler mi? - İkisi birden

Mart 2017'de OpenAI, derin öğrenme topluluğunda "Takviyeli Öğrenmeye Ölçeklenebilir Bir Alternatif Olarak Evrim Stratejileri.” Bu çalışma, takviyeli öğrenmenin (RL) bir takoz haline gelmediği ve karmaşık sinir ağlarını eğitirken diğer yöntemlerin denenmesinin tavsiye edildiği gerçeği lehine etkileyici sonuçlar tanımladı. Daha sonra takviyeli öğrenmenin önemi ve problem çözmeyi öğretmek için "sahip olunması gereken" bir teknoloji statüsünü ne kadar hak ettiği konusunda bir tartışma başladı. Burada şunu söylemek istiyorum ki, biri diğerinden açıkça daha iyi olan bu iki teknolojinin rakip olarak görülmemesi gerekiyor; tam tersine sonuçta birbirlerini tamamlarlar. Aslında, yaratmak için ne gerektiğini biraz düşünürseniz genel yapay zeka ve varlıkları boyunca öğrenme, yargılama ve planlama yeteneğine sahip olan bu tür sistemler, o zaman neredeyse kesinlikle şu veya bu birleşik çözümün gerekli olacağı sonucuna varacağız. Bu arada, evrim sürecinde memelilere ve diğer yüksek hayvanlara karmaşık zeka bahşeden doğanın ulaştığı tam da bu birleşik çözümdü.

Evrimsel Stratejiler

OpenAI makalesinin ana tezi, geleneksel geri yayılımla birlikte takviyeli öğrenmeyi kullanmak yerine, karmaşık sorunları çözmek için "evrimsel strateji" (ES) adını verdikleri şeyi kullanarak bir sinir ağını başarıyla eğitmeleriydi. Bu ES yaklaşımı, paralel çalışan birden fazla aracıyı içeren ve bu dağılımdan seçilen parametreleri kullanan ağ çapında bir ağırlık dağılımının korunmasından oluşur. Her aracı kendi ortamında çalışır ve belirli sayıda bölümün veya bir bölümün aşamalarının tamamlanmasının ardından algoritma, uygunluk puanı olarak ifade edilen kümülatif bir ödül döndürür. Bu değer dikkate alınarak, parametrelerin dağılımı daha başarılı temsilcilere doğru kaydırılabilir ve daha az başarılı olanlardan mahrum bırakılabilir. Yüzlerce temsilcinin katılımıyla böyle bir operasyonun milyonlarca kez tekrarlanmasıyla, ağırlıkların dağılımını, temsilcilerin kendilerine verilen görevi çözmek için yüksek kaliteli bir politika oluşturmalarına olanak sağlayacak bir alana taşımak mümkündür. Gerçekten de makalede sunulan sonuçlar etkileyicidir: Binlerce ajanı paralel olarak çalıştırırsanız, iki ayak üzerinde antropomorfik hareketin yarım saatten daha kısa bir sürede öğrenilebileceği gösterilmiştir (en gelişmiş RL yöntemleri bile daha fazla harcama gerektirir). bu konuda bir saatten fazla). Daha detaylı bilgi için mükemmeli okumanızı tavsiye ederim. postalamak deneyin yazarlarından ve bilimsel makale.

Takviyeli öğrenme mi yoksa evrimsel stratejiler mi? - İkisi birden

Antropomorfik dik yürümeyi öğretmek için farklı stratejiler, OpenAI'nin ES yöntemi kullanılarak incelendi.

Siyah kutu

Bu yöntemin en büyük faydası kolaylıkla paralelleştirilebilmesidir. A3C gibi RL yöntemleri, çalışan iş parçacıkları ile bir parametre sunucusu arasında bilgi alışverişini gerektirirken, ES yalnızca uygunluk tahminlerine ve genelleştirilmiş parametre dağıtım bilgilerine ihtiyaç duyar. Bu basitlik nedeniyle bu yöntem, ölçeklendirme yetenekleri açısından modern RL yöntemlerinin çok ilerisindedir. Ancak tüm bunlar boşuna değildir: ağı kara kutu ilkesine göre optimize etmeniz gerekir. Bu durumda, "kara kutu", eğitim sırasında ağın iç yapısının tamamen göz ardı edildiği ve yalnızca genel sonucun (bölüm için ödül) kullanıldığı ve belirli bir ağın ağırlıklarının değişip değişmeyeceğine bağlı olduğu anlamına gelir. sonraki nesillere miras kalacak. Çevreden çok fazla geri bildirim almadığımız durumlarda ve birçok geleneksel RL probleminde ödül akışının çok seyrek olduğu durumlarda, sorun "kısmen kara kutu" olmaktan çıkıp "tamamen kara kutu"ya dönüşür. Bu durumda üretkenliği önemli ölçüde artırabilirsiniz, bu nedenle elbette böyle bir uzlaşma haklıdır. "Zaten son derece gürültülüyse eğimlere kimin ihtiyacı var ki?" - bu genel görüş.

Ancak geri bildirimin daha aktif olduğu durumlarda ES için işler ters gitmeye başlar. OpenAI ekibi, basit bir MNIST sınıflandırma ağının ES kullanılarak nasıl eğitildiğini ve bu sefer eğitimin 1000 kat daha yavaş olduğunu anlatıyor. Gerçek şu ki, görüntü sınıflandırmasındaki gradyan sinyali, ağa daha iyi sınıflandırmanın nasıl öğretileceği konusunda son derece bilgilendiricidir. Bu nedenle, RL tekniğinde sorun daha az, gürültülü eğimler üreten ortamlardaki seyrek ödüllerde ise daha fazladır.

Doğanın çözümü

Yapay zekayı geliştirmenin yollarını düşünerek doğa örneğinden öğrenmeye çalışırsak, bazı durumlarda yapay zeka şu şekilde düşünülebilir: problem odaklı yaklaşım. Sonuçta doğa, bilgisayar bilimcilerinin sahip olmadığı kısıtlamalar dahilinde işliyor. Belirli bir sorunu çözmeye yönelik tamamen teorik bir yaklaşımın ampirik alternatiflerden daha etkili çözümler sağlayabileceği kanısındayız. Ancak yine de belirli kısıtlamalar altında çalışan dinamik bir sistemin (Dünya) esnek ve karmaşık davranışlar sergileyebilen etmenleri (hayvanlar, özellikle memeliler) nasıl ürettiğini test etmenin faydalı olacağını düşünüyorum. Bu kısıtlamalardan bazıları simüle edilmiş veri bilimi dünyalarında geçerli olmasa da diğerleri gayet iyi.

Memelilerin entelektüel davranışlarını inceledikten sonra, birbiriyle yakından ilişkili iki sürecin karmaşık karşılıklı etkisinin bir sonucu olarak oluştuğunu görüyoruz: başkalarının deneyimlerinden öğrenmek и yaparak öğrenmek. İlki genellikle doğal seçilim tarafından yönlendirilen evrimle eş tutuluyor, ancak burada epigenetiği, mikrobiyomları ve genetik olarak ilgisiz organizmalar arasında deneyimlerin paylaşılmasını sağlayan diğer mekanizmaları hesaba katmak için daha geniş bir terim kullanıyorum. Deneyimden öğrenme olan ikinci süreç, bir hayvanın hayatı boyunca öğrenmeyi başardığı tüm bilgilerdir ve bu bilgiler, doğrudan bu hayvanın dış dünyayla etkileşimi tarafından belirlenir. Bu kategori, nesneleri tanımayı öğrenmekten, öğrenme sürecinin doğasında bulunan iletişimde uzmanlaşmaya kadar her şeyi içerir.

Kabaca söylemek gerekirse, doğada meydana gelen bu iki süreç, sinir ağlarını optimize etmek için iki seçenekle karşılaştırılabilir. Gradyanlar hakkındaki bilgilerin organizma hakkındaki bilgileri güncellemek için kullanıldığı evrimsel stratejiler, başkalarının deneyimlerinden öğrenmeye yaklaşmaktadır. Benzer şekilde, şu veya bu deneyimi elde etmenin, aracının davranışında şu veya bu değişikliğe yol açtığı gradyan yöntemleri, kişinin kendi deneyiminden öğrenmeyle karşılaştırılabilir. Bu iki yaklaşımın her birinin hayvanlarda geliştirdiği akıllı davranış veya yetenek türlerini düşünürsek, karşılaştırma daha belirgin hale gelir. Her iki durumda da, "evrimsel yöntemler" kişinin belirli bir uyum (hayatta kalmak için yeterli) geliştirmesine olanak tanıyan tepkisel davranışların incelenmesini teşvik eder. Yürümeyi veya esaretten kaçmayı öğrenmek, çoğu durumda, birçok hayvanda genetik düzeyde "yapılandırılmış" daha "içgüdüsel" davranışlara eşdeğerdir. Ayrıca bu örnek, ödül sinyalinin son derece nadir olduğu durumlarda (örneğin, başarılı bir bebek büyütme olgusu) evrimsel yöntemlerin uygulanabilir olduğunu doğrulamaktadır. Böyle bir durumda ödülü, bu gerçeğin ortaya çıkmasından yıllar önce gerçekleştirilmiş olabilecek herhangi bir belirli eylem dizisiyle ilişkilendirmek imkansızdır. Öte yandan, ES'nin başarısız olduğu bir durumu, yani görüntü sınıflandırmayı ele alırsak, sonuçlar, 100'den fazla yıl boyunca yürütülen sayısız davranışsal psikolojik deneyde elde edilen hayvan öğreniminin sonuçlarıyla oldukça karşılaştırılabilir.

Hayvanlardan Öğrenmek

Takviyeli öğrenmede kullanılan yöntemler çoğu durumda doğrudan psikolojik literatürden alınır. edimsel koşullanmave edimsel koşullanma hayvan psikolojisi kullanılarak incelenmiştir. Bu arada, takviyeli öğrenmenin iki kurucusundan biri olan Richard Sutton, psikoloji alanında lisans derecesine sahiptir. Edimsel koşullanma bağlamında hayvanlar, ödül veya cezayı belirli davranış kalıplarıyla ilişkilendirmeyi öğrenirler. Eğitmenler ve araştırmacılar bu ödül ilişkisini şu veya bu şekilde manipüle ederek hayvanları zeka veya belirli davranışlar göstermeye teşvik edebilirler. Bununla birlikte, hayvan araştırmalarında kullanıldığı şekliyle edimsel koşullanma, hayvanların yaşamları boyunca öğrendiği aynı koşullanmanın daha belirgin bir biçiminden başka bir şey değildir. Çevremizden sürekli olarak olumlu destek sinyalleri alıyoruz ve davranışlarımızı buna göre ayarlıyoruz. Aslında birçok sinir bilimci ve bilişsel bilim insanı, insanların ve diğer hayvanların aslında daha da yüksek bir seviyede çalıştıklarına ve potansiyel ödüllere dayalı olarak gelecekteki durumlarda davranışlarının sonuçlarını tahmin etmeyi sürekli olarak öğrendiklerine inanıyor.

Deneyimlerden öğrenmede tahminin merkezi rolü, yukarıda açıklanan dinamikleri önemli şekillerde değiştirir. Daha önce çok seyrek olduğu düşünülen sinyalin (bölümsel ödül) çok yoğun olduğu ortaya çıktı. Teorik olarak durum şuna benzer: Herhangi bir zamanda, memelinin beyni, karmaşık bir duyusal uyaran ve eylem akışına dayalı olarak sonuçları hesaplarken, hayvan bu akışın içine dalmış durumdadır. Bu durumda hayvanın son davranışı, tahminlerin ayarlanmasına ve davranışın geliştirilmesine rehberlik etmek için kullanılması gereken güçlü bir sinyal verir. Beyin, tüm bu sinyalleri geleceğe yönelik tahminleri (ve buna bağlı olarak alınan eylemlerin kalitesini) optimize etmek için kullanır. Bu yaklaşıma genel bir bakış şu mükemmel kitapta verilmektedir:Sörf Belirsizliği” Bilişsel bilim adamı ve filozof Andy Clark. Böyle bir mantığı yapay etmenlerin eğitimine uyarlarsak, takviyeli öğrenmedeki temel bir kusur ortaya çıkar: Bu paradigmada kullanılan sinyal, olabileceği (veya olması gerektiği) ile karşılaştırıldığında son derece zayıftır. Sinyal doygunluğunu artırmanın imkansız olduğu durumlarda (belki de doğası gereği zayıf olduğundan veya düşük seviyeli reaktiviteyle ilişkili olduğundan), iyi paralelleştirilmiş bir eğitim yöntemini (örneğin ES) tercih etmek muhtemelen daha iyidir.

Sinir ağlarının daha zengin eğitimi

Sürekli olarak tahminlerde bulunmakla meşgul olan memeli beyninin doğasında bulunan daha yüksek sinirsel aktivite ilkelerine dayanarak, artık bu tür tahminlerin önemini dikkate alan takviyeli öğrenmede son gelişmeler kaydedilmiştir. Size hemen iki benzer çalışma önerebilirim:

Bu makalelerin her ikisinde de yazarlar, sinir ağlarının tipik varsayılan politikasını, çevrenin gelecekteki durumuna ilişkin tahmin sonuçlarıyla tamamlıyorlar. İlk makalede tahmin, çeşitli ölçüm değişkenlerine uygulanırken, ikinci makalede, tahmin, ortamdaki değişikliklere ve aracının davranışına uygulandı. Her iki durumda da, olumlu pekiştirmeyle ilişkili seyrek sinyal çok daha zengin ve daha bilgilendirici hale gelir ve hem daha hızlı öğrenmeye hem de daha karmaşık davranışların edinilmesine olanak tanır. Bu tür iyileştirmeler yalnızca gradyan sinyali kullanan yöntemlerde mümkündür ve ES gibi "kara kutu" prensibiyle çalışan yöntemlerde mevcut değildir.

Ayrıca deneyimlerden öğrenme ve gradyan yöntemleri çok daha etkilidir. Belirli bir problemi ES yöntemini kullanarak takviyeli öğrenmeyi kullanmaktan daha hızlı incelemenin mümkün olduğu durumlarda bile, ES stratejisinin RL'ye göre çok daha fazla veri içermesi nedeniyle kazanç elde edildi. Bu durumda hayvanlarda öğrenmenin ilkelerini düşündüğümüzde, başkasının örneğinden öğrenmenin sonucunun nesiller sonra kendini gösterdiğini, bazen tek başına yaşanan tek bir olayın hayvanın sonsuza kadar dersi öğrenmesi için yeterli olduğunu görüyoruz. Gibi iken örneksiz eğitim Geleneksel degrade yöntemlerine pek uymasa da ES'den çok daha anlaşılırdır. Örneğin şöyle yaklaşımlar var: sinirsel epizodik kontrolEğitim sırasında Q değerlerinin saklandığı yer, ardından program harekete geçmeden önce bunları kontrol eder. Sonuç, sorunları eskisinden çok daha hızlı çözmeyi öğrenmenize olanak tanıyan bir gradyan yöntemidir. Nöral epizodik kontrol üzerine bir makalede yazarlar, tek bir deneyimden sonra bile bir olayla ilgili bilgiyi tutabilen ve dolayısıyla oyun oynayan insan hipokampüsünden bahsediyorlar. kiritik rol hatırlama sürecinde. Bu tür mekanizmalar, aracının iç organizasyonuna erişim gerektirir ve bu da tanım gereği ES paradigmasında imkansızdır.

Peki neden bunları birleştirmiyorsunuz?

Bu makalenin çoğunun RL yöntemlerini savunduğum izlenimini bırakması muhtemeldir. Ancak aslında uzun vadede en iyi çözümün, her iki yöntemi de birleştirerek her birinin en uygun olduğu durumlarda kullanılması olduğunu düşünüyorum. Açıkçası, birçok reaktif politika durumunda veya çok seyrek pozitif takviye sinyallerinin olduğu durumlarda, özellikle de büyük ölçüde paralel eğitim yürütebileceğiniz bilgi işlem gücünüzün emrinizde olması durumunda ES kazanır. Öte yandan, takviyeli öğrenmeyi veya denetimli öğrenmeyi kullanan gradyan yöntemleri, kapsamlı geri bildirime erişimimiz olduğunda ve bir sorunu hızlı ve daha az veriyle nasıl çözeceğimizi öğrenmemiz gerektiğinde yararlı olacaktır.

Doğaya döndüğümüzde, ilk yöntemin aslında ikinci yöntemin temelini oluşturduğunu görüyoruz. Bu nedenle evrim süreci boyunca memeliler, çevreden gelen karmaşık sinyalleri son derece etkili bir şekilde öğrenmelerine olanak tanıyan beyinler geliştirmişlerdir. Yani soru açık kalıyor. Belki de evrimsel stratejiler, aynı zamanda kademeli öğrenme yöntemleri için de yararlı olacak etkili öğrenme mimarileri icat etmemize yardımcı olacaktır. Sonuçta doğanın bulduğu çözüm gerçekten çok başarılı.

Kaynak: habr.com

Yorum ekle