Apprendimento per rinforzo o strategie evolutive? - Entrambi

Ehi Habr!

Non capita spesso di decidere di pubblicare qui traduzioni di testi vecchi di due anni, senza codice e di chiaro carattere accademico, ma oggi faremo un'eccezione. Ci auguriamo che il dilemma posto nel titolo dell'articolo preoccupi molti dei nostri lettori, e voi avete già letto il lavoro fondamentale sulle strategie evolutive con cui questo post discute nell'originale o lo leggerete ora. Benvenuto al gatto!

Apprendimento per rinforzo o strategie evolutive? - Entrambi

Nel marzo 2017, OpenAI ha fatto scalpore nella comunità del deep learning con il documento “Strategie di evoluzione come alternativa scalabile all'apprendimento per rinforzo" Questo lavoro ha descritto risultati impressionanti a favore del fatto che l'apprendimento per rinforzo (RL) non è diventato un cuneo e quando si addestrano reti neurali complesse è consigliabile provare altri metodi. È quindi scoppiato un dibattito sull’importanza dell’apprendimento per rinforzo e su quanto meriti il ​​suo status di tecnologia “indispensabile” per insegnare la risoluzione dei problemi. Qui voglio dire che queste due tecnologie non sono da considerarsi concorrenti, una delle quali è nettamente migliore dell'altra; al contrario, alla fine si completano a vicenda. Anzi, se pensi un po’ a cosa serve per creare IA generale e tali sistemi, che per tutta la loro esistenza sarebbero capaci di apprendere, giudicare e pianificare, allora quasi certamente arriveremo alla conclusione che sarà necessaria questa o quella soluzione combinata. A proposito, è stata proprio questa soluzione combinata a cui è arrivata la natura, che ha dotato i mammiferi e altri animali superiori di un'intelligenza complessa nel corso dell'evoluzione.

Strategie evolutive

La tesi principale del documento OpenAI era che, invece di utilizzare l’apprendimento per rinforzo combinato con la tradizionale propagazione all’indietro, hanno addestrato con successo una rete neurale a risolvere problemi complessi utilizzando quella che hanno chiamato “strategia evolutiva” (ES). Questo approccio ES consiste nel mantenere una distribuzione dei pesi a livello di rete, coinvolgendo più agenti che lavorano in parallelo e utilizzando parametri selezionati da questa distribuzione. Ogni agente opera nel proprio ambiente e al completamento di un numero specifico di episodi o fasi di un episodio, l'algoritmo restituisce una ricompensa cumulativa, espressa come punteggio di fitness. Tenendo conto di questo valore, la distribuzione dei parametri può essere spostata verso gli agenti di maggior successo, privando quelli di minor successo. Ripetendo tale operazione milioni di volte con la partecipazione di centinaia di agenti, è possibile spostare la distribuzione dei pesi in uno spazio che consentirà agli agenti di formulare una politica di alta qualità per risolvere il compito loro assegnato. In effetti, i risultati presentati nell’articolo sono impressionanti: è dimostrato che se si eseguono migliaia di agenti in parallelo, la locomozione antropomorfa su due gambe può essere appresa in meno di mezz’ora (mentre anche i metodi RL più avanzati richiedono una spesa maggiore). più di un'ora su questo). Per informazioni più dettagliate consiglio la lettura dell'ottimo inviare dagli autori dell'esperimento, nonché articolo scientifico.

Apprendimento per rinforzo o strategie evolutive? - Entrambi

Diverse strategie per insegnare la camminata eretta antropomorfa, studiate utilizzando il metodo ES di OpenAI.

Scatola nera

Il grande vantaggio di questo metodo è che può essere facilmente parallelizzato. Mentre i metodi RL, come A3C, richiedono lo scambio di informazioni tra i thread di lavoro e un server di parametri, ES necessita solo di stime di idoneità e informazioni generalizzate sulla distribuzione dei parametri. È grazie a questa semplicità che questo metodo è molto più avanti rispetto ai moderni metodi RL in termini di capacità di ridimensionamento. Tutto questo però non avviene invano: bisogna ottimizzare la rete secondo il principio della scatola nera. In questo caso, la "scatola nera" significa che durante l'allenamento la struttura interna della rete viene completamente ignorata e viene utilizzato solo il risultato complessivo (premio per l'episodio), e dipende da questo se i pesi di una particolare rete verranno modificati. essere ereditati dalle generazioni successive. Nelle situazioni in cui non riceviamo molti feedback dall'ambiente - e in molti problemi RL tradizionali il flusso di ricompense è molto scarso - il problema passa dall'essere una "scatola parzialmente nera" a una "scatola completamente nera". In questo caso, puoi aumentare significativamente la produttività, quindi, ovviamente, un tale compromesso è giustificato. "Chi ha bisogno dei gradienti se sono comunque irrimediabilmente rumorosi?" - questa è l'opinione generale.

Tuttavia, nelle situazioni in cui il feedback è più attivo, le cose cominciano ad andare storte per l’ES. Il team di OpenAI descrive come una semplice rete di classificazione MNIST è stata addestrata utilizzando ES, e questa volta l'addestramento è stato 1000 volte più lento. Il fatto è che il segnale del gradiente nella classificazione delle immagini è estremamente informativo su come insegnare alla rete una migliore classificazione. Pertanto, il problema riguarda meno la tecnica RL e più le ricompense scarse in ambienti che producono gradienti rumorosi.

La soluzione della natura

Se proviamo a imparare dall’esempio della natura, pensando a come sviluppare l’intelligenza artificiale, allora in alcuni casi l’intelligenza artificiale può essere pensata come approccio orientato al problema. Dopotutto, la natura opera entro limiti che gli informatici semplicemente non hanno. Si ritiene che un approccio puramente teorico alla risoluzione di un particolare problema possa fornire soluzioni più efficaci rispetto alle alternative empiriche. Tuttavia, penso ancora che varrebbe la pena verificare come un sistema dinamico operante sotto determinati vincoli (la Terra) abbia generato agenti (animali, in particolare mammiferi) capaci di comportamenti flessibili e complessi. Mentre alcuni di questi vincoli non si applicano ai mondi simulati della scienza dei dati, altri vanno bene.

Dopo aver esaminato il comportamento intellettuale dei mammiferi, vediamo che si forma come risultato della complessa influenza reciproca di due processi strettamente correlati: imparare dalle esperienze degli altri и imparare facendo. Il primo è spesso equiparato all’evoluzione guidata dalla selezione naturale, ma qui utilizzo un termine più ampio per prendere in considerazione l’epigenetica, i microbiomi e altri meccanismi che consentono la condivisione di esperienze tra organismi geneticamente non correlati. Il secondo processo, l'apprendimento dall'esperienza, riguarda tutte le informazioni che un animale riesce ad apprendere nel corso della sua vita, e queste informazioni sono direttamente determinate dall'interazione di questo animale con il mondo esterno. Questa categoria include tutto, dall'imparare a riconoscere gli oggetti alla padronanza della comunicazione inerente al processo di apprendimento.

In parole povere, questi due processi che si verificano in natura possono essere paragonati a due opzioni per l'ottimizzazione delle reti neurali. Le strategie evolutive, in cui le informazioni sui gradienti vengono utilizzate per aggiornare le informazioni sull'organismo, si avvicinano all'apprendimento dall'esperienza degli altri. Allo stesso modo, i metodi gradiente, in cui ottenere l’una o l’altra esperienza porta a un cambiamento nel comportamento dell’agente, sono paragonabili all’apprendimento dalla propria esperienza. Se pensiamo ai tipi di comportamento o abilità intelligenti che ciascuno di questi due approcci sviluppa negli animali, il confronto diventa più marcato. In entrambi i casi, i “metodi evolutivi” promuovono lo studio di comportamenti reattivi che consentono di sviluppare una certa forma fisica (sufficiente per rimanere in vita). Imparare a camminare o a fuggire dalla prigionia in molti casi equivale a comportamenti più “istintivi” che sono “cablati” in molti animali a livello genetico. Inoltre, questo esempio conferma che i metodi evolutivi sono applicabili nei casi in cui il segnale di ricompensa è estremamente raro (ad esempio, il fatto di allevare con successo un bambino). In tal caso, è impossibile correlare la ricompensa con qualsiasi insieme specifico di azioni che potrebbero essere state eseguite molti anni prima che si verificasse questo fatto. D’altra parte, se consideriamo un caso in cui l’ES fallisce, vale a dire la classificazione delle immagini, i risultati sono notevolmente paragonabili ai risultati dell’apprendimento animale ottenuti in innumerevoli esperimenti psicologici comportamentali condotti in oltre 100 anni.

Imparare dagli animali

I metodi utilizzati nell'apprendimento per rinforzo sono in molti casi presi direttamente dalla letteratura psicologica in materia condizionamento operantee il condizionamento operante è stato studiato utilizzando la psicologia animale. A proposito, Richard Sutton, uno dei due fondatori dell'apprendimento per rinforzo, ha una laurea in psicologia. Nel contesto del condizionamento operante, gli animali imparano ad associare ricompensa o punizione a specifici modelli comportamentali. Addestratori e ricercatori possono manipolare questa associazione di ricompensa in un modo o nell'altro, provocando gli animali a dimostrare intelligenza o determinati comportamenti. Tuttavia, il condizionamento operante, così come viene utilizzato nella ricerca sugli animali, non è altro che una forma più pronunciata dello stesso condizionamento sulla base del quale gli animali apprendono per tutta la vita. Riceviamo costantemente segnali di rinforzo positivo dall'ambiente e adattiamo di conseguenza il nostro comportamento. In effetti, molti neuroscienziati e scienziati cognitivi ritengono che gli esseri umani e gli altri animali effettivamente operino a un livello ancora più elevato e imparino continuamente a prevedere l’esito del loro comportamento in situazioni future sulla base di potenziali ricompense.

Il ruolo centrale della previsione nell’apprendimento dall’esperienza modifica in modo significativo le dinamiche sopra descritte. Il segnale che prima era considerato molto scarno (ricompensa episodica) risulta essere molto denso. In teoria, la situazione è più o meno questa: in ogni momento, il cervello del mammifero calcola i risultati sulla base di un flusso complesso di stimoli e azioni sensoriali, mentre l'animale è semplicemente immerso in questo flusso. In questo caso, il comportamento finale dell'animale fornisce un segnale forte che deve essere utilizzato per guidare l'adeguamento delle previsioni e lo sviluppo del comportamento. Il cervello utilizza tutti questi segnali per ottimizzare le previsioni (e, di conseguenza, la qualità delle azioni intraprese) in futuro. Una panoramica di questo approccio è fornita nell’eccellente libro “Incertezza del surf“Lo scienziato cognitivo e filosofo Andy Clark. Se estrapoliamo tale ragionamento all’addestramento di agenti artificiali, allora si rivela un difetto fondamentale nell’apprendimento per rinforzo: il segnale utilizzato in questo paradigma è irrimediabilmente debole rispetto a quello che potrebbe (o dovrebbe essere). Nei casi in cui è impossibile aumentare la saturazione del segnale (magari perché è intrinsecamente debole o associato a un basso livello di reattività), probabilmente è meglio preferire un metodo di allenamento ben parallelizzato, ad esempio ES.

Addestramento più ricco delle reti neurali

Basandosi sui principi dell’attività neurale superiore insita nel cervello dei mammiferi, che è costantemente impegnato a fare previsioni, recenti progressi sono stati fatti nell’apprendimento per rinforzo, che ora tiene conto dell’importanza di tali previsioni. Posso subito consigliarvi due lavori simili:

In entrambi questi articoli gli autori integrano la tipica politica di default delle loro reti neurali con risultati di previsione sullo stato futuro dell’ambiente. Nel primo articolo, la previsione viene applicata a una varietà di variabili di misurazione, mentre nel secondo la previsione viene applicata ai cambiamenti nell'ambiente e al comportamento dell'agente in quanto tale. In entrambi i casi, il segnale scarso associato al rinforzo positivo diventa molto più ricco e informativo, consentendo sia un apprendimento più rapido che l’acquisizione di comportamenti più complessi. Tali miglioramenti sono disponibili solo con metodi che utilizzano un segnale gradiente e non con metodi che operano secondo il principio della “scatola nera”, come ES.

Inoltre, l’apprendimento dall’esperienza e i metodi gradienti sono molto più efficaci. Anche nei casi in cui è stato possibile studiare un particolare problema utilizzando il metodo ES più velocemente rispetto all’apprendimento per rinforzo, il guadagno è stato ottenuto grazie al fatto che la strategia ES coinvolgeva molte volte più dati rispetto a RL. Riflettendo in questo caso sui principi dell'apprendimento negli animali, notiamo che il risultato dell'apprendimento dall'esempio di qualcun altro si manifesta dopo molte generazioni, mentre a volte un singolo evento vissuto da solo è sufficiente affinché l'animale impari la lezione per sempre. Mentre mi piace formazione senza esempi Anche se non si adatta perfettamente ai metodi tradizionali del gradiente, è molto più comprensibile dell'ES. Esistono, ad esempio, approcci come controllo episodico neurale, dove i valori Q vengono memorizzati durante l'allenamento, dopodiché il programma li controlla prima di intraprendere azioni. Il risultato è un metodo gradiente che ti consente di imparare a risolvere i problemi molto più velocemente di prima. In un articolo sul controllo episodico neurale, gli autori menzionano l'ippocampo umano, che è capace di trattenere informazioni su un evento anche dopo una singola esperienza e, quindi, svolge ruolo critico nel processo di ricordo. Tali meccanismi richiedono l’accesso all’organizzazione interna dell’agente, cosa che è anche, per definizione, impossibile nel paradigma ES.

Quindi, perché non combinarli?

È probabile che gran parte di questo articolo possa lasciare l'impressione che io stia sostenendo i metodi RL. Tuttavia, in realtà penso che alla lunga la soluzione migliore sia combinare entrambi i metodi, in modo che ciascuno venga utilizzato nelle situazioni in cui è più adatto. Ovviamente, nel caso di molte politiche reattive o in situazioni con segnali molto scarsi di rinforzo positivo, l’ES vince, soprattutto se si ha a disposizione la potenza di calcolo su cui è possibile eseguire una massiccia formazione parallela. D’altra parte, i metodi gradiente che utilizzano l’apprendimento per rinforzo o l’apprendimento supervisionato saranno utili quando abbiamo accesso a feedback estesi e dobbiamo imparare a risolvere un problema rapidamente e con meno dati.

Passando alla natura, troviamo che il primo metodo, in sostanza, pone le basi per il secondo. Ecco perché, nel corso dell'evoluzione, i mammiferi hanno sviluppato un cervello che consente loro di apprendere in modo estremamente efficace dai segnali complessi provenienti dall'ambiente. Quindi, la questione rimane aperta. Forse le strategie evolutive ci aiuteranno a inventare architetture di apprendimento efficaci che saranno utili anche per metodi di apprendimento graduale. Dopotutto, la soluzione trovata dalla natura ha davvero molto successo.

Fonte: habr.com

Aggiungi un commento