Aprendizagem por reforço ou estratégias evolutivas? - Ambos

Oi, Habr!

Não é frequente decidirmos postar aqui traduções de textos com dois anos de idade, sem código e claramente de cunho acadêmico - mas hoje abriremos uma exceção. Esperamos que o dilema colocado no título do artigo preocupe muitos de nossos leitores, e você já leu o trabalho fundamental sobre estratégias evolutivas com o qual este post discute no original ou o lerá agora. Bem-vindo ao gato!

Aprendizagem por reforço ou estratégias evolutivas? - Ambos

Em março de 2017, a OpenAI causou impacto na comunidade de aprendizagem profunda com o artigo “Estratégias de evolução como uma alternativa escalonável para aprendizagem por reforço" Este trabalho descreveu resultados impressionantes a favor do fato de que a aprendizagem por reforço (RL) não se tornou uma barreira e, ao treinar redes neurais complexas, é aconselhável tentar outros métodos. Surgiu então um debate sobre a importância da aprendizagem por reforço e o quão merecedora do seu estatuto de tecnologia “indispensável” para o ensino da resolução de problemas. Quero aqui dizer que estas duas tecnologias não devem ser consideradas concorrentes, uma das quais é claramente melhor que a outra; pelo contrário, em última análise, complementam-se. Na verdade, se você pensar um pouco sobre o que é necessário para criar IA geral e tais sistemas, que ao longo da sua existência seriam capazes de aprender, julgar e planear, então quase certamente chegaremos à conclusão de que esta ou aquela solução combinada será necessária. A propósito, foi precisamente essa solução combinada que a natureza chegou, que dotou os mamíferos e outros animais superiores de inteligência complexa durante o curso da evolução.

Estratégias Evolutivas

A tese principal do artigo da OpenAI era que, em vez de usar a aprendizagem por reforço combinada com a retropropagação tradicional, eles treinaram com sucesso uma rede neural para resolver problemas complexos usando o que chamaram de “estratégia evolutiva” (ES). Esta abordagem ES consiste em manter uma distribuição de pesos em toda a rede, envolvendo múltiplos agentes trabalhando em paralelo e utilizando parâmetros selecionados a partir desta distribuição. Cada agente opera em seu próprio ambiente e, após a conclusão de um determinado número de episódios ou estágios de um episódio, o algoritmo retorna uma recompensa cumulativa, expressa como uma pontuação de aptidão. Tendo em conta este valor, a distribuição dos parâmetros pode ser deslocada para os agentes mais bem-sucedidos, privando os menos bem-sucedidos. Ao repetir tal operação milhões de vezes com a participação de centenas de agentes, é possível deslocar a distribuição dos pesos para um espaço que permitirá aos agentes formular uma política de alta qualidade para a resolução da tarefa que lhes é atribuída. Na verdade, os resultados apresentados no artigo são impressionantes: mostra-se que se mil agentes forem executados em paralelo, a locomoção antropomórfica sobre duas pernas pode ser aprendida em menos de meia hora (enquanto mesmo os métodos RL mais avançados exigem gastar mais mais de uma hora nisso). Para informações mais detalhadas, recomendo a leitura do excelente postar dos autores do experimento, bem como artigo científico.

Aprendizagem por reforço ou estratégias evolutivas? - Ambos

Diferentes estratégias para o ensino da marcha ereta antropomórfica, estudadas pelo método ES da OpenAI.

Caixa preta

A grande vantagem deste método é que ele pode ser facilmente paralelizado. Embora os métodos RL, como o A3C, exijam a troca de informações entre threads de trabalho e um servidor de parâmetros, o ES precisa apenas de estimativas de aptidão e informações generalizadas de distribuição de parâmetros. É devido a esta simplicidade que este método está muito à frente dos métodos RL modernos em termos de capacidades de escala. Porém, tudo isso não é em vão: é preciso otimizar a rede de acordo com o princípio da caixa preta. Neste caso, a “caixa preta” significa que durante o treinamento a estrutura interna da rede é completamente ignorada, e apenas o resultado geral (recompensa pelo episódio) é utilizado, e depende dele se os pesos de uma determinada rede irão ser herdado pelas gerações subsequentes. Em situações em que não recebemos muito feedback do ambiente – e em muitos problemas tradicionais de RL o fluxo de recompensas é muito escasso – o problema passa de uma “caixa parcialmente preta” para uma “caixa completamente preta”. Nesse caso, você pode aumentar significativamente a produtividade, então, é claro, tal compromisso é justificado. “Quem precisa de gradientes se eles são extremamente barulhentos?” - esta é a opinião geral.

Porém, em situações em que o feedback é mais ativo, as coisas começam a dar errado para o SE. A equipe OpenAI descreve como uma rede de classificação MNIST simples foi treinada usando ES, e desta vez o treinamento foi 1000 vezes mais lento. O fato é que o sinal gradiente na classificação de imagens é extremamente informativo sobre como ensinar uma melhor classificação à rede. Assim, o problema é menos com a técnica RL e mais com recompensas esparsas em ambientes que produzem gradientes ruidosos.

A solução da natureza

Se tentarmos aprender com o exemplo da natureza, pensando em formas de desenvolver a IA, então, em alguns casos, a IA pode ser pensada como abordagem orientada para o problema. Afinal, a natureza opera dentro de restrições que os cientistas da computação simplesmente não possuem. Há uma opinião de que uma abordagem puramente teórica para resolver um problema específico pode fornecer soluções mais eficazes do que alternativas empíricas. No entanto, ainda penso que valeria a pena testar como um sistema dinâmico operando sob certas restrições (a Terra) gerou agentes (animais, particularmente mamíferos) capazes de comportamento flexível e complexo. Embora algumas dessas restrições não se apliquem aos mundos simulados da ciência de dados, outras são adequadas.

Tendo examinado o comportamento intelectual dos mamíferos, vemos que ele é formado como resultado da complexa influência mútua de dois processos intimamente inter-relacionados: aprendendo com as experiências dos outros и aprendendo fazendo. A primeira é muitas vezes equiparada à evolução impulsionada pela seleção natural, mas aqui utilizo um termo mais amplo para ter em conta a epigenética, os microbiomas e outros mecanismos que permitem a partilha de experiências entre organismos geneticamente não relacionados. O segundo processo, aprender com a experiência, são todas as informações que um animal consegue aprender ao longo de sua vida, e essas informações são diretamente determinadas pela interação desse animal com o mundo exterior. Esta categoria inclui tudo, desde aprender a reconhecer objetos até dominar a comunicação inerente ao processo de aprendizagem.

Grosso modo, esses dois processos que ocorrem na natureza podem ser comparados com duas opções de otimização de redes neurais. As estratégias evolutivas, onde informações sobre gradientes são usadas para atualizar informações sobre o organismo, aproximam-se do aprendizado com a experiência de outras pessoas. Da mesma forma, os métodos gradientes, onde a obtenção de uma ou outra experiência leva a uma ou outra mudança no comportamento do agente, são comparáveis ​​ao aprendizado com a própria experiência. Se pensarmos nos tipos de comportamento ou habilidades inteligentes que cada uma dessas duas abordagens desenvolve nos animais, a comparação se torna mais pronunciada. Em ambos os casos, os “métodos evolutivos” promovem o estudo de comportamentos reativos que permitem desenvolver uma determinada aptidão (suficiente para permanecer vivo). Aprender a andar ou a escapar do cativeiro é, em muitos casos, equivalente a comportamentos mais “instintivos” que são “programados” em muitos animais a nível genético. Além disso, este exemplo confirma que os métodos evolutivos são aplicáveis ​​​​nos casos em que o sinal de recompensa é extremamente raro (por exemplo, o fato da criação bem-sucedida de um bebê). Nesse caso, é impossível correlacionar a recompensa com qualquer conjunto específico de ações que possam ter sido realizadas muitos anos antes da ocorrência desse fato. Por outro lado, se considerarmos um caso em que a ES falha, nomeadamente a classificação de imagens, os resultados são notavelmente comparáveis ​​aos resultados da aprendizagem animal alcançados em inúmeras experiências psicológicas comportamentais conduzidas ao longo de mais de 100 anos.

Aprendendo com os animais

Os métodos utilizados na aprendizagem por reforço são, em muitos casos, retirados diretamente da literatura psicológica sobre condicionamento operante, e o condicionamento operante foi estudado usando psicologia animal. A propósito, Richard Sutton, um dos dois fundadores da aprendizagem por reforço, é bacharel em psicologia. No contexto do condicionamento operante, os animais aprendem a associar recompensa ou punição a padrões comportamentais específicos. Treinadores e pesquisadores podem manipular essa associação de recompensas de uma forma ou de outra, provocando animais a demonstrarem inteligência ou determinados comportamentos. No entanto, o condicionamento operante, conforme utilizado na pesquisa animal, nada mais é do que uma forma mais pronunciada do mesmo condicionamento com base no qual os animais aprendem ao longo da vida. Recebemos constantemente sinais de reforço positivo do ambiente e ajustamos nosso comportamento de acordo. Na verdade, muitos neurocientistas e cientistas cognitivos acreditam que os humanos e outros animais operam realmente a um nível ainda mais elevado e aprendem continuamente a prever o resultado do seu comportamento em situações futuras com base em recompensas potenciais.

O papel central da previsão na aprendizagem a partir da experiência altera significativamente a dinâmica descrita acima. O sinal que antes era considerado muito esparso (recompensa episódica) acaba por ser muito denso. Teoricamente, a situação é mais ou menos assim: a qualquer momento, o cérebro do mamífero calcula resultados com base num fluxo complexo de estímulos e ações sensoriais, enquanto o animal está simplesmente imerso nesse fluxo. Nesse caso, o comportamento final do animal dá um sinal forte que deve ser utilizado para orientar o ajuste das previsões e o desenvolvimento do comportamento. O cérebro usa todos esses sinais para otimizar as previsões (e, consequentemente, a qualidade das ações tomadas) no futuro. Uma visão geral dessa abordagem é fornecida no excelente livro “Incerteza do surf”cientista cognitivo e filósofo Andy Clark. Se extrapolarmos tal raciocínio para o treinamento de agentes artificiais, então uma falha fundamental na aprendizagem por reforço é revelada: o sinal usado neste paradigma é irremediavelmente fraco comparado ao que poderia ser (ou deveria ser). Nos casos em que é impossível aumentar a saturação do sinal (talvez porque seja inerentemente fraco ou associado a um baixo nível de reatividade), provavelmente é melhor preferir um método de treinamento bem paralelizado, por exemplo, ES.

Treinamento mais rico de redes neurais

Com base nos princípios da atividade neural superior inerente ao cérebro dos mamíferos, que está constantemente ocupado fazendo previsões, foram feitos avanços recentes na aprendizagem por reforço, que agora leva em conta a importância de tais previsões. Posso recomendar imediatamente dois trabalhos semelhantes para você:

Em ambos os artigos, os autores complementam a política padrão típica de suas redes neurais com resultados de previsão sobre o estado do ambiente no futuro. No primeiro artigo, a previsão é aplicada a uma variedade de variáveis ​​de medição e, no segundo, a previsão é aplicada a mudanças no ambiente e no comportamento do agente como tal. Em ambos os casos, o sinal esparso associado ao reforço positivo torna-se muito mais rico e informativo, permitindo tanto uma aprendizagem mais rápida como a aquisição de comportamentos mais complexos. Tais melhorias só estão disponíveis com métodos que utilizam um sinal gradiente, e não com métodos que operam com base no princípio de “caixa preta”, como ES.

Além disso, aprender com a experiência e os métodos gradientes são muito mais eficazes. Mesmo nos casos em que foi possível estudar um determinado problema utilizando o método ES mais rapidamente do que utilizando a aprendizagem por reforço, o ganho foi alcançado devido ao fato de a estratégia ES envolver muitas vezes mais dados do que com RL. Refletindo neste caso sobre os princípios da aprendizagem nos animais, notamos que o resultado da aprendizagem com o exemplo de outra pessoa se manifesta depois de muitas gerações, enquanto às vezes um único evento vivido por si só é suficiente para que o animal aprenda a lição para sempre. Enquanto gosto treinamento sem exemplos Embora não se encaixe nos métodos tradicionais de gradiente, é muito mais inteligível que o ES. Existem, por exemplo, abordagens como controle episódico neural, onde os valores Q são armazenados durante o treinamento, após o qual o programa os verifica antes de executar ações. O resultado é um método gradiente que permite aprender como resolver problemas muito mais rápido do que antes. Em artigo sobre controle neural episódico, os autores mencionam o hipocampo humano, que é capaz de reter informações sobre um evento mesmo após uma única experiência e, portanto, desempenha papel crítico no processo de lembrar. Tais mecanismos requerem acesso à organização interna do agente, o que também é, por definição, impossível no paradigma ES.

Então, por que não combiná-los?

É provável que grande parte deste artigo deixe a impressão de que estou defendendo métodos RL. No entanto, penso efectivamente que, a longo prazo, a melhor solução é combinar os dois métodos, para que cada um seja utilizado nas situações em que for mais adequado. Obviamente, no caso de muitas políticas reativas ou em situações com sinais muito esparsos de reforço positivo, o SE vence, especialmente se você tiver o poder computacional à sua disposição para executar treinamento massivamente paralelo. Por outro lado, métodos gradientes que utilizam aprendizagem por reforço ou aprendizagem supervisionada serão úteis quando tivermos acesso a feedback extenso e precisarmos aprender como resolver um problema rapidamente e com menos dados.

Voltando-nos para a natureza, descobrimos que o primeiro método, em essência, estabelece as bases para o segundo. É por isso que, ao longo da evolução, os mamíferos desenvolveram cérebros que lhes permitem aprender de forma extremamente eficaz a partir de sinais complexos provenientes do ambiente. Portanto, a questão permanece em aberto. Talvez as estratégias evolutivas nos ajudem a inventar arquiteturas de aprendizagem eficazes que também serão úteis para métodos de aprendizagem gradientes. Afinal, a solução encontrada pela natureza é de facto muito bem sucedida.

Fonte: habr.com

Adicionar um comentário