Gênese?). Reflexões sobre a natureza da mente. parte II

Gênese?). Reflexões sobre a natureza da mente. parte II

Uma palavra sobre processos, ou um pouco de todos nós contraventos.

Continuação das reflexões sobre o tema da inteligência, natural e artificial (IA), Parte Um aqui


Pergunta sobre o preenchimento: A pessoa mora agora? Não, quando caminhamos pela rua e contemplamos diretamente o mundo que nos rodeia, agimos mais ou menos em tempo real... Embora de facto - desde que o que vemos passe pelos mecanismos habituais de reconhecimento/classificação - tudo isto será recente, mas ainda assim passado. Aqueles. uma pessoa vive no passado?

Por exemplo: você está andando na rua e vê um cachorro. Ou um carro. De qualquer forma, se falamos do momento, esta informação já está desatualizada. Se operarmos com dados que passaram por todos os nossos mecanismos cognitivos (e o cérebro está longe de ser a calculadora mais rápida!), simplesmente não conseguiremos acompanhar o mundo! O cachorro vai atacar ou, ao contrário, fugir, e seu desejo de dar um tapinha atrás da orelha permanecerá insatisfeito, e o carro vai bater em você ou passar, embora fosse esse carro que você queria “pegar”.

Mas graças a Deus isso não acontece assim, e aqui está o porquê: o cérebro funciona de forma diferente. A unidade de percepção não é um objeto, nem mesmo um conjunto de objetos, mas processos. O cachorro está correndo. Para você ou de você. Ou ele não corre, mas deita, por exemplo. O carro também está parado (em um estacionamento) ou se movendo em uma determinada direção. Em todos os casos, você percebe um processo que se estende no tempo e, consequentemente, tem um certo desenvolvimento no futuro. Quando digo que percebemos os acontecimentos como se desenrolando no tempo, isto não é uma figura de linguagem. Faça um experimento - tire uma dúzia de fotos (ou seja, instantâneos da realidade) e descreva o que você vê. Aqui estão várias pessoas em uma sala, elas estão brigando, ou aqui está uma pessoa andando pela rua, ou aqui está sentado assistindo TV, e aqui está outra pessoa lendo um livro. Todos esses são processos estendidos no tempo! Você percebe o instantâneo como algo que possui uma extensão. Você não sabe fazer de outra forma, porque é assim que o cérebro funciona: ele é treinado para reconhecer processos, e não objetos isolados no palco. Assim como não os olhos-nariz-boca, mas o rosto como um todo (olá, redes neurais convolucionais).

O mundo consiste em processos, não em objetos. Se eu te perguntar o que é maçã, então a maioria dos adultos dirá que isso é frutae crianças - o que é isso? comida. Mas ambas são descrições de processos, porque a primeira significa que esta maçã cresce em uma árvore, e serve à árvore para reprodução, e a segunda é que ela comestível. Nem um nem outro estão associados às características diretas de uma maçã - forma, cor, tamanho... Porque as características permitem a identificação, mas não permitem a utilização, nem a compreensão de onde é utilizada no mundo exterior, ou seja, definir os processos.

Se tomarmos um debate típico sobre a natureza do tempo, então os postulados clássicos serão sobre a imutabilidade do passado (fora do contexto da viagem no tempo), a importância do presente (há apenas um momento... 😉), e o futuro, que ainda não existe, o que significa que pode ser mudado. Quando falamos sobre a realidade objetiva, pode muito bem ser que seja assim. Porém, a pessoa vive em seu próprio modelo subjetivo de mundo, e aí tudo é quase o contrário!

O passado não é tão imutável quanto gostaríamos. Recebendo constantemente novas informações, a pessoa reconstrói o passado para eliminar contradições (você pensou que Pyotr Stepanych estava no simpósio e ele estava saindo de um clube de strip-tease... Isso não significa lugar nenhum, ele, o artista, não foi e de jeito nenhum... ). Ao mesmo tempo, o seu futuro subjetivo é uma constante em muitos aspectos (seja o que for, na sexta tenho cerveja e futebol!). Além disso, tendo um objetivo específico no futuro, você não apenas constrói uma cadeia de processos na ordem inversa (Para se tornar diretor de uma grande empresa, você precisa se formar em uma universidade de prestígio com um diploma, para isso você deve primeiro se inscrever nela, para isso você precisa passar bem no Exame Estadual Unificado e estudar o dever de casa!), mas também é bastante provável que neste processo você vá para o passado (Não tínhamos amigos/conhecidos que agora cresceram e adquiriram conexões e poderiam ajudar uma criança na universidade?) - por que não contra-emoção? 😉

No entanto, discordo um pouco. Ainda assim, a principal coisa que eu queria focar é os processos. Estou profundamente convencido de que a IA potencial não deve ser treinada em fotos ou mesmo em vídeos. Uma rede convolucional tem dois níveis (mínimo) - e na verdade são duas redes diferentes: uma é treinada para encontrar certos padrões gráficos em uma imagem bruta, a segunda lida com a saída da primeira - ou seja, com informações já processadas e preparadas. Para interagir com sucesso com o mundo da IA, é necessária a mesma coisa: em algum nível (de forma alguma o primeiro), deve haver uma rede que receba como entrada um mapa de processos desdobrados ao longo do tempo. Os conceitos de “início” e “fim”, “movimento”, “transformação”, “fusão” e “divisão” são com os quais a rede deve aprender a trabalhar.

Tenho certeza de que quem trabalha com IA de jogos, como Alpha Go, entende isso de uma forma ou de outra. Talvez as abordagens sejam um pouco diferentes, mas a essência é a mesma: a situação atual no tabuleiro (e no desenvolvimento dos últimos movimentos) é analisada quanto “ao que está acontecendo em geral”. E dependendo do quanto o que acontece corresponde ao que deveria acontecer, selecionamos nossos próprios movimentos.

É muito difícil falar sobre estratégia/comportamento quando a entrada é uma imagem de sensores. E vice-versa - um vetor preparado contendo uma análise completa do estado atual do campo em jogos com informações completas (considerar uma imagem completa do mundo) é uma tarefa bastante viável, como mostra a prática. Porém, se a rede convolucional dos primeiros níveis identificou objetos, e os níveis seguintes analisam esses objetos em dinâmica, identificando processos (familiares do treinamento, por exemplo) que complementam os dados obtidos anteriormente, então parece possível trabalhar com isso. ..

Perguntas para especialistas:

Quão realista é, dados os desenvolvimentos atuais em redes neurais, fazer aproximadamente o seguinte:

Na entrada, digamos um sinal de vídeo contínuo, possivelmente estéreo. Como opção: com vários graus de liberdade (possibilidade de girar a câmera - arbitrariamente ou de acordo com um padrão). No entanto, se necessário, o sinal de vídeo pode ser complementado/substituído por quaisquer outros métodos de percepção espacial - do sonar ao lidar.

A rigor…a entrada pode ser qualquer um em tempo real fluxo - até mesmo fala/texto, até mesmo cotações de moeda, mas... No processo em consideração, é mais fácil para mim confiar na única amostra da mente disponível para estudo direto - a minha! ) E nesta “amostra” o canal sensorial está fora de competição!
Saída:

  1. Mapa de profundidade (se a câmera for estática) ou mapa de ambiente. espaço (câmera/lidar dinâmico, etc.);

    Para queÉ necessário se quisermos ter um arranjo espacial real dos objetos para avaliar sua interação. Neste caso, a imagem da câmera é apenas uma projeção bidimensional de um espaço de dimensão superior, e são necessárias transformações adicionais.

  2. Isolamento de objetos individuais (tendo em conta o mapa de profundidade/espaço, e não apenas/nem tanto contornos visíveis);
  3. Identificação de objetos em movimento (velocidade/aceleração, construção/predição de trajetória(?));
  4. Classificação hierárquica de objetos de acordo com quaisquer características extraídas (forma/dimensões/cor/nuances de movimento/Partes componentes(?)). Aqueles. essencialmente extraindo métricas para Espaços de Hilbert.

    sobre a hierarquiaTalvez a palavra “Hierárquico” não seja totalmente apropriada neste caso. Eu queria enfatizar a capacidade de selecionar métricas a qualquer momento para que Distância Heminga entre eles nos permitiu considerar dois conjuntos diferentes de métricas como um conceito. Como “carro vermelho” e “ônibus azul” devem ser generalizados no conceito de “veículo”, por exemplo.

Importante: Se possível, o sistema não é pré-treinado. Aqueles. algumas coisas básicas podem ser estabelecidas (por exemplo, uma rede convolucional da primeira camada, para realçar contornos/geometria), mas deve aprender a selecionar objetos e depois reconhecê-los por conta própria.

  • E, por último, construir um scan (com base nos pontos 1,4, ou seja, um mapa espacial tendo em conta métricas) no tempo (por enquanto, nesta fase do período aparentemente observado diretamente), de forma a realizar uma análise de acordo com os pontos 2 -4, com a fim de identificar: processos/eventos (que são essencialmente alterar no passo de tempo 3) e sua classificação de cluster (passo 4).

Mais uma vez: da imagem dos sensores, extraímos primeiro uma descrição do mundo de forma mais preparada, marcada de acordo com as características extraídas e dividida não em pixels, mas em objetos. Então expandimos o mundo composto por objetos em tempo e recebeu "imagem do mundo" nós o alimentamos na entrada da próxima rede, que trabalha com ele da mesma forma que as camadas anteriores trabalharam com a imagem sensorial. Onde os contornos dos objetos eram destacados, os “contornos” dos processos em andamento serão agora destacados. A posição relativa dos objetos no espaço é semelhante à relação de causa e efeito dos processos no tempo... Algo assim.

Presumivelmente, depois disso, o sistema deverá ser capaz de reconhecer processos por suas partes (assim como é capaz de reconhecer imagens, tendo apenas seu fragmento, ou como escrever uma continuação do texto de acordo com o modelo) e, como consequência, prevê-los tanto para frente quanto para trás no tempo, expandindo o modelo da etapa 5 ilimitadamente em ambas as direções. Além disso, presumivelmente, tendo uma ideia dos processos constituintes, o sistema pode identificar, a partir de vários processos locais relacionados, processos globais maiores e, como consequência, processos implícitos e ocultos que são parte integrante dos globais identificados, mas não são percebidos diretamente.

E a última coisa: ter um estado fixo do sistema no futuro (onde apenas elementos significativos das métricas de Hilbert são fixos, com uma interpretação livre dos valores restantes e não essenciais) - é a rede capaz de “pensar” o descansar?

Bem, isso é. se fosse uma imagem na qual apenas dois fragmentos não relacionados fossem fornecidos, uma rede treinada em alguma amostra poderia completar uma imagem completa “consistente”? A amostra, neste caso, são intervalos de tempo semelhantes à experiência, os fragmentos são os estados atuais e especificados. O resultado: uma “história” consistente conectando um e outro...

Parece-me que esta já será uma base bastante significativa para novas experiências:

  • inclusão das próprias ações na “história”, se possível/necessário
  • prioridade de padrões “naturais” de causa e efeito sobre emissões estocásticas não controladas (problema da roleta)
  • alguma versão de curiosidade, ou seja, cognição ativa de padrões através da ação... etc.

PS: Admito plenamente que acabei de inventar a roda, e pessoas experientes já aplicam esses princípios na prática há muito tempo. 😉 Neste caso, peço-lhe que “mete o nariz” nos desenvolvimentos relevantes. E seria absolutamente maravilhoso se houvesse uma descrição detalhada dos problemas fundamentais desta abordagem ou uma justificação para a razão pela qual não funciona em princípio.

PPS Estou ciente de que o texto é grosseiro e a ideia salta de um para outro, mas eu realmente queria fazer essas perguntas a algumas pessoas (a seção “pergunta aos especialistas”), e isso é difícil de fazer sem pelo menos pelo menos alguma apresentação. Texto anterior (e eu estava relendo agora, e percebi que era muito difícil de entender) serviu ao seu propósito: recebi diversas discussões que foram valiosas para mim... Espero que dessa vez funcione também! 😉

Fonte: habr.com

Adicionar um comentário