¿Génesis?). Reflexiones sobre la naturaleza de la mente. Parte II

¿Génesis?). Reflexiones sobre la naturaleza de la mente. Parte II

Unas palabras sobre procesos, o un poco sobre todos nosotros. contravientos.

Continuación de reflexiones sobre el tema de la inteligencia, tanto natural como artificial (IA), primera parte aquí


Pregunta sobre relleno: ¿Vive la persona ahora? No, cuando caminamos por la calle y contemplamos directamente el mundo que nos rodea, actuamos más o menos en tiempo real... Aunque en realidad -siempre que lo que vemos pase por los mecanismos habituales de reconocimiento/clasificación- todo esto será reciente, pero seguirá siendo pasado. Aquellos. ¿Vive una persona en el pasado?

Por ejemplo: vas caminando por la calle y ves un perro. O un coche. En cualquier caso, si hablamos del momento, esta información ya está desactualizada. Si operamos con datos que han pasado por todos nuestros mecanismos cognitivos (¡y el cerebro está lejos de ser la calculadora más rápida!), ¡simplemente no podremos seguir el ritmo del mundo! El perro atacará o, por el contrario, huirá, y tu deseo de darle una palmada detrás de la oreja quedará insatisfecho, y el coche te atropellará o pasará de largo, aunque era este coche al que querías “atrapar”.

Pero gracias a Dios no sucede así y he aquí por qué: el cerebro funciona de manera diferente. La unidad de percepción no es un objeto, ni siquiera un conjunto de objetos, sino procesos. El perro está corriendo. Para ti o de ti. O no corre, sino que, por ejemplo, se tumba. El coche también está parado (en un aparcamiento) o moviéndose en una dirección determinada. En todos los casos se percibe un proceso que se extiende en el tiempo y, en consecuencia, tiene un cierto desarrollo en el futuro. Cuando digo que percibimos que los acontecimientos se desarrollan en el tiempo, no es una figura retórica. Realice un experimento: tome una docena de fotografías (es decir, instantáneas de la realidad) y describa lo que ve. Aquí hay varias personas en una habitación, están peleando, o aquí hay una persona caminando por la calle, o aquí está sentada viendo la televisión, y aquí hay otra persona leyendo un libro. ¡Todos estos son procesos prolongados en el tiempo! Percibes la instantánea como algo que tiene una extensión. No sabes cómo hacerlo de otra manera, porque así funciona el cerebro: está entrenado para reconocer procesos y no objetos aislados en el escenario. Al igual que no los ojos, la nariz y la boca, sino la cara en su conjunto (hola, redes neuronales convolucionales).

El mundo se compone de procesos, no de objetos. Si te pregunto que es manzana, entonces la mayoría de los adultos dirán que esto es frutay niños: ¿qué es? comida. Pero ambas son descripciones de procesos, porque la primera significa que esta manzana crece en un árbol, y sirve al árbol para la reproducción, y la segunda es que comestible. Ni lo uno ni lo otro están asociados con las características directas de una manzana: forma, color, tamaño... Porque las características permiten la identificación, pero no permiten el uso, ni entender dónde se usa en el mundo exterior, es decir. definir los procesos.

Si tomamos un debate típico sobre la naturaleza del tiempo, entonces los postulados clásicos serán sobre la inmutabilidad del pasado (fuera del contexto de los viajes en el tiempo), la importancia del presente (solo hay un momento... 😉), y el futuro, que aún no existe, lo que significa que se puede cambiar. Cuando hablamos de realidad objetiva, es muy posible que así sea. Sin embargo, una persona vive en su propio modelo subjetivo del mundo, ¡y allí todo es casi al revés!

El pasado no es tan inmutable como nos gustaría. Al recibir constantemente nueva información, una persona reconstruye el pasado para eliminar las contradicciones (Pensabas que Piotr Stepanych estaba en el simposio y que salía de un club de striptease... Esto significa que a ninguna parte, él, el animador, no fue y en absoluto... ). Al mismo tiempo, tu futuro subjetivo es una constante en muchos aspectos (Sea lo que sea, ¡el viernes tomo cerveza y fútbol!). Además, al tener un objetivo específico en el futuro, no solo se construye una cadena de procesos en orden inverso (Para convertirse en director de una gran empresa, es necesario graduarse de una universidad prestigiosa con un diploma, para ello primero debe inscribirse en ella, para ello debe aprobar bien el Examen Estatal Unificado y estudiar su tarea.), pero también es bastante probable que en este proceso te vayas al pasado (¿No teníamos amigos/conocidos que ahora han crecido y adquirido conexiones y podrían ayudar a un niño con la universidad?) - ¿Por qué no una contraemoción? 😉

Sin embargo, me desvío un poco. Aún así, lo principal en lo que quería centrarme es procesos. Estoy profundamente convencido de que la IA potencial no debería entrenarse con fotografías o incluso vídeos. Una red convolucional tiene dos niveles (mínimo) y, de hecho, son dos redes diferentes: una está entrenada para encontrar ciertos patrones gráficos en una imagen sin procesar, la segunda se ocupa de la salida de la primera, es decir. con información ya procesada y preparada. Para interactuar con éxito con el mundo de la IA, se necesita lo mismo: en algún nivel (de ninguna manera en el primero) debe haber una red que reciba como entrada un mapa de procesos desarrollados a lo largo del tiempo. La red debe aprender a trabajar con los conceptos de “principio” y “fin”, “movimiento”, “transformación”, “fusión” y “división”.

Estoy bastante seguro de que quienes trabajan en la IA de juegos, como Alpha Go, entienden esto de una forma u otra. Quizás los enfoques allí sean algo diferentes, pero la esencia es la misma: se analiza la situación actual en el tablero (y en el desarrollo de los últimos movimientos) para “lo que está sucediendo en general”. Y dependiendo de hasta qué punto lo que sucede corresponde a lo que debería suceder, seleccionamos nuestros propios movimientos.

Es muy difícil hablar de estrategia/comportamiento cuando la entrada es una imagen de los sensores. Y viceversa: un vector preparado que contiene un desglose completo del estado actual del campo en juegos con información completa (considere una imagen completa del mundo) es una tarea completamente factible, como muestra la práctica. Sin embargo, si la red convolucional de los primeros niveles ha identificado objetos, y los siguientes niveles analizan estos objetos en dinámica, identificando procesos (familiares del entrenamiento, por ejemplo) que complementan los datos obtenidos anteriormente, entonces parece posible trabajar con esto. ..

Preguntas para expertos:

¿Qué tan realista es, dados los avances actuales en las redes neuronales, hacer aproximadamente lo siguiente?

En la entrada, digamos una señal de vídeo continua, posiblemente estéreo. Como opción: con varios grados de libertad (la capacidad de girar la cámara, de forma arbitraria o según un patrón). Sin embargo, si es necesario, la señal de vídeo puede complementarse o sustituirse por cualquier otro método de percepción espacial, desde el sonar hasta el lidar.

Estrictamente hablando…la entrada puede ser cualquier cosa en tiempo real fluir - incluso voz/texto, incluso cotizaciones de divisas, pero... En el proceso que estamos considerando, es más fácil para mí confiar en la única muestra de la mente disponible para el estudio directo: ¡la mía! ) ¡Y en esta “muestra” el canal sensorial está fuera de competencia!
A la salida:

  1. Mapa de profundidad (si la cámara es estática) o mapa de entorno. espacio (cámara dinámica/lidar, etc.);

    Para queEs necesario si queremos tener una disposición espacial real de los objetos para evaluar su interacción. En este caso, la imagen de la cámara es sólo una proyección bidimensional de un espacio de dimensiones superiores y se necesitan transformaciones adicionales.

  2. Aislamiento de objetos individuales (teniendo en cuenta el mapa de profundidad/espacio, y no sólo/no tanto los contornos visibles);
  3. Identificación de objetos en movimiento (velocidad/aceleración, construcción/predicción de trayectoria(?));
  4. Clasificación jerárquica de objetos según las características extraídas (forma/dimensiones/color/matices de movimiento/componentes(?)). Aquellos. esencialmente extrayendo métricas para Espacios de Hilbert.

    sobre la jerarquíaQuizás la palabra “jerárquico” no sea del todo apropiada en este caso. Quería enfatizar la capacidad de seleccionar métricas en cualquier momento para que distancia de Heminga entre ellos nos permitió considerar dos conjuntos diferentes de métricas como un solo concepto. Cómo se deben generalizar "coche rojo" y "autobús azul" al concepto de "vehículo", por ejemplo.

Importante: Si es posible, el sistema no está previamente entrenado. Aquellos. Se pueden establecer algunas cosas básicas (por ejemplo, una red convolucional de la primera capa, para resaltar contornos/geometría), pero debe aprender a seleccionar objetos y luego reconocerlos por sí solo.

  • Y, finalmente, construir un escaneo (basado en los puntos 1,4, es decir, un mapa espacial teniendo en cuenta métricas) en el tiempo (por ahora, en esta etapa del período aparentemente observado directamente), para realizar un análisis según los puntos 2. -4, con el fin de identificar: procesos/eventos (que son esencialmente cambios en el tiempo paso 3) y su clasificación de conglomerados (paso 4).

Una vez más: de la imagen de los sensores, primero extraemos una descripción del mundo en una forma más preparada, marcada según las características extraídas y dividida no en píxeles, sino en objetos. Luego ampliamos el mundo formado por objetos. a tiempo y recibido "imagen del mundo" lo alimentamos a la entrada de la siguiente red, que funciona con él de la misma manera que las capas anteriores trabajaron con la imagen sensorial. Donde se resaltaron los contornos de los objetos, ahora se resaltarán los "contornos" de los procesos en curso. La posición relativa de los objetos en el espacio es similar a la relación causa-efecto de los procesos en el tiempo... Algo así.

Presumiblemente, después de esto, el sistema debería ser capaz de reconocer procesos por sus partes (como es capaz de reconocer imágenes teniendo sólo su fragmento, o como escribir una continuación del texto según el modelo), y como consecuencia, predecirlos tanto hacia adelante como hacia atrás en el tiempo, expandiendo el modelo del paso 5 ilimitadamente en ambas direcciones. Además, presumiblemente, al tener una idea de los procesos constituyentes, el sistema puede identificar, a partir de varios procesos locales relacionados, procesos globales más grandes y, como consecuencia, procesos implícitos y ocultos que son parte integral de los globales identificados. pero no se perciben directamente.

Y lo último: teniendo un estado fijo del sistema en el futuro (donde sólo los elementos significativos de las métricas de Hilbert son fijos, con una interpretación libre de los valores restantes no esenciales), ¿es la red capaz de “pensar” el ¿descansar?

Bueno, eso es. Si se tratara de una imagen en la que sólo se proporcionaran dos fragmentos no relacionados, ¿podría una red entrenada con alguna muestra completar una imagen completa "consistente"? La muestra en este caso son intervalos de tiempo similares de la experiencia, los fragmentos son los estados actuales y especificados. El resultado: una “historia” consistente que conecta a uno y al otro...

Me parece que esto ya será una base bastante importante para futuros experimentos:

  • inclusión de las propias acciones en la “historia”, si es posible/necesario
  • Prioridad de los patrones de causa y efecto “naturales” sobre las emisiones estocásticas no controladas (problema de la ruleta).
  • alguna versión de curiosidad, es decir cognición activa de patrones a través de la acción... etc.

PD: Admito plenamente que acabo de inventar la rueda y que personas conocedoras han estado aplicando estos principios en la práctica durante mucho tiempo. 😉 En este caso, les pido que “metan las narices” en las novedades pertinentes. Y sería absolutamente maravilloso si hubiera una descripción detallada de los problemas fundamentales de este enfoque o una justificación de por qué en principio no funciona.

PPS Soy consciente de que el texto es tosco y la idea salta de uno a otro, pero tenía muchas ganas de hacer estas preguntas a un par de personas (la sección “preguntas a los expertos”), y es difícil prescindir de esto al menos. al menos alguna presentación. Texto pasado (y lo estaba releyendo ahora, y me di cuenta que era muy difícil de entender) cumplió su propósito: recibí varias discusiones que fueron valiosas para mí... ¡Espero que esta vez también funcione! 😉

Fuente: habr.com

Añadir un comentario