Genèse?). Réflexions sur la nature de l'esprit. Partie II

Genèse?). Réflexions sur la nature de l'esprit. Partie II

Un mot sur les processus, ou sur nous tous un peu contre-vents.

Suite des réflexions sur le thème de l'intelligence, tant naturelle qu'artificielle (IA), Première partie ici


Question sur le remblayage: La personne habite-t-elle actuellement ? Non, lorsque nous marchons dans la rue et contemplons directement le monde qui nous entoure, nous agissons plus ou moins en temps réel... Même si en fait - tant que ce que nous voyons passe par les mécanismes habituels de reconnaissance/classification - tout cela sera récent, mais toujours du passé. Ceux. est-ce qu'une personne vit dans le passé ?

Par exemple : vous marchez dans la rue et voyez un chien. Ou une voiture. En tout cas, si l’on parle du moment, ces informations sont déjà obsolètes. Si nous fonctionnons avec des données qui ont traversé tous nos mécanismes cognitifs (et le cerveau est loin d’être le calculateur le plus rapide !), nous ne pourrons tout simplement pas suivre le monde ! Le chien va attaquer ou, au contraire, s'enfuir, et votre envie de le tapoter derrière l'oreille restera insatisfaite, et la voiture vous heurtera ou passera, alors que c'est cette voiture que vous vouliez « attraper ».

Mais Dieu merci, cela ne se passe pas ainsi, et voici pourquoi : le cerveau fonctionne différemment. L'unité de perception n'est pas un objet, ni même un ensemble d'objets, mais des processus. le chien court. À vous ou de votre part. Ou bien il ne court pas, mais se couche, par exemple. La voiture est également à l'arrêt (dans un parking) ou se déplace dans une certaine direction. Dans tous les cas, vous percevez un processus qui s’étend dans le temps et qui, par conséquent, connaît un certain développement dans le futur. Quand je dis que nous percevons les événements comme se déroulant dans le temps, ce n’est pas une figure de style. Menez une expérience : prenez une douzaine de photographies (c'est-à-dire des instantanés de la réalité) et décrivez ce que vous voyez. Voici plusieurs personnes dans une pièce, elles se disputent, ou voici une personne qui marche dans la rue, ou ici est assise en train de regarder la télévision, et voici une autre personne qui lit un livre. Ce sont tous des processus prolongés dans le temps ! Vous percevez l'instantané comme quelque chose qui a une extension. Vous ne savez pas comment procéder autrement, car c’est ainsi que fonctionne le cerveau : il est entraîné à reconnaître des processus, et non des objets isolés sur scène. Tout comme non pas les yeux-nez-bouche, mais le visage dans son ensemble (bonjour les réseaux de neurones convolutifs).

Le monde est constitué de processus et non d'objets. Si je te demande ce que c'est pomme, alors la plupart des adultes diront que c'est fruit, et les enfants - qu'est-ce que c'est ? nourriture. Mais les deux sont des descriptions de processus, car la première signifie que cette pomme pousse sur un arbre, et sert à l'arbre pour la reproduction, et la seconde est qu'il comestible. Ni l'un ni l'autre n'est associé aux caractéristiques directes d'une pomme - forme, couleur, taille... Car les caractéristiques permettent de l'identifier, mais ne permettent pas son utilisation, ni de comprendre où elle est utilisée dans le monde extérieur, c'est-à-dire définir les processus.

Si l'on prend un débat typique sur la nature du temps, alors les postulats classiques porteront sur l'immuabilité du passé (en dehors du contexte du voyage dans le temps), l'importance du présent (il n'y a qu'un instant... 😉), et le futur, qui n’existe pas encore, ce qui signifie qu’il peut être changé. Lorsque nous parlons de réalité objective, il se peut très bien que ce soit le cas. Cependant, une personne vit dans son propre modèle subjectif du monde, et là tout est presque le contraire !

Le passé n’est pas aussi immuable que nous le souhaiterions. Recevant constamment de nouvelles informations, une personne reconstruit le passé afin d'éliminer les contradictions (vous pensiez que Piotr Stepanych était au symposium, et il sort d'un club de strip-tease... Cela veut dire nulle part, lui, l'artiste, n'est pas allé du tout... ). Dans le même temps, votre avenir subjectif est une constante à bien des égards (quoi qu'il en soit, vendredi j'ai de la bière et du foot !). De plus, ayant un objectif précis dans le futur, vous ne construisez pas seulement une chaîne de processus dans l'ordre inverse (Pour devenir directeur d'une grande entreprise, il faut être diplômé d'une université prestigieuse, pour cela il faut d'abord s'y inscrire, pour cela il faut bien réussir l'examen d'État unifié, et étudier ses devoirs !), mais il est également fort probable qu'au cours de ce processus, vous irez dans le passé (N’avions-nous pas des amis/connaissances qui ont désormais grandi, ont noué des relations et pourraient aider un enfant dans ses études universitaires ?) - pourquoi pas une contre-émotion ? 😉

Cependant, je m'éloigne un peu. Pourtant, la principale chose sur laquelle je voulais me concentrer est processus. Je suis profondément convaincu que l’IA potentielle ne doit pas être entraînée sur des photos ou même des vidéos. Un réseau convolutif a deux niveaux (minimum) - et en fait ce sont deux réseaux différents : l'un est formé pour trouver certains motifs graphiques dans une image brute, le second s'occupe de la sortie du premier - c'est-à-dire avec des informations déjà traitées et préparées. Pour interagir avec succès avec le monde de l'IA, la même chose est nécessaire : à un certain niveau (en aucun cas au premier) il doit y avoir un réseau qui reçoit en entrée une carte des processus déployés au fil du temps. Les concepts de « début » et de « fin », de « mouvement », de « transformation », de « fusion » et de « division » sont avec lesquels le réseau doit apprendre à travailler.

Je suis presque sûr que ceux qui travaillent sur l'IA des jeux, comme Alpha Go, comprennent cela d'une manière ou d'une autre. Peut-être que les approches y sont quelque peu différentes, mais l'essence est la même : la situation actuelle sur le plateau (et dans le développement des derniers mouvements) est analysée pour « ce qui se passe en général ». Et en fonction de la mesure dans laquelle ce qui se passe correspond à ce qui devrait arriver, nous sélectionnons nos propres mouvements.

Il est très difficile de parler de stratégie/comportement lorsque l’entrée est une image provenant de capteurs. Et vice versa - un vecteur préparé contenant une ventilation complète de l'état actuel du terrain dans les jeux avec des informations complètes (considérez une image complète du monde) est une tâche tout à fait réalisable, comme le montre la pratique. Cependant, si le réseau convolutif des premiers niveaux a identifié des objets et que les niveaux suivants analysent ces objets de manière dynamique, en identifiant des processus (familiers de la formation, par exemple) qui complètent les données obtenues précédemment, alors il semble possible de travailler avec cela. ..

Questions aux experts :

Dans quelle mesure est-il réaliste, compte tenu des développements actuels dans les réseaux de neurones, de faire approximativement ce qui suit :

À l'entrée, disons un signal vidéo continu, éventuellement stéréo. En option : avec plusieurs degrés de liberté (possibilité de faire pivoter la caméra - arbitrairement, ou selon un schéma). Cependant, si nécessaire, le signal vidéo peut être complété/remplacé par toute autre méthode de perception spatiale - du sonar au lidar.

À proprement parler…l'entrée peut être n'importe quoi en temps réel flux - même la parole/le texte, même les cotations de devises, mais... Dans le processus considéré, il est plus facile pour moi de m'appuyer sur le seul échantillon de l'esprit dont je dispose pour une étude directe - le mien ! ) Et dans cet « échantillon » le canal sensoriel est hors compétition !
À la sortie:

  1. Carte de profondeur (si la caméra est statique) ou carte d'environnement. l’espace (caméra dynamique/lidar, etc.) ;

    Pourquoi?C'est nécessaire si l'on veut avoir une véritable disposition spatiale des objets pour évaluer leur interaction. Dans ce cas, l’image de la caméra n’est qu’une projection bidimensionnelle d’un espace de dimension supérieure et des transformations supplémentaires sont nécessaires.

  2. Isolement des objets individuels (en tenant compte de la carte profondeur/espace, et pas seulement/pas tellement des contours visibles) ;
  3. Identification des objets en mouvement (vitesse/accélération, construction/prédiction de trajectoire (?)) ;
  4. Classification hiérarchique des objets selon les éventuelles caractéristiques extraites (forme/dimensions/couleur/nuances de mouvement/Composants (?)). Ceux. essentiellement extraire des métriques pour Espaces de Hilbert.

    sur la hiérarchiePeut-être que le mot « hiérarchique » n’est pas tout à fait approprié dans ce cas. Je voulais souligner la possibilité de sélectionner des métriques à tout moment afin que Heminga distance entre eux nous a permis de considérer deux ensembles différents de métriques comme un seul concept. Comment « voiture rouge » et « bus bleu » devraient-ils être généralisés dans le concept de « véhicule », par exemple.

Important: Si possible, le système n'est pas pré-entraîné. Ceux. quelques éléments de base peuvent être posés (par exemple, un réseau convolutionnel de la première couche, pour mettre en évidence les contours/géométrie), mais il doit apprendre à sélectionner des objets et plus tard à les reconnaître par lui-même.

  • Et enfin, construire un balayage (à partir des points 1,4, c'est-à-dire une carte spatiale prenant en compte des métriques) dans le temps (pour l'instant, à ce stade de la période apparemment directement observée), afin de réaliser une analyse selon les points 2 -4, avec afin d'identifier : les processus/événements (qui sont essentiellement les changements au pas de temps 3) et leur classification en clusters (étape 4).

Encore une fois : de l'image des capteurs, on extrait d'abord une description du monde sous une forme plus préparée, marquée selon les caractéristiques extraites et divisée non pas en pixels, mais en objets. Ensuite, nous élargissons le monde composé d'objets dans le temps et reçu "image du monde" nous l'envoyons à l'entrée du réseau suivant, qui fonctionne avec lui de la même manière que les couches précédentes travaillaient avec l'image sensorielle. Là où les contours des objets étaient mis en évidence, les « contours » des processus en cours seront désormais mis en évidence. La position relative des objets dans l'espace est similaire à la relation de cause à effet des processus dans le temps... Quelque chose comme ça.

Vraisemblablement, après cela, le système devrait être capable de reconnaître les processus par leurs parties (comme il est capable de reconnaître les images, n'ayant que leur fragment, ou comme rédiger une suite du texte selon le modèle), et par conséquent, les prédire à la fois en avant et en arrière dans le temps, en élargissant le modèle de l'étape 5 de manière illimitée dans les deux sens. De plus, vraisemblablement, ayant une idée des processus constitutifs, le système peut identifier, à partir de plusieurs processus locaux liés, des processus globaux plus vastes et, par conséquent, des processus implicites et cachés qui font partie intégrante des processus globaux identifiés, mais ne sont pas directement perçus.

Et la dernière chose : avoir un état fixe du système dans le futur (où seuls les éléments significatifs des métriques de Hilbert sont fixes, avec une libre interprétation des valeurs restantes et non essentielles) - le réseau est-il capable de « penser » le repos?

Eh bien, c'est vrai. s'il s'agissait d'une image dans laquelle seuls deux fragments non liés étaient donnés, un réseau formé sur un échantillon pourrait-il compléter une image complète « cohérente » ? L'échantillon dans ce cas est constitué d'intervalles de temps similaires issus de l'expérience, les fragments sont les états actuel et spécifié. Le résultat : une « histoire » cohérente reliant les uns aux autres…

Il me semble que cela constituera déjà une base assez importante pour d'autres expériences :

  • inclusion de ses propres actions dans « l’histoire », si possible/nécessaire
  • priorité des modèles de cause à effet « naturels » sur les émissions stochastiques incontrôlées (problème de la roulette)
  • une version de la curiosité, c'est-à-dire cognition active des modèles par l'action... etc

PS J'avoue pleinement que je viens d'inventer la roue, et des personnes compétentes appliquent ces principes dans la pratique depuis longtemps. 😉 Dans ce cas, je vous demande de « mettre le nez » dans les évolutions pertinentes. Et ce serait absolument merveilleux s’il existait une description détaillée des problèmes fondamentaux de cette approche ou une justification des raisons pour lesquelles elle ne fonctionne pas en principe.

PPS Je suis conscient que le texte est grossier et que l'idée saute de l'une à l'autre, mais j'avais très envie de poser ces questions à quelques personnes (la rubrique « question aux experts »), et il est difficile de s'en passer à ce moment-là. au moins une présentation. Texte passé (et je le relisais maintenant, et je me rendais compte qu'il était très difficile à comprendre) il a rempli son rôle : j'ai reçu plusieurs discussions qui m'ont été précieuses... J'espère que ça fonctionnera cette fois aussi ! 😉

Source: habr.com

Ajouter un commentaire