Genesis?). Überlegungen zur Natur des Geistes. Teil II

Genesis?). Überlegungen zur Natur des Geistes. Teil II

Ein Wort zu den Prozessen, oder zu uns allen ein wenig Gegenwinde.

Fortsetzung der Gedanken zum Thema Intelligenz, sowohl natürlicher als auch künstlicher Natur (KI), Teil Eins hier


Frage zur Verfüllung: Lebt die Person jetzt? Nein, wenn wir die Straße entlanggehen und die Welt um uns herum direkt betrachten, handeln wir mehr oder weniger Echtzeit... Obwohl tatsächlich – solange das, was wir sehen, die üblichen Erkennungs-/Klassifizierungsmechanismen durchläuft – all dies neu sein wird, aber immer noch Vergangenheit. Diese. Lebt ein Mensch in der Vergangenheit?

Zum Beispiel: Sie gehen die Straße entlang und sehen einen Hund. Oder ein Auto. Wenn wir über den Moment sprechen, sind diese Informationen auf jeden Fall bereits veraltet. Wenn wir mit Daten arbeiten, die alle unsere kognitiven Mechanismen durchlaufen haben (und das Gehirn ist bei weitem nicht der schnellste Rechner!), werden wir einfach nicht mit der Welt mithalten können! Der Hund wird angreifen oder im Gegenteil weglaufen, und Ihr Wunsch, ihm hinters Ohr zu klopfen, wird unerfüllt bleiben, und das Auto wird Sie anfahren oder vorbeifahren, obwohl Sie dieses Auto „fangen“ wollten.

Aber Gott sei Dank passiert das nicht, und zwar aus folgendem Grund: Das Gehirn funktioniert anders. Die Wahrnehmungseinheit ist kein Objekt oder gar eine Menge von Objekten, sondern Prozesse. Der Hund rennt. Für Dich oder von Dir. Oder er rennt nicht, sondern legt sich zum Beispiel hin. Das Auto steht auch (auf einem Parkplatz) oder bewegt sich in eine bestimmte Richtung. In allen Fällen nehmen Sie einen Prozess wahr, der sich über die Zeit erstreckt und dementsprechend eine gewisse Entwicklung in der Zukunft aufweist. Wenn ich sage, dass wir Ereignisse als zeitlich ablaufend wahrnehmen, ist das keine Redewendung. Führen Sie ein Experiment durch – machen Sie ein Dutzend Fotos (d. h. Schnappschüsse der Realität) und beschreiben Sie, was Sie sehen. Hier sind mehrere Leute in einem Raum, sie streiten sich, oder hier geht jemand die Straße entlang, oder hier sitzt er und schaut fern, und hier ist eine andere Person, die ein Buch liest. Das sind alles zeitlich verlängerte Prozesse! Sie nehmen den Schnappschuss als etwas wahr, das eine Erweiterung hat. Man weiß nicht, wie man es anders machen soll, denn so funktioniert das Gehirn: Es ist darauf trainiert, Prozesse zu erkennen und nicht isolierte Objekte auf der Bühne. Genauso wie nicht Augen-Nase-Mund, sondern das Gesicht als Ganzes (Hallo, Faltungs-Neuronale Netze).

Die Welt besteht aus Prozessen, nicht aus Objekten. Wenn ich dich frage, was es ist apfel, dann werden die meisten Erwachsenen sagen, dass dies der Fall ist Obst, und Kinder – was ist das? Lebensmittel. Aber beides sind Prozessbeschreibungen, denn die erste bedeutet, dass dieser Apfel wächst auf einem Baum, und dient dem Baum zur Fortpflanzung, und das zweite ist, dass er essbar. Weder das eine noch das andere ist mit den direkten Eigenschaften eines Apfels verbunden – Form, Farbe, Größe... Denn die Eigenschaften ermöglichen eine Identifizierung, aber keine Verwendung oder ein Verständnis dafür, wo er in der Außenwelt verwendet wird, d. h. Definieren Sie die Prozesse.

Wenn wir eine typische Debatte über die Natur der Zeit führen, dann drehen sich die klassischen Postulate um die Unveränderlichkeit der Vergangenheit (außerhalb des Kontexts von Zeitreisen), die Bedeutung der Gegenwart (es gibt nur einen Moment... 😉), und die Zukunft, die noch nicht existiert, also verändert werden kann. Wenn wir über die objektive Realität sprechen, kann es durchaus sein, dass dies so ist. Allerdings lebt der Mensch in seinem eigenen, subjektiven Weltmodell, und dort ist fast das Gegenteil!

Die Vergangenheit ist bei weitem nicht so unveränderlich, wie wir es gerne hätten. Eine Person erhält ständig neue Informationen und baut die Vergangenheit neu auf, um Widersprüche zu beseitigen (Sie dachten, Pjotr ​​​​Stepanytsch wäre auf dem Symposium und er kommt aus einem Strip-Club ... Das heißt, nirgendwo hin, er, der Entertainer, ist nicht hingegangen und überhaupt ... ). Gleichzeitig ist Ihre subjektive Zukunft in vielerlei Hinsicht eine Konstante (Was auch immer es ist, am Freitag gibt es Bier und Fußball!). Darüber hinaus bauen Sie mit einem konkreten Ziel in der Zukunft nicht nur eine Kette von Prozessen in umgekehrter Reihenfolge auf (Um Direktor eines großen Unternehmens zu werden, müssen Sie einen Abschluss an einer renommierten Universität mit einem Diplom machen, dafür müssen Sie sich zunächst dort einschreiben, dafür müssen Sie das Einheitliche Staatsexamen gut bestehen und Ihre Hausaufgaben lernen!), aber es ist auch sehr wahrscheinlich, dass Sie in diesem Prozess in die Vergangenheit vordringen (Hatten wir nicht Freunde/Bekannte, die inzwischen aufgestanden sind und Kontakte geknüpft haben und einem Kind beim Studium helfen könnten?) – warum nicht Gegenemotion? 😉

Allerdings schweife ich ein wenig ab. Dennoch wollte ich mich vor allem darauf konzentrieren Prozesse. Ich bin zutiefst davon überzeugt, dass potenzielle KI nicht anhand von Fotos oder gar Videos trainiert werden sollte. Ein Faltungsnetzwerk hat (mindestens) zwei Ebenen – und tatsächlich handelt es sich dabei um zwei verschiedene Netzwerke: Eines ist darauf trainiert, bestimmte grafische Muster in einem Rohbild zu finden, das zweite befasst sich mit der Ausgabe des ersten – d. h. mit bereits verarbeiteten und aufbereiteten Informationen. Um erfolgreich mit der Welt der KI zu interagieren, ist dasselbe erforderlich: Auf einer (keineswegs ersten) Ebene muss es ein Netzwerk geben, das als Eingabe eine Karte von Prozessen erhält, die sich im Laufe der Zeit entfalten. Das Netzwerk muss lernen, mit den Konzepten „Anfang“ und „Ende“, „Bewegung“, „Transformation“, „Verschmelzung“ und „Teilung“ umzugehen.

Ich bin mir ziemlich sicher, dass diejenigen, die an Spiele-KI arbeiten, wie Alpha Go, dies auf die eine oder andere Weise verstehen. Vielleicht sind die Herangehensweisen dort etwas unterschiedlich, aber das Wesentliche ist dasselbe: Es wird die aktuelle Situation am Brett (und in der Entwicklung der letzten Züge) analysiert, „was im Allgemeinen passiert“. Und je nachdem, wie sehr das, was passiert, mit dem übereinstimmt, was passieren sollte, wählen wir unsere eigenen Schritte aus.

Es ist sehr schwierig, über Strategie/Verhalten zu sprechen, wenn die Eingabe ein Bild von Sensoren ist. Und umgekehrt – ein vorbereiteter Vektor, der eine vollständige Aufschlüsselung des aktuellen Zustands des Spielfelds in Spielen mit vollständigen Informationen enthält (denken Sie an ein vollständiges Bild der Welt), ist, wie die Praxis zeigt, eine durchaus machbare Aufgabe. Wenn jedoch das Faltungsnetzwerk der ersten Ebenen Objekte identifiziert hat und die nächsten Ebenen diese Objekte dynamisch analysieren und Prozesse (z. B. aus dem Training bekannte) identifizieren, die die zuvor erhaltenen Daten ergänzen, dann scheint es möglich, damit zu arbeiten. ..

Fragen an Experten:

Wie realistisch ist es angesichts der aktuellen Entwicklungen bei neuronalen Netzen, ungefähr Folgendes zu tun:

Am EingangNehmen wir an, ein kontinuierliches Videosignal, möglicherweise Stereo. Optional: mit mehreren Freiheitsgraden (die Möglichkeit, die Kamera beliebig oder nach einem Muster zu drehen). Bei Bedarf kann das Videosignal jedoch durch beliebige andere Methoden der räumlichen Wahrnehmung – vom Sonar bis zum Lidar – ergänzt/ersetzt werden.

Genau genommen…Die Eingabe kann alles sein Echtzeit Fluss – sogar Sprache/Text, sogar Währungskurse, aber... Im betrachteten Prozess ist es für mich einfacher, mich auf die einzige Probe des Geistes zu verlassen, die mir zum direkten Studium zur Verfügung steht – meine eigene! ) Und in diesem „Beispiel“ ist der Sinneskanal konkurrenzlos!
Am Ausgang:

  1. Tiefenkarte (wenn die Kamera statisch ist) oder Umgebungskarte. Raum (dynamische Kamera/Lidar usw.);

    WofürWenn wir eine reale räumliche Anordnung von Objekten haben wollen, ist es notwendig, deren Interaktion zu beurteilen. In diesem Fall ist das Bild der Kamera nur eine zweidimensionale Projektion eines höherdimensionalen Raums und es sind zusätzliche Transformationen erforderlich.

  2. Isolierung einzelner Objekte (unter Berücksichtigung der Tiefen-/Raumkarte und nicht nur/nicht so sehr sichtbarer Konturen);
  3. Identifizierung bewegter Objekte (Geschwindigkeit/Beschleunigung, Konstruktion/Vorhersage der Flugbahn(?));
  4. Hierarchische Klassifizierung von Objekten nach beliebigen extrahierten Merkmalen (Form/Abmessungen/Farbe/Bewegungsnuancen/Bestandteile(?)). Diese. im Wesentlichen das Extrahieren von Metriken für Hilbert-Räume.

    über die HierarchieVielleicht ist das Wort „hierarchisch“ in diesem Fall nicht ganz angemessen. Ich wollte die Möglichkeit hervorheben, jederzeit Metriken auszuwählen Heminga-Distanz zwischen ihnen ermöglichte es uns, zwei verschiedene Sätze von Metriken als ein Konzept zu betrachten. Wie beispielsweise „rotes Auto“ und „blauer Bus“ in den Begriff „Fahrzeug“ verallgemeinert werden sollten.

Wichtig: Das System wird nach Möglichkeit nicht vortrainiert. Diese. Einige grundlegende Dinge können festgelegt werden (z. B. ein Faltungsnetzwerk der ersten Schicht, um Konturen/Geometrie hervorzuheben), aber es muss lernen, Objekte auszuwählen und sie später selbst zu erkennen.

  • Und schließlich die zeitliche Erstellung eines Sweeps (basierend auf den Punkten 1,4, d. h. einer räumlichen Karte unter Berücksichtigung von Metriken) (vorerst in diesem Stadium des scheinbar direkt beobachteten Zeitraums), um eine Analyse gemäß den Punkten 2 durchzuführen -4, mit um zu identifizieren: Prozesse/Ereignisse (die im Wesentlichen sind Änderungen im Zeitschritt 3) und deren Clusterklassifizierung (Schritt 4).

Noch einmal: Aus dem Bild der Sensoren extrahieren wir zunächst eine Beschreibung der Welt in besser aufbereiteter Form, markiert nach den extrahierten Merkmalen und unterteilt nicht in Pixel, sondern in Objekte. Dann erweitern wir die Welt, die aus Objekten besteht in der Zeit und erhalten „Bild der Welt“ Wir geben es an den Eingang des nächsten Netzwerks weiter, das damit genauso arbeitet wie die vorherigen Schichten mit dem Sinnesbild. Wo die Konturen von Objekten hervorgehoben wurden, werden nun die „Konturen“ laufender Prozesse hervorgehoben. Die relative Position von Objekten im Raum ähnelt der Ursache-Wirkungs-Beziehung von Prozessen in der Zeit ... So ähnlich.

Vermutlich sollte das System danach in der Lage sein, Prozesse anhand ihrer Teile zu erkennen (so wie es Bilder erkennen kann, die nur deren Fragmente haben, oder so). eine Fortsetzung des Textes nach dem Muster schreiben) und können sie daher zeitlich vorwärts und rückwärts vorhersagen, wodurch das Modell aus Schritt 5 unbegrenzt in beide Richtungen erweitert wird. Vermutlich kann das System, wenn es eine Vorstellung von den konstituierenden Prozessen hat, aus mehreren verwandten lokalen Prozessen größere, globale Prozesse und infolgedessen implizite, verborgene Prozesse identifizieren, die ein integraler Bestandteil der identifizierten globalen Prozesse sind. werden aber nicht direkt wahrgenommen.

Und das Letzte: Ist das Netzwerk in der Lage, in der Zukunft einen festen Zustand des Systems zu haben (in dem nur signifikante Elemente der Hilbert-Metriken festgelegt sind und die übrigen, nicht wesentlichen Werte frei interpretiert werden können)? ausruhen?

Nun ja, das ist. Wenn es ein Bild wäre, in dem nur zwei unabhängige Fragmente vorhanden wären, könnte ein Netzwerk, das auf einer Probe trainiert wurde, ein „konsistentes“ vollständiges Bild vervollständigen? Die Stichprobe besteht in diesem Fall aus Erfahrungswerten ähnlicher Zeitintervalle, die Fragmente sind der aktuelle und der spezifizierte Zustand. Das Ergebnis: eine konsistente „Geschichte“, die das eine und das andere verbindet ...

Es scheint mir, dass dies bereits eine ganz wesentliche Grundlage für weitere Experimente sein wird:

  • Einbeziehung des eigenen Handelns in die „Geschichte“, sofern möglich/notwendig
  • Priorität „natürlicher“ Ursache-Wirkungs-Muster vor unkontrollierten stochastischen Emissionen (Roulette-Problem)
  • eine Art Neugier, d.h. aktives Erkennen von Mustern durch Handeln... usw

PS: Ich gebe voll und ganz zu, dass ich gerade das Rad erfunden habe und sachkundige Leute diese Prinzipien schon seit langem in der Praxis anwenden. 😉 In diesem Fall bitte ich Sie, in die relevanten Entwicklungen „einen Blick hineinzustecken“. Und es wäre absolut wunderbar, wenn es eine detaillierte Beschreibung der grundlegenden Probleme dieses Ansatzes oder eine Begründung dafür gäbe, warum er grundsätzlich nicht funktioniert.

PPS Mir ist bewusst, dass der Text grob ist und die Idee von einer zur anderen springt, aber ich wollte unbedingt ein paar Leuten diese Fragen stellen (den Abschnitt „Frage an die Experten“), und darauf kann man nur schwer verzichten zumindest eine Präsentation. Vergangener Text (und ich habe es jetzt noch einmal gelesen und festgestellt, dass es sehr schwer zu verstehen war) Es hat seinen Zweck erfüllt: Ich habe mehrere Diskussionen erhalten, die für mich wertvoll waren ... Ich hoffe, es funktioniert auch dieses Mal! 😉

Source: habr.com

Kommentar hinzufügen