Geneza?). Refleksje na temat natury umysłu. część druga

Geneza?). Refleksje na temat natury umysłu. część druga

Słowo o procesach, czyli trochę o nas wszystkich przeciwwiatry.

Ciąg dalszy rozważań na temat inteligencji naturalnej i sztucznej (AI), część pierwsza tutaj


Pytanie o zasypywanie: Czy ta osoba mieszka teraz? Nie, kiedy idziemy ulicą i bezpośrednio kontemplujemy otaczający nas świat, zachowujemy się mniej więcej realtime... Choć tak naprawdę – dopóki to, co widzimy, przejdzie przez zwykłe mechanizmy rozpoznawania/klasyfikacji – to wszystko będzie niedawne, ale jednak przeszłość. Te. czy człowiek żyje przeszłością?

Na przykład: idziesz ulicą i widzisz psa. Albo samochód. W każdym razie, jeśli mówimy o chwili, informacje te są już nieaktualne. Jeśli będziemy posługiwać się danymi, które przeszły przez wszystkie nasze mechanizmy poznawcze (a mózgowi daleko do najszybszego kalkulatora!), po prostu nie nadążymy za światem! Pies zaatakuje lub wręcz przeciwnie, ucieknie, a Twoja chęć poklepania go za uchem pozostanie niespełniona, a samochód w Ciebie potrąci lub przejedzie, choć to właśnie ten samochód chciałeś „złapać”.

Ale dzięki Bogu tak się nie dzieje i oto dlaczego: mózg działa inaczej. Jednostka percepcji nie jest przedmiotem, ani nawet zbiorem obiektów, ale procesami. Pies biegnie. Do Ciebie lub od Ciebie. Albo nie biegnie, tylko leży, np. Samochód również stoi (na parkingu) lub porusza się w określonym kierunku. We wszystkich przypadkach dostrzegasz proces, który rozciąga się w czasie i dlatego ma pewien rozwój w przyszłości. Kiedy mówię, że postrzegamy wydarzenia jako rozgrywające się w czasie, nie jest to przenośnia retoryczna. Przeprowadź eksperyment - zrób kilkanaście zdjęć (czyli migawek rzeczywistości) i opisz to, co widzisz. Oto kilka osób w pokoju, kłócą się, albo tutaj jest osoba idąca ulicą, albo tutaj siedzi i ogląda telewizję, a tutaj jest inna osoba czytająca książkę. To wszystko są procesy rozciągnięte w czasie! Postrzegasz migawkę jako coś, co ma rozszerzenie. Inaczej nie wiadomo, bo tak działa mózg: jest wytrenowany do rozpoznawania procesów, a nie izolowanych obiektów na scenie. Podobnie jak nie oczy-nos-usta, ale twarz jako całość (witajcie, splotowe sieci neuronowe).

Świat składa się z procesów, a nie obiektów. Jeśli zapytam, co to jest jabłko, to większość dorosłych powie, że tak owoc, a dzieci - co to jest? żywność. Ale oba są opisami procesów, bo pierwszy oznacza, że ​​to jabłko rośnie na drzewie, i służy drzewu do reprodukcji, a po drugie, że to jadalny. Ani jedno, ani drugie nie jest kojarzone z bezpośrednimi cechami jabłka - kształtem, kolorem, rozmiarem... Ponieważ cechy pozwalają na identyfikację, ale nie pozwalają na użycie, czy zrozumienie, gdzie jest ono używane w świecie zewnętrznym, tj. zdefiniować procesy.

Jeśli podejmiemy typową debatę na temat natury czasu, to klasyczne postulaty będą dotyczyć niezmienności przeszłości (poza kontekstem podróży w czasie), znaczenia teraźniejszości (jest tylko chwila... 😉), i przyszłość, która jeszcze nie istnieje, co oznacza, że ​​można ją zmienić. Kiedy mówimy o obiektywnej rzeczywistości, może się zdarzyć, że tak właśnie jest. Jednak człowiek żyje we własnym, subiektywnym modelu świata, a tam wszystko jest niemal odwrotnie!

Przeszłość nie jest tak niezmienna, jak byśmy tego chcieli. Ciągle otrzymując nowe informacje, człowiek odbudowuje przeszłość, aby wyeliminować sprzeczności (myślałeś, że Piotr Stepanych był na sympozjum, a wychodzi z klubu ze striptizem... To znaczy nigdzie, on, artysta, nie poszedł i wcale... ). Jednocześnie Twoja subiektywna przyszłość jest stała pod wieloma względami (cokolwiek to jest, w piątek mam piwo i piłkę nożną!). Co więcej, mając konkretny cel na przyszłość, nie tylko budujesz łańcuch procesów w odwrotnej kolejności (Aby zostać dyrektorem dużej firmy, musisz ukończyć prestiżowy uniwersytet z dyplomem, w tym celu musisz najpierw się na niego zapisać, w tym celu musisz dobrze zdać ujednolicony egzamin państwowy i odrobić pracę domową!), ale jest też całkiem prawdopodobne, że w tym procesie przeniesiesz się w przeszłość (Czy nie mieliśmy przyjaciół/znajomych, którzy już dorastali i nabyli kontakty i mogliby pomóc dziecku w nauce?) - dlaczego nie przeciw-emocja? 😉

Jednak trochę odpuszczę. Jednak najważniejszą rzeczą, na której chciałem się skupić, jest procesy. Jestem głęboko przekonany, że potencjalnej sztucznej inteligencji nie należy szkolić na zdjęciach, a nawet filmach. Sieć splotowa ma dwa poziomy (minimum) - i tak naprawdę są to dwie różne sieci: jedna jest szkolona w znajdowaniu określonych wzorców graficznych w surowym obrazie, druga zajmuje się wynikami pierwszej - tj. z już przetworzonymi i przygotowanymi informacjami. Aby skutecznie współdziałać ze światem AI, potrzebne jest to samo: na pewnym (w żadnym wypadku nie pierwszym) poziomie musi istnieć sieć, która jako dane wejściowe otrzymuje mapę procesów zachodzących w czasie. Pojęcia „początku” i „końca”, „ruchu”, „transformacji”, „łączenia” i „podzielenia” są tym, z czym sieć musi nauczyć się pracować.

Jestem pewien, że ci, którzy pracują nad sztuczną inteligencją w grach, jak Alpha Go, rozumieją to w ten czy inny sposób. Być może podejścia są nieco inne, ale istota jest taka sama: aktualna sytuacja na szachownicy (i rozwój kilku ostatnich ruchów) jest analizowana pod kątem „tego, co dzieje się ogólnie”. I w zależności od tego, w jakim stopniu to, co się dzieje, odpowiada temu, co powinno się wydarzyć, wybieramy własne ruchy.

Bardzo trudno jest mówić o strategii/zachowaniu, gdy danymi wejściowymi jest obraz z czujników. I odwrotnie - przygotowany wektor zawierający pełne zestawienie aktualnego stanu pola w grach z pełną informacją (rozważ pełny obraz świata) jest zadaniem całkowicie wykonalnym, jak pokazuje praktyka. Jeśli jednak sieć splotowa pierwszych poziomów zidentyfikowała obiekty, a kolejne poziomy analizują te obiekty pod kątem dynamiki, identyfikując procesy (znane np. z treningu) uzupełniające uzyskane wcześniej dane, to wydaje się, że można z tym popracować. ..

Pytania do ekspertów:

Na ile realistyczne jest, biorąc pod uwagę obecny rozwój sieci neuronowych, wykonanie w przybliżeniu następujących czynności:

Przy wejściu, powiedzmy ciągły sygnał wideo, ewentualnie stereo. W opcji: z kilkoma stopniami swobody (możliwość obracania kamery - dowolnie lub według wzoru). W razie potrzeby sygnał wideo można jednak uzupełnić/zastąpić dowolnymi innymi metodami percepcji przestrzennej – od sonaru po lidar.

Ściśle mówiąc…danymi wejściowymi może być wszystko realtime przepływ - nawet mowa/tekst, nawet notowania walut, ale... W rozważanym procesie łatwiej mi jest polegać na jedynej dostępnej mi próbce umysłu do bezpośredniego badania - mojej własnej! ) I w tej „próbce” kanał sensoryczny jest poza konkurencją!
Przy wyjściu:

  1. Mapa głębi (jeśli kamera jest statyczna) lub mapa środowiska. przestrzeń (kamera dynamiczna/lidar itp.);

    Po co?Jest to konieczne, jeśli chcemy mieć rzeczywisty układ przestrzenny obiektów, aby ocenić ich wzajemne oddziaływanie. W tym przypadku obraz z kamery jest jedynie dwuwymiarową projekcją przestrzeni wielowymiarowej i potrzebne są dodatkowe przekształcenia.

  2. Izolacja poszczególnych obiektów (uwzględnienie mapy głębi/przestrzeni, a nie tylko/niezbyt widocznych konturów);
  3. Identyfikacja poruszających się obiektów (prędkość/przyspieszenie, konstrukcja/przewidywanie trajektorii(?));
  4. Hierarchiczna klasyfikacja obiektów według dowolnych wyodrębnionych cech (kształt/wymiary/kolor/niuanse ruchu/części składowe(?)). Te. zasadniczo wyodrębnianie metryk dla Przestrzenie Hilberta.

    o hierarchiiByć może słowo „hierarchiczny” nie jest w tym przypadku do końca odpowiednie. Chciałem podkreślić możliwość doboru metryk w dowolnym momencie tak aby Odległość Hemingi między nimi pozwoliło nam rozważyć dwa różne zestawy metryk jako jedną koncepcję. Jak na przykład „czerwony samochód” i „niebieski autobus” należy uogólnić na pojęcie „pojazdu”.

Ważne: Jeśli to możliwe, system nie jest wstępnie przeszkolony. Te. pewne podstawowe rzeczy można ustalić (np. sieć splotową pierwszej warstwy, do podkreślania konturów/geometrii), ale musi nauczyć się wybierać obiekty, a później samodzielnie je rozpoznawać.

  • I wreszcie skonstruowanie przemiatania (w oparciu o pkt. 1,4, czyli mapy przestrzennej uwzględniającej metryki) w czasie (na razie, na tym etapie pozornie bezpośrednio obserwowanego okresu), w celu przeprowadzenia analizy zgodnie z pkt. 2 -4, z w celu identyfikacji: procesów/zdarzeń (które zasadniczo są zmiany w kroku czasowym 3) i ich klasyfikację klastrów (krok 4).

Powtórzę raz jeszcze: z obrazu z czujników wydobywamy najpierw opis świata w bardziej przygotowanej formie, oznaczony według wydobytych cech i podzielony nie na piksele, ale na obiekty. Następnie rozwijamy świat składający się z obiektów w samą porę i otrzymał „obraz świata” podajemy go na wejście kolejnej sieci, która pracuje z nim w ten sam sposób, w jaki poprzednie warstwy pracowały z obrazem sensorycznym. Tam, gdzie zostały podświetlone kontury obiektów, teraz podświetlone zostaną „kontury” trwających procesów. Względne położenie obiektów w przestrzeni przypomina związek przyczynowo-skutkowy procesów w czasie... Coś w tym stylu.

Prawdopodobnie po tym system powinien być w stanie rozpoznawać procesy po ich częściach (tak jak potrafi rozpoznawać obrazy, mając tylko ich fragment, lub jak napisanie kontynuacji tekstu według wzoru), a w konsekwencji przewidzieć je zarówno do przodu, jak i do tyłu w czasie, rozszerzając model kroku 5 w nieograniczony sposób w obu kierunkach. Prawdopodobnie także, mając pojęcie o procesach składowych, system może zidentyfikować, z kilku powiązanych procesów lokalnych, większe procesy globalne, a w konsekwencji procesy ukryte, ukryte, które są integralną częścią zidentyfikowanych procesów globalnych, ale nie są bezpośrednio postrzegane.

I ostatnia rzecz: mając ustalony stan systemu w przyszłości (w którym ustalone są tylko istotne elementy metryk Hilberta, z swobodną interpretacją pozostałych, nieistotnych wartości) - czy sieć jest w stanie „wymyślić” odpoczynek?

Cóż, to znaczy. gdyby był to obraz zawierający tylko dwa niezwiązane ze sobą fragmenty, czy sieć wyszkolona na jakiejś próbce mogłaby ukończyć „spójny” pełny obraz? Próbką w tym przypadku są podobne przedziały czasowe z doświadczenia, fragmenty to stany aktualny i określony. Rezultat: spójna „historia” łącząca jedno z drugim...

Wydaje mi się, że będzie to już dość istotna podstawa do dalszych eksperymentów:

  • wpisanie własnych działań w „historię”, jeśli jest to możliwe/konieczne
  • pierwszeństwo „naturalnych” wzorców przyczynowo-skutkowych nad niekontrolowanymi emisją stochastyczną (problem ruletki)
  • jakaś wersja ciekawości, tj. aktywne poznawanie wzorców poprzez działanie... itd

PS W pełni przyznaję, że dopiero co wymyśliłem koło, a znający się na rzeczy ludzie od dawna stosują te zasady w praktyce. 😉 W tym przypadku proszę o „wtykanie nosa” w istotne wydarzenia. I byłoby absolutnie cudownie, gdyby istniał szczegółowy opis podstawowych problemów tego podejścia lub uzasadnienie, dlaczego w zasadzie nie działa ono.

PPS Zdaję sobie sprawę, że tekst jest prymitywny, a pomysły przeskakują z jednego na drugi, ale bardzo chciałem zadać kilka osób te pytania (sekcja „pytania do ekspertów”), a bez tego trudno się obejść przynajmniej jakąś prezentację. Poprzedni tekst (i teraz czytałem to ponownie i zdałem sobie sprawę, że było to bardzo trudne do zrozumienia) spełniło swój cel: otrzymałem kilka cennych dla mnie dyskusji... Mam nadzieję, że tym razem też się uda! 😉

Źródło: www.habr.com

Dodaj komentarz