
Unhas palabras sobre os procesos, ou todos somos un pouco .
Reflexións continuas sobre o tema da intelixencia, tanto natural como artificial (IA), primeira parte
Pregunta sobre vertedoiroVive unha persoa no presente? Non, cando camiñamos pola rúa e contemplamos directamente o mundo que nos rodea, actuamos máis ou menos tempo real...Aínda que en realidade —ata que o que vemos pase polos mecanismos habituais de recoñecemento/clasificación— todo isto será recente, pero aínda así pasado. Entón, vive o home no pasado?
Por exemplo: vas pola rúa e ves un can. Ou un coche. En calquera caso, se falamos do momento, esta información xa está desactualizada. Se operamos con datos que xa foron procesados por todos os nosos mecanismos cognitivos (e o cerebro non é o ordenador máis rápido!), simplemente non seguiremos o ritmo do mundo! O can atacará ou, pola contra, fuxirá, e o teu desexo de darlle unha palmada na orella quedará insatisfeito, e o coche atropelarache ou pasarache por diante, aínda que sexa o mesmo coche que estabas a intentar "atrapar".
Pero, afortunadamente, isto non ocorre, e aquí tes por que: o cerebro funciona de xeito diferente. A unidade de percepción non é un obxecto, nin sequera un conxunto de obxectos, senón procesos. Un can corre. Cara a ti ou lonxe de ti. Ou non corre, senón deitado, por exemplo. Un coche é o mesmo: parado (nun aparcadoiro) ou movéndose nunha determinada dirección. En todos os casos, percibes un proceso que se estende no tempo e, en consecuencia, ten un certo desenvolvemento no futuro. Cando digo que percibimos os acontecementos como se desenvolvan no tempo, non estou só a falar. Realiza un experimento: fai unha ducia de fotografías (é dicir, instantáneas da realidade) e describe o que ves. Aquí hai varias persoas nunha habitación, discutindo, ou aquí hai unha persoa camiñando pola rúa, ou aquí hai alguén sentado vendo a televisión e outro lendo un libro. Todos estes son procesos que se estenden no tempo! Percibes unha instantánea como algo con continuidade. Non podes facer doutro xeito porque así é como funciona o cerebro: está adestrado para recoñecer procesos, non obxectos illados nun escenario. Igual que non ollos-nariz-boca, senón a cara no seu conxunto (ola, redes neuronais convolucionais).
O mundo consiste en procesos, non en obxectos. Se che pregunto que é mazá, entón a maioría dos adultos dirán que é froita, e nenos - que é isto? ComidaPero ambas son descricións de procesos, porque a primeira significa que esta mazá medra nunha árbore, e serve á árbore para a reprodución, e a segunda é que comestibleNingunha das dúas está relacionada coas características inmediatas da mazá: forma, cor, tamaño... Porque as características permiten a identificación, pero non permiten o seu uso ou a comprensión do seu uso no mundo circundante, é dicir, determinar os procesos implicados.
Se tomamos un debate típico sobre a natureza do tempo, os postulados clásicos son a inmutabilidade do pasado (fóra do contexto das viaxes no tempo), a importancia do presente (só hai un momento... 😉 ) e o futuro, que aínda non existe e, polo tanto, pode cambiarse. Cando falamos da realidade obxectiva, pode ser moi certo. Non obstante, a xente vive no seu propio modelo subxectivo do mundo, e alí, todo é case o contrario!
O pasado está lonxe de ser tan inmutable como desexaríamos. Ao recibir constantemente nova información, a xente reestrutura o pasado para eliminar as contradicións.Pensabas que Pyotr Stepanych estaba nun simposio, pero alí está, saíndo dun club de striptease... Iso significa que non vai a ningún lado, o bromista, non foi a ningún lado, e de todos os xeitos... ). Ao mesmo tempo, o teu futuro subxectivo é en moitos aspectos unha constante (O que sexa, o venres tomo cervexa e xogo ao fútbol!). Ademais, ao ter un obxectivo específico no futuro, non só constrúes unha cadea de procesos en orde inversa (Para converterse no director dunha gran empresa, necesitas graduarte nunha universidade prestixiosa cun diploma. Para iso, primeiro debes matricularte nela e, para iso, debes sacar un bo resultado no Exame Estatal Unificado. Vai estudar os teus deberes!), pero tamén é moi posible que esteas a ir ao pasado neste proceso (Tivemos algún amigo/coñecido que xa ascendeu e se fixo ben relacionado e que puidese axudar ao noso fillo/a coa universidade?) — como non ía ser isto unha contramoción? 😉
Non obstante, desviéime un pouco do tema. O principal no que quería centrarme era nisto. procesosEstou profundamente convencido de que a IA potencial non debería ser adestrada con fotos ou mesmo vídeos. Unha rede convolucional ten polo menos dúas capas, esencialmente dúas redes diferentes: unha está adestrada para detectar certos patróns gráficos nunha imaxe bruta, mentres que a segunda trata coa saída da primeira, é dicir, con información xa procesada e preparada. Para interactuar con éxito co mundo da IA, requírese o mesmo: nalgún nivel (lonxe do primeiro), debe haber unha rede que reciba como entrada un mapa de procesos despregado no tempo. Os conceptos de "comezo" e "fin", "movemento", "transformación", "fusión" e "separación": isto é co que a rede debe aprender a traballar.
Estou case seguro de que os que traballan na IA para xogos como Alpha Go entenden isto dun xeito ou doutro. Os seus enfoques poden ser lixeiramente diferentes, pero a esencia é a mesma: analízase a situación actual do taboleiro (especificamente, os últimos movementos) para determinar "que está a suceder realmente". E dependendo de como de preto se axuste o que está a suceder ao que debería suceder, o xogador escolle os seus propios movementos.
É moi difícil falar de estratexia/comportamento cando a entrada é unha imaxe dun sensor. Pola contra, un vector preparado que conteña unha disposición completa do estado actual do taboleiro en xogos con información completa (é dicir, unha imaxe completa do mundo) é unha tarefa completamente viable, como demostra a práctica. Non obstante, se unha rede convolucional das primeiras capas ten obxectos identificados e as capas posteriores analizan estes obxectos dinamicamente, identificando procesos (familiares do adestramento, por exemplo) e complementando os datos obtidos anteriormente, entón parece viable traballar con isto...
Preguntas para expertos:
Ata que punto é realista, dados os desenvolvementos actuais nas redes neuronais, facer algo como o seguinte:
Na entradaDigamos un sinal de vídeo continuo, posiblemente estéreo. Alternativamente, podería ter varios graos de liberdade (a capacidade de rotar a cámara arbitrariamente ou segundo un patrón). Non obstante, se é necesario, o sinal de vídeo pódese complementar ou substituír por calquera outro método de percepción espacial, desde o sonar ata o lidar.
En rigor…pode haber calquera cousa na entrada tempo real fluxo, xa sexa fala/texto ou citas de moedas, pero... No proceso en cuestión, é máis doado para min confiar na única mostra da mente dispoñible para o meu estudo directo: a miña propia!) E nesta "mostra", a canle sensorial está máis alá da competencia!
Á saída:
- Mapa de profundidade (se a cámara é estática) ou mapa do espazo circundante (cámara dinámica/lidar, etc.);
Para queIsto é necesario se queremos ter unha disposición espacial realista dos obxectos para avaliar as súas interaccións. Neste caso, a imaxe da cámara é simplemente unha proxección bidimensional dun espazo de dimensión superior, o que require transformacións adicionais.
- Selección de obxectos individuais (tendo en conta o mapa de profundidade/espazo e non só/non tanto os contornos visibles);
- Selección de obxectos en movemento (velocidade/aceleración, construción/predición de traxectorias);
- Clasificación xerárquica de obxectos por calquera característica extraíble (forma/dimensións/cor/matices de movemento/compoñentes(?)). É dicir, en esencia, a extracción de métricas para .
sobre a xerarquíaQuizais a palabra "xerárquico" non sexa totalmente apropiada neste caso. Quería salientar a capacidade de seleccionar métricas en calquera momento para que A brecha entre eles permitiu que dous conxuntos diferentes de métricas se considerasen esencialmente un único concepto. Do mesmo xeito que "coche vermello" e "autobús azul" deberían xeneralizarse no concepto de "vehículo", por exemplo.
Importante: Se é posible, o sistema non debería estar adestrado previamente. Isto significa que algunhas características básicas poden estar integradas (por exemplo, unha rede convolucional de primeira capa para a extracción de contornos/xeometría), pero debería aprender a extraer obxectos e posteriormente recoñecelos por si mesmo.
- Ben, e finalmente, a construción dun escaneo (baseado nos parágrafos 1,4, é dicir, un mapa espacial que teña en conta as métricas) no tempo (por agora, nesta fase, aparentemente do período observado directamente), para realizar unha análise segundo os puntos 2-4, co fin de identificar: procesos/eventos (que son esencialmente cambios no tempo (p. 3) e a súa clasificación por clústeres (p. 4).
Unha vez máis: a partir das imaxes dos sensores, primeiro extraemos unha descrición máis refinada do mundo, etiquetada segundo as características extraídas e dividida en obxectos en lugar de píxeles. Despois, despregamos o mundo, que consiste nestes obxectos. a tempo e recibiu "imaxe do mundo" Introducímolo na entrada da seguinte rede, que o procesa do mesmo xeito que as capas anteriores procesaron a imaxe sensorial. Onde antes se identificaban os contornos dos obxectos, agora identificaranse os "contornos" dos procesos en curso. As posicións relativas dos obxectos no espazo son similares á relación causa-efecto dos procesos no tempo... Algo así.
Presumiblemente despois disto, o sistema debería ser capaz de recoñecer procesos pola súa parte (como é capaz de recoñecer imaxes, tendo só un fragmento delas, ou como ) e, como consecuencia, predíceos tanto cara a adiante como cara atrás no tempo, expandindo o modelo do punto 5 indefinidamente en ambas direccións. Ademais, presumiblemente, ao comprender os procesos compostos, o sistema pode identificar procesos globais a maior escala baseándose en varios procesos locais relacionados e, como consecuencia, procesos implícitos e ocultos que forman parte integral dos procesos globais identificados, pero que non se perciben directamente.
E finalmente: dado un estado fixo do sistema no futuro (onde só os elementos significativos das métricas de Hilbert son fixos, sendo o resto dos valores irrelevantes interpretados libremente), é a rede capaz de "descifrar" o resto?
Entón, se esta fose unha imaxe con só dous fragmentos non relacionados, podería unha rede adestrada nunha mostra construír unha imaxe completa "consistente"? A mostra, neste caso, estaría a intervalos de tempo similares do experimento, e os fragmentos serían os estados actual e obxectivo. O resultado: unha "historia" consistente que une os dous...
Paréceme que isto xa será unha base moi importante para futuros experimentos:
- inclusión das propias accións na "historia", se é posible/necesario
- a prioridade dos patróns de causa e efecto "regulares" sobre os valores atípicos estocásticos non controlados (o problema da ruleta)
- algún tipo de curiosidade, é dicir, cognición activa de patróns a través da acción... etc.
P.D. Estou disposto a recoñecer que acabo de reinventar a roda e que a xente con coñecementos leva moito tempo empregando estes principios na práctica. 😉 Nese caso, por favor, indícame a dirección correcta. E sería aínda máis estupendo se puideses proporcionar unha descrición detallada dos problemas fundamentais desta estratexia ou unha xustificación de por que non funciona en primeiro lugar.
PPS Decátome de que o texto é vulgar e que as ideas saltan dunha cousa a outra, pero quería facerlles estas preguntas a un par de persoas (sección "preguntas para expertos"), e é difícil facelo sen polo menos algún tipo de presentación. (Acabo de relelo e decateime de que é moi difícil de entender) cumpriu o seu propósito: recibín varias conversas valiosas para min... Espero que funcione tamén esta vez! 😉
Fonte: www.habr.com
