
Una paraula sobre processos, o una mica tots nosaltres .
Continuació de reflexions sobre el tema de la intel·ligència, tant natural com artificial (IA), primera part
Pregunta sobre emplenament: La persona viu ara? No, quan passem pel carrer i contemplem directament el món que ens envolta, actuem més o menys temps real... Encara que de fet -sempre que el que veiem passi pels mecanismes habituals de reconeixement/classificació- tot això serà recent, però encara passat. Aquells. una persona viu en el passat?
Per exemple: estàs caminant pel carrer i veus un gos. O un cotxe. En tot cas, si estem parlant del moment, aquesta informació ja està desfasada. Si operem amb dades que han passat per tots els nostres mecanismes cognitius (i el cervell està lluny de ser la calculadora més ràpida!), simplement no estarem al dia amb el món! El gos atacarà o, per contra, s'escaparà, i el teu desig de donar-li una palmada darrere de l'orella quedarà incomplert, i el cotxe et colpejarà o passarà, encara que era aquest cotxe el que volies "atrapar".
Però gràcies a Déu que no passa així, i aquí és per què: el cervell funciona de manera diferent. La unitat de percepció no és un objecte, ni tan sols un conjunt d'objectes, sinó processos. El gos corre. A tu o de tu. O no corre, sinó que s'estira, per exemple. El cotxe també està parat (en un aparcament), o es mou en una direcció determinada. En tots els casos, es percep un procés que s'allarga en el temps i, en conseqüència, té un cert desenvolupament en el futur. Quan dic que percebem els esdeveniments com un desenvolupament en el temps, això no és una figura retòrica. Feu un experiment: feu una dotzena de fotografies (és a dir, instantànies de la realitat) i descriu el que veieu. Aquí hi ha diverses persones en una habitació, es barallen, o aquí hi ha una persona caminant pel carrer, o aquí està asseguda mirant la televisió, i aquí hi ha una altra persona llegint un llibre. Tots aquests són processos allargats en el temps! Percebes la instantània com una cosa que té una extensió. No saps com fer-ho d'una altra manera, perquè així funciona el cervell: està entrenat per reconèixer processos, i no objectes aïllats a l'escenari. Igual que no els ulls-nas-boca, sinó la cara en conjunt (hola, xarxes neuronals convolucionals).
El món està format per processos, no per objectes. Si et pregunto què és poma, llavors la majoria dels adults diran que això és fruita, i els nens - què és? menjar. Però tots dos són descripcions de processos, perquè el primer vol dir que aquesta poma creixent en un arbre, i serveix a l'arbre per a la reproducció, i el segon és que ell comestible. Ni l'un ni l'altre s'associa amb les característiques directes d'una poma -forma, color, mida... Perquè les característiques permeten la identificació, però no permeten l'ús, ni entendre on s'utilitza a l'exterior, és a dir. definir els processos.
Si prenem un debat típic sobre la naturalesa del temps, aleshores els postulats clàssics seran sobre la immutabilitat del passat (fora del context del viatge en el temps), la importància del present (només hi ha un moment... 😉), i el futur, que encara no existeix, que vol dir que es pot canviar. Quan parlem de realitat objectiva, pot ser que sigui així. Tanmateix, una persona viu en el seu propi model subjectiu del món, i allí tot és gairebé el contrari!
El passat no és tan immutable com voldríem. Reben constantment informació nova, una persona reconstrueix el passat per eliminar les contradiccions (pensaves que Pyotr Stepanych era al simposi, i que sortia d'un club de striptease... Això vol dir que enlloc, ell, l'animador, no va anar i gens... ). Al mateix temps, el teu futur subjectiu és una constant en molts aspectes (sigui el que sigui, divendres tinc cervesa i futbol!). A més, tenint un objectiu específic en el futur, no només construïu una cadena de processos en ordre invers (Per convertir-se en director d'una gran empresa, cal graduar-se en una universitat de prestigi amb un diploma, per a això primer us heu de matricular, per a això cal aprovar bé l'examen d'estat unificat i estudiar els deures!), però també és molt probable que en aquest procés aneu al passat (No teníem amics/coneguts que ara han crescut i adquirit connexions i podrien ajudar un nen a la universitat?) - per què no contraemoció? 😉
No obstant això, em digresso una mica. Tot i així, el principal en què volia centrar-me és processos. Estic profundament convençut que la IA potencial no s'hauria d'entrenar amb fotos o fins i tot vídeos. Una xarxa convolucional té dos nivells (mínims) i, de fet, són dues xarxes diferents: una està entrenada per trobar certs patrons gràfics en una imatge en brut, la segona s'ocupa de la sortida de la primera, és a dir. amb informació ja processada i preparada. Per poder interactuar amb èxit amb el món de la IA, cal el mateix: en algun nivell (en cap cas el primer) hi ha d'haver una xarxa que rebi com a entrada un mapa de processos desenvolupats al llarg del temps. Els conceptes de “inici” i “final”, “moviment”, “transformació”, “fusió” i “divisió” són amb els quals la xarxa ha d'aprendre a treballar.
Estic bastant segur que els que treballen amb IA de jocs, com Alpha Go, ho entenen d'una manera o altra. Potser els plantejaments allà són una mica diferents, però l'essència és la mateixa: s'analitza la situació actual al tauler (i en el desenvolupament dels últims moviments) per "el que està passant en general". I depenent de quant correspongui el que passa amb el que hauria de passar, seleccionem els nostres propis moviments.
És molt difícil parlar d'estratègia/comportament quan l'entrada és una imatge dels sensors. I viceversa: un vector preparat que conté un desglossament complet de l'estat actual del camp en jocs amb informació completa (considereu una imatge completa del món) és una tasca completament factible, com mostra la pràctica. Tanmateix, si la xarxa convolucional dels primers nivells ha identificat objectes, i els nivells següents analitzen aquests objectes en dinàmica, els processos d'identificació (coneguts per la formació, per exemple) complementen les dades obtingudes anteriorment, llavors sembla possible treballar amb això. .
Preguntes per als experts:
Què tan realista és, tenint en compte els desenvolupaments actuals de les xarxes neuronals, fer aproximadament el següent:
A l'entrada, posem per cas un senyal de vídeo continu, possiblement estèreo. Com a opció: amb diversos graus de llibertat (la capacitat de girar la càmera, arbitràriament o segons un patró). Tanmateix, si cal, el senyal de vídeo es pot complementar/substituir per qualsevol altre mètode de percepció espacial, des del sonar fins al lidar.
Estrictament parlant…l'entrada pot ser qualsevol temps real flux - fins i tot parla/text, fins i tot cotitzacions de divises, però... En el procés que s'està considerant, em resulta més fàcil confiar en l'única mostra de la ment disponible per a l'estudi directe: la meva! ) I en aquesta "mostra" el canal sensorial està fora de la competència!
A la sortida:
- Mapa de profunditat (si la càmera és estàtica) o mapa de l'entorn. espai (càmera dinàmica/lidar, etc.);
Per a quèÉs necessari si volem disposar d'una disposició espacial real dels objectes per avaluar-ne la interacció. En aquest cas, la imatge de la càmera és només una projecció bidimensional d'un espai de dimensions superiors i es necessiten transformacions addicionals.
- Aïllament d'objectes individuals (tenint en compte el mapa de profunditat/espai, i no només/no tant els contorns visibles);
- Identificació d'objectes en moviment (velocitat/acceleració, construcció/predicció de trajectòria(?));
- Classificació jeràrquica dels objectes segons les característiques extretes (forma/dimensions/color/matisos de moviment/parts components(?)). Aquells. essencialment extreure mètriques per .
sobre la jerarquiaPotser la paraula "jeràrquica" no és del tot adequada en aquest cas. Volia emfatitzar la possibilitat de seleccionar mètriques en qualsevol moment per tal que entre ells ens va permetre considerar dos conjunts diferents de mètriques com un sol concepte. Com s'han de generalitzar "cotxe vermell" i "autobús blau" en el concepte de "vehicle", per exemple.
Important: Si és possible, el sistema no està entrenat prèviament. Aquells. es poden establir algunes coses bàsiques (per exemple, una xarxa convolucional de la primera capa, per ressaltar contorns/geometria), però ha d'aprendre a seleccionar objectes i després reconèixer-los per si mateix.
- I, finalment, construir un escaneig (a partir dels punts 1,4, és a dir, un mapa espacial tenint en compte mètriques) en el temps (de moment, en aquesta etapa del període aparentment observat directament), per tal de realitzar una anàlisi segons els punts 2. -4, amb la finalitat d'identificar: processos/esdeveniments (que són essencialment canvis en el pas de temps 3) i la seva classificació de clústers (pas 4).
Un cop més: de la imatge dels sensors, primer extreim una descripció del món d'una forma més preparada, marcada segons les característiques extretes i dividida no en píxels, sinó en objectes. Després expandim el món format per objectes en el temps i rebut "Imatge del món" l'alimentem a l'entrada de la següent xarxa, que funciona amb ella de la mateixa manera que les capes anteriors treballaven amb la imatge sensorial. Allà on es van ressaltar els contorns dels objectes, ara es destacaran els "contorns" dels processos en curs. La posició relativa dels objectes a l'espai és semblant a la relació causa-efecte dels processos en el temps... Una cosa així.
Presumiblement, després d'això, el sistema hauria de ser capaç de reconèixer processos per les seves parts (ja que és capaç de reconèixer imatges, tenint només el seu fragment, o com ), i com a conseqüència, predir-los tant endavant com enrere en el temps, ampliant el model del pas 5 de manera il·limitada en ambdues direccions. També, presumiblement, tenint una idea dels processos constitutius, el sistema pot identificar, a partir de diversos processos locals relacionats, processos globals més grans i, com a conseqüència, processos implícits i ocults que formen part integrant dels globals identificats. però no es perceben directament.
I l'últim: tenir un estat fix del sistema en el futur (on només es fixen elements significatius de la mètrica de Hilbert, amb una interpretació lliure dels valors restants, no essencials), és la xarxa capaç de "pensar" el descans?
Bé, això és. si es tractés d'una imatge en què només es donaven dos fragments no relacionats, podria una xarxa entrenada en alguna mostra completar una imatge completa "coherent"? La mostra en aquest cas és intervals de temps similars de l'experiència, els fragments són els estats actuals i especificats. El resultat: una "història" coherent que connecta l'un i l'altre...
Em sembla que aquesta ja serà una base força significativa per a més experiments:
- inclusió de les pròpies accions a la “història”, si és possible/necessari
- prioritat dels patrons de causa i efecte "naturals" sobre les emissions estocàstiques no controlades (problema de la ruleta)
- alguna versió de la curiositat, és a dir. cognició activa de patrons mitjançant l'acció... etc
PD Admeto plenament que acabo d'inventar la roda i que la gent coneixedora fa temps que aplica aquests principis a la pràctica. 😉 En aquest cas, us demano que "fiqueu el nas" a les novetats pertinents. I seria absolutament meravellós si hi hagués una descripció detallada dels problemes fonamentals d'aquest enfocament o una justificació per què en principi no funciona.
PPS Sóc conscient que el text és cru, i la idea salta d'una a l'altra, però tenia moltes ganes de fer aquestes preguntes a un parell de persones (la secció "pregunta als experts"), i això és difícil de prescindir a almenys alguna presentació. (i ara l'estava rellegint, i em vaig adonar que era molt difícil d'entendre) va complir el seu propòsit: vaig rebre diverses discussions que em van ser valuoses... Espero que aquesta vegada també funcioni! 😉
Font: www.habr.com
