
In wurd oer prosessen, of ús allegearre in bytsje .
Trochgean fan gedachten oer it ûnderwerp fan yntelliginsje, sawol natuerlik as keunstmjittich (AI), Diel Ien
Fraachpetear: Wennet de persoan no yn? Nee, as wy de strjitte del rinne en direkt de wrâld om ús hinne besjogge, dogge wy min of mear realtime... Hoewol yn feite - salang't wat wy sjogge troch de gewoane meganismen fan erkenning / klassifikaasje giet - dit alles sil resint wêze, mar noch it ferline. Dy. libbet in persoan yn it ferline?
Bygelyks: jo rinne de strjitte op en sjogge in hûn. Of in auto. Yn alle gefallen, as wy it oer it momint hawwe, is dizze ynformaasje al ferâldere. As wy operearje mei gegevens dy't troch al ús kognitive meganismen gien binne (en it brein is fier fan 'e rapste rekkenmasine!) sille wy gewoan net mei de wrâld byhâlde! De hûn sil oanfalle of, krekt oarsom, fuortrinne, en jo winsk om it efter it ear te klopjen sil ûnfoldwaande bliuwe, en de auto sil jo reitsje of foarby gean, hoewol it dizze auto wie dy't jo woe "fange."
Mar tankje God dat it net sa bart, en hjir is wêrom: it brein wurket oars. De ienheid fan waarnimming is gjin objekt, of sels in set fan objekten, mar prosessen. De hûn rint. Oan dy of fan dy. Of hy rint net, mar leit bygelyks. De auto stiet ek stil (op in parkearplak), of beweecht yn in bepaalde rjochting. Yn alle gefallen sjogge jo in proses dat oer de tiid útwreidet en dêrtroch in bepaalde ûntwikkeling hat yn 'e takomst. As ik sis dat wy eveneminten ûnderfine as ûntjouwende yn 'e tiid, dit is gjin figuer fan spraak. Fier in eksperimint - nim in tsiental foto's (dus snapshots fan 'e realiteit) en beskriuw wat jo sjogge. Hjir binne ferskate minsken yn in keamer, se binne rûzje, of hjir is in persoan dy't op 'e strjitte rint, of hjir sit te TV te sjen, en hjir is in oare persoan dy't in boek lêst. Dit binne allegear prosessen ferlingd yn 'e tiid! Jo sjogge de momintopname as iets dat in útwreiding hat. Jo witte net hoe't it oars moat, want sa wurket it brein: it is trainearre om prosessen te herkennen, en net isolearre objekten op it toaniel. Krekt as net eagen-noas-mûle, mar it gesicht as gehiel (hallo, konvolúsjonele neurale netwurken).
De wrâld bestiet út prosessen, gjin objekten. As ik dy freegje wat it is appel, dan sille de measte folwoeksenen sizze dat dit is fruit, en bern - wat is it? food. Mar beide binne proses beskriuwingen, want de earste betsjut dat dizze appel groeit op in beam, en tsjinnet de beam foar reproduksje, en de twadde is dat it ytbere. Noch it iene noch it oare is ferbûn mei de direkte skaaimerken fan in appel - foarm, kleur, grutte... Om't de skaaimerken identifikaasje tastean, mar gebrûk net tastean, of begryp wêr't it yn 'e bûtenwrâld brûkt wurdt, d.w.s. definiearje de prosessen.
As wy in typysk debat nimme oer de aard fan 'e tiid, dan sille de klassike postulaten gean oer de ûnferoarlikens fan it ferline (bûten de kontekst fan tiidreizen), it belang fan it hjoeddeiske (der is mar in momint ... 😉), en de takomst, dy't noch net bestiet, wat betsjut dat it feroare wurde kin. As wy it oer de objektive realiteit hawwe, kin it hiel goed wêze dat dat sa is. Lykwols, in persoan libbet yn syn eigen, subjektive model fan 'e wrâld, en dêr is alles hast it tsjinoerstelde!
It ferline is net sa ûnferoarlik as wy wolle. Troch hieltyd nije ynformaasje te ûntfangen, bout in persoan it ferline op om tsjinstellingen te eliminearjen (jo tochten dat Pyotr Stepanych op it sympoasium wie, en hy komt út in stripklub ... Dit betsjut nearne, hy, de entertainer, gie net en hielendal ... ). Tagelyk is jo subjektive takomst in konstante yn in protte aspekten (wat it ek is, freed ha ik bier en fuotbal!). Boppedat, it hawwen fan in spesifyk doel yn 'e takomst, bouwe jo net allinich in ketting fan prosessen yn omkearde folchoarder (Om de direkteur fan in grut bedriuw te wurden, moatte jo ôfstudearje fan in prestisjeuze universiteit mei in diploma, dêrfoar moatte jo earst ynskriuwe, dêrfoar moatte jo it Unified State Exam goed passe en jo húswurk studearje!), mar it is ek frij wierskynlik dat jo yn dit proses yn it ferline geane (Hawwe wy gjin freonen/bekenden dy't no opstien binne en ferbiningen hawwe krigen en in bern mei de universiteit helpe koenen?) - wêrom net tsjin-emoasje? 😉
Ik dwaal lykwols in bytsje ôf. Dochs, it wichtichste ding dat ik woe rjochtsje op is prosessen. Ik bin der djip oertsjûge dat potinsjele AI net op foto's of sels fideo's moat wurde traind. In konvolúsjoneel netwurk hat twa nivo's (minimum) - en yn feite binne dit twa ferskillende netwurken: ien is oplaat om beskate grafyske patroanen te finen yn in rau ôfbylding, de twadde giet oer de útfier fan 'e earste - d.w.s. mei al ferwurke en tariede ynformaasje. Om mei súkses te ynteraksje mei de wrâld fan AI, is itselde ding nedich: op ien of oare (noch net it earste) nivo moat d'r in netwurk wêze dat as ynput in kaart fan prosessen ûntfangt dy't oer de tiid ûntdutsen binne. De begripen "begjin" en "ein", "beweging", "transformaasje", "fusearje" en "ferdielen" binne wat it netwurk leare moat om mei te wurkjen.
Ik bin der wis fan dat dejingen dy't wurkje oan game AI, lykas Alpha Go, dit op ien of oare manier begripe. Miskien binne de oanpak dêr wat oars, mar de essinsje is itselde: de hjoeddeistige situaasje op it boerd (en yn 'e ûntwikkeling fan' e lêste pear bewegingen) wurdt analysearre foar "wat bart yn it algemien." En ôfhinklik fan hoefolle wat bart komt oerien mei wat moat barre, selektearje wy ús eigen bewegingen.
It is hiel lestich om te praten oer strategy / gedrach as de ynfier is in foto fan sensoren. En oarsom - in taret fektor mei in folsleine ferdieling fan 'e hjoeddeistige tastân fan it fjild yn spultsjes mei folsleine ynformaasje (beskôgje in folslein byld fan' e wrâld) is in folslein mooglike taak, lykas praktyk docht bliken. As it konvolúsjonele netwurk fan 'e earste nivo's lykwols objekten hat identifisearre, en de folgjende nivo's analysearje dizze objekten yn dynamyk, identifisearjen fan prosessen (fertroud fan bygelyks training) dy't de earder krigen gegevens oanfolje, dan liket it mooglik om mei te wurkjen. ..
Fragen foar saakkundigen:
Hoe realistysk is it, rekken hâldend mei aktuele ûntjouwings yn neurale netwurken, sawat it folgjende te dwaan:
By de yngong, lit ús sizze in trochgeande video sinjaal, mooglik stereo. As opsje: mei ferskate graden fan frijheid (de mooglikheid om de kamera te draaien - willekeurich, of neffens in patroan). As it nedich is, kin it fideosinjaal lykwols wurde oanfolle / ferfongen troch alle oare metoaden fan romtlike waarnimming - fan sonar oant lidar.
Strikt sjoen…de ynfier kin alles wêze realtime stream - sels spraak / tekst, sels muntienheden, mar ... Yn it proses ûnder behanneling is it makliker foar my om te fertrouwe op de ienige stekproef fan 'e geast dy't my beskikber is foar direkte stúdzje - myn eigen! ) En yn dizze "sample" is it sintúchlike kanaal boppe konkurrinsje!
By de útgong:
- Djiptekaart (as de kamera statysk is) of omjouwingskaart. romte (dynamyske kamera / lidar, ensfh.);
Foar watIt is nedich as wy in echte romtlike yndieling fan objekten hawwe wolle om har ynteraksje te beoardieljen. Yn dit gefal is it byld fan 'e kamera allinich in twadiminsjonale projeksje fan in hegere diminsjonale romte, en ekstra transformaasjes binne nedich.
- Isolaasje fan yndividuele objekten (mei rekken hâldend mei de djipte/romtekaart, en net allinnich/net sa folle sichtbere kontoeren);
- Identifikaasje fan bewegende objekten (snelheid / fersnelling, konstruksje / foarsizzing fan trajekt(?));
- Hiërargyske klassifikaasje fan objekten neffens alle ekstrahearre skaaimerken (foarm / ôfmjittings / kleur / nuânses fan beweging / Component parts (?)). Dy. yn wêzen extracting metrics foar .
oer de hiërargyMiskien is it wurd "Hierarchysk" yn dit gefal net hielendal passend. Ik woe beklamje de mooglikheid om te selektearjen metriken op elk momint sadat tusken harren tastien ús te beskôgje twa ferskillende sets fan metriken as ien konsept. Hoe "reade auto" en "blauwe bus" moatte wurde generalisearre yn bygelyks it begryp "auto".
It is wichtich foar: As it mooglik is, is it systeem net foartraind. Dy. guon basis dingen kinne wurde lein (Bygelyks, in convolutional netwurk fan de earste laach, foar markearring kontoeren / mjitkunde), mar it moat leare te selektearjen foarwerpen en letter werkenne se op himsels.
- En, as lêste, it konstruearjen fan in sweep (basearre op punten 1,4, dus in romtlike kaart mei rekken hâldend mei metriken) yn 'e tiid (foar no, yn dit stadium fan' e skynber direkt waarnommen perioade), om in analyze út te fieren neffens punten 2 -4, mei om te identifisearjen: prosessen / eveneminten (dy't yn wêzen binne feroarings yn tiidstap 3) en harren klusterklassifikaasje (stap 4).
Nochris: út 'e ôfbylding fan' e sensoren, helje wy earst in beskriuwing fan 'e wrâld yn in mear taretbere foarm, markearre neffens de ekstrahearre funksjes en ferdield net yn piksels, mar yn objekten. Dan wreidzje wy de wrâld út besteande út objekten op tiid en ûntfongen "ôfbylding fan 'e wrâld" wy fiere it nei de ynfier fan it folgjende netwurk, dat wurket mei it deselde manier as de foarige lagen wurken mei it sintúchlike byld. Wêr't de kontoeren fan objekten markearre waarden, sille de "konturen" fan oanhâldende prosessen no markearre wurde. De relative posysje fan objekten yn 'e romte is te fergelykjen mei de oarsaak-gevolgrelaasje fan prosessen yn 'e tiid... Sokssawat.
Nei alle gedachten soe it systeem hjirnei yn steat wêze moatte om prosessen te herkennen troch har dielen (sa't it ôfbyldings kin werkenne, allinich har fragmint hawwe, of as ), en as gefolch, foarsizze se sawol foarút as efterút yn 'e tiid, en wreidzje it model fan stap 5 ûnbeheind yn beide rjochtingen út. Ek, nei alle gedachten, mei in idee fan 'e konstituerende prosessen, kin it systeem, út ferskate relatearre lokale prosessen, gruttere, globale prosessen identifisearje en, as gefolch, ymplisite, ferburgen prosessen dy't in yntegraal diel binne fan 'e identifisearre wrâldwide, mar wurde net direkt waarnommen.
En it lêste ding: it hawwen fan in fêste steat fan it systeem yn 'e takomst (wêr't allinich wichtige eleminten fan Hilbert-metriken fêst binne, mei in frije ynterpretaasje fan' e oerbleaune, net-essensjele wearden) - is it netwurk yn steat om de "út te tinken" rêst?
No, dat wol. as it wie in byld dêr't mar twa net-relatearre fragminten waarden jûn, koe in netwurk oplaat op guon stekproef foltôgje in "konsekwint" folslein byld? De stekproef yn dit gefal is ferlykbere tiid yntervallen út ûnderfining, de fragminten binne de hjoeddeiske en oantsjutte steaten. It resultaat: in konsekwint "ferhaal" dat ien en oar ferbynt ...
It liket my ta dat dit al in frij wichtige basis sil wêze foar fierdere eksperiminten:
- opnimmen fan eigen dieden yn de "skiednis", as it mooglik/nedich is
- prioriteit fan "natuerlike" oarsaak-en-effekt patroanen boppe uncontrolled stochastic útstjit (roulette probleem)
- guon ferzje fan nijsgjirrigens, i.e. aktive kennis fan patroanen troch aksje ... ensfh
PS Ik jou folslein ta dat ik haw krekt útfûn it tsjil, en betûfte minsken hawwe brûkt dizze prinsipes yn de praktyk foar in lange tiid. 😉 Yn dit gefal freegje ik jo om "de noas" yn 'e relevante ûntjouwings te stekken. En it soe perfoarst prachtich wêze as der in detaillearre beskriuwing is fan 'e fûnemintele problemen fan dizze oanpak of in rjochtfeardiging foar wêrom't it yn prinsipe net wurket.
PPS Ik bin my bewust dat de tekst is rûch, en it idee springt fan de iene nei de oare, mar ik woe echt freegje in pear minsken dizze fragen (de seksje "fraach oan de saakkundigen"), en dit is dreech om te dwaan sûnder by op syn minst wat presintaasje. (en ik lies it no nochris, en besefte dat it hiel lestich te begripen wie) it tsjinne syn doel: ik krige ferskate diskusjes dy't foar my weardefol wiene... Ik hoopje dat it dizze kear ek wurket! 😉
Boarne: www.habr.com
