Книжка (буття?). Роздуми про природу розуму. Частина II

Книжка (буття?). Роздуми про природу розуму. Частина II

Слово про процеси, чи всі ми трохи контрамоти.

Продовження роздумів на тему розуму як природного, так і штучного (ІІ). тут


Каверзне запитання: чи живе людина зараз? Ні, коли ми йдемо вулицею та безпосередньо споглядаємо навколишній світ ми діємо більш-менш реальному часі… Хоча насправді – поки те, що ми бачимо, пройде звичайні механізми розпізнавання/класифікації – все це буде недавнім, але таки минулим. Тобто. людина живе у минулому?

На прикладі: ви йдете вулицею, бачите собаку. Або машину. У будь-якому випадку, якщо ми говоримо про момент, ця інформація вже застаріла. Якщо ми будемо оперувати даними, що пройшли всі наші когнітивні механізми (а мозок — далеко не найшвидший обчислювач!) ми просто не встигатимемо за світом! Собака нападе або навпаки - втече, і ваше бажання потріпати його за вухом залишиться нереалізованим, а машина зіб'є вас, або проїде повз, хоча саме цю машину ви й хотіли "зловити".

Але така слава богу не відбувається, і ось чому: мозок працює інакше. Одиницею сприйняття не об'єкт, і навіть сукупність об'єктів, а процеси. Собака біжить. До вас чи від вас. Або не біжить, а лежить, наприклад. Машина також нерухома (на парковці), або рухається в певному напрямку. У всіх випадках ви сприймаєте процес, що має протяжність у часі та, відповідно, певний розвиток у майбутньому. Коли я кажу, що ми сприймаємо події, розгорнуті в часі — це не фігура мови. Проведіть експеримент - візьміть десяток фотографій (тобто моментальних зліпків реальності) і опишіть, що бачите. Ось кілька людей у ​​кімнаті, вони сваряться, або ось людина йде вулицею, або сидить — дивиться телевізор, а той — читає книгу. Це все тривалі у часі процеси! Ви сприймаєте миттєвий зліпок як щось, що має протяжність. Ви не вмієте по-іншому, бо мозок так і працює: він натренований впізнавати процеси, а не розрізнені об'єкти на сцені. Так само, як не очі-нос-рот, а обличчя в комплексі (привіт, згорткові нейронні мережі).

Світ складається з процесів, а чи не з об'єктів. Якщо спитати у вас, що таке яблуко, то дорослі люди здебільшого скажуть, що це плід/фрукт, А діти - що це їжа. Але й те й інше — процесний опис, бо перше означає, що це яблуко росте на дереві, і служить дереву для розмноження, а друге - що воно їстівно. Ні те, ні інше пов'язані з безпосередніми ознаками яблука — формою, кольором, розміром… Тому, що ознаки дозволяють ідентифікувати, але з дозволяють використовувати, чи зрозуміти де воно використовують у навколишній світ, тобто. визначити саме процеси.

Якщо взяти типовий диспут про природу часу, то класичними будуть постулати про незмінність минулого (поза контекстом подорожей у часі), важливість сьогодення (є лише мить… 😉 ), і майбутнє, яке поки що не існує, а значить його можна змінити. Коли ми говоримо про об'єктивну реальність — дуже можливо, що так воно і є. Однак людина живе у своїй суб'єктивній моделі світу, а там все майже навпаки!

Минуле далеко не так незмінне, як хотілося б. Постійно отримуючи нову інформацію, людина перебудовує минуле, щоб виключити протиріччя.ви думали Петро Степанич на симпозіумі, а він геть із стрип-клубу виходить... Це означає нікуди, він, витівник, не їздив і взагалі... ). У той же час ваше суб'єктивне майбутнє в багатьох аспектах є константою (що б там не було, а в п'ятницю в мене пиво та футбол!). Мало того - маючи певну мету в майбутньому, ви не тільки вибудовуєте ланцюжок процесів у зворотному порядку (Щоб стати директором великої компанії, треба закінчити престижний вуз з дипломом, для цього в нього треба спочатку вступити, для цього треба добре здати ЄДІ, марш вивчати уроки!), але і цілком ймовірно - йдіть у цьому процесі в минуле (чи не було у нас друзів/знайомих, які зараз піднялися і обросли зв'язками і могли б допомогти дитині з ВНЗ) - чим не контрамоція? 😉

Втім, я трохи відволікся. Все ж таки головне, на чому я хотів зосередити увагу — це процеси. Я глибоко переконаний, що потенційний ШІ потрібно навчати не на фото і навіть не на відео. Сверточная мережа має два рівня (мінімум) — і насправді це дві різні мережі: одна навчена знаходити у сирої картинці деякі графічні патерни, друга має справу — з виходом першої — тобто. з вже опрацьованою та підготовленою інформацією. Для того, щоб успішно взаємодіяти зі світом ІІ потрібно те саме: на якомусь (далеко не першому) рівні має бути мережа, яка отримує на вхід розгорнуту в часі карту процесів. Концепції «початку» та «кінця», «руху», «трансформації», «злиття» та «поділу» — це те, з чим має навчитися працювати мережа.

Я майже впевнений, що ті, хто займаються ІІ ігор, як Альфа Го, це так чи інакше розуміють. Можливо підходи там дещо інші, але суть та-таки: поточна ситуація на дошці (причому в розгортці на кілька останніх ходів) — аналізується на предмет того, що взагалі відбувається. І залежно від того, наскільки те, що відбувається, відповідає тому, що має відбуватися — підбираються власні ходи.

Дуже складно говорити про стратегію/поведінку, коли на вході картинка із сенсорів. І навпаки — підготовлений вектор, що містить повний розклад щодо поточного стану поля в іграх з повною інформацією (вважай, повна картина світу) — цілком посильне завдання, як показує практика. Однак, якщо мережа перших рівнів ідентифікувала об'єкти, а наступні рівні аналізують ці об'єкти в динаміці, ідентифікуючи процеси (знайомі з навчання, наприклад) доповнює дані, отримані раніше, то з цим вже здається можна працювати ...

Запитання знавцям:

Наскільки реально, враховуючи поточні напрацювання нейронними мережами зробити приблизно таке:

На вході, допустимо, безперервний відеосигнал, можливо стерео. Як варіант: з декількома ступенями свободи (можливість повертати камеру – довільно, або за схемою). Втім, при необхідності відеосигнал може бути доповнений/замінений будь-якими іншими способами просторового сприйняття від сонара до лідара.

Суворо кажучи…на вході може бути будь-який реальному часі потік — хоч мова/текст, хоч котирування валют, але... У процесі, що розглядається, мені простіше спиратися на єдиний доступний мені для безпосереднього вивчення зразок розуму — мій власний! ) А в цьому «зразку» сенсорний канал — поза конкуренцією!
На виході:

  1. Карта глибин (якщо камера статична) або мапа окр. простору (динамічна камера / лідер, etc.);

    Для чогоНеобхідно, якщо хочемо мати реальне просторове розташування об'єктів з метою оцінки їх взаємодії. У такому випадку картинка з камери є лише двовимірною проекцією простору більшої розмірності, і потрібні додаткові перетворення.

  2. Виділення окремих об'єктів (з урахуванням карти глибин/простору, а не тільки/не стільки видимих ​​контурів);
  3. Виділення об'єктів, що рухаються (швидкість/прискорення, побудова/передбачення траєкторії(?));
  4. Ієрархічна класифікація об'єктів за будь-якими видобутими ознаками (форми/габаритів/кольору/нюансів руху/Складових частин(?)). Тобто. по суті вилучення метрик для Гілбертов простору.

    про ієрахіюможливе слово «Ієрархічна» недостатньо доречне у разі. Я хотів підкреслити, можливість у будь-який момент підібрати метрики так, щоб Відстань Хемінга між ними дозволило вважати два різні набори метрик суть одним поняттям. Як «червона машина» та «Синій автобус» мають бути узагальнені у поняття «транспортний засіб», наприклад.

Важливо: по можливості система не передбачена. Тобто. якісь базові речі можуть бути закладені (наприклад — мережа першого шару, для виділення контурів/геометрії), але виділяти об'єкти і пізніше розпізнавати їх повинна навчитися сама.

  • Ну і, нарешті, побудова розгортки (на основі пп 1,4, тобто просторової карти з урахуванням метрик) у часі (поки що, на цьому етапі мабуть безпосередньо спостерігається періоду), з метою провести аналіз за пунктами 2-4, з щоб виявити: процеси/події (які є по суті своїй змінами у часі п.3) та їх кластерної класифікації (п.4).

Ще раз: з картинки з сенсорів ми спочатку витягуємо опис світу в більш підготовленому вигляді, розміченому за ознаками, що витягуються, і розділеному не на пікселі, а на об'єкти. Потім розгортаємо світ, що складається з об'єктів в часі та отриману «картину світу» подаємо на вхід наступної мережі, яка працює з нею так, як працювали попередні шари із сенсорною картинкою. Там, де виділялися контури об'єктів, тепер виділятимуться «контури» процесів, що відбуваються. Взаєморозташування об'єктів у просторі подібно до причинно-слідчого зв'язку процесів у часі… Якось так.

Імовірно, після цього система повинна бути здатна впізнавати процеси по їх частині (як здатна впізнавати образи, маючи лише їх фрагмент, або як написання продовження тексту за зразком), і як наслідок - передбачати ці, як вперед, так і назад у часі, розширюючи модель п.5 необмежено в обидві сторони. Так само, імовірно, маючи уявлення про складові процеси, система може виявляти за декількома зв'язаними локальними процесами більш масштабні, глобальні і як наслідок — неявні, приховані процеси, що є складовою виявлених глобальних, але не сприймаються безпосередньо.

Та й останнє: маючи в майбутньому фіксований стан системи (де зафіксовано лише значущі елементи гілбертових метрик, при вільному трактуванні інших, не суттєвих значень) — чи здатна мережа «домислити» інше?

Ну, тобто. якби це було зображення, в якому задано лише два незв'язані фрагменти — чи може мережа, навчена на якійсь вибірці добудувати «несуперечливе» повне зображення? Вибірка в даному випадку – аналогічні часові інтервали з досвіду, фрагменти – поточний та заданий стан. Результат: несуперечлива «історія», що пов'язує одне та друге…

Мені здається, це вже буде суттєва база для подальших експериментів:

  • включення до «історії» власних дій, якщо можливо/необхідно
  • пріоритет «закономірних» причинно-наслідкових патернів над неконтрольованими стохастичними викидами (проблема рулетки)
  • якийсь варіант цікавості, тобто. активне пізнання закономірностей через дію ...

PS Цілком припускаю, що я щойно винайшов велосипед, і знаючі люди давно вже застосовують ці принципи на практиці. 😉 У такому разі прошу мене «тиснути носом» у відповідні розробки. І вже буде чудово, якщо є докладний опис фундаментальних проблем такого підходу чи обгрунтування, чому він у принципі не працює.

PPS Я розумію, що текст сирий, і думка перестрибує з одного на інше, але я дуже хотів задати парі людей ці питання (розділ «питання знавцям»), а це важко зробити без жодного викладу. Минулий текст (а я його зараз перечитував, і зрозумів, що він дуже складний для сприйняття) своє завдання виконав: я отримав кілька цінних для мене дискусій… Сподіваюся і цього разу прокотить! 😉

Джерело: habr.com

Додати коментар або відгук