Продовження роздумів на тему розуму як природного, так і штучного (ІІ). тут
Каверзне запитання: чи живе людина зараз? Ні, коли ми йдемо вулицею та безпосередньо споглядаємо навколишній світ ми діємо більш-менш реальному часі… Хоча насправді – поки те, що ми бачимо, пройде звичайні механізми розпізнавання/класифікації – все це буде недавнім, але таки минулим. Тобто. людина живе у минулому?
На прикладі: ви йдете вулицею, бачите собаку. Або машину. У будь-якому випадку, якщо ми говоримо про момент, ця інформація вже застаріла. Якщо ми будемо оперувати даними, що пройшли всі наші когнітивні механізми (а мозок — далеко не найшвидший обчислювач!) ми просто не встигатимемо за світом! Собака нападе або навпаки - втече, і ваше бажання потріпати його за вухом залишиться нереалізованим, а машина зіб'є вас, або проїде повз, хоча саме цю машину ви й хотіли "зловити".
Але така слава богу не відбувається, і ось чому: мозок працює інакше. Одиницею сприйняття не об'єкт, і навіть сукупність об'єктів, а процеси. Собака біжить. До вас чи від вас. Або не біжить, а лежить, наприклад. Машина також нерухома (на парковці), або рухається в певному напрямку. У всіх випадках ви сприймаєте процес, що має протяжність у часі та, відповідно, певний розвиток у майбутньому. Коли я кажу, що ми сприймаємо події, розгорнуті в часі — це не фігура мови. Проведіть експеримент - візьміть десяток фотографій (тобто моментальних зліпків реальності) і опишіть, що бачите. Ось кілька людей у кімнаті, вони сваряться, або ось людина йде вулицею, або сидить — дивиться телевізор, а той — читає книгу. Це все тривалі у часі процеси! Ви сприймаєте миттєвий зліпок як щось, що має протяжність. Ви не вмієте по-іншому, бо мозок так і працює: він натренований впізнавати процеси, а не розрізнені об'єкти на сцені. Так само, як не очі-нос-рот, а обличчя в комплексі (привіт, згорткові нейронні мережі).
Світ складається з процесів, а чи не з об'єктів. Якщо спитати у вас, що таке яблуко, то дорослі люди здебільшого скажуть, що це плід/фрукт, А діти - що це їжа. Але й те й інше — процесний опис, бо перше означає, що це яблуко росте на дереві, і служить дереву для розмноження, а друге - що воно їстівно. Ні те, ні інше пов'язані з безпосередніми ознаками яблука — формою, кольором, розміром… Тому, що ознаки дозволяють ідентифікувати, але з дозволяють використовувати, чи зрозуміти де воно використовують у навколишній світ, тобто. визначити саме процеси.
Якщо взяти типовий диспут про природу часу, то класичними будуть постулати про незмінність минулого (поза контекстом подорожей у часі), важливість сьогодення (є лише мить… 😉 ), і майбутнє, яке поки що не існує, а значить його можна змінити. Коли ми говоримо про об'єктивну реальність — дуже можливо, що так воно і є. Однак людина живе у своїй суб'єктивній моделі світу, а там все майже навпаки!
Минуле далеко не так незмінне, як хотілося б. Постійно отримуючи нову інформацію, людина перебудовує минуле, щоб виключити протиріччя.ви думали Петро Степанич на симпозіумі, а він геть із стрип-клубу виходить... Це означає нікуди, він, витівник, не їздив і взагалі... ). У той же час ваше суб'єктивне майбутнє в багатьох аспектах є константою (що б там не було, а в п'ятницю в мене пиво та футбол!). Мало того - маючи певну мету в майбутньому, ви не тільки вибудовуєте ланцюжок процесів у зворотному порядку (Щоб стати директором великої компанії, треба закінчити престижний вуз з дипломом, для цього в нього треба спочатку вступити, для цього треба добре здати ЄДІ, марш вивчати уроки!), але і цілком ймовірно - йдіть у цьому процесі в минуле (чи не було у нас друзів/знайомих, які зараз піднялися і обросли зв'язками і могли б допомогти дитині з ВНЗ) - чим не контрамоція? 😉
Втім, я трохи відволікся. Все ж таки головне, на чому я хотів зосередити увагу — це процеси. Я глибоко переконаний, що потенційний ШІ потрібно навчати не на фото і навіть не на відео. Сверточная мережа має два рівня (мінімум) — і насправді це дві різні мережі: одна навчена знаходити у сирої картинці деякі графічні патерни, друга має справу — з виходом першої — тобто. з вже опрацьованою та підготовленою інформацією. Для того, щоб успішно взаємодіяти зі світом ІІ потрібно те саме: на якомусь (далеко не першому) рівні має бути мережа, яка отримує на вхід розгорнуту в часі карту процесів. Концепції «початку» та «кінця», «руху», «трансформації», «злиття» та «поділу» — це те, з чим має навчитися працювати мережа.
Я майже впевнений, що ті, хто займаються ІІ ігор, як Альфа Го, це так чи інакше розуміють. Можливо підходи там дещо інші, але суть та-таки: поточна ситуація на дошці (причому в розгортці на кілька останніх ходів) — аналізується на предмет того, що взагалі відбувається. І залежно від того, наскільки те, що відбувається, відповідає тому, що має відбуватися — підбираються власні ходи.
Дуже складно говорити про стратегію/поведінку, коли на вході картинка із сенсорів. І навпаки — підготовлений вектор, що містить повний розклад щодо поточного стану поля в іграх з повною інформацією (вважай, повна картина світу) — цілком посильне завдання, як показує практика. Однак, якщо мережа перших рівнів ідентифікувала об'єкти, а наступні рівні аналізують ці об'єкти в динаміці, ідентифікуючи процеси (знайомі з навчання, наприклад) доповнює дані, отримані раніше, то з цим вже здається можна працювати ...
Запитання знавцям:
Наскільки реально, враховуючи поточні напрацювання нейронними мережами зробити приблизно таке:
На вході, допустимо, безперервний відеосигнал, можливо стерео. Як варіант: з декількома ступенями свободи (можливість повертати камеру – довільно, або за схемою). Втім, при необхідності відеосигнал може бути доповнений/замінений будь-якими іншими способами просторового сприйняття від сонара до лідара.
Суворо кажучи…на вході може бути будь-який реальному часі потік — хоч мова/текст, хоч котирування валют, але... У процесі, що розглядається, мені простіше спиратися на єдиний доступний мені для безпосереднього вивчення зразок розуму — мій власний! ) А в цьому «зразку» сенсорний канал — поза конкуренцією! На виході:
Карта глибин (якщо камера статична) або мапа окр. простору (динамічна камера / лідер, etc.);
Для чогоНеобхідно, якщо хочемо мати реальне просторове розташування об'єктів з метою оцінки їх взаємодії. У такому випадку картинка з камери є лише двовимірною проекцією простору більшої розмірності, і потрібні додаткові перетворення.
Виділення окремих об'єктів (з урахуванням карти глибин/простору, а не тільки/не стільки видимих контурів);
Виділення об'єктів, що рухаються (швидкість/прискорення, побудова/передбачення траєкторії(?));
Ієрархічна класифікація об'єктів за будь-якими видобутими ознаками (форми/габаритів/кольору/нюансів руху/Складових частин(?)). Тобто. по суті вилучення метрик для Гілбертов простору.
про ієрахіюможливе слово «Ієрархічна» недостатньо доречне у разі. Я хотів підкреслити, можливість у будь-який момент підібрати метрики так, щоб Відстань Хемінга між ними дозволило вважати два різні набори метрик суть одним поняттям. Як «червона машина» та «Синій автобус» мають бути узагальнені у поняття «транспортний засіб», наприклад.
Важливо: по можливості система не передбачена. Тобто. якісь базові речі можуть бути закладені (наприклад — мережа першого шару, для виділення контурів/геометрії), але виділяти об'єкти і пізніше розпізнавати їх повинна навчитися сама.
Ну і, нарешті, побудова розгортки (на основі пп 1,4, тобто просторової карти з урахуванням метрик) у часі (поки що, на цьому етапі мабуть безпосередньо спостерігається періоду), з метою провести аналіз за пунктами 2-4, з щоб виявити: процеси/події (які є по суті своїйзмінами у часі п.3) та їх кластерної класифікації (п.4).
Ще раз: з картинки з сенсорів ми спочатку витягуємо опис світу в більш підготовленому вигляді, розміченому за ознаками, що витягуються, і розділеному не на пікселі, а на об'єкти. Потім розгортаємо світ, що складається з об'єктів в часі та отриману «картину світу» подаємо на вхід наступної мережі, яка працює з нею так, як працювали попередні шари із сенсорною картинкою. Там, де виділялися контури об'єктів, тепер виділятимуться «контури» процесів, що відбуваються. Взаєморозташування об'єктів у просторі подібно до причинно-слідчого зв'язку процесів у часі… Якось так.
Імовірно, після цього система повинна бути здатна впізнавати процеси по їх частині (як здатна впізнавати образи, маючи лише їх фрагмент, або як написання продовження тексту за зразком), і як наслідок - передбачати ці, як вперед, так і назад у часі, розширюючи модель п.5 необмежено в обидві сторони. Так само, імовірно, маючи уявлення про складові процеси, система може виявляти за декількома зв'язаними локальними процесами більш масштабні, глобальні і як наслідок — неявні, приховані процеси, що є складовою виявлених глобальних, але не сприймаються безпосередньо.
Та й останнє: маючи в майбутньому фіксований стан системи (де зафіксовано лише значущі елементи гілбертових метрик, при вільному трактуванні інших, не суттєвих значень) — чи здатна мережа «домислити» інше?
Ну, тобто. якби це було зображення, в якому задано лише два незв'язані фрагменти — чи може мережа, навчена на якійсь вибірці добудувати «несуперечливе» повне зображення? Вибірка в даному випадку – аналогічні часові інтервали з досвіду, фрагменти – поточний та заданий стан. Результат: несуперечлива «історія», що пов'язує одне та друге…
Мені здається, це вже буде суттєва база для подальших експериментів:
включення до «історії» власних дій, якщо можливо/необхідно
пріоритет «закономірних» причинно-наслідкових патернів над неконтрольованими стохастичними викидами (проблема рулетки)
якийсь варіант цікавості, тобто. активне пізнання закономірностей через дію ...
PS Цілком припускаю, що я щойно винайшов велосипед, і знаючі люди давно вже застосовують ці принципи на практиці. 😉 У такому разі прошу мене «тиснути носом» у відповідні розробки. І вже буде чудово, якщо є докладний опис фундаментальних проблем такого підходу чи обгрунтування, чому він у принципі не працює.
PPS Я розумію, що текст сирий, і думка перестрибує з одного на інше, але я дуже хотів задати парі людей ці питання (розділ «питання знавцям»), а це важко зробити без жодного викладу. Минулий текст (а я його зараз перечитував, і зрозумів, що він дуже складний для сприйняття) своє завдання виконав: я отримав кілька цінних для мене дискусій… Сподіваюся і цього разу прокотить! 😉