В 2013 году IBS, которые тогда, кажется, создавали Дивизион данных, попросили меня сделать такой брейндамп (исключительно на базе опыта взаимодействия с корпоративными нефтегазовыми заказчиками) по поводу проблемной области Больших Данных, да и Данных вообще. Вот я наткнулся на него спустя 7 лет и показалось забавно. Некоторые вещи очевидны. Некоторые не совсем верны оказались, но… 7 лет прошло.
Писал по-английски и вот подумал перевести на русский. Вдруг что-то актуально и сейчас? (Переведу буллеты, а таблички оставлю английскими от лени. Зеленое – хорошо, красное – опасно, голубое — мечта).
Минимальные комментарии из «сегодня» оформлю италиком, чтобы было понятно и отличимо.
Итак, ДАННЫЕ! Нам данные…
Дивизион Данных – это Дивизион Крови, потому что данные можно сравнить, например, с кровью, бегущей по венам и артериям бизнес организма. Однако хотя кровь одна – организмы разные и потому продуктизация очень затруднена, но она же и представляет собой возможность для развития.
Есть люди, которым данные прямо в глаза бросаются – это Мы.
И есть люди, которые данных увы в упор не видят. Это, опять же увы, наши Заказчики!
Итак, бизнес постулаты…
- Продаем бизнесу, а не ИТ (да простят меня все айтишники сразу) ибо решаем мировые проблемы, ну и денег побольше.
- Все бизнес проблемы сконцентрированы вокруг тематических отраслевых вертикалей и потребуют адекватной специализации.
- Попытки доказать ценность «данных» или, что еще сложнее ценность «управления данными» бизнесу – это вечные страдания и боль. По сути, это как прийти к человеку, который себя неплохо чувствует и сказать: “Чувак, мы тебе сейчас кровь полечим, и, чувак, это дорого!»
- Моя прямо «влажная мечта» это в рамках SaaS модели продавать «извлечение данных» и «аналитику» малому и среднему бизнесу, которые залезли в 123 облачных сервиса с прикольными интерфейсами: project management, helpdesk, accounting, CRM, payroll, time reporting, marketing, … you name it, и закопались в данных. Youcalc и Successfactors (нет уже таких наверное) это хорошо!
- Ищите людей, которые любят возиться “crunch” с данными. Они редкие и странные (как гадатели на кофейной гуще), но ключевые для бизнеса. Поэт, например, может очень неплохо разбираться в корреляции.
- Инженеры нужны! Нужны, чтобы превратить проблемы, которые Cruncher’ы вытащили из данных в решения. И успех, или неуспех решения целиком зависит от них.
- Развитие opensource проектов представляет собой огромную ценность и дает возможность «собирать» сложные решения практически «с нуля».
- Но… нельзя забывать, что Hadoop – это библиотека, и Lucene – тоже библиотека, а расстояние между библиотекой и промышленным продуктом значительно!
- Выстроенные решения придется существенно адаптировать, потому модульность и интегрируемость – ключевые моменты.
- Аджайл (прости Господи) — ключевая техника во взаимодействии с заказчиком и проверке гипотез, которых будет много.
- Аутсорсить всякий кодинг и UI особенно можно и нужно. Всю бизнес аналитику и спецификации бэкэнда нужно оставлять внутри и рассматривать как ключевую компетенцию.
- Люди, принимающие решение от бизнеса, должны быть постоянно «информированы» о необходимости правильной работы с данными и постоянного поиска новых способов их анализа. Комбинация технических и бизнес компетенций наших сотрудников помогут поднять статус всей организации в целом.
- Интернет – есть бесконечный источник вдохновения (это тогда еще котиков не так много было) в отношении подходов к корпоративному управлению данными несмотря на то, что задачи и масштаб существенно различаются.
Технологические постулаты…
- Существует огромный потенциал развития в упрощении того, как данные показываются людям. Можно назвать это словом «айфонизация».
- Несмотря на то, что BI вендоры утверждают, что они прямо приносят аналитику конечным пользователям, (и они конечно движутся в этом направлении) – прорыва все еще не произошло. Люди просто плохо понимают многомерные данные.
- Пользовательский интерфейс, представляющий более или менее сложные слабо структурированные данные в фасетизированном виде – представляет так же бесконечное количество проблем. Вывод: чем более площе (flatter) – тем лучше.
- Платформа, выстроенная на базе автоматического извлечения данных из источников (которые не всегда предназначены для такого извлечения) находится в существенной зависимости от источников, устойчивости коннекторов, и инфраструктуры. В неспособности обеспечить результат всегда обвинят платформу (гонца). Доверие – капитал такого рода платформ. Капитал, который тяжело заработать и которого легко лишиться.
- С точки зрения бизнеса нет никакой разницы между анализом Больших Данных и Просто Данных. Часто за простыми как 2х2 числами лежат возможности на миллионы долларов. Хороший пример – данные об окончании срока службы элементов инфраструктуры на Норвежском шельфе. Когда все даты будущих кап. ремонтов всего оборудования положили на одну ось и выяснили, что через N лет грядет прям шельфовый Армагеддон — один очень состоятельный человек встал с кресла и поспешно раскланявшись вышел из комнаты со словами: «Извините, у меня мало времени, мне надо готовить флот…»
- Excel, а по сути ясное и четкое табличное представление данных обладает огромной силой и большим будущим. Верю в красивые таблицы (и до сих пор)и все тут!
- Главный бантик всей этой «аналитики» — это автоматизация принятия решений. Там самые жирные возможности, но и самые высокие риски, потому и возможности жирные, потому и риски, потому и возможности, потому ириски… 🙂 Управление бурением скважин, например…
- Если «интегрируемость» — это ключевая фича, то данные де-факто должны быть представлены в виде сервиса. REST рулит, но нельзя забывать об оптимизации производительности, которую часто сейчас приносят в жертву интегрируемости, ибо вычислительная мощность продолжает расти.
- Мастер данные – это то, что нужно локализовать, извлекать, стандартизовать, прежде чем адресовать какие-то бизнес вопросы. Мастер данные — маленькие, а проблемы с ними — большие! Как говорят братья семантики – 50% всех мировых проблем оттого, что люди называют одни и те же вещи разными именами, а другие 50% от того, что они называют разные вещи одним именем.
- Любая инкапсуляция на уровне хранения ограничивает открытость решения и ведет к SILO-фикации. Хорошо если вы большой вендор, в противном случае – так себе. (Здесь речь идет, конечно, не о блочном уровне и не об AWS S3, которому уже 6 лет тогда было, а о файлах).
- Реляционное моделирование данных нам больше не друг. RDF и key-value – круто! Мы видели магические преобразования реляционных баз с моделями в 2000 таблиц в 15 таблиц, и никто из пользователей ничего не потерял.
- Интернет работает потому, что есть URL как единый способ адресации. Важность URL или вернее URI для информационных ресурсов предприятия сложно переоценить.
- Text mining и NLP популярны. В Интернете. Но и в корпоративном секторе можно достичь огромных успехов извлекая структурированные данные из неструктурированных корпоративных данных.
- Синергия между структурированными данными и информацией, извлеченной из неструктурированных данных, т.е. файлов – аналитический Клондайк.
- Извлекая данные – не забываем о правах и копирайтах.
- Компания, занимающаяся извлечением данных, должна сформировать департамент хакеров, в хорошем смысле этого слова. Вдохновлено тяжелой борьбой с системами защиты Желтых Страниц от поисковых ботов.
- До того, как работать с данными – их необходимо «увидеть» во всей полноте. Это сложно объяснить. Мне на ум приходят табличные формы. Кому-то графические представления, но ведь любой график — это уже интерпретация. Так или иначе… «увидеть»!
- Повторяясь в вопросе «доверия» пользователей фронтэнду. Доверие к коннекторам/процессам порождения данных, доверие к данным, доверие к принимаемым решениям.
Источник: habr.com