У 2013 році IBS, які тоді, здається, створювали Дивізіон даних, попросили мене зробити такий брейндамп (виключно на базі досвіду взаємодії з корпоративними нафтогазовими замовниками) з приводу проблемної області Великих Даних та й Даних взагалі. Ось я натрапив на нього через 7 років і здалося кумедно. Деякі речі очевидні. Дехто не зовсім вірний виявився, але… 7 років минуло.
Писав англійською і ось подумав перекласти російською. Аж раптом щось актуальне і зараз? (Перекладу буллети, а таблички залишу англійськими від лінощів. Зелене – добре, червоне – небезпечно, блакитне – мрія).
Мінімальні коментарі з «сьогодні» оформлю італіком, щоб було зрозуміло та відмінно.
Отже, ДАНІ! Нам дані…
Дивізіон Даних - це Дивізіон Крові, тому що дані можна порівняти, наприклад, з кров'ю, що біжить по венах та артеріях бізнес організму. Однак хоч кров одна – організми різні і тому продуктизація дуже утруднена, але вона ж і є можливість для розвитку.
Є люди, яким дані прямо в очі впадають – це Ми.
І є люди, які даних на жаль не бачать. Це, знову ж таки, на жаль, наші Замовники!
Отже, бізнес постулати…
- Продаємо бізнесу, А не ІТ (Нехай пробачать мене всі айтішники відразу) бо вирішуємо світові проблеми, ну і грошей побільше.
- Усі бізнес проблеми сконцентровані навколо тематичних галузевих вертикалей і вимагатимуть адекватної спеціалізації.
- Спроби довести цінність «даних» або, що ще складніше, цінність «керування даними» бізнесу – це вічні страждання і біль. По суті, це як прийти до людини, яка себе непогано почуває і сказати: "Чувак, ми тобі кров полікуємо, і, чувак, це дорого!"
- Моя прямо «волога мрія» це в рамках SaaS моделі продавати «витяг даних» та «аналітику» малому та середньому бізнесу, які залізли в 123 хмарні сервіси з прикольними інтерфейсами: project management, helpdesk, accounting, CRM, payroll, time reporting, marketing, … you name it, і закопалися у даних. Youcalc і Successfactors (немає вже таких напевно) це добре!
- Шукайте людей, які люблять возитися "crunch" із даними. Вони рідкісні та дивні (як ворожі на кавовій гущі), але ключові для бізнесу. Поет, наприклад, може дуже непогано розумітися на кореляції.
- Інженери потрібні! Потрібні, щоб перетворити проблеми, які Cruncher'и витягли з даних рішення. І успіх, чи неуспіх вирішення цілком залежить від них.
- Розвиток з відкритим вихідним кодом проектів є величезну цінність і дає можливість «збирати» складні рішення практично «з нуля».
- Але… не можна забувати, що Hadoop – це бібліотека, і Lucene – теж бібліотека, а відстань між бібліотекою та промисловим продуктом значно!
- Вибудовані рішення доведеться суттєво адаптувати, тому модульність и інтегрованість - ключові моменти.
- Аджайл (пробач Господи) - ключова техніка у взаємодії із замовником та перевірці гіпотез, яких буде багато.
- Аутсорсить будь-який кодинг та UI особливо можна і потрібно. Всю бізнес аналітику та специфікації бекенда потрібно залишати всередині та розглядати як ключову компетенцію.
- Люди, які ухвалюють рішення від бізнесу, повинні бути постійно «інформовані» про необхідності правильної роботи з даними та постійного пошуку нових способів їх аналізу. Комбінація технічних та бізнес компетенцій наших співробітників допоможуть підняти статус усієї організації загалом.
- Інтернет – є нескінченне джерело натхнення (це тоді ще котиків не так багато було) щодо підходів до корпоративного управління даними незважаючи на те, що завдання та масштаб суттєво різняться.
Технологічні постулати.
- Існує величезний потенціал розвитку в спрощення того, як дані показуються людям. Можна назвати це словом айфонізація.
- Незважаючи на те, що BI вендори стверджують, що вони прямо приносять аналітику кінцевим користувачам, (І вони звичайно рухаються в цьому напрямку) - прориву все ще не сталося. Люди просто погано розуміють багатовимірні дані.
- Інтерфейс користувача, що представляє більш менш складні слабо структуровані дані в фасетизованому вигляді - представляє так само нескінченну кількість проблем. Висновок: що площе (flatter) – то краще.
- Платформа, побудована з урахуванням автоматичного вилучення даних із джерел (які завжди призначені для такого вилучення) перебуває у значної залежності від джерел, стійкості конекторів, інфраструктури. У нездатності забезпечити результат завжди звинуватить платформу (гонця). Довіра - капітал такого роду платформ. Капітал, який важко заробити і якого легко позбутися.
- З погляду бізнесу немає жодної різниці між аналізом Великих Даних та Просто даних. Часто за простими як 2х2 числа лежать можливості на мільйони доларів. Хорошим прикладом є дані про закінчення терміну служби елементів інфраструктури на Норвезькому шельфі. Коли всі дати майбутніх кап. ремонтів всього обладнання поклали на одну вісь і з'ясували, що через N років наближається прямий шельфовий Армагеддон — одна дуже заможна людина встала з крісла і поспішно розкланявшись вийшла з кімнати зі словами: «Вибачте, у мене мало часу, мені треба готувати флот…»
- Excel, а по суті ясне та чітке табличне уявлення даних має величезну силу і велике майбутнє. Вірю у красиві таблиці (і досі)і все тут!
- Головний бантик усієї цієї «аналітики» — це автоматизація прийняття рішень. Там найжирніші можливості, але й найвищі ризики, тому й можливості жирні, тому й ризики, тому й можливості, тому іриски… 🙂 Управління бурінням свердловин, наприклад…
- Якщо "інтегрованість" - це ключова фіча, то дані де-факто повинні бути представлені у вигляді сервісу. REST рулить, але не можна забувати про оптимізацію продуктивності, Яку часто зараз приносять в жертву інтегрованості, бо обчислювальна потужність продовжує зростати.
- Майстер дані - Це те, що потрібно локалізувати, витягувати, стандартизувати, перш ніж адресувати якісь бізнес питання. Майстер дані – маленькі, а проблеми з ними – великі! Як кажуть брати семантики – 50% усіх світових проблем від того, що люди називають одні й ті самі речі різними іменами, а інші 50% від того, що вони називають різні речі одним ім'ям.
- Будь-яка інкапсуляція на рівні зберігання обмежує відкритість рішення та веде до SILO-фікації. Добре якщо ви великий вендор, інакше - так собі. (Тут мова йде, звичайно, не про блоковий рівень і не про AWS S3, якому вже 6 років тоді було, а про файли).
- Реляційне моделювання даних нам більше не друг. RDF та key-value – круто! Ми бачили магічні перетворення реляційних баз з моделями в 2000 таблицях в 15 таблиць, і ніхто з користувачів нічого не втратив.
- Інтернет працює тому, що є URL як єдиний спосіб адресації. Важливість URL або вірніше URI для інформаційних ресурсів підприємства важко переоцінити.
- Text mining та NLP популярні. В інтернеті. Але і в корпоративному секторі можна досягти величезних успіхів, отримуючи структуровані дані з неструктурованих корпоративних даних.
- Синергія між структурованими даними та інформацією, витягнутої з неструктурованих даних, тобто. файлів – аналітичний Клондайк
- Виймаючи дані – не забуваємо про права та копірайтах.
- Компанія, що займається вилученням даних, повинна сформувати департамент хакерів, у хорошому значенні цього слова. Надихнуто тяжкою боротьбою із системами захисту Жовтих сторінок від пошукових ботів.
- До того, як працювати з даними – їх необхідно «побачити» у всій повноті. Це важко пояснити. Мені на думку спадають табличні форми. Комусь графічні уявлення, але ж будь-який графік — це вже інтерпретація. Так чи інакше… побачити!
- Повторюючись у питанні «довіри» користувачів фронтенду. Довіра до конекторів/процесів породження даних, довіра до даних, довіра до прийнятих рішень.
Джерело: habr.com