Дивізіон даних. 2013 рік. Ретроспектива

У 2013 році IBS, які тоді, здається, створювали Дивізіон даних, попросили мене зробити такий брейндамп (виключно на базі досвіду взаємодії з корпоративними нафтогазовими замовниками) з приводу проблемної області Великих Даних та й Даних взагалі. Ось я натрапив на нього через 7 років і здалося кумедно. Деякі речі очевидні. Дехто не зовсім вірний виявився, але… 7 років минуло.

Писав англійською і ось подумав перекласти російською. Аж раптом щось актуальне і зараз? (Перекладу буллети, а таблички залишу англійськими від лінощів. Зелене – добре, червоне – небезпечно, блакитне – мрія).

Мінімальні коментарі з «сьогодні» оформлю італіком, щоб було зрозуміло та відмінно.

Отже, ДАНІ! Нам дані…

Дивізіон Даних - це Дивізіон Крові, тому що дані можна порівняти, наприклад, з кров'ю, що біжить по венах та артеріях бізнес організму. Однак хоч кров одна – організми різні і тому продуктизація дуже утруднена, але вона ж і є можливість для розвитку.

Є люди, яким дані прямо в очі впадають – це Ми.
І є люди, які даних на жаль не бачать. Це, знову ж таки, на жаль, наші Замовники!

Дивізіон даних. 2013 рік. Ретроспектива

Отже, бізнес постулати…

  1. Продаємо бізнесу, А не ІТ (Нехай пробачать мене всі айтішники відразу) бо вирішуємо світові проблеми, ну і грошей побільше.
  2. Усі бізнес проблеми сконцентровані навколо тематичних галузевих вертикалей і вимагатимуть адекватної спеціалізації.
  3. Спроби довести цінність «даних» або, що ще складніше, цінність «керування даними» бізнесу – це вічні страждання і біль. По суті, це як прийти до людини, яка себе непогано почуває і сказати: "Чувак, ми тобі кров полікуємо, і, чувак, це дорого!"
  4. Моя прямо «волога мрія» це в рамках SaaS моделі продавати «витяг даних» та «аналітику» малому та середньому бізнесу, які залізли в 123 хмарні сервіси з прикольними інтерфейсами: project management, helpdesk, accounting, CRM, payroll, time reporting, marketing, … you name it, і закопалися у даних. Youcalc і Successfactors (немає вже таких напевно) це добре!
  5. Шукайте людей, які люблять возитися "crunch" із даними. Вони рідкісні та дивні (як ворожі на кавовій гущі), але ключові для бізнесу. Поет, наприклад, може дуже непогано розумітися на кореляції.
  6. Інженери потрібні! Потрібні, щоб перетворити проблеми, які Cruncher'и витягли з даних рішення. І успіх, чи неуспіх вирішення цілком залежить від них.
  7. Розвиток з відкритим вихідним кодом проектів є величезну цінність і дає можливість «збирати» складні рішення практично «з нуля».
  8. Але… не можна забувати, що Hadoop – це бібліотека, і Lucene – теж бібліотека, а відстань між бібліотекою та промисловим продуктом значно!
  9. Вибудовані рішення доведеться суттєво адаптувати, тому модульність и інтегрованість - ключові моменти.
  10. Аджайл (пробач Господи) - ключова техніка у взаємодії із замовником та перевірці гіпотез, яких буде багато.
  11. Аутсорсить будь-який кодинг та UI особливо можна і потрібно. Всю бізнес аналітику та специфікації бекенда потрібно залишати всередині та розглядати як ключову компетенцію.
  12. Люди, які ухвалюють рішення від бізнесу, повинні бути постійно «інформовані» про необхідності правильної роботи з даними та постійного пошуку нових способів їх аналізу. Комбінація технічних та бізнес компетенцій наших співробітників допоможуть підняти статус усієї організації загалом.
  13. Інтернет – є нескінченне джерело натхнення (це тоді ще котиків не так багато було) щодо підходів до корпоративного управління даними незважаючи на те, що завдання та масштаб суттєво різняться.

Дивізіон даних. 2013 рік. Ретроспектива

Технологічні постулати.

  1. Існує величезний потенціал розвитку в спрощення того, як дані показуються людям. Можна назвати це словом айфонізація.
  2. Незважаючи на те, що BI вендори стверджують, що вони прямо приносять аналітику кінцевим користувачам, (І вони звичайно рухаються в цьому напрямку) - прориву все ще не сталося. Люди просто погано розуміють багатовимірні дані.
  3. Інтерфейс користувача, що представляє більш менш складні слабо структуровані дані в фасетизованому вигляді - представляє так само нескінченну кількість проблем. Висновок: що площе (flatter) – то краще.
  4. Платформа, побудована з урахуванням автоматичного вилучення даних із джерел (які завжди призначені для такого вилучення) перебуває у значної залежності від джерел, стійкості конекторів, інфраструктури. У нездатності забезпечити результат завжди звинуватить платформу (гонця). Довіра - капітал такого роду платформ. Капітал, який важко заробити і якого легко позбутися.
  5. З погляду бізнесу немає жодної різниці між аналізом Великих Даних та Просто даних. Часто за простими як 2х2 числа лежать можливості на мільйони доларів. Хорошим прикладом є дані про закінчення терміну служби елементів інфраструктури на Норвезькому шельфі. Коли всі дати майбутніх кап. ремонтів всього обладнання поклали на одну вісь і з'ясували, що через N років наближається прямий шельфовий Армагеддон — одна дуже заможна людина встала з крісла і поспішно розкланявшись вийшла з кімнати зі словами: «Вибачте, у мене мало часу, мені треба готувати флот…»
  6. Excel, а по суті ясне та чітке табличне уявлення даних має величезну силу і велике майбутнє. Вірю у красиві таблиці (і досі)і все тут!
  7. Головний бантик усієї цієї «аналітики» — це автоматизація прийняття рішень. Там найжирніші можливості, але й найвищі ризики, тому й можливості жирні, тому й ризики, тому й можливості, тому іриски… 🙂 Управління бурінням свердловин, наприклад…
  8. Якщо "інтегрованість" - це ключова фіча, то дані де-факто повинні бути представлені у вигляді сервісу. REST рулить, але не можна забувати про оптимізацію продуктивності, Яку часто зараз приносять в жертву інтегрованості, бо обчислювальна потужність продовжує зростати.
  9. Майстер дані - Це те, що потрібно локалізувати, витягувати, стандартизувати, перш ніж адресувати якісь бізнес питання. Майстер дані – маленькі, а проблеми з ними – великі! Як кажуть брати семантики – 50% усіх світових проблем від того, що люди називають одні й ті самі речі різними іменами, а інші 50% від того, що вони називають різні речі одним ім'ям.
  10. Будь-яка інкапсуляція на рівні зберігання обмежує відкритість рішення та веде до SILO-фікації. Добре якщо ви великий вендор, інакше - так собі. (Тут мова йде, звичайно, не про блоковий рівень і не про AWS S3, якому вже 6 років тоді було, а про файли).
  11. Реляційне моделювання даних нам більше не друг. RDF та key-value – круто! Ми бачили магічні перетворення реляційних баз з моделями в 2000 таблицях в 15 таблиць, і ніхто з користувачів нічого не втратив.
  12. Інтернет працює тому, що є URL як єдиний спосіб адресації. Важливість URL або вірніше URI для інформаційних ресурсів підприємства важко переоцінити.
  13. Text mining та NLP популярні. В інтернеті. Але і в корпоративному секторі можна досягти величезних успіхів, отримуючи структуровані дані з неструктурованих корпоративних даних.
  14. Синергія між структурованими даними та інформацією, витягнутої з неструктурованих даних, тобто. файлів – аналітичний Клондайк
  15. Виймаючи дані – не забуваємо про права та копірайтах.
  16. Компанія, що займається вилученням даних, повинна сформувати департамент хакерів, у хорошому значенні цього слова. Надихнуто тяжкою боротьбою із системами захисту Жовтих сторінок від пошукових ботів.
  17. До того, як працювати з даними – їх необхідно «побачити» у всій повноті. Це важко пояснити. Мені на думку спадають табличні форми. Комусь графічні уявлення, але ж будь-який графік — це вже інтерпретація. Так чи інакше… побачити!
  18. Повторюючись у питанні «довіри» користувачів фронтенду. Довіра до конекторів/процесів породження даних, довіра до даних, довіра до прийнятих рішень.

Джерело: habr.com

Додати коментар або відгук