Дывізіён даных. 2013 год. Рэтраспектыва

У 2013 годзе IBS, якія тады, здаецца, стваралі Дывізіён дадзеных, Папрасілі мяне зрабіць такі брэйндамп (выключна на базе вопыту ўзаемадзеяння з карпаратыўнымі нафтагазавымі заказчыкамі) з нагоды праблемнай вобласці Вялікіх Дадзеных, ды і Дадзеных наогул. Вось я натыкнуўся на яго праз 7 гадоў і здалося пацешна. Некаторыя рэчы відавочныя. Некаторыя не зусім дакладныя аказаліся, але… 7 гадоў прайшло.

Пісаў па-ангельску і вось падумаў перавесці на рускую. Раптам нешта актуальна і зараз? (Перавяду булеты, а таблічкі пакіну англійскімі ад ляноты. Зялёнае - добра, чырвонае - небяспечна, блакітнае - мара).

Мінімальныя каментары з «сёння» аформлю італікам, Каб было зразумела і адрозна.

Такім чынам, ДАДЗЕНЫЯ! Нам дадзеныя…

Дывізіён Дадзеных - гэта Дывізіён Крыві, таму што дадзеныя можна параўнаць, напрыклад, з крывёй, якая бегла па венах і артэрыях бізнес арганізма. Аднак хоць кроў адна - арганізмы розныя і таму прадуктызацыя вельмі абцяжарана, але яна ж і ўяўляе сабой магчымасць для развіцця.

Ёсць людзі, якім дадзеныя прама ў вочы кідаюцца - гэта Мы.
І ёсць людзі, якія дадзеных нажаль ва ўпор не бачаць. Гэта, зноў жа нажаль, нашы Заказчики!

Дывізіён даных. 2013 год. Рэтраспектыва

Такім чынам, бізнес пастулаты…

  1. Прадаем бізнэсу, А не ІТ (ды прабачаць мяне ўсе айцішнікі адразу) бо вырашаем сусветныя праблемы, ну і грошай пабольш.
  2. Усе бізнес праблемы сканцэнтраваны вакол тэматычных галіновых вертыкаляў і запатрабуюць адэкватнай спецыялізацыі.
  3. Спробы даказаць каштоўнасць "дадзеных" або, што яшчэ складаней каштоўнасць "кіравання дадзенымі" бізнэсу - гэта вечныя пакуты і боль. Па сутнасці, гэта як прыйсці да чалавека, які сябе нядрэнна адчувае і сказаць: "Чувак, мы табе зараз кроў палечым, і, чувак, гэта дорага!"
  4. Мая прама вільготная мара гэта ў рамках SaaS мадэлі прадаваць выманне дадзеных і аналітыку малому і сярэдняму бізнесу, якія залезлі ў 123 хмарных сэрвісу з прышпільнымі інтэрфейсамі: project management, helpdesk, accounting, CRM, payroll, time reporting, marketing, … you name it, і закапаліся ў дадзеных. Youcalc і Successfactors (няма ўжо такіх напэўна) гэта добра!
  5. Шукайце людзей, якія любяць важдацца "crunch" з дадзенымі. Яны рэдкія і дзіўныя (як варажбіты на кававай гушчы), але ключавыя для бізнэсу. Паэт, напрыклад, можа вельмі нядрэнна разбірацца ў карэляцыі.
  6. інжынеры патрэбны! Патрэбныя, каб ператварыць праблемы, якія Cruncher'ы выцягнулі з дадзеных у рашэнні. І поспех, ці няўдача рашэння цалкам залежыць ад іх.
  7. Развіццё з адкрытым зыходным кодам праектаў уяўляе сабой велізарную каштоўнасць і дае магчымасць "збіраць" складаныя рашэнні практычна "з нуля".
  8. Але… нельга забываць, што Hadoop – гэта бібліятэка, і Lucene – таксама бібліятэка, а адлегласць паміж бібліятэкай і прамысловым прадуктам значна!
  9. Выбудаваныя рашэнні давядзецца істотна адаптаваць, таму модульнасць и інтэгравальнасць - ключавыя моманты.
  10. Аджайл (прабач Госпадзе) - ключавая тэхніка ва ўзаемадзеянні з заказчыкам і праверцы гіпотэз, якіх будзе шмат.
  11. Аўтсорсіць усякі кодынг і UI асабліва можна і трэба. Усю бізнэс аналітыку і спецыфікацыі бэкэнду трэба пакідаць ўнутры і разглядаць як ключавую кампетэнцыю.
  12. Людзі, якія прымаюць рашэнне ад бізнэсу, павінны быць увесь час «інфармаваныя» аб неабходнасці правільнай працы з дадзенымі і сталага пошуку новых спосабаў іх аналізу. Камбінацыя тэхнічных і бізнес кампетэнцый нашых супрацоўнікаў дапамогуць узняць статут усёй арганізацыі ў цэлым.
  13. Інтэрнэт – ёсць бясконцая крыніца натхнення (гэта тады яшчэ коцікаў не так шмат было) у дачыненні да падыходаў да карпаратыўнага кіравання дадзенымі нягледзячы на ​​тое, што задачы і маштаб істотна адрозніваюцца.

Дывізіён даных. 2013 год. Рэтраспектыва

Тэхналагічныя пастулаты…

  1. Існуе велізарны патэнцыял развіцця ў спрашчэнні таго, як дадзеныя паказваюцца людзям. Можна назваць гэта словам "айфанізацыя".
  2. Нягледзячы на ​​тое, што BI вендары сцвярджаюць, што яны прама прыносяць аналітыку канчатковым карыстальнікам, (і яны вядома рухаюцца ў гэтым кірунку) – прарыву ўсё яшчэ не адбылося. Людзі проста дрэнна разумеюць шматмерныя дадзеныя.
  3. Карыстацкі інтэрфейс, які прадстаўляе больш ці менш складаныя слаба структураваныя дадзеныя ў фасетызаваным выглядзе - уяўляе гэтак жа бясконцую колькасць праблем. Выснова: чым больш пляцы (flatter) - тым лепш.
  4. Платформа, выбудаваная на базе аўтаматычнага вымання дадзеных з крыніц (якія не заўсёды прызначаны для такога вымання) знаходзіцца ў істотнай залежнасці ад крыніц, устойлівасці канектараў, і інфраструктуры. У няздольнасці забяспечыць вынік заўсёды абвінавацяць платформу (ганца). Давер - капітал такога роду платформаў. Капітал, які цяжка зарабіць і якога лёгка пазбавіцца.
  5. З пункту гледжання бізнэсу няма ніякай розніцы паміж аналізам Вялікіх Дадзеных і Проста Дадзеных. Часта за простымі як 2х2 лікамі ляжаць магчымасці на мільёны долараў. Добры прыклад - дадзеныя аб заканчэнні тэрміну службы элементаў інфраструктуры на Нарвежскім шэльфе. Калі ўсе даты будучых кап. рамонтаў усяго абсталявання паклалі на адну вось і высветлілі, што праз N гадоў будзе прамы шэльфавы Армагедон - адзін вельмі заможны чалавек устаў з крэсла і паспешна раскланяўшыся выйшаў з пакоя са словамі: «Выбачайце, у мяне мала часу, мне трэба рыхтаваць флот…»
  6. Excel, а ў сутнасці яснае і выразнае таблічнае ўяўленне дадзеных валодае велізарнай сілай і вялікай будучыняй. Веру ў прыгожыя табліцы (і да гэтага часу)і ўсё тут!
  7. Галоўны банцік ўсёй гэтай «аналітыкі» - гэта аўтаматызацыя прыняцця рашэнняў. Там самыя тлустыя магчымасці, але і самыя высокія рызыкі, таму і магчымасці тлустыя, таму і рызыкі, таму і магчымасці, таму ірыскі… 🙂 Кіраванне свідраваннем свідравін, напрыклад…
  8. Калі «інтэгравальнасць» - гэта ключавая фіча, то дадзеныя дэ-факта павінны быць прадстаўлены ў выглядзе сэрвісу. REST руліць, але нельга забываць аб аптымізацыі прадукцыйнасці, якую часта зараз прыносяць у ахвяру інтэгравальнасці, бо вылічальная магутнасць працягвае расці.
  9. Майстар дадзеныя - гэта тое, што трэба лакалізаваць, здабываць, стандартызаваць, перш чым адрасаваць нейкія бізнес пытанні. Майстар дадзеныя - маленькія, а праблемы з імі - вялікія! Як кажуць браты семантыкі - 50% усіх сусветных праблем таму, што людзі называюць адны і тыя ж рэчы рознымі імёнамі, а іншыя 50% ад таго, што яны называюць розныя рэчы адным імем.
  10. любая інкапсуляцыя на ўзроўні захоўвання абмяжоўвае адкрытасць рашэння і вядзе да SILO-фікацыі. Добра калі вы вялікі вендар, у адваротным выпадку - так сабе. (Тут гаворка ідзе, вядома, не аб блокавым узроўні і не аб AWS S3, якому ўжо 6 гадоў тады было, а аб файлах).
  11. Рэляцыйнае мадэляванне дадзеных нам больш не сябар. RDF і key-value - крута! Мы бачылі магічныя пераўтварэнні рэляцыйных баз з мадэлямі ў 2000 табліц у 15 табліц, і ніхто з карыстальнікаў нічога не страціў.
  12. Інтэрнэт працуе таму, што ёсць URL як адзіны спосаб адрасацыі. Важнасць URL ці дакладней URI для інфармацыйных рэсурсаў прадпрыемствы складана пераацаніць.
  13. Text mining і NLP папулярныя. У Інтэрнэце. Але і ў карпаратыўным сектары можна дасягнуць вялізных поспехаў здабываючы структураваныя дадзеныя з неструктураваных карпаратыўных дадзеных.
  14. Сінэргія паміж структураванымі дадзенымі і інфармацыяй, вынятай з неструктураваных дадзеных, г.зн. файлаў - аналітычны Кландайк.
  15. Здабываючы дадзеныя - не забываем аб правах і капірайтах.
  16. Кампанія, якая займаецца выманне дадзеных, павінна сфарміравацьепартамент хакераў, у добрым сэнсе гэтага слова. Натхнёна цяжкай барацьбой з сістэмамі абароны Жоўтых Старонак ад пошукавых ботаў.
  17. Да таго, як працаваць з дадзенымі - іх неабходна «убачыць» ва ўсёй паўнаце. Гэта цяжка растлумачыць. Мне на розум прыходзяць таблічныя формы. Камусьці графічныя ўяўленні, але ж любы графік — гэта ўжо інтэрпрэтацыя. Так ці інакш... "убачыць"!
  18. Паўтараючыся ў пытанні "даверу" карыстальнікаў фронтэнду. Давер да канектараў/працэсаў спараджэння дадзеных, давер да дадзеных, давер да прымаемых рашэнняў.

Крыніца: habr.com

Дадаць каментар