DataGovernance саматугам

Прывітанне, Хабр!

Дадзеныя - гэта найкаштоўнейшы актыў кампаніі. Аб гэтым заяўляе ці ледзь не кожная кампанія з лічбавым ухілам. З гэтым складана спрачацца: без абмеркавання падыходаў кіравання, захоўвання і апрацоўкі дадзеных зараз не праходзіць ні адна буйная IT-канферэнцыя.

Дадзеныя да нас паступаюць звонку, таксама яны фармуюцца ўнутры кампаніі, а калі казаць аб дадзеных тэлекам-кампаніі, то гэта для ўнутраных супрацоўнікаў скарбніца інфармацыі аб кліенце, яго інтарэсах, звычках, месцазнаходжанні. Пры пісьменным прафіляванні і сегментацыі рэкламныя прапановы выстрэльваюць найболей эфектыўна. Аднак, на практыцы не ўсё так радасна. Тыя дадзеныя, якія захоўваюць кампаніі, могуць быць безнадзейна састарэлымі, залішнімі, паўтаральнымі, альбо аб іх існаванні нікому не вядома, акрамя вузкага круга карыстачоў. ¯_(ツ)_/¯

DataGovernance саматугам
Адным словам, дадзенымі трэба эфектыўна кіраваць - толькі ў такім выпадку яны стануць актывам, якія прыносяць бізнэсу рэальную карысць і прыбытак. Нажаль, для рашэння пытанняў кіравання дадзенымі трэба пераадолець даволі шмат складанасцяў. Абумоўлены яны ў асноўным як гістарычнай спадчынай у выглядзе «заапаркаў» сістэм, так і адсутнасцю адзіных працэсаў і падыходаў да кіравання імі. Але што азначае "кіраваць дадзенымі"?

Менавіта мы пра гэта мы і пагаворым пад катом, а таксама пра тое, як нам дапамог opensource-стэк.

Канцэпцыя стратэгічнага кіравання дадзенымі Data Governance (DG) ужо дастаткова вядомая на расійскім рынку, і мэты, якія дасягаюцца бізнесам у выніку яе ўкаранення, зразумелыя і выразна дэклараваны. Наша кампанія не стала выключэннем і паставіла перад сабой задачу ўкаранення канцэпцыі кіравання дадзенымі.

Дык вось, з чаго мы пачалі? Для пачатку мы сфарміравалі для сябе ключавыя мэты:

  1. Забяспечыць даступнасць нашых дадзеных.
  2. Забяспечыць празрыстасць жыццёвага цыкла даных.
  3. Даць карыстальнікам кампаніі ўзгодненыя несупярэчлівыя дадзеныя.
  4. Даць карыстальнікам кампаніі правераныя дадзеныя.

На сённяшні дзень на рынку праграмнага забеспячэння прадстаўлена з дзясятак прылад класа DataGovernance.

DataGovernance саматугам

Але пасля дэталёвага аналізу і вывучэнні рашэнняў мы зафіксавалі для сябе шэраг крытычных зацемак:

  • Большасць вытворцаў прапануюць комплексны набор рашэнняў, які для нас з'яўляецца залішнім і дублюе ўжо існуючую функцыянальнасць. Плюс дарагая з пункту гледжання рэсурсаў інтэграцыя ў бягучы ІТ-ландшафт.
  • Функцыянальнасць і інтэрфейс прызначаны для тэхнолагаў, а не канчатковых бізнес-карыстальнікаў.
  • Нізкая прыжывальнасць прадуктаў і адсутнасць паспяховых укараненняў на расійскім рынку.
  • Высокі кошт праграмнага забеспячэння і далейшага суправаджэння.

Агучаныя вышэй крытэры і рэкамендацыі ў частцы імпартазамяшчэння софту для расійскіх кампаній пераканалі нас пайсці ў бок уласнай распрацоўкі на opensource-стэку. У якасці платформы абралі Django - бясплатны і вольны фрэймворк, напісаны на Python. І такім чынам мы вылучылі для сябе ключавыя модулі, якія будуць спрыяць агучаным вышэй мэтам:

  1. Рэестр справаздач.
  2. Бізнес-гласарый.
  3. Модуль апісання тэхнічных трансфармацый.
  4. Модуль апісання жыццёвага цыкла даных ад крыніцы да BI-інструмента.
  5. Модуль кантролю якасці даных.

DataGovernance саматугам

Рэестр справаздач

Па выніках унутраных даследаванняў у буйных кампаніях, вырашаючы задачы, звязаныя з дадзенымі, супрацоўнікі марнуюць 40-80% часу на іх пошук. Таму мы паставілі перад сабой задачу зрабіць адкрытай інфармацыю аб існуючых справаздачах, якія раней былі даступныя толькі заказчыкам. Тым самым мы скарачаем час на фармаванне новай справаздачнасці і забяспечваем дэмакратызацыю дадзеных.

DataGovernance саматугам

Рэестр справаздач стаў адзіным акном справаздачнасці для ўнутраных карыстальнікаў з розных рэгіёнаў, дэпартаментаў, падраздзяленняў. У ім кансалідаваная інфармацыя па інфасэрвісах, створаных у некалькіх карпаратыўных сховішчах кампаніі, а іх у Растэлекаме нямала.

Але рэестр - гэта не проста сухі спіс распрацаваных справаздач. Для кожнай справаздачы мы даем інфармацыю, неабходную карыстальніку для самастойнага знаёмства з ім:

  • кароткае апісанне справаздачы;
  • глыбіня даступнасці дадзеных;
  • сегмент заказчыка;
  • інструмент візуалізацыі;
  • найменне карпаратыўнага сховішча;
  • бізнес-функцыянальныя патрабаванні;
  • спасылка на справаздачу;
  • спасылка на заяўку на доступ;
  • статус рэалізацыі.

Па справаздачах даступная аналітыка ўзроўня выкарыстоўванасці, і справаздачы пападаюць у топ спісу на падставе аналітыкі логаў па колькасці ўнікальных карыстачоў. І гэта не ўсё. Апроч агульных характарыстык мы прадугледзелі і дэталёвае апісанне атрыбутнага складу справаздач з прыкладамі значэнняў і методыкай разлікаў. Падобная дэталізацыя ўжо адразу дае карыстачу адказ, карысная для яго справаздача ці не.

Распрацоўка гэтага модуля стала важным крокам у частцы дэмакратызацыі дадзеных і значна скараціла час пошуку запатрабаванай інфармацыі. Акрамя скарачэння часу пошуку, знізілася і колькасць зваротаў да каманды суправаджэння на падаванне кансультацый. Нельга не адзначыць яшчэ адзін карысны вынік, якога мы дабіліся, распрацаваўшы адзіны рэестр справаздач - прадухіленне распрацоўкі дублюючых справаздач для розных структурных адзінак.

Бізнес-гласарый

Усе вы ведаеце, што нават у рамках адной і той жа кампаніі бізнэс гаворыць на розных мовах. Так, выкарыстоўваюць адны і тыя ж тэрміны, але разумеюць пад імі зусім розныя рэчы. Вырашыць дадзеную праблему закліканы бізнес-гласарый.

Для нас бізнес-гласарый - не проста даведнік з апісаннем тэрмінаў і метадалогіяй разліку. Гэта паўнавартаснае асяроддзе распрацоўкі, узгадненні і зацвярджэння тэрміналогіі, пабудовы ўзаемасувязяў тэрмінаў з іншымі інфармацыйнымі актывамі кампаніі. Перад тым як трапіць у бізнес-гласарый, тэрмін павінен прайсці ўсе этапы ўзгаднення з бізнес-заказчыкамі і цэнтрам якасці дадзеных. Толькі пасля гэтага ён становіцца даступным для выкарыстання.

Як я ўжо напісаў вышэй, унікальнасць дадзенай прылады ў тым, што ён дазваляе праводзіць сувязі ад узроўня бізнэс-тэрміна да пэўных карыстацкіх справаздач, у якіх ён выкарыстоўваецца, а таксама да ўзроўня фізічных аб'ектаў баз дадзеных.

DataGovernance саматугам

Гэта стала магчымым праз выкарыстанне ідэнтыфікатараў тэрмінаў гласарыя ў дэталёвым апісанні справаздач з рэестра і апісанні фізічных аб'ектаў баз дадзеных.

Цяпер у Гласарыі вызначана і ўзгоднена ўжо больш за 4000 тэрмінаў. Яго выкарыстанне спрашчае і паскарае апрацоўку паступаючых запытаў на змену ў інфармацыйных сістэмах кампаніі. Калі патрабаваны паказчык ужо рэалізаваны ў якой-небудзь справаздачы, то карыстач адразу ўбачыць набор гатовых справаздач, дзе гэты паказчык выкарыстаны, і зможа прыняць рашэнне аб эфектыўным паўторным выкарыстанні наяўнай функцыянальнасці або аб яе мінімальнай дапрацоўцы, не ініцыюючы новых запытаў на распрацоўку новай справаздачы.

Модуль апісання тэхнічных трансфармацый і DataLineage

Вы спытаеце, што гэта за модулi? Мала проста ўкараніць Рэестр справаздачы і Гласарый, неабходна яшчэ прызямліць усе бізнес-тэрміны на фізічную мадэль баз даных. Тым самым мы змаглі завяршыць працэс фармавання жыццёвага цыклу дадзеных ад сістэм крыніц да BI-візуалізацыі праз усе пласты сховішчы дадзеных. Іншымі словамі - пабудаваць DataLineage.

Мы распрацавалі інтэрфейс, у аснове якога ляжаў выкарыстоўваны раней у кампаніі фармат апісання правіл і логікі трансфармацыі дадзеных. З дапамогай інтэрфейсу заводзіцца ўсё тая ж інфармацыя, што і раней, але абавязковай умовай стала вызначэнне ідэнтыфікатара тэрміна з бізнес-гласарыя. Так мы і выбудоўваем сувязь паміж бізнес-і фізічнымі пластамі.

Каму гэта патрэбна? Чым не задаволіў стары фармат, з якім працавалі некалькі гадоў? Наколькі павялічыліся працавыдаткі на фармаванне патрабаванняў? З такімі пытаннямі нам даводзілася сутыкацца ў працэсе ўкаранення інструмента. Тут адказы дастаткова простыя - гэта трэба ўсім нам, дата-офісу нашай кампаніі і нашым карыстальнікам.

Сапраўды, супрацоўнікам прыйшлося перабудоўвацца, спачатку гэта прывяло да нязначных павелічэнняў працавыдаткаў на падрыхтоўку дакументацыі, але з гэтым пытаннем мы разабраліся. Практыка, выяўленне і аптымізацыя праблемных месцаў зрабілі сваю справу. Мы дабіліся галоўнага - павысілі якасць распрацоўваных патрабаванняў. Абавязковыя для запаўнення поля, уніфікаваныя даведнікі, маскі ўводу, убудаваныя праверкі - усё гэта дазволіла ў разы павысіць якасць апісанняў трансфармацый. Мы сышлі ад практыкі перадачы скрыптоў у выглядзе патрабаванняў на распрацоўку, расшарылі веды, якія былі даступныя толькі камандзе, якая займаецца распрацоўкай. Сфарміраваная база метададзеных скарачае ў разы час на правядзенне рэгрэс-аналізу, забяспечвае магчымасць аператыўнай адзнакі ўплыву змен на любым з пластоў ІТ-ландшафту (справаздачы вітрыны, агрэгаты, крыніцы).

А прычым тут звычайныя карыстачы справаздач, якія плюсы для іх? Дзякуючы магчымасці пабудовы DataLineage нашы карыстачы, нават далёкія ад SQL і іншых моў праграмавання, аператыўна атрымліваюць інфармацыю аб крыніцах і аб'ектах, на аснове якіх фармуецца тая ці іншая справаздача.

Модуль кантролю якасці даных

Усё, пра што мы казалі вышэй у частцы забеспячэння празрыстасці дадзеных, не важна без разумення таго, што дадзеныя, якія мы аддаём карыстальнікам, - карэктныя. Адзін з важных модуляў нашай канцэпцыі Data Governance – модуль кантролю якасці дадзеных.

На бягучым этапе гэта каталог праверак па выбарачных сутнасцях. Бліжэйшая мэта па развіцці прадукта - гэта пашырэнне пераліку праверак і інтэграцыя з рэестрам справаздач.
Што гэта дасць і каму? Для канчатковага карыстальніка рэестра будзе даступная інфармацыя аб планавых і фактычных датах гатоўнасці справаздачы, вынікі адпрацаваных праверак з дынамікай, звесткі па загружаных у справаздачу крыніцах.

Для нас інтэграваны ў працоўныя працэсы модуль якасці дадзеных гэта:

  • Аператыўнае фарміравання чакання заказчыкаў.
  • Прыняцце рашэнняў па далейшым выкарыстанні даных.
  • Атрыманне папярэдняга набору праблемных кропак на пачатковых этапах работ для распрацоўкі рэгулярных кантроляў якасці.

Безумоўна, гэта першыя крокі ў выбудоўванні паўнавартаснага працэсу кіравання дадзенымі. Але мы ўпэўненыя, што, толькі мэтанакіравана займаючыся гэтай працай, актыўна ўкараняючы інструменты DataGovernance у працоўны працэс, мы забяспечым нашым кліентам інфарматыўнасць, высокі ўзровень даверу да дадзеных, празрыстасць іх атрымання і павысім хуткасць вываду новай функцыянальнасці.

Каманда DataOffice

Крыніца: habr.com

Дадаць каментар