Деректерді ішкі басқару

Эй Хабр!

Деректер компанияның ең құнды активі болып табылады. Сандық фокусы бар әрбір дерлік компания бұл туралы мәлімдейді. Мұнымен дауласу қиын: деректерді басқару, сақтау және өңдеу тәсілдерін талқыламай бірде-бір ірі АТ конференциясы өткізілмейді.

Деректер бізге сырттан келеді, ол компания ішінде де жасалады, ал егер байланыс компаниясының деректері туралы айтатын болсақ, онда ішкі қызметкерлер үшін бұл клиент, оның қызығушылықтары, әдеттері және орналасқан жері туралы ақпарат қоймасы. Дұрыс профильдеу және сегменттеу кезінде жарнамалық ұсыныстар ең тиімді болып табылады. Дегенмен, іс жүзінде бәрі соншалықты қызғылт емес. Компаниялар сақтайтын деректер үмітсіз ескірген, артық, қайталанатын болуы мүмкін немесе оның бар-жоғы пайдаланушылардың тар шеңберінен басқа ешкімге белгісіз. ¯_(ツ)_/¯

Деректерді ішкі басқару
Бір сөзбен айтқанда, деректерді тиімді басқару керек – сонда ғана ол бизнеске нақты пайда мен пайда әкелетін активке айналады. Өкінішке орай, деректерді басқару мәселелерін шешу көптеген қиындықтарды жеңуді талап етеді. Олар негізінен жүйелердің «хайуанаттар бағы» түріндегі тарихи мұраға да, оларды басқарудың бірыңғай процестері мен тәсілдерінің жоқтығына да байланысты. Бірақ «деректерге негізделген» деген нені білдіреді?

Бұл туралы біз қысқаша айтқанда, сонымен қатар ашық бастапқы стектің бізге қалай көмектескені туралы айтатын боламыз.

Стратегиялық деректерді басқару тұжырымдамасы Data Governance (DG) ресейлік нарықта қазірдің өзінде жақсы белгілі және оны жүзеге асыру нәтижесінде бизнестің қол жеткізген мақсаттары анық және нақты жарияланған. Біздің компания да ерекшелік болмады және деректерді басқару тұжырымдамасын енгізу міндетін қойды.

Сонымен, біз неден бастадық? Алдымен біз өзімізге негізгі мақсаттарды қалыптастырдық:

  1. Деректерімізді қолжетімді етіңіз.
  2. Деректер өмірлік циклінің ашықтығын қамтамасыз ету.
  3. Компания пайдаланушыларын дәйекті, дәйекті деректермен қамтамасыз етіңіз.
  4. Компания пайдаланушыларын расталған деректермен қамтамасыз етіңіз.

Бүгінгі таңда бағдарламалық қамтамасыз ету нарығында Data Governance класының оншақты құралдары бар.

Деректерді ішкі басқару

Бірақ егжей-тегжейлі талдау және шешімдерді зерделеуден кейін біз өзімізге бірқатар сыни пікірлер жазды:

  • Көптеген өндірушілер шешімдердің толық жиынтығын ұсынады, бұл біз үшін артық және бар функционалдылықты қайталайды. Сонымен қатар, ресурстар тұрғысынан қымбат, қазіргі IT ландшафтына интеграция.
  • Функционалдық пен интерфейс бизнестің соңғы пайдаланушыларына емес, технологтарға арналған.
  • Өнімдердің төмен өмір сүру деңгейі және ресейлік нарықта сәтті енгізілмеуі.
  • Бағдарламалық қамтамасыз етудің жоғары құны және одан әрі қолдау.

Ресейлік компаниялар үшін бағдарламалық қамтамасыз етуді импортты алмастыруға қатысты жоғарыда айтылған критерийлер мен ұсыныстар бізді ашық бастапқы стек бойынша өз дамуымызға көшуге сендірді. Біз таңдаған платформа Django болды, Python тілінде жазылған еркін және ашық бастапқы коды. Осылайша, біз жоғарыда айтылған мақсаттарға ықпал ететін негізгі модульдерді анықтадық:

  1. Есептер тізілімі.
  2. Бизнес глоссарий.
  3. Техникалық түрлендірулерді сипаттауға арналған модуль.
  4. Дереккөзден BI құралына дейінгі деректердің өмірлік циклін сипаттауға арналған модуль.
  5. Деректер сапасын бақылау модулі.

Деректерді ішкі басқару

Есептер тізілімі

Ірі компаниялардағы ішкі зерттеулердің нәтижелеріне сәйкес, деректерге байланысты мәселелерді шешу кезінде қызметкерлер уақытының 40-80% оларды іздеуге жұмсайды. Сондықтан біз өз алдымызға бұрын тек тұтынушыларға қолжетімді болған бар есептер туралы ашық ақпарат жасау міндетін қойдық. Осылайша, біз жаңа есептерді шығару уақытын қысқартамыз және деректерді демократияландыруды қамтамасыз етеміз.

Деректерді ішкі басқару

Есеп беру тізілімі әртүрлі аймақтардың, департаменттер мен бөлімдердің ішкі пайдаланушылары үшін бірыңғай есеп беру терезесіне айналды. Ол компанияның бірнеше корпоративтік репозитарийлерінде жасалған ақпараттық қызметтер туралы ақпаратты біріктіреді және олардың көпшілігі Ростелекомда бар.

Бірақ тізілім әзірленген есептердің құрғақ тізімі ғана емес. Әрбір есеп үшін біз пайдаланушы онымен танысу үшін қажетті ақпаратты береміз:

  • есептің қысқаша сипаттамасы;
  • деректердің қол жетімділігінің тереңдігі;
  • тұтынушылар сегменті;
  • визуализация құралы;
  • корпоративтік қойманың атауы;
  • бизнестің функционалдық талаптары;
  • есепке сілтеме;
  • қол жеткізу үшін қолданбаға сілтеме;
  • іске асыру жағдайы.

Пайдалану деңгейінің аналитикасы есептер үшін қолжетімді және есептер бірегей пайдаланушылар санына негізделген журнал талдауларына негізделген тізімнің жоғарғы жағында бағаланады. Бұл ол емес. Жалпы сипаттамалардан басқа, біз мәндер мен есептеу әдістерінің мысалдарымен есептердің атрибуттық құрамының толық сипаттамасын бердік. Мұндай егжей-тегжейлер пайдаланушыға есептің ол үшін пайдалы ма, жоқ па деген жауабын бірден береді.

Бұл модульді әзірлеу деректерді демократияландырудағы маңызды қадам болды және қажетті ақпаратты табуға кететін уақытты айтарлықтай қысқартты. Іздеу уақытын қысқартумен қатар, қолдау көрсету тобына кеңес беру туралы сұраулар саны да азайды. Есептердің бірыңғай тізілімін әзірлеу арқылы қол жеткізген тағы бір пайдалы нәтижені атап өту мүмкін емес – әртүрлі құрылымдық бөлімшелер үшін қайталанатын есептерді әзірлеуге жол бермеу.

Бизнес глоссарий

Бір компанияның өзінде бизнес әртүрлі тілдерде сөйлейтінін бәріңіз білесіздер. Иә, олар бірдей терминдерді қолданады, бірақ олар мүлдем басқа нәрселерді білдіреді. Бұл мәселені шешу үшін бизнес-глоссарий жасалған.

Біз үшін бизнес-глоссарий терминдердің сипаттамасы мен есептеу әдістемесі бар анықтамалық қана емес. Бұл терминологияны әзірлеу, келісу және бекіту, терминдер мен компанияның басқа да ақпараттық активтері арасындағы қатынастарды құру үшін толыққанды орта. Бизнес глоссарийге кірмес бұрын термин іскери тұтынушылармен және деректер сапасы орталығымен мақұлдаудың барлық сатыларынан өтуі керек. Осыдан кейін ғана ол пайдалануға болады.

Жоғарыда жазғанымдай, бұл құралдың бірегейлігі оның іскери термин деңгейінен өзі пайдаланылатын нақты пайдаланушы есептеріне, сондай-ақ физикалық дерекқор нысандарының деңгейіне қосылуға мүмкіндік береді.

Деректерді ішкі басқару

Бұл тізілім есептерінің егжей-тегжейлі сипаттамасында және физикалық дерекқор нысандарының сипаттамасында глоссарий термин идентификаторларын пайдалану арқылы мүмкін болды.

Қазіргі уақытта Глоссарийде 4000-нан астам терминдер анықталып, келісілген. Оны пайдалану компанияның ақпараттық жүйесіндегі өзгерістерге келіп түсетін сұраныстарды өңдеуді жеңілдетеді және жылдамдатады. Егер талап етілетін индикатор кез келген есепте енгізілген болса, онда пайдаланушы бұл көрсеткіш қолданылатын дайын есептер жинағын дереу көреді және бар функционалдылықты тиімді қайта пайдалану немесе оның минималды модификациясы туралы шешімді бастамай-ақ шеше алады. жаңа есепті әзірлеуге жаңа сұраныстар.

Техникалық түрлендірулерді және DataLineage-ді сипаттауға арналған модуль

Бұл қандай модульдер, сіз сұрайсыз ба? Есептер тізілімін және Глоссарийді жай ғана енгізу жеткіліксіз, сонымен қатар барлық бизнес шарттарын физикалық дерекқор үлгісіне негіздеу қажет. Осылайша, біз деректер қоймасының барлық деңгейлері арқылы бастапқы жүйелерден BI визуализациясына дейінгі деректердің өмірлік циклін қалыптастыру процесін аяқтай алдық. Басқаша айтқанда, DataLineage құрастырыңыз.

Біз деректерді түрлендіру ережелері мен логикасын сипаттау үшін компанияда бұрын қолданылған форматқа негізделген интерфейсті әзірледік. Бұрынғыдай интерфейс арқылы бірдей ақпарат енгізіледі, бірақ бизнес глоссарийден идентификатор терминінің анықтамасы міндетті шартқа айналды. Осылайша біз іскерлік және физикалық деңгейлер арасындағы байланысты орнатамыз.

Ол кімге керек? Сіз бірнеше жыл жұмыс істеген ескі форматта не болды? Талаптарды өндіруге жұмсалатын еңбек шығындары қаншаға өсті? Құралды жүзеге асыру барысында осындай сұрақтармен айналысуға тура келді. Мұнда жауаптар өте қарапайым - бұл бәрімізге, компаниямыздың деректер кеңсесіне және пайдаланушыларға қажет.

Шынында да, қызметкерлер бейімделуге мәжбүр болды, бұл бастапқыда құжаттаманы дайындауға жұмсалатын еңбек шығындарының аздап өсуіне әкелді, бірақ біз бұл мәселені шештік. Тәжірибе, проблемалық аймақтарды анықтау және оңтайландыру өз жұмысын жасады. Біз ең бастысы – әзірленген талаптардың сапасын арттырдық. Міндетті өрістер, бірыңғай анықтамалықтар, енгізу маскалары, кірістірілген чектер - мұның бәрі трансформация сипаттамаларының сапасын айтарлықтай жақсартуға мүмкіндік берді. Біз сценарийлерді әзірлеу талаптары ретінде беру тәжірибесінен және әзірлеушілер тобына ғана қолжетімді болатын ортақ білімнен бас тарттық. Жасалған метадеректер базасы регрессиялық талдауды жүргізуге қажетті уақытты айтарлықтай қысқартады және АТ ландшафтының кез келген деңгейіне өзгерістер әсерін жылдам бағалау мүмкіндігін береді (көрсетілім есептері, агрегаттар, көздер).

Мұның есептерді қарапайым пайдаланушыларға қандай қатысы бар, олар үшін қандай артықшылықтар бар? DataLineage құрастыру мүмкіндігінің арқасында біздің пайдаланушылар, тіпті SQL және басқа бағдарламалау тілдерінен алыс пайдаланушылар да, негізінде белгілі бір есеп жасалатын көздер мен нысандар туралы ақпаратты жылдам алады.

Деректер сапасын бақылау модулі

Деректердің ашықтығын қамтамасыз ету тұрғысынан біз жоғарыда айтқан барлық нәрсе пайдаланушыларға беретін деректердің дұрыс екенін түсінбестен маңызды емес. Деректерді басқару тұжырымдамасының маңызды модульдерінің бірі деректер сапасын бақылау модулі болып табылады.

Ағымдағы кезеңде бұл таңдалған нысандар үшін тексерулер каталогы. Өнімді әзірлеудің тікелей мақсаты - тексерулер тізімін кеңейту және есеп беру тізілімімен біріктіру.
Ол не береді және кімге береді? Тізілімнің соңғы пайдаланушысы есептің дайын болуының жоспарланған және нақты мерзімдері, динамикасы бар аяқталған тексерулердің нәтижелері және есепке жүктелген көздер туралы ақпарат туралы ақпаратқа қол жеткізе алады.

Біз үшін жұмыс процестерімізге біріктірілген деректер сапасы модулі:

  • Клиенттердің күтулерін жедел қалыптастыру.
  • Деректерді одан әрі пайдалану туралы шешім қабылдау.
  • Тұрақты сапаны бақылауды әзірлеу үшін жұмыстың бастапқы кезеңдерінде проблемалық нүктелердің алдын ала жиынтығын алу.

Әрине, бұл толыққанды деректерді басқару процесін құрудың алғашқы қадамдары. Бірақ біз осы жұмысты мақсатты түрде орындай отырып, Деректерді басқару құралдарын жұмыс процесіне белсенді түрде енгізе отырып, біз өз клиенттерімізге ақпараттық мазмұнды, деректерге жоғары сенім деңгейін, оларды қабылдаудың ашықтығын және іске қосу жылдамдығын арттыратынымызға сенімдіміз. жаңа функция.

DataOffice командасы

Ақпарат көзі: www.habr.com

пікір қалдыру