Pamamahala ng Data sa loob ng bahay

Hoy Habr!

Ang data ay ang pinakamahalagang asset ng isang kumpanya. Halos bawat kumpanya na may digital focus ay nagdedeklara nito. Mahirap makipagtalo dito: walang isang pangunahing kumperensya ng IT ang gaganapin nang hindi tinatalakay ang mga diskarte sa pamamahala, pag-iimbak at pagproseso ng data.

Dumating sa amin ang data mula sa labas, nabuo din ito sa loob ng kumpanya, at kung pinag-uusapan natin ang data mula sa isang kumpanya ng telecom, kung gayon para sa mga panloob na empleyado ito ay isang kamalig ng impormasyon tungkol sa kliyente, kanyang mga interes, gawi, at lokasyon. Sa wastong pag-profile at pagse-segment, ang mga alok sa advertising ay pinaka-epektibo. Gayunpaman, sa pagsasagawa, hindi lahat ay napaka-rosas. Ang data na iniimbak ng mga kumpanya ay maaaring wala nang pag-asa, kalabisan, paulit-ulit, o ang pagkakaroon nito ay hindi alam ng sinuman maliban sa isang makitid na bilog ng mga user. ¯_(ツ)_/¯

Pamamahala ng Data sa loob ng bahay
Sa madaling salita, ang data ay dapat na epektibong pinamamahalaan - pagkatapos lamang ito ay magiging isang asset na nagdudulot ng mga tunay na benepisyo at kita sa negosyo. Sa kasamaang palad, ang paglutas ng mga isyu sa pamamahala ng data ay nangangailangan ng pagtagumpayan ng napakaraming kumplikado. Pangunahin ang mga ito dahil sa parehong makasaysayang legacy sa anyo ng mga "zoo" ng mga system at ang kakulangan ng pinag-isang proseso at diskarte sa kanilang pamamahala. Ngunit ano ang ibig sabihin ng pagiging "hinimok ng data"?

Ito ay eksakto kung ano ang pag-uusapan natin sa ilalim ng hiwa, pati na rin kung paano nakatulong sa amin ang opensource stack.

Ang konsepto ng strategic data management Data Governance (DG) ay kilala na sa merkado ng Russia, at ang mga layunin na nakamit ng negosyo bilang resulta ng pagpapatupad nito ay malinaw at malinaw na ipinahayag. Ang aming kumpanya ay walang pagbubukod at itinakda mismo ang gawain ng pagpapakilala ng konsepto ng pamamahala ng data.

Kaya saan tayo nagsimula? Upang magsimula, bumuo kami ng mga pangunahing layunin para sa aming sarili:

  1. Panatilihing naa-access ang aming data.
  2. Tiyakin ang transparency ng lifecycle ng data.
  3. Magbigay ng mga user ng kumpanya ng pare-pareho, pare-parehong data.
  4. Bigyan ang mga user ng kumpanya ng na-verify na data.

Ngayon, mayroong isang dosenang mga tool sa klase ng Data Governance sa merkado ng software.

Pamamahala ng Data sa loob ng bahay

Ngunit pagkatapos ng detalyadong pagsusuri at pag-aaral ng mga solusyon, nagtala kami ng ilang kritikal na komento para sa aming sarili:

  • Karamihan sa mga tagagawa ay nag-aalok ng isang komprehensibong hanay ng mga solusyon, na para sa amin ay kalabisan at duplicate ang umiiral na functionality. Dagdag pa, mahal sa mga tuntunin ng mga mapagkukunan, pagsasama sa kasalukuyang landscape ng IT.
  • Idinisenyo ang functionality at interface para sa mga technologist, hindi sa mga end user ng negosyo.
  • Mababang rate ng kaligtasan ng mga produkto at kakulangan ng matagumpay na pagpapatupad sa merkado ng Russia.
  • Mataas na halaga ng software at karagdagang suporta.

Ang mga pamantayan at rekomendasyon na binanggit sa itaas tungkol sa pagpapalit ng pag-import ng software para sa mga kumpanyang Ruso ay nakumbinsi kaming lumipat patungo sa aming sariling pag-unlad sa isang opensource stack. Ang platform na aming pinili ay Django, isang libre at open source na balangkas na nakasulat sa Python. At sa gayon ay natukoy namin ang mga pangunahing module na makakatulong sa mga layunin na nakasaad sa itaas:

  1. Magrehistro ng mga ulat.
  2. Glosaryo ng negosyo.
  3. Module para sa paglalarawan ng mga teknikal na pagbabago.
  4. Module para sa paglalarawan ng cycle ng buhay ng data mula sa pinagmulan hanggang sa tool ng BI.
  5. Module ng kontrol sa kalidad ng data.

Pamamahala ng Data sa loob ng bahay

Magrehistro ng mga ulat

Ayon sa mga resulta ng mga panloob na pag-aaral sa malalaking kumpanya, kapag nilulutas ang mga problemang nauugnay sa data, ang mga empleyado ay gumugugol ng 40-80% ng kanilang oras sa paghahanap para sa kanila. Samakatuwid, itinakda namin sa aming sarili ang gawain ng paggawa ng bukas na impormasyon tungkol sa mga umiiral nang ulat na dati ay magagamit lamang sa mga customer. Kaya, binabawasan namin ang oras para sa pagbuo ng mga bagong ulat at tinitiyak ang demokratisasyon ng data.

Pamamahala ng Data sa loob ng bahay

Ang rehistro ng pag-uulat ay naging isang solong window ng pag-uulat para sa mga panloob na user mula sa iba't ibang rehiyon, departamento, at dibisyon. Pinagsasama-sama nito ang impormasyon sa mga serbisyo ng impormasyon na nilikha sa ilang mga corporate repository ng kumpanya, at marami sa kanila sa Rostelecom.

Ngunit ang pagpapatala ay hindi lamang isang tuyong listahan ng mga binuong ulat. Para sa bawat ulat, ibinibigay namin ang impormasyong kailangan para maging pamilyar ang user dito:

  • maikling paglalarawan ng ulat;
  • lalim ng pagkakaroon ng data;
  • segment ng customer;
  • tool sa visualization;
  • pangalan ng imbakan ng kumpanya;
  • mga kinakailangan sa pagganap ng negosyo;
  • link sa ulat;
  • link sa aplikasyon para sa pag-access;
  • katayuan ng pagpapatupad.

Available ang analytics sa antas ng paggamit para sa mga ulat, at niraranggo ang mga ulat sa tuktok ng listahan batay sa log analytics batay sa bilang ng mga natatanging user. At hindi yun. Bilang karagdagan sa mga pangkalahatang katangian, nagbigay din kami ng isang detalyadong paglalarawan ng komposisyon ng katangian ng mga ulat na may mga halimbawa ng mga halaga at pamamaraan ng pagkalkula. Ang ganitong pagdedetalye ay agad na nagbibigay sa gumagamit ng isang sagot kung ang ulat ay kapaki-pakinabang para sa kanya o hindi.

Ang pagbuo ng modyul na ito ay isang mahalagang hakbang sa demokratisasyon ng data at makabuluhang nabawasan ang oras na kinakailangan upang mahanap ang kinakailangang impormasyon. Bilang karagdagan sa pagbabawas ng oras ng paghahanap, ang bilang ng mga kahilingan sa koponan ng suporta upang magbigay ng mga konsultasyon ay nabawasan din. Imposibleng hindi mapansin ang isa pang kapaki-pakinabang na resulta na nakamit namin sa pamamagitan ng pagbuo ng isang pinag-isang rehistro ng mga ulat - na pumipigil sa pagbuo ng mga dobleng ulat para sa iba't ibang mga yunit ng istruktura.

Glosaryo ng negosyo

Alam ninyong lahat na kahit sa loob ng iisang kumpanya, ang mga negosyo ay nagsasalita ng iba't ibang wika. Oo, ginagamit nila ang parehong mga termino, ngunit ang ibig sabihin ng mga ito ay ganap na magkakaibang mga bagay. Ang isang business glossary ay idinisenyo upang malutas ang problemang ito.

Para sa amin, ang isang business glossary ay hindi lamang isang reference na libro na may paglalarawan ng mga termino at pamamaraan ng pagkalkula. Ito ay isang ganap na kapaligiran para sa pagbuo, pagsang-ayon at pag-apruba ng terminolohiya, pagbuo ng mga relasyon sa pagitan ng mga tuntunin at iba pang mga asset ng impormasyon ng kumpanya. Bago ipasok ang glossary ng negosyo, ang isang termino ay dapat dumaan sa lahat ng mga yugto ng pag-apruba kasama ang mga customer ng negosyo at ang sentro ng kalidad ng data. Pagkatapos lamang nito ay magagamit na ito para magamit.

Tulad ng isinulat ko sa itaas, ang kakaiba ng tool na ito ay pinapayagan nito ang mga koneksyon mula sa antas ng termino ng negosyo hanggang sa mga partikular na ulat ng user kung saan ito ginagamit, pati na rin sa antas ng mga pisikal na object ng database.

Pamamahala ng Data sa loob ng bahay

Ito ay ginawang posible sa pamamagitan ng paggamit ng glossary term identifiers sa detalyadong paglalarawan ng mga ulat sa registry at ang paglalarawan ng mga pisikal na database object.

Sa kasalukuyan, higit sa 4000 termino ang tinukoy at napagkasunduan sa Glossary. Ang paggamit nito ay nagpapasimple at nagpapabilis sa pagproseso ng mga papasok na kahilingan para sa mga pagbabago sa mga sistema ng impormasyon ng kumpanya. Kung naipatupad na ang kinakailangang indicator sa anumang ulat, makikita kaagad ng user ang isang hanay ng mga handa na ulat kung saan ginagamit ang indicator na ito, at makakapagdesisyon sa epektibong muling paggamit ng umiiral na functionality o sa kaunting pagbabago nito, nang hindi nagsisimula mga bagong kahilingan para sa pagbuo ng isang bagong ulat.

Module para sa paglalarawan ng mga teknikal na pagbabago at DataLineage

Ano ang mga modyul na ito, itatanong mo? Hindi sapat na ipatupad lang ang Report Register at Glossary; kinakailangan ding i-ground ang lahat ng termino ng negosyo sa pisikal na modelo ng database. Kaya, nakumpleto namin ang proseso ng pagbuo ng cycle ng buhay ng data mula sa mga source system hanggang sa BI visualization sa lahat ng layer ng data warehouse. Sa madaling salita, bumuo ng DataLineage.

Bumuo kami ng interface batay sa format na ginamit dati sa kumpanya para sa paglalarawan ng mga panuntunan at lohika ng pagbabago ng data. Ang parehong impormasyon ay ipinasok sa pamamagitan ng interface tulad ng dati, ngunit ang kahulugan ng terminong identifier mula sa glossary ng negosyo ay naging isang kinakailangan. Ito ay kung paano kami bumuo ng isang koneksyon sa pagitan ng negosyo at pisikal na mga layer.

Sino ang nangangailangan nito? Ano ang mali sa lumang format na ginamit mo sa loob ng ilang taon? Magkano ang mga gastos sa paggawa para sa pagbuo ng mga kinakailangan? Kinailangan naming harapin ang mga ganoong katanungan sa panahon ng pagpapatupad ng tool. Ang mga sagot dito ay medyo simple - kailangan nating lahat ito, ang data office ng aming kumpanya at ang aming mga user.

Sa katunayan, ang mga empleyado ay kailangang umangkop; sa una, ito ay humantong sa isang bahagyang pagtaas sa mga gastos sa paggawa para sa paghahanda ng dokumentasyon, ngunit inayos namin ang isyung ito. Ang pagsasanay, pagtukoy at pag-optimize ng mga lugar ng problema ay nagawa na ang kanilang trabaho. Nakamit namin ang pangunahing bagay - napabuti namin ang kalidad ng mga binuo na kinakailangan. Mandatory field, pinag-isang reference na libro, input mask, built-in na mga tseke - lahat ng ito ay naging posible upang makabuluhang mapabuti ang kalidad ng mga paglalarawan ng pagbabago. Lumayo kami sa kasanayan ng pagbibigay ng mga script bilang mga kinakailangan sa pag-unlad at pagbabahagi ng kaalaman na magagamit lamang sa pangkat ng pagbuo. Ang nabuong database ng metadata ay makabuluhang binabawasan ang oras na kinakailangan upang magsagawa ng pagsusuri ng regression at nagbibigay ng kakayahang mabilis na masuri ang epekto ng mga pagbabago sa anumang layer ng IT landscape (showcase reports, aggregates, sources).

Ano ang kinalaman nito sa mga ordinaryong gumagamit ng mga ulat, ano ang mga pakinabang para sa kanila? Salamat sa kakayahang bumuo ng DataLineage, ang aming mga user, kahit na ang mga malayo sa SQL at iba pang mga programming language, ay mabilis na nakakatanggap ng impormasyon tungkol sa mga pinagmumulan at mga bagay batay sa kung saan nabuo ang isang partikular na ulat.

Module ng Kontrol ng Kalidad ng Data

Lahat ng napag-usapan namin sa itaas sa mga tuntunin ng pagtiyak ng transparency ng data ay hindi mahalaga nang hindi nauunawaan na ang data na ibinibigay namin sa mga user ay tama. Isa sa mahahalagang module ng aming konsepto ng Data Governance ay ang data quality control module.

Sa kasalukuyang yugto, ito ay isang catalog ng mga pagsusuri para sa mga napiling entity. Ang agarang layunin para sa pagbuo ng produkto ay palawakin ang listahan ng mga pagsusuri at isama sa rehistro ng pag-uulat.
Ano ang ibibigay nito at kanino? Ang end user ng registry ay magkakaroon ng access sa impormasyon tungkol sa mga nakaplano at aktwal na petsa ng pagiging handa ng ulat, ang mga resulta ng mga nakumpletong pagsusuri na may dynamics, at impormasyon sa mga source na na-load sa ulat.

Para sa amin, ang module ng kalidad ng data na isinama sa aming mga proseso ng trabaho ay:

  • Mabilis na pagbuo ng mga inaasahan ng customer.
  • Paggawa ng mga desisyon sa karagdagang paggamit ng data.
  • Pagkuha ng isang paunang hanay ng mga punto ng problema sa mga unang yugto ng trabaho para sa pagbuo ng mga regular na kontrol sa kalidad.

Siyempre, ito ang mga unang hakbang sa pagbuo ng isang ganap na proseso ng pamamahala ng data. Ngunit kami ay tiwala na sa pamamagitan lamang ng sinasadyang paggawa ng gawaing ito, aktibong pagpapakilala ng mga tool sa Pamamahala ng Data sa proseso ng trabaho, bibigyan namin ang aming mga kliyente ng nilalaman ng impormasyon, isang mataas na antas ng tiwala sa data, transparency sa kanilang pagtanggap at dagdagan ang bilis ng paglulunsad bagong functionality.

Koponan ng DataOffice

Pinagmulan: www.habr.com

Magdagdag ng komento