Zarządzanie danymi we własnym zakresie

Hej Habra!

Dane są najcenniejszym aktywem firmy. Prawie każda firma cyfrowa to twierdzi. Trudno się z tym nie zgodzić: żadna większa konferencja IT nie odbywa się bez omówienia podejść do zarządzania, przechowywania i przetwarzania danych.

Dane docierają do nas z zewnątrz, są też generowane wewnątrz firmy, a jeśli mówimy o danych od firmy telekomunikacyjnej, to dla pracowników wewnętrznych jest to skarbnica informacji o kliencie, jego zainteresowaniach, zwyczajach i lokalizacji. Przy odpowiednim profilowaniu i segmentacji oferty reklamowe są najskuteczniejsze. Jednak w praktyce nie wszystko jest takie różowe. Dane, które przechowują firmy, mogą być beznadziejnie nieaktualne, zbędne, powtarzalne lub o ich istnieniu wie nikt poza wąskim kręgiem użytkowników. ¯_(ツ)_/¯

Zarządzanie danymi we własnym zakresie
Jednym słowem danymi trzeba skutecznie zarządzać – tylko wtedy staną się aktywem przynoszącym biznesowi realne korzyści i zysk. Niestety, rozwiązanie problemów związanych z zarządzaniem danymi wymaga pokonania sporo zawiłości. Wynikają one głównie z zarówno dziedzictwa historycznego w postaci „ogrodów zoologicznych” systemów, jak i braku jednolitych procesów i podejść do zarządzania nimi. Ale co to znaczy być „napędzanym danymi”?

Właśnie o tym porozmawiamy w ramach cięcia, a także o tym, jak pomógł nam stos opensource.

Koncepcja strategicznego zarządzania danymi Data Governance (DG) jest już dość dobrze znana na rynku rosyjskim, a cele osiągane przez biznes w wyniku jej wdrożenia są jasne i jasno zadeklarowane. Nasza firma nie była wyjątkiem i postawiła sobie za zadanie wprowadzenie koncepcji zarządzania danymi.

Więc od czego zaczęliśmy? Na początek postawiliśmy sobie kluczowe cele:

  1. Zadbaj o dostępność naszych danych.
  2. Zapewnij przejrzystość cyklu życia danych.
  3. Zapewnij użytkownikom firmowym spójne, spójne dane.
  4. Udostępnij użytkownikom firmowym zweryfikowane dane.

Obecnie na rynku oprogramowania dostępnych jest kilkanaście narzędzi klasy Data Governance.

Zarządzanie danymi we własnym zakresie

Jednak po szczegółowej analizie i przestudiowaniu rozwiązań zebraliśmy dla siebie szereg krytycznych komentarzy:

  • Większość producentów oferuje kompleksowy zestaw rozwiązań, który dla nas jest zbędny i powiela istniejącą funkcjonalność. Do tego kosztowna pod względem zasobów integracja z obecnym krajobrazem IT.
  • Funkcjonalność i interfejs są przeznaczone dla technologów, a nie końcowych użytkowników biznesowych.
  • Niska przeżywalność produktów i brak udanych wdrożeń na rynku rosyjskim.
  • Wysoki koszt oprogramowania i dalszego wsparcia.

Kryteria i zalecenia wyrażone powyżej dotyczące zastępowania importu oprogramowania dla rosyjskich firm przekonały nas do przejścia w kierunku własnego rozwoju na stosie open source. Platformą, którą wybraliśmy, był Django, darmowy framework typu open source napisany w Pythonie. W ten sposób zidentyfikowaliśmy kluczowe moduły, które przyczynią się do osiągnięcia celów określonych powyżej:

  1. Rejestr raportów.
  2. Słowniczek biznesowy.
  3. Moduł opisu przemian technicznych.
  4. Moduł opisujący cykl życia danych od źródła do narzędzia BI.
  5. Moduł kontroli jakości danych.

Zarządzanie danymi we własnym zakresie

Rejestr raportów

Według wyników badań wewnętrznych w dużych firmach, rozwiązując problemy związane z danymi, pracownicy spędzają 40-80% swojego czasu na ich poszukiwaniu. Dlatego postawiliśmy sobie za zadanie udostępnianie otwartych informacji o istniejących raportach, które wcześniej były dostępne tylko dla klientów. Dzięki temu skracamy czas generowania nowych raportów i zapewniamy demokratyzację danych.

Zarządzanie danymi we własnym zakresie

Rejestr raportowania stał się jednym oknem raportowania dla użytkowników wewnętrznych z różnych regionów, działów i oddziałów. Konsoliduje informacje o usługach informacyjnych utworzonych w kilku repozytoriach korporacyjnych firmy, a jest ich wiele w Rostelecom.

Ale rejestr to nie tylko sucha lista opracowanych raportów. Przy każdym raporcie podajemy informacje niezbędne użytkownikowi do zapoznania się z nim:

  • krótki opis raportu;
  • głębokość dostępności danych;
  • segment klientów;
  • narzędzie do wizualizacji;
  • nazwa magazynu korporacyjnego;
  • wymagania funkcjonalne biznesowe;
  • link do raportu;
  • link do wniosku o dostęp;
  • stan realizacji.

W przypadku raportów dostępna jest analiza poziomu wykorzystania, a ranking raportów jest umieszczany na górze listy na podstawie analizy dzienników opartej na liczbie unikalnych użytkowników. I to nie wszystko. Oprócz ogólnej charakterystyki udostępniliśmy także szczegółowy opis składu atrybutów raportów wraz z przykładowymi wartościami i metodami obliczeniowymi. Takie uszczegółowienie daje użytkownikowi natychmiastową odpowiedź, czy raport jest dla niego przydatny, czy nie.

Opracowanie tego modułu było ważnym krokiem w demokratyzacji danych i znacząco skróciło czas potrzebny na znalezienie potrzebnych informacji. Oprócz skrócenia czasu wyszukiwania, spadła również liczba próśb kierowanych do zespołu wsparcia o udzielenie konsultacji. Nie sposób nie zauważyć kolejnego przydatnego rezultatu, jaki osiągnęliśmy dzięki opracowaniu jednolitego rejestru raportów – zapobiegającego tworzeniu się duplikatów raportów dla różnych jednostek strukturalnych.

Słowniczek biznesowy

Wszyscy wiecie, że nawet w tej samej firmie firmy mówią różnymi językami. Tak, używają tych samych terminów, ale mają na myśli zupełnie inne rzeczy. Glosariusz biznesowy ma na celu rozwiązanie tego problemu.

Dla nas słownik biznesowy to nie tylko podręcznik z opisem pojęć i metodyką obliczeń. Jest to pełnoprawne środowisko do opracowywania, uzgadniania i zatwierdzania terminologii, budowania relacji pomiędzy terminami i innymi zasobami informacyjnymi firmy. Przed wejściem do słownika biznesowego termin musi przejść wszystkie etapy zatwierdzenia przez klientów biznesowych i centrum jakości danych. Dopiero po tym stanie się dostępny do użytku.

Jak pisałem powyżej, wyjątkowość tego narzędzia polega na tym, że pozwala na połączenia z poziomu terminu biznesowego do konkretnych raportów użytkowników, w których jest wykorzystywane, a także do poziomu fizycznych obiektów bazy danych.

Zarządzanie danymi we własnym zakresie

Jest to możliwe dzięki zastosowaniu identyfikatorów terminów glosariuszowych w szczegółowym opisie raportów rejestrowych oraz w opisie fizycznych obiektów bazy danych.

Obecnie w Słowniczku zdefiniowano i uzgodniono ponad 4000 terminów. Jego zastosowanie upraszcza i przyspiesza obsługę napływających wniosków o wprowadzenie zmian w systemach informatycznych firmy. Jeśli wymagany wskaźnik jest już zaimplementowany w jakimkolwiek raporcie, użytkownik od razu zobaczy zestaw gotowych raportów, w których ten wskaźnik jest zastosowany i będzie mógł podjąć decyzję o efektywnym ponownym wykorzystaniu istniejącej funkcjonalności lub jej minimalnej modyfikacji, bez inicjowania nowe wnioski o opracowanie nowego raportu.

Moduł do opisu przekształceń technicznych i DataLineage

Zapytacie, co to za moduły? Nie wystarczy po prostu wdrożyć Rejestr Raportów i Glosariusz, konieczne jest także oparcie wszystkich terminów biznesowych na fizycznym modelu bazy danych. Tym samym udało nam się dokończyć proces kształtowania cyklu życia danych od systemów źródłowych po wizualizację BI poprzez wszystkie warstwy hurtowni danych. Innymi słowy, zbuduj DataLineage.

Opracowaliśmy interfejs oparty na stosowanym wcześniej w firmie formacie opisującym zasady i logikę transformacji danych. Przez interfejs wprowadzane są te same informacje, co dotychczas, jednak warunkiem koniecznym stało się zdefiniowanie identyfikatora terminu ze słownika biznesowego. W ten sposób budujemy połączenie pomiędzy warstwą biznesową i fizyczną.

Kto tego potrzebuje? Co było nie tak ze starym formatem, w którym pracowaliście przez kilka lat? O ile wzrosły koszty pracy związane z generowaniem wymagań? Z takimi pytaniami musieliśmy się zmierzyć podczas wdrażania narzędzia. Odpowiedzi są tutaj dość proste – potrzebujemy tego wszyscy, biuro danych naszej firmy i nasi użytkownicy.

Rzeczywiście, pracownicy musieli się dostosować, początkowo skutkowało to niewielkim wzrostem kosztów pracy za przygotowanie dokumentacji, ale rozwiązaliśmy ten problem. Praktyka, identyfikacja i optymalizacja obszarów problemowych zrobiła swoje. Osiągnęliśmy najważniejsze - poprawiliśmy jakość opracowanych wymagań. Pola obowiązkowe, ujednolicone podręczniki, maski wprowadzania, wbudowane kontrole - wszystko to pozwoliło znacząco poprawić jakość opisów transformacji. Odeszliśmy od praktyki przekazywania skryptów jako wymagań deweloperskich i dzieliliśmy się wiedzą, która była dostępna tylko dla zespołu deweloperskiego. Wygenerowana baza metadanych znacznie skraca czas potrzebny na przeprowadzenie analizy regresji i zapewnia możliwość szybkiej oceny wpływu zmian na dowolną warstwę krajobrazu IT (raporty z prezentacji, agregaty, źródła).

Co to ma wspólnego ze zwykłymi użytkownikami raportów, jakie są dla nich korzyści? Dzięki możliwości budowania DataLineage nasi użytkownicy, nawet ci daleki od SQL i innych języków programowania, szybko otrzymują informację o źródłach i obiektach, na podstawie których generowany jest konkretny raport.

Moduł kontroli jakości danych

Wszystko, o czym mówiliśmy powyżej w kontekście zapewnienia przejrzystości danych, nie jest ważne bez zrozumienia, że ​​dane, które przekazujemy użytkownikom, są prawidłowe. Jednym z ważnych modułów naszej koncepcji Data Governance jest moduł kontroli jakości danych.

Na obecnym etapie jest to katalog kontroli dla wybranych podmiotów. Bezpośrednim celem rozwoju produktu jest poszerzenie listy kontroli i integracja z rejestrem sprawozdawczym.
Co i komu da? Użytkownik końcowy rejestru będzie miał dostęp do informacji o planowanych i faktycznych terminach gotowości raportu, wynikach przeprowadzonych kontroli z dynamiką oraz informacji o źródłach wczytanych do raportu.

Dla nas moduł jakości danych zintegrowany z naszymi procesami pracy to:

  • Szybkie kształtowanie oczekiwań klientów.
  • Podejmowanie decyzji o dalszym wykorzystaniu danych.
  • Uzyskanie wstępnego zestawu punktów problematycznych na początkowych etapach pracy w celu opracowania regularnych kontroli jakości.

To oczywiście pierwsze kroki w budowaniu pełnoprawnego procesu zarządzania danymi. Jesteśmy jednak pewni, że tylko celowo wykonując tę ​​pracę, aktywnie wprowadzając do procesu pracy narzędzia Data Governance, zapewnimy naszym klientom treść informacyjną, wysoki poziom zaufania do danych, przejrzystość ich otrzymania oraz zwiększymy szybkość uruchamiania nowa funkcjonalność.

Zespół DataOffice

Źródło: www.habr.com

Dodaj komentarz