Gobernanza de datos interna

Ola Habr!

Os datos son o activo máis valioso dunha empresa. Case todas as empresas con enfoque dixital declaran isto. É difícil discutir isto: non se celebra nin unha gran conferencia de TI sen discutir enfoques para xestionar, almacenar e procesar datos.

Os datos chégannos de fóra, tamén se xeran dentro da empresa, e se falamos de datos dunha empresa de telecomunicacións, para os empregados internos este é un almacén de información sobre o cliente, os seus intereses, hábitos e localización. Cun perfil e segmentación adecuados, as ofertas publicitarias son máis eficaces. Non obstante, na práctica, non todo é tan rosado. Os datos que almacenan as empresas poden estar irremediablemente desactualizados, redundantes, repetitivos ou a súa existencia é descoñecida para ninguén, excepto para un estreito círculo de usuarios. ¯_(ツ)_/¯

Gobernanza de datos interna
Nunha palabra, os datos deben xestionarse de forma eficaz; só entón converteranse nun activo que trae beneficios e beneficios reais á empresa. Desafortunadamente, resolver problemas de xestión de datos require superar moitas complexidades. Débense principalmente tanto ao legado histórico en forma de "zoolóxicos" de sistemas como á falta de procesos e enfoques unificados para a súa xestión. Pero que significa estar "dirixido por datos"?

Isto é exactamente do que falaremos baixo o corte, así como de como nos axudou a pila de código aberto.

O concepto de xestión estratéxica de datos Data Governance (DG) xa é bastante coñecido no mercado ruso, e os obxectivos alcanzados polas empresas como resultado da súa implementación son claros e claramente declarados. A nosa empresa non foi unha excepción e propúxose a tarefa de introducir o concepto de xestión de datos.

Entón, por onde comezamos? Para comezar, fixemos obxectivos fundamentais para nós:

  1. Mantén accesibles os nosos datos.
  2. Garantir a transparencia do ciclo de vida dos datos.
  3. Proporcionar aos usuarios da empresa datos consistentes e consistentes.
  4. Proporcionar aos usuarios da empresa datos verificados.

Hoxe, hai unha ducia de ferramentas de clase Data Governance no mercado de software.

Gobernanza de datos interna

Pero despois dunha análise e estudo detallados das solucións, rexistramos unha serie de comentarios críticos para nós mesmos:

  • A maioría dos fabricantes ofrecen un conxunto completo de solucións, que para nós é redundante e duplica a funcionalidade existente. Ademais, cara en termos de recursos, a integración no panorama actual das TI.
  • A funcionalidade e a interface están deseñadas para tecnólogos, non para usuarios finais empresariais.
  • Baixa taxa de supervivencia dos produtos e falta de implantacións exitosas no mercado ruso.
  • Alto custo do software e apoio adicional.

Os criterios e recomendacións expresados ​​anteriormente sobre a substitución de software de importación para as empresas rusas convencéronnos para avanzar cara ao noso propio desenvolvemento nunha pila de código aberto. A plataforma que escollemos foi Django, un framework gratuíto e de código aberto escrito en Python. E así identificamos módulos clave que contribuirán aos obxectivos indicados anteriormente:

  1. Rexistro de informes.
  2. Glosario empresarial.
  3. Módulo de descrición de transformacións técnicas.
  4. Módulo para describir o ciclo de vida dos datos desde a fonte ata a ferramenta de BI.
  5. Módulo de control de calidade de datos.

Gobernanza de datos interna

Rexistro de informes

Segundo os resultados de estudos internos en grandes empresas, á hora de resolver problemas relacionados cos datos, os empregados dedican o 40-80% do seu tempo a buscalos. Polo tanto, propuxémonos a tarefa de facer información aberta sobre informes existentes que antes estaban dispoñibles só para os clientes. Así, reducimos o tempo de xeración de novos informes e aseguramos a democratización dos datos.

Gobernanza de datos interna

O rexistro de informes converteuse nunha ventá única de informes para usuarios internos de varias rexións, departamentos e divisións. Consolida información sobre servizos de información creada en varios repositorios corporativos da empresa, e hai moitos deles en Rostelecom.

Pero o rexistro non é só unha lista seca de informes desenvolvidos. Para cada informe, facilitamos a información necesaria para que o usuario se familiarice con el:

  • breve descrición do informe;
  • profundidade da dispoñibilidade de datos;
  • segmento de clientes;
  • ferramenta de visualización;
  • nome do almacenamento corporativo;
  • requisitos funcionais da empresa;
  • ligazón ao informe;
  • ligazón á solicitude de acceso;
  • estado de implementación.

As análises do nivel de uso están dispoñibles para os informes e os informes clasifícanse na parte superior da lista en función das análises de rexistro en función do número de usuarios únicos. E non é iso. Ademais das características xerais, tamén ofrecemos unha descrición detallada da composición de atributos dos informes con exemplos de valores e métodos de cálculo. Estes detalles dan inmediatamente ao usuario unha resposta sobre se o informe é útil para el ou non.

O desenvolvemento deste módulo supuxo un paso importante na democratización dos datos e reduciu significativamente o tempo necesario para atopar a información requirida. Ademais de reducir o tempo de busca, tamén diminuíu o número de solicitudes ao equipo de soporte para ofrecer consultas. É imposible non notar outro resultado útil que conseguimos ao desenvolver un rexistro unificado de informes, evitando o desenvolvemento de informes duplicados para diferentes unidades estruturais.

Glosario empresarial

Todos sabedes que, incluso dentro da mesma empresa, as empresas falan idiomas diferentes. Si, usan os mesmos termos, pero significan cousas completamente diferentes. Un glosario empresarial está deseñado para resolver este problema.

Para nós, un glosario empresarial non é só un libro de referencia cunha descrición de termos e metodoloxía de cálculo. Este é un ambiente completo para desenvolver, acordar e aprobar terminoloxía, construír relacións entre os termos e outros recursos de información da empresa. Antes de entrar no glosario empresarial, un termo debe pasar por todas as fases de aprobación cos clientes empresariais e co centro de calidade de datos. Só despois disto estará dispoñible para o seu uso.

Como escribín anteriormente, a singularidade desta ferramenta é que permite conexións desde o nivel dun termo empresarial ata informes de usuarios específicos nos que se utiliza, así como ao nivel dos obxectos físicos da base de datos.

Gobernanza de datos interna

Isto faise posible mediante o uso de identificadores de termos de glosario na descrición detallada dos informes de rexistro e na descrición dos obxectos físicos da base de datos.

Actualmente, máis de 4000 termos foron definidos e acordados no Glosario. O seu uso simplifica e axiliza a tramitación das solicitudes entrantes de cambios nos sistemas de información da empresa. Se o indicador requirido xa está implementado nalgún informe, entón o usuario verá inmediatamente un conxunto de informes preparados onde se utiliza este indicador, e poderá decidir sobre a reutilización efectiva da funcionalidade existente ou a súa modificación mínima, sen iniciar novas solicitudes para a elaboración dun novo informe.

Módulo de descrición de transformacións técnicas e DataLineage

Cales son estes módulos, pregunta? Non basta con implementar simplemente o Rexistro de Informes e o Glosario; tamén é necesario fundamentar todos os termos comerciais no modelo de base de datos física. Así, puidemos completar o proceso de formación do ciclo de vida dos datos desde os sistemas fonte ata a visualización de BI a través de todas as capas do almacén de datos. Noutras palabras, constrúe un DataLineage.

Desenvolvemos unha interface baseada no formato empregado anteriormente na empresa para describir as regras e a lóxica da transformación de datos. A través da interface introdúcese a mesma información que antes, pero a definición do termo identificador do glosario empresarial converteuse nun requisito previo. Así é como construímos unha conexión entre o negocio e as capas físicas.

Quen o necesita? Que había de malo no vello formato co que traballaches durante varios anos? Canto aumentaron os custos laborais para xerar necesidades? Tivemos que tratar con tales cuestións durante a implantación da ferramenta. As respostas aquí son bastante sinxelas: todos necesitamos isto, a oficina de datos da nosa empresa e os nosos usuarios.

Efectivamente, os empregados tiveron que adaptarse; nun primeiro momento, isto provocou un lixeiro aumento dos custos laborais para elaborar a documentación, pero solucionamos este problema. A práctica, a identificación e a optimización das áreas problemáticas fixeron o seu traballo. Conseguimos o principal: melloramos a calidade dos requisitos desenvolvidos. Campos obrigatorios, libros de referencia unificados, máscaras de entrada, comprobacións integradas: todo isto permitiu mellorar significativamente a calidade das descricións de transformación. Afastámonos da práctica de entregar scripts como requisitos de desenvolvemento e compartimos coñecementos que só estaban dispoñibles para o equipo de desenvolvemento. A base de datos de metadatos xerada reduce significativamente o tempo necesario para realizar análises de regresión e ofrece a capacidade de avaliar rapidamente o impacto dos cambios en calquera capa do panorama informático (informes de vitrina, agregados, fontes).

Que ten que ver isto cos usuarios comúns de informes, cales son as vantaxes para eles? Grazas á capacidade de construír DataLineage, os nosos usuarios, incluso aqueles que están afastados de SQL e outras linguaxes de programación, reciben rapidamente información sobre as fontes e obxectos a partir dos cales se xera un determinado informe.

Módulo de Control de Calidade de Datos

Todo o que falamos anteriormente en canto a garantir a transparencia dos datos non é importante sen entender que os datos que damos aos usuarios son correctos. Un dos módulos importantes do noso concepto de gobernanza de datos é o módulo de control de calidade dos datos.

Na fase actual, trátase dun catálogo de cheques para as entidades seleccionadas. O obxectivo inmediato para o desenvolvemento do produto é ampliar a lista de comprobacións e integrarse co rexistro de informes.
Que dará e a quen? O usuario final do rexistro terá acceso á información sobre as datas previstas e reais de preparación do informe, os resultados das comprobacións realizadas con dinámica e información sobre as fontes cargadas no informe.

Para nós, o módulo de calidade de datos integrado nos nosos procesos de traballo é:

  • Formación rápida das expectativas dos clientes.
  • Toma de decisións sobre o uso posterior dos datos.
  • Obtención dun conxunto preliminar de puntos problemáticos nas fases iniciais do traballo para o desenvolvemento de controis de calidade regulares.

Por suposto, estes son os primeiros pasos para construír un proceso de xestión de datos completo. Pero estamos seguros de que só facendo este traballo a propósito, introducindo activamente ferramentas de goberno de datos no proceso de traballo, proporcionaremos aos nosos clientes contido informativo, un alto nivel de confianza nos datos, transparencia na recepción e aumentaremos a velocidade de lanzamento. nova funcionalidade.

Equipo de DataOffice

Fonte: www.habr.com

Engadir un comentario