Gobierno de datos interno

¡Hola, Habr!

Los datos son el activo más valioso de una empresa. Casi todas las empresas con enfoque digital lo declaran. Es difícil discutir esto: no se celebra ni una sola conferencia importante de TI sin discutir enfoques para la gestión, el almacenamiento y el procesamiento de datos.

Los datos nos llegan del exterior, también se generan dentro de la empresa, y si hablamos de datos de una empresa de telecomunicaciones, entonces para los empleados internos es un almacén de información sobre el cliente, sus intereses, hábitos y ubicación. Con una elaboración de perfiles y una segmentación adecuadas, las ofertas publicitarias son más efectivas. Sin embargo, en la práctica no todo es tan color de rosa. Los datos que almacenan las empresas pueden estar irremediablemente desactualizados, redundantes, repetitivos o su existencia es desconocida para cualquiera, excepto para un círculo reducido de usuarios. ¯_(ツ)_/¯

Gobierno de datos interno
En una palabra, los datos deben gestionarse de forma eficaz; sólo así se convertirán en un activo que aportará beneficios y ganancias reales al negocio. Desafortunadamente, resolver problemas de gestión de datos requiere superar muchas complejidades. Se deben principalmente tanto al legado histórico en forma de “zoológicos” de sistemas como a la falta de procesos y enfoques unificados para su gestión. Pero ¿qué significa estar “basado en datos”?

Esto es exactamente de lo que hablaremos en el corte, así como de cómo nos ayudó la pila de código abierto.

El concepto de gestión estratégica de datos Gobernanza de datos (DG) ya es bastante conocido en el mercado ruso, y los objetivos alcanzados por las empresas como resultado de su implementación son claros y declarados. Nuestra empresa no fue una excepción y se propuso introducir el concepto de gestión de datos.

Entonces, ¿por dónde empezamos? Para empezar, nos fijamos objetivos clave:

  1. Mantener nuestros datos accesibles.
  2. Garantizar la transparencia del ciclo de vida de los datos.
  3. Proporcione a los usuarios de la empresa datos consistentes y consistentes.
  4. Proporcionar a los usuarios de la empresa datos verificados.

Hoy en día, hay una docena de herramientas de clase de Gobernanza de datos en el mercado de software.

Gobierno de datos interno

Pero después de un análisis y estudio detallado de las soluciones, registramos una serie de comentarios críticos para nosotros mismos:

  • La mayoría de los fabricantes ofrecen un conjunto completo de soluciones que para nosotros son redundantes y duplican la funcionalidad existente. Además, la integración en el panorama de TI actual es costosa en términos de recursos.
  • La funcionalidad y la interfaz están diseñadas para tecnólogos, no para usuarios finales empresariales.
  • Baja tasa de supervivencia de los productos y falta de implementaciones exitosas en el mercado ruso.
  • Alto costo de software y soporte adicional.

Los criterios y recomendaciones expresados ​​anteriormente sobre la sustitución de importaciones de software para las empresas rusas nos convencieron de avanzar hacia nuestro propio desarrollo en una pila de código abierto. La plataforma que elegimos fue Django, un framework gratuito y de código abierto escrito en Python. Y así hemos identificado módulos clave que contribuirán a los objetivos establecidos anteriormente:

  1. Registro de informes.
  2. Glosario empresarial.
  3. Módulo de descripción de transformaciones técnicas.
  4. Módulo de descripción del ciclo de vida de los datos desde el origen hasta la herramienta de BI.
  5. Módulo de control de calidad de datos.

Gobierno de datos interno

registro de informes

Según los resultados de estudios internos en grandes empresas, al resolver problemas relacionados con datos, los empleados dedican entre el 40 y el 80% de su tiempo a buscarlos. Por lo tanto, nos propusimos la tarea de hacer pública la información sobre los informes existentes que antes solo estaban disponibles para los clientes. Así, reducimos el tiempo de generación de nuevos informes y aseguramos la democratización de los datos.

Gobierno de datos interno

El registro de informes se ha convertido en una ventana única de informes para los usuarios internos de varias regiones, departamentos y divisiones. Consolida información sobre los servicios de información creados en varios repositorios corporativos de la empresa, y hay muchos de ellos en Rostelecom.

Pero el registro no es sólo una lista seca de informes elaborados. Para cada informe, proporcionamos la información necesaria para que el usuario se familiarice con el mismo:

  • breve descripción del informe;
  • profundidad de la disponibilidad de datos;
  • segmento de clientes;
  • herramienta de visualización;
  • nombre del almacenamiento corporativo;
  • requisitos funcionales comerciales;
  • enlace al informe;
  • enlace a la solicitud de acceso;
  • estado de implementación.

Los análisis de nivel de uso están disponibles para los informes, y los informes se clasifican en la parte superior de la lista según el análisis de registros según la cantidad de usuarios únicos. Y eso no es todo. Además de las características generales, también hemos proporcionado una descripción detallada de la composición de atributos de los informes con ejemplos de valores y métodos de cálculo. Estos detalles dan inmediatamente al usuario una respuesta sobre si el informe le resulta útil o no.

El desarrollo de este módulo fue un paso importante en la democratización de los datos y redujo significativamente el tiempo necesario para encontrar la información requerida. Además de reducir el tiempo de búsqueda, también ha disminuido la cantidad de solicitudes al equipo de soporte para brindar consultas. Es imposible no señalar otro resultado útil que logramos al desarrollar un registro unificado de informes, evitando la elaboración de informes duplicados para diferentes unidades estructurales.

Glosario de negocios

Todos sabéis que incluso dentro de una misma empresa, las empresas hablan diferentes idiomas. Sí, usan los mismos términos, pero significan cosas completamente diferentes. Un glosario empresarial está diseñado para resolver este problema.

Para nosotros, un glosario empresarial no es sólo un libro de referencia con una descripción de términos y métodos de cálculo. Este es un entorno completo para desarrollar, acordar y aprobar terminología, construir relaciones entre términos y otros activos de información de la empresa. Antes de ingresar al glosario empresarial, un término debe pasar por todas las etapas de aprobación con los clientes comerciales y el centro de calidad de datos. Sólo después de esto estará disponible para su uso.

Como escribí anteriormente, la singularidad de esta herramienta es que permite conexiones desde el nivel de un término comercial a informes de usuario específicos en los que se utiliza, así como al nivel de objetos físicos de la base de datos.

Gobierno de datos interno

Esto es posible mediante el uso de identificadores de términos del glosario en la descripción detallada de los informes de registro y la descripción de los objetos físicos de la base de datos.

Actualmente, se han definido y acordado más de 4000 términos en el Glosario. Su uso simplifica y agiliza el procesamiento de las solicitudes entrantes de cambios en los sistemas de información de la empresa. Si el indicador requerido ya está implementado en algún informe, el usuario verá inmediatamente un conjunto de informes listos para usar donde se utiliza este indicador y podrá decidir sobre la reutilización efectiva de la funcionalidad existente o su modificación mínima, sin iniciar nuevas solicitudes para la elaboración de un nuevo informe.

Módulo de descripción de transformaciones técnicas y DataLineage.

¿Cuáles son estos módulos, preguntas? No basta simplemente con implementar el Registro de informes y el Glosario; también es necesario basar todos los términos comerciales en el modelo de base de datos física. De esta manera, pudimos completar el proceso de formación del ciclo de vida de los datos desde los sistemas de origen hasta la visualización de BI a través de todas las capas del almacén de datos. En otras palabras, cree un DataLineage.

Desarrollamos una interfaz basada en el formato utilizado anteriormente en la empresa para describir las reglas y la lógica de transformación de datos. A través de la interfaz se ingresa la misma información que antes, pero la definición del término identificador del glosario empresarial se ha convertido en un requisito previo. Así es como construimos una conexión entre las capas empresarial y física.

¿Quién lo necesita? ¿Qué había de malo en el antiguo formato con el que trabajó durante varios años? ¿Cuánto han aumentado los costos laborales para generar requisitos? Tuvimos que abordar estas cuestiones durante la implementación de la herramienta. Las respuestas aquí son bastante simples: todos lo necesitamos, la oficina de datos de nuestra empresa y nuestros usuarios.

De hecho, los empleados tuvieron que adaptarse, lo que al principio provocó un ligero aumento de los costes laborales para la preparación de la documentación, pero este problema lo solucionamos. La práctica, la identificación y la optimización de áreas problemáticas han hecho su trabajo. Hemos logrado lo principal: hemos mejorado la calidad de los requisitos desarrollados. Campos obligatorios, libros de referencia unificados, máscaras de entrada, comprobaciones integradas: todo esto hizo posible mejorar significativamente la calidad de las descripciones de las transformaciones. Nos alejamos de la práctica de entregar scripts en forma de requisitos de desarrollo y conocimientos compartidos que solo estaban disponibles para el equipo de desarrollo. La base de datos de metadatos generada reduce significativamente el tiempo necesario para realizar análisis de regresión y brinda la capacidad de evaluar rápidamente el impacto de los cambios en cualquier capa del panorama de TI (informes de presentación, agregados, fuentes).

¿Qué tiene esto que ver con los usuarios habituales de informes? ¿Cuáles son las ventajas para ellos? Gracias a la capacidad de construir DataLineage, nuestros usuarios, incluso aquellos que están lejos de SQL y otros lenguajes de programación, reciben rápidamente información sobre las fuentes y los objetos a partir de los cuales se genera un informe en particular.

Módulo de control de calidad de datos

Todo lo que hemos hablado anteriormente en términos de garantizar la transparencia de los datos no es importante sin entender que los datos que damos a los usuarios son correctos. Uno de los módulos importantes de nuestro concepto de Gobierno de datos es el módulo de control de calidad de los datos.

En la etapa actual, se trata de un catálogo de cheques para entidades seleccionadas. El objetivo inmediato para el desarrollo de productos es ampliar la lista de controles e integrarla con el registro de informes.
¿Qué dará y a quién? El usuario final del registro tendrá acceso a información sobre las fechas planificadas y reales de preparación del informe, los resultados de las verificaciones dinámicas realizadas y la información sobre las fuentes cargadas en el informe.

Para nosotros el módulo de calidad de datos integrado en nuestros procesos de trabajo es:

  • Rápida formación de las expectativas del cliente.
  • Tomar decisiones sobre el uso posterior de los datos.
  • Obtención de un conjunto preliminar de puntos problemáticos en las etapas iniciales de trabajo para el desarrollo de controles de calidad periódicos.

Por supuesto, estos son los primeros pasos para construir un proceso de gestión de datos completo. Pero estamos seguros de que sólo si hacemos este trabajo con determinación, introduciendo activamente herramientas de Gobernanza de Datos en el proceso de trabajo, proporcionaremos a nuestros clientes contenido informativo, un alto nivel de confianza en los datos, transparencia en su recepción y aumentaremos la velocidad de lanzamiento. nueva funcionalidad.

Equipo de oficina de datos

Fuente: habr.com

Añadir un comentario