Governança de dados interna

Oi, Habr!

Os dados são o ativo mais valioso de uma empresa. Quase todas as empresas com foco digital declaram isso. É difícil argumentar contra isso: nenhuma grande conferência de TI é realizada sem discutir abordagens para gerenciar, armazenar e processar dados.

Os dados chegam até nós de fora, também são gerados dentro da empresa, e se falamos de dados de uma empresa de telecomunicações, então para os funcionários internos este é um depósito de informações sobre o cliente, seus interesses, hábitos e localização. Com perfil e segmentação adequados, as ofertas publicitárias são mais eficazes. Porém, na prática, nem tudo é tão otimista. Os dados que as empresas armazenam podem estar irremediavelmente desatualizados, redundantes, repetitivos ou a sua existência é desconhecida por qualquer pessoa, exceto por um círculo restrito de utilizadores. ¯_(ツ)_/¯

Governança de dados interna
Em suma, os dados devem ser geridos de forma eficaz – só assim se tornarão num activo que traga benefícios e lucros reais para o negócio. Infelizmente, resolver problemas de gerenciamento de dados exige a superação de muitas complexidades. Devem-se principalmente ao legado histórico sob a forma de “zoológicos” de sistemas e à falta de processos e abordagens unificados para a sua gestão. Mas o que significa ser “orientado por dados”?

É exatamente sobre isso que falaremos abaixo, e também sobre como a pilha de código aberto nos ajudou.

O conceito de gestão estratégica de dados Governança de Dados (DG) já é bastante conhecido no mercado russo, e os objetivos alcançados pelas empresas como resultado de sua implementação são claros e claramente declarados. A nossa empresa não foi exceção e se propôs a introduzir o conceito de gestão de dados.

Então, por onde começamos? Para começar, estabelecemos objetivos principais para nós mesmos:

  1. Mantenha nossos dados acessíveis.
  2. Garanta a transparência do ciclo de vida dos dados.
  3. Forneça aos usuários da empresa dados consistentes e consistentes.
  4. Forneça aos usuários da empresa dados verificados.

Hoje, existem uma dezena de ferramentas de classe de Governança de Dados no mercado de software.

Governança de dados interna

Mas depois de uma análise detalhada e estudo das soluções, registramos uma série de comentários críticos para nós mesmos:

  • A maioria dos fabricantes oferece um conjunto abrangente de soluções, que para nós é redundante e duplica a funcionalidade existente. Além disso, a integração no cenário atual de TI é cara em termos de recursos.
  • A funcionalidade e a interface foram projetadas para tecnólogos, não para usuários finais de negócios.
  • Baixa taxa de sobrevivência dos produtos e falta de implementações bem-sucedidas no mercado russo.
  • Alto custo de software e suporte adicional.

Os critérios e recomendações expressos acima relativamente à substituição de importações de software para empresas russas convenceram-nos a avançar para o nosso próprio desenvolvimento numa pilha de código aberto. A plataforma que escolhemos foi o Django, um framework gratuito e de código aberto escrito em Python. E assim identificamos módulos-chave que contribuirão para os objetivos declarados acima:

  1. Cadastro de relatórios.
  2. Glossário de negócios.
  3. Módulo para descrição de transformações técnicas.
  4. Módulo para descrição do ciclo de vida dos dados desde a origem até a ferramenta de BI.
  5. Módulo de controle de qualidade de dados.

Governança de dados interna

Cadastro de relatórios

De acordo com os resultados de estudos internos em grandes empresas, na resolução de problemas relacionados com dados, os colaboradores passam 40-80% do seu tempo à procura deles. Portanto, nos propusemos a tornar abertas as informações sobre os relatórios existentes que antes estavam disponíveis apenas para os clientes. Assim, reduzimos o tempo de geração de novos relatórios e garantimos a democratização dos dados.

Governança de dados interna

O registro de relatórios tornou-se uma janela única de relatórios para usuários internos de diversas regiões, departamentos e divisões. Consolida informações sobre serviços de informação criados em diversos repositórios corporativos da empresa, muitos deles na Rostelecom.

Mas o registro não é apenas uma lista seca de relatórios desenvolvidos. Para cada relatório fornecemos as informações necessárias para que o usuário se familiarize com ele:

  • breve descrição do relatório;
  • profundidade da disponibilidade de dados;
  • segmento de clientes;
  • ferramenta de visualização;
  • nome do armazenamento corporativo;
  • requisitos funcionais de negócios;
  • link para o relatório;
  • link para pedido de acesso;
  • estado de implementação.

A análise do nível de uso está disponível para relatórios, e os relatórios são classificados no topo da lista com base na análise de log com base no número de usuários únicos. E não é isso. Além das características gerais, também fornecemos uma descrição detalhada da composição de atributos dos relatórios com exemplos de valores e métodos de cálculo. Esse detalhamento dá imediatamente ao usuário uma resposta se o relatório é útil para ele ou não.

O desenvolvimento deste módulo foi um passo importante na democratização dos dados e reduziu significativamente o tempo necessário para encontrar a informação necessária. Além de reduzir o tempo de busca, o número de solicitações à equipe de suporte para realização de consultas também diminuiu. É impossível não notar outro resultado útil que alcançamos ao desenvolver um cadastro unificado de relatórios - evitando o desenvolvimento de relatórios duplicados para diferentes unidades estruturais.

Glossário de negócios

Todos vocês sabem que mesmo dentro da mesma empresa as empresas falam línguas diferentes. Sim, eles usam os mesmos termos, mas significam coisas completamente diferentes. Um glossário comercial foi projetado para resolver esse problema.

Para nós, um glossário empresarial não é apenas um livro de referência com descrição de termos e metodologia de cálculo. Este é um ambiente completo para desenvolver, concordar e aprovar terminologia, construindo relacionamentos entre termos e outros ativos de informação da empresa. Antes de entrar no glossário empresarial, um termo deve passar por todas as etapas de aprovação junto aos clientes empresariais e ao centro de qualidade de dados. Somente depois disso ele fica disponível para uso.

Como escrevi acima, a singularidade desta ferramenta é que ela permite conexões desde o nível de um termo comercial até relatórios de usuários específicos nos quais é usada, bem como ao nível de objetos físicos do banco de dados.

Governança de dados interna

Isso é possível através do uso de identificadores de termos do glossário na descrição detalhada dos relatórios de registro e na descrição dos objetos físicos do banco de dados.

Atualmente, mais de 4000 termos foram definidos e acordados no Glossário. A sua utilização simplifica e agiliza o processamento dos pedidos recebidos de alterações nos sistemas de informação da empresa. Se o indicador necessário já estiver implementado em algum relatório, o usuário verá imediatamente um conjunto de relatórios prontos onde este indicador é utilizado, e poderá decidir sobre a reutilização efetiva da funcionalidade existente ou sua modificação mínima, sem iniciar novas solicitações para o desenvolvimento de um novo relatório.

Módulo para descrever transformações técnicas e DataLineage

Quais são esses módulos, você pergunta? Não basta simplesmente implementar o Registro de Relatórios e o Glossário; também é necessário fundamentar todos os termos comerciais no modelo de banco de dados físico. Assim, conseguimos completar o processo de formação do ciclo de vida dos dados, desde os sistemas de origem até a visualização do BI, passando por todas as camadas do data warehouse. Em outras palavras, construa um DataLineage.

Desenvolvemos uma interface baseada no formato utilizado anteriormente na empresa para descrição das regras e lógica de transformação dos dados. As mesmas informações são inseridas através da interface como antes, mas a definição do termo identificador no glossário comercial tornou-se um pré-requisito. É assim que construímos uma conexão entre as camadas de negócios e físicas.

Quem precisa disso? O que havia de errado com o formato antigo com o qual você trabalhou durante vários anos? Quanto aumentaram os custos de mão-de-obra para gerar necessidades? Tivemos que lidar com essas questões durante a implementação da ferramenta. As respostas aqui são bastante simples – todos nós precisamos disso, o escritório de dados da nossa empresa e os nossos usuários.

Na verdade, os funcionários tiveram que se adaptar, a princípio isso levou a um ligeiro aumento nos custos trabalhistas para preparação da documentação, mas resolvemos esse problema. A prática, identificando e otimizando áreas problemáticas fizeram seu trabalho. Conseguimos o principal - melhoramos a qualidade dos requisitos desenvolvidos. Campos obrigatórios, livros de referência unificados, máscaras de entrada, verificações integradas - tudo isso permitiu melhorar significativamente a qualidade das descrições das transformações. Afastamo-nos da prática de entregar scripts como requisitos de desenvolvimento e compartilhamos conhecimentos que só estavam disponíveis para a equipe de desenvolvimento. O banco de dados de metadados gerado reduz significativamente o tempo necessário para conduzir análises de regressão e fornece a capacidade de avaliar rapidamente o impacto das mudanças em qualquer camada do cenário de TI (relatórios de demonstração, agregados, fontes).

O que isso tem a ver com os usuários comuns de relatórios, quais são as vantagens para eles? Graças à capacidade de construir o DataLineage, nossos usuários, mesmo aqueles distantes do SQL e de outras linguagens de programação, recebem rapidamente informações sobre as fontes e objetos com base nos quais um determinado relatório é gerado.

Módulo de controle de qualidade de dados

Tudo o que falamos acima em termos de garantir a transparência dos dados não é importante sem a compreensão de que os dados que fornecemos aos usuários estão corretos. Um dos módulos importantes do nosso conceito de Governança de Dados é o módulo de controle de qualidade de dados.

Na fase atual, este é um catálogo de cheques para entidades selecionadas. O objetivo imediato do desenvolvimento do produto é ampliar a lista de verificações e integrá-la ao registro de relatórios.
O que isso dará e para quem? O usuário final do registro terá acesso a informações sobre as datas planejadas e reais de preparação do relatório, os resultados das verificações concluídas com dinâmica e informações sobre as fontes carregadas no relatório.

Para nós, o módulo de qualidade de dados integrado aos nossos processos de trabalho é:

  • Formação imediata das expectativas do cliente.
  • Tomar decisões sobre o uso futuro dos dados.
  • Obtenção de um conjunto preliminar de pontos problemáticos nas fases iniciais do trabalho para o desenvolvimento de controlos de qualidade regulares.

Claro, estes são os primeiros passos na construção de um processo completo de gerenciamento de dados. Mas estamos confiantes de que somente realizando este trabalho propositalmente, introduzindo ativamente ferramentas de Governança de Dados no processo de trabalho, forneceremos aos nossos clientes conteúdo informativo, alto nível de confiança nos dados, transparência no seu recebimento e aumentaremos a velocidade de lançamento nova funcionalidade.

Equipe DataOffice

Fonte: habr.com

Adicionar um comentário