内部数据治理

嘿哈布尔!

数据是公司最有价值的资产。 几乎所有数字公司都声称这一点。 无可辩驳的是:没有一次大型 IT 会议不讨论管理、存储和处理数据的方法。

数据来自外部,也产生于公司内部,如果我们谈论来自电信公司的数据,那么对于内部员工来说,这是有关客户、他的兴趣、习惯和位置的信息仓库。 通过适当的分析和细分,广告优惠是最有效的。 然而,在实践中,并非一切都那么美好。 公司存储的数据可能已经完全过时、冗余、重复,或者除了一小部分用户之外,任何人都不知道其存在。 ˙_(ツ)_/˙

内部数据治理
总之,数据必须得到有效管理,才能成为为企业带来真正效益和利润的资产。 不幸的是,解决数据管理问题需要克服相当多的复杂性。 其主要原因是系统“动物园”形式的历史遗留问题以及缺乏统一的流程和管理方法。 但“数据驱动”意味着什么?

这正是我们将要讨论的内容,以及开源堆栈如何帮助我们。

战略数据管理数据治理(DG)的概念在俄罗斯市场已经广为人知,并且企业通过实施其实现的目标是明确且明确的。 我们公司也不例外,给自己设定了引入数据管理概念的任务。

那么我们从哪里开始呢? 首先,我们为自己制定了关键目标:

  1. 让我们的数据易于访问。
  2. 确保数据生命周期的透明度。
  3. 为公司用户提供一致、一致的数据。
  4. 为企业用户提供经过验证的数据。

如今,软件市场上有十几种数据治理类工具。

内部数据治理

但在对解决方案进行详细分析和研究后,我们为自己记录了一些批评意见:

  • 大多数制造商提供一套全面的解决方案,这对我们来说是多余的并且重复现有的功能。 此外,与当前 IT 环境的集成在资源方面也很昂贵。
  • 功能和界面是为技术人员设计的,而不是为业务最终用户设计的。
  • 产品成活率低,在俄罗斯市场缺乏成功实施。
  • 软件和进一步支持的成本很高。

上述关于俄罗斯公司软件进口替代的标准和建议说服我们在开源堆栈上转向我们自己的开发。 我们选择的平台是 Django,一个用 Python 编写的免费开源框架。 因此,我们确定了有助于实现上述目标的关键模块:

  1. 报告登记册。
  2. 商业术语表。
  3. 用于描述技术改造的模块。
  4. 用于描述从源到 BI 工具的数据生命周期的模块。
  5. 数据质量控制模块。

内部数据治理

报告登记册

根据大公司内部研究的结果,在解决与数据相关的问题时,员工花费40-80%的时间寻找数据。 因此,我们给自己设定的任务是公开现有报告的信息,这些信息以前仅供客户使用。 因此,我们减少了生成新报告的时间并确保数据的民主化。

内部数据治理

举报登记册已成为各地区、各部门、各部门内部用户的单一举报窗口。 它整合了公司多个企业存储库中创建的信息服务信息,Rostelecom 中有许多此类信息。

但登记处不仅仅是一份枯燥的已开发报告清单。 对于每份报告,我们都会提供用户熟悉所需的信息:

  • 报告的简要说明;
  • 数据可用性的深度;
  • 客户群;
  • 可视化工具;
  • 公司仓库名称;
  • 业务功能需求;
  • 报告链接;
  • 访问申请的链接;
  • 实施情况。

使用级别分析可用于报告,并且根据基于唯一用户数量的日志分析将报告排名在列表顶部。 事实并非如此。 除了一般特征外,我们还通过值和计算方法的示例对报告的属性组成进行了详细描述。 这样的详细信息可以立即让用户知道该报告对他是否有用。

该模块的开发是数据民主化的重要一步,大大减少了查找所需信息所需的时间。 除了减少搜索时间外,向支持团队提供咨询的请求数量也减少了。 我们不可能不注意到我们通过制定统一的报告登记册所取得的另一个有用成果——防止为不同的结构单位制定重复的报告。

业务术语表

大家都知道,即​​使在同一家公司内,业务也有不同的语言。 是的,他们使用相同的术语,但含义完全不同。 商业术语表就是为了解决这个问题而设计的。

对我们来说,商业术语表不仅仅是一本描述术语和计算方法的参考书。 这是一个成熟的环境,用于开发、商定和批准术语,在术语和公司其他信息资产之间建立关系。 在进入业务术语表之前,术语必须经过业务客户和数据质量中心批准的所有阶段。 只有在此之后才可以使用。

正如我在上面所写的,该工具的独特之处在于它允许从业务术语级别到使用该工具的特定用户报告以及物理数据库对象级别的连接。

内部数据治理

这是通过在注册表报告的详细描述和物理数据库对象的描述中使用术语表术语标识符来实现的。

目前,术语表中已定义并商定了 4000 多个术语。 它的使用简化并加快了公司信息系统中传入的更改请求的处理。 如果所需的指标已在任何报告中实现,则用户将立即看到一组使用该指标的现成报告,并且能够决定有效重用现有功能或其最小修改,而无需启动对编写新报告的新要求。

用于描述技术转换和 DataLineage 的模块

您问这些模块是什么? 仅仅实现报告注册和词汇表是不够的;还需要将所有业务术语建立在物理数据库模型的基础上。 这样,我们就能够通过数据仓库的各个层完成从源系统到BI可视化的数据生命周期的形成过程。 换句话说,构建一个 DataLineage。

我们根据公司之前使用的格式开发了一个接口,用于描述数据转换的规则和逻辑。 与以前一样通过界面输入相同的信息,但业务术语表中术语标识符的定义已成为先决条件。 这就是我们在业务层和物理层之间建立连接的方式。

谁需要它? 您使用了几年的旧格式有什么问题? 产生需求的劳动力成本增加了多少? 我们在实施该工具的过程中不得不处理这样的问题。 这里的答案非常简单 - 我们都需要这个,我们公司的数据办公室和我们的用户。

确实,员工必须适应;起初,这导致准备文件的劳动力成本略有增加,但我们解决了这个问题。 实践、识别和优化问题领域已经完成了他们的工作。 我们已经取得了主要成就——我们提高了所开发需求的质量。 必填字段、统一参考书、输入掩码、内置检查——所有这些使得显着提高转换描述的质量成为可能。 我们放弃了将脚本作为开发需求移交的做法,并共享只有开发团队才能使用的知识。 生成的元数据数据库显着减少了进行回归分析所需的时间,并提供了快速评估变更对 IT 环境任何层(展示报告、聚合、来源)的影响的能力。

这与报表的普通用户有什么关系,对他们来说有什么好处? 由于能够构建 DataLineage,我们的用户,即使是那些远离 SQL 和其他编程语言的用户,也可以快速接收有关生成特定报告的源和对象的信息。

数据质量控制模块

如果不了解我们提供给用户的数据是正确的,我们上面讨论的确保数据透明度的所有内容都不重要。 我们数据治理概念的重要模块之一是数据质量控制模块。

在当前阶段,这是针对选定实体的检查目录。 产品开发的近期目标是扩大检查范围并与报告登记处集成。
它将给予什么以及给谁? 注册表的最终用户将可以访问有关报告准备就绪的计划和实际日期的信息、已完成的动态检查结果以及有关加载到报告中的来源的信息。

对于我们来说,集成到我们工作流程中的数据质量模块是:

  • 迅速形成客户期望。
  • 就进一步使用数据做出决定。
  • 在工作的初始阶段获得一组初步的问题点,以制定定期质量控制。

当然,这些是构建成熟的数据管理流程的第一步。 但我们相信,只有有目的地做这项工作,积极将数据治理工具引入工作流程,我们才能为客户提供信息内容、对数据的高度信任、接收的透明度并提高启动速度新功能。

数据办公室团队

来源: habr.com

添加评论