大数据大计费:关于电信中的大数据

2008年,大数据是一个新术语和时尚趋势。 2019年,大数据是一个销售对象、一个利润来源和新账单的一个原因。

去年秋天,俄罗斯政府发起了一项监管大数据的法案。 可能无法从信息中识别个人身份,但可以根据联邦当局的要求这样做。 仅在 Roskomnadzor 通知后才为第三方处理大数据。 拥有超过 100 万个网络地址的公司受该法律管辖。 当然,如果没有寄存器,则应该创建一个包含数据库操作员列表的寄存器。 如果说以前大数据没有被每个人认真对待的话,那么现在就必须考虑到它了。

作为处理这种大数据的计费开发公司的主管,我不能忽视数据库。 我将从电信运营商的角度来思考大数据,每天都有数千名用户的信息流通过电信运营商的计费系统。

定理

让我们开始吧,就像数学问题一样:首先我们证明电信运营商的数据可以称为BigDat。 通常,大数据具有三个VVV特征,尽管在自由解释中“V”的数量达到了七个。

体积。 仅 Rostelecom 的 MVNO 就为超过 44 万用户提供服务。 主要主机运营商处理 78 至 2019 万人的数据。 流量每秒都在增长:3,3 年第一季度,用户已通过手机访问了 XNUMX 亿GB。

速度。 没有人能比统计数据更好地告诉你动态,所以我将回顾一下思科的预测。 到 2021 年,20% 的 IP 流量将流向移动流量——五年内几乎增加两倍。 三分之一的移动连接将是M2M——物联网的发展将导致连接数量增加六倍。 物联网不仅会变得有利可图,而且会变得资源密集型,因此一些运营商只会专注于它。 那些将物联网开发为单独服务的人将获得双倍流量。

种类。 多样性是一个主观概念,但电信运营商确实几乎了解其用户的一切。 从姓名和护照详细信息到手机型号、购买、去过的地方和兴趣。 根据 Yarovaya 法律,媒体文件的保存期限为六个月。 因此,我们将收集的数据多种多样作为一个公理。

软件和方法

提供商是大数据的主要消费者之一,因此大多数大数据分析技术都适用于电信行业。 另一个问题是谁准备好投资ML、AI、深度学习的发展,投资数据中心和数据挖掘。 成熟的数据库工作由基础设施和团队组成,其成本并不是每个人都能负担得起。 已经拥有企业仓库或正在开发数据治理方法的企业应该押注于大数据。 对于那些还没有做好长期投资准备的人,我建议你逐步搭建软件架构,并一一安装组件。 您可以将繁重的模块和 Hadoop 留到最后。 很少有人会购买现成的解决方案来解决数据质量和数据挖掘等问题;公司通常会根据自己的特定规范和需求定制系统 - 自己或在开发人员的帮助下。

但并非所有账单都可以修改以与大数据配合使用。 或者更确切地说,不仅一切都可以修改。 很少有人能做到这一点。

计费系统有机会成为数据库处理工具的三个迹象:

  • 水平可扩展性。 软件必须灵活——我们谈论的是大数据。 信息量的增加应该通过集群中硬件的成比例增加来应对。
  • 容错性。 严格的预付费系统通常默认是容错的:计费部署在多个地理位置的集群中,以便它们自动相互保证。 Hadoop 集群中还应该有足够的计算机,以防一台或多台出现故障。
  • 地点。 数据必须在一台服务器上存储和处理,否则数据传输可能会导致崩溃。 流行的 Map-Reduce 方法方案之一:HDFS 存储、Spark 进程。 理想情况下,该软件应无缝集成到数据中心基础设施中,并且能够合而为三:收集、组织和分析信息。

团队

程序处理大数据的内容、方式和目的由团队决定。 通常它由一个人组成——一名数据科学家。 不过,在我看来,大数据的最低员工配置还包括产品经理、数据工程师和经理。 第一个理解服务,将技术语言翻译成人类语言,反之亦然。 数据工程师使用 Java/Scala 和机器学习实验将模型变为现实。 经理协调、设定目标并控制各个阶段。

问题

在收集和处理数据时,通常会出现问题的是大数据团队。 该程序需要解释要收集什么以及如何处理它 - 为了解释这一点,您首先需要自己理解它。 但对于供应商来说,事情就没那么简单了。 我以减少用户流失的任务为例来讨论这些问题——这就是电信运营商首先试图借助大数据来解决的问题。

设定目标。 编写良好的技术规范和对术语的不同理解不仅对自由职业者来说是一个数百年的痛苦。 即使“放弃”的用户也可以有不同的解释——一个月、六个月或一年没有使用运营商服务的用户。 要根据历史数据创建 MVP,您需要了解用户流失后返回的频率 - 那些尝试过其他运营商或离开城市并使用不同号码的用户。 另一个重要问题:提供商应在订阅者预计离开之前多久确定这一点并采取行动? 六个月太早,一周就太晚了。

替代概念。 通常,运营商通过电话号码识别客户,因此使用它上传标志是合乎逻辑的。 您的个人帐户或服务申请号怎么样? 需要决定将哪个单位作为客户端,以使运营商系统中的数据不发生变化。 评估客户的价值也是值得怀疑的——哪些订户对公司更有价值,哪些用户需要付出更多努力才能留住,哪些用户无论如何都会“流失”,而在他们身上花费资源是没有意义的。

缺乏信息。 并非所有提供商员工都能向大数据团队解释具体影响订户流失的因素以及如何计算计费中的可能因素。 即使他们将其中之一命名为 ARPU,但事实证明它可以通过不同的方式计算:要么通过定期客户付款,要么通过自动计费。 在工作过程中,还会出现一百万个其他问题。 该模型是否覆盖了所有客户,保留客户的价格是多少,思考替代模型是否有意义,以及如何处理被错误人为保留的客户。

目标设定。 我知道三种类型的结果错误会导致操作员对数据库感到沮丧。

  1. 该提供商投资于大数据,处理千兆字节的信息,但得到的结果本来可以更便宜。 使用简单的图表和模型以及原始分析。 成本高出很多倍,但结果是一样的。
  2. 操作员接收多方面的数据作为输出,但不了解如何使用它。 有分析——就在这里,可以理解,而且很长,但是没有用。 最终的结果不能包含“处理数据”的目标,还没有经过深思熟虑。 仅仅处理是不够的——分析应该成为更新业务流程的基础。
  3. 使用大数据分析的障碍可能是过时的业务流程和不适合新用途的软件。 这意味着他们在准备阶段犯了一个错误——他们没有考虑清楚行动的算法和将大数据引入工作的阶段。

为什么

说到结果。 我将回顾电信运营商已经在使用的大数据的使用和货币化方法。
提供商不仅预测用户的流出,还预测基站的负载。

  1. 分析有关用户移动、活动和频率服务的信息。 结果:由于基础设施问题区域的优化和现代化,过载数量减少。
  2. 电信运营商在开设销售点时会使用有关用户地理位置和流量密度的信息。 因此,MTS 和 VimpelCom 已使用大数据分析来规划新办公室的位置。
  3. 提供商通过向第三方提供自己的大数据来货币化。 大数据运营商的主要客户是商业银行。 他们利用该数据库监控与卡相连的用户 SIM 卡的可疑活动,并使用风险评分、验证和监控服务。 2017 年,莫斯科政府要求 Tele2 提供基于大数据的运动动态,以规划技术和交通基础设施。
  4. 大数据分析对于营销人员来说是一座金矿,如果他们愿意的话,他们可以为多达数千个用户群体创建个性化的广告活动。 电信公司汇总用户的社交资料、消费者兴趣和行为模式,然后利用收集到的大数据来吸引新客户。 但对于大规模的促销和公关策划,计费并不总是具有足够的功能:该计划必须同时考虑许多因素以及有关客户的详细信息。

尽管有些人仍然认为大数据只是一句空话,但四大巨头已经在利用它赚钱。 MTS 在六个月内通过大数据处理赚取了 14 亿卢布,Tele2 的项目收入增加了三倍半。 大数据正在从趋势变成必然,电信运营商的整个架构将被重构。

来源: habr.com

添加评论