分布式数据处理平台Apache Hadoop 3.3发布

经过一年半的开发,Apache 软件基金会 опубликовала 发布 阿帕奇Hadoop 3.3.0,一个免费平台,用于使用范例组织大量数据的分布式处理 映射/减少,其中任务被分为许多较小的单独片段,每个片段都可以在单独的集群节点上启动。基于 Hadoop 的存储可以跨越数千个节点并包含 EB 级数据。

Hadoop 包含 Hadoop 分布式文件系统 (HDFS) 的实现,它自动提供数据备份并针对 MapReduce 应用程序进行了优化。为了简化对 Hadoop 存储中数据的访问,开发了 HBase 数据库和类 SQL 语言 Pig,它是一种用于 MapReduce 的 SQL,其查询可以由多个 Hadoop 平台并行化和处理。经评估,该项目完全稳定,具备工业化运营条件。 Hadoop 积极应用于大型工业项目,提供类似于 Google Bigtable/GFS/MapReduce 平台的功能,同时 Google 已正式 委托的 Hadoop和其他Apache项目有权使用与MapReduce方法相关的专利所涵盖的技术。

就更改数量而言,Hadoop 在 Apache 存储库中排名第一,就代码库大小(约 4 万行代码)而言排名第五。主要的 Hadoop 实现包括 Netflix(每天存储超过 500 亿个事件)、Twitter(一个由 10 万个节点组成的集群,实时存储超过 5 ZB 的数据,每天处理超过 4 亿个会话)、Facebook(一个集群) 300 个节点存储超过 4 PB,并且每天以 XNUMX PB 的速度增加)。

变化 在 Apache Hadoop 3.3 中:

  • 增加了对基于ARM架构平台的支持。
  • 格式的实施 原缓冲区 由于 protobuf-3.7.1 分支生命周期的结束,用于序列化结构化数据的(协议缓冲区)已更新至版本 2.5.0。
  • S3A 连接器的功能已得到扩展:添加了对使用令牌进行身份验证的支持(委托代币),改进了对代码 404 缓存响应的支持,提高了 S3guard 性能并提高了操作可靠性。
  • 自动调整的问题已在 ABFS 文件系统中得到解决。
  • 新增对腾讯云 COS 文件系统的原生支持,用于访问 COS 对象存储。
  • 添加了对 Java 11 的全面支持。
  • HDFS RBF(基于路由器的联邦)的实现已经稳定。 HDFS 路由器中添加了安全控制。
  • 添加了 DNS 解析服务,让客户端可以通过主机名通过 DNS 确定服务器,从而无需在设置中列出所有主机。
  • 添加了启动计划支持 机会主义容器 通过集中式资源管理器(ResourceManager),包括考虑到每个节点的负载来分配容器的能力。
  • 添加了可搜索的 YARN(Yet Another Resource Negotiator)应用程序目录。

来源: opennet.ru

添加评论