大容量存储系统的行业趋势

今天,我们将讨论如何在第五代网络、基因组扫描仪和自动驾驶汽车一天产生的数据超过工业革命前全人类产生的数据的世界中最好地存储数据。

大容量存储系统的行业趋势

我们的世界产生越来越多的信息。 其中一些是稍纵即逝的,一旦收集起来就会丢失。 另一个应该保存更长时间,另一个完全是“百年”设计的——至少我们现在是这样看的。 信息流以如此之快的速度进入数据中心,任何旨在满足这种无休止“需求”的新方法、任何技术都将迅速变得过时。

大容量存储系统的行业趋势

分布式存储发展40年

我们熟悉的第一个网络存储出现在 1980 年代。 你们中的许多人都遇到过 NFS(网络文件系统)、AFS(Andrew 文件系统)或 Coda。 十年后,时尚和技术发生了变化,分布式文件系统已经让位于基于 GPFS(通用并行文件系统)、CFS(集群文件系统)和 StorNext 的集群存储系统。 作为基础,使用了经典架构的块存储,在其之上使用软件层创建了单个文件系统。 这些和类似的解决方案仍在使用,占据了他们的利基并且需求量很大。

千禧年之际,分布式存储范式发生了一些变化,采用 SN(Shared-Nothing)架构的系统占据了主导地位。 从集群存储过渡到单独节点上的存储,通常,这些节点是带有提供可靠存储的软件的经典服务器; 例如,HDFS(Hadoop 分布式文件系统)和 GFS(全局文件系统)构建了这样的原则。

接近 2010 年,分布式存储系统的概念越来越多地开始反映在成熟的商业产品中,例如 VMware vSAN、Dell EMC Isilon 和我们的 华为OceanStor. 上述平台的背后不再是爱好者社区,而是特定的供应商,他们负责产品的功能、支持、服务维护并保证其进一步发展。 此类解决方案在多个领域的需求量最大。

大容量存储系统的行业趋势

电信运营商

也许分布式存储系统最古老的消费者之一是电信运营商。 该图显示了哪些应用程序组产生了大量数据。 OSS(运营支持系统)、MSS(管理支持服务)和 BSS(业务支持系统)是向用户提供服务、向提供商提供财务报告以及向运营商工程师提供运营支持所需的三个互补软件层。

通常,这些层的数据彼此强烈混合,并且为了避免不必要的副本的积累,使用分布式存储来积累来自工作网络的全部信息量。 存储组合成一个公共池,所有服务都可以访问该池。

我们的计算表明,从经典存储系统到块存储系统的过渡仅通过放弃专用的高端存储系统并使用传统的经典架构服务器(通常是 x70),并结合专用软件,您就可以节省高达 86% 的预算。 很长一段时间以来,移动运营商一直在大量购买此类解决方案。 特别是,俄罗斯运营商已经使用华为的此类产品六年多了。

是的,许多任务无法使用分布式系统执行。 例如,随着性能要求的提高或与旧协议的兼容性。 但算子处理的数据至少有70%可以放在分布式池中。

大容量存储系统的行业趋势

银行业

在任何一家银行中,都有许多不同的 IT 系统,从处理系统到自动化银行系统。 这种基础架构还处理大量信息,而大多数任务并不需要提高存储系统的性能和可靠性,例如开发、测试、办公流程自动化等。在这里,使用经典存储系统是可能的,但每年它的利润越来越少。 此外,在这种情况下,存储资源的使用没有灵活性,其性能是根据峰值负载计算的。

在使用分布式存储系统时,它们的节点,其实就是普通的服务器,可以随时转换,比如变成一个服务器群,作为一个计算平台。

大容量存储系统的行业趋势

数据湖

上图显示了典型服务消费者的列表。 数据湖. 这些可以是电子政务服务(例如“Gosuslugi”)、经历了数字化的企业、金融结构等。所有这些都需要处理大量异构信息。

用于解决此类问题的经典存储系统的操作效率低下,因为既需要对块数据库的高性能访问,也需要定期访问存储为对象的扫描文档库。 例如,这里可以绑定一个通过门户网站的订单系统。 要在经典存储平台上实现所有这些,您将需要大量设备来完成不同的任务。 一个水平的通用存储系统可以轻松涵盖前面列出的所有任务:您只需要在其中创建几个具有不同存储特性的池。

大容量存储系统的行业趋势

新信息的产生者

世界上存储的信息量每年以大约 30% 的速度增长。 这对存储供应商来说是个好消息,但这些数据的主要来源是什么?

十年前,社交网络成为这样的发电机,需要创造大量新的算法、硬件解决方案等。现在存储增长的主要驱动力有三个。 首先是云计算。 目前,大约 70% 的公司以某种方式使用云服务。 这些可以是电子邮件系统、备份和其他虚拟化实体。
第五代网络正在成为第二个驱动力。 这些是新的速度和新的数据传输量。 根据我们的预测,5G 的广泛采用将导致对闪存卡的需求下降。 不管手机有多少内存,它还是结束了,如果小工具有百兆通道,就没有必要在本地存储照片。

存储系统需求增长的第三组原因包括人工智能的快速发展、向大数据分析的过渡以及一切可能的普遍自动化趋势。

“新流量”的一个特点是其 非结构化. 我们需要在不以任何方式定义其格式的情况下存储这些数据。 仅供后续阅读时需要。 例如,用于确定可用贷款规模的银行评分系统将查看您在社交网络上发布的照片​​,确定您去海边和餐馆的频率,同时研究您可用的医疗文件中的摘录。 这些数据,一方面是全面的,另一方面又缺乏同质性。

大容量存储系统的行业趋势

非结构化数据的海洋

“新数据”的出现会带来哪些问题? 其中首先当然是信息本身的数量及其存储的估计期限。 仅现代自动无人驾驶汽车每天从其所有传感器和机制中生成多达 60TB 的数据。 要开发新的运动算法,必须在同一天内处理这些信息,否则就会开始积累。 同时,它应该保存很长时间——几十年。 只有这样,以后才有可能根据大样本分析得出结论。

一台用于破译基因序列的设备每天产生大约 6 TB 的数据。 并且在其帮助下收集的数据根本不意味着删除,也就是说,假设它们应该被永久存储。

最后,第五代所有相同的网络。 除了本身传输的信息之外,这样的网络本身就是一个巨大的数据生成器:活动日志、通话记录、机器对机器交互的中间结果等。

所有这些都需要开发新的方法和算法来存储和处理信息。 这种方法正在出现。

大容量存储系统的行业趋势

新时代的技术

可以区分三组旨在应对信息存储系统新要求的解决方案:人工智能的引入、存储介质的技术演进和系统架构领域的创新。 让我们从人工智能开始。

大容量存储系统的行业趋势

在新的华为解决方案中,人工智能已经应用于存储本身,配备了人工智能处理器,允许系统独立分析其状态并预测故障。 如果存储系统连接到具有显着计算能力的服务云,人工智能可以处理更多信息并提高其假设的准确性。

除了故障之外,此类 AI 还能够预测未来的峰值负载以及容量耗尽之前的剩余时间。 这使您可以在任何不需要的事件发生之前优化性能并扩展系统。

大容量存储系统的行业趋势

现在谈谈数据载体的演变。 第一个闪存驱动器是使用 SLC(单级单元)技术制造的。 基于它的设备快速、可靠、稳定,但容量小且非常昂贵。 数量的增加和价格的降低是通过某些技术让步实现的,因此降低了驱动器的速度、可靠性和寿命。 然而,这种趋势并没有影响存储系统本身,由于各种架构技巧,存储系统通常变得更加高效和可靠。

但您为什么需要全闪存级存储系统? 仅仅用相同外形规格的新 SSD 替换已运行系统中的旧 HDD 还不够吗? 这是为了有效地使用新 SSD 的所有资源所必需的,这在旧系统中是根本不可能的。

以华为为例,已经开发出多项技术来解决这个问题,其中之一就是 闪光链接,这使得尽可能优化磁盘控制器交互成为可能。

智能识别可以将数据分解成多个流并应对许多不良现象,例如 WA (写放大)。 同时,新的恢复算法,特别是 RAID 2.0+, 提高了重建的速度,将其时间减少到完全无关紧要的值。

故障、过度拥挤、垃圾收集——由于控制器的特殊改进,这些因素也不再影响存储系统的性能。

大容量存储系统的行业趋势

和块数据存储正在准备迎接 NVMe. 回想一下组织数据访问的经典方案是这样工作的:处理器通过 PCI Express 总线访问 RAID 控制器。 反过来,它通过 SCSI 或 SAS 与机械磁盘交互。 在后端使用 NVMe 显着加快了整个过程,但有一个缺点:驱动器必须直接连接到处理器才能为其提供直接内存访问。

我们现在看到的下一阶段技术发展是 NVMe-oF(NVMe over Fabrics)的使用。 至于华为区块技术,他们已经支持FC-NVMe(NVMe over Fibre Channel),NVMe over RoCE(RDMA over Converged Ethernet)也在路上。 测试模型非常实用,距离正式展示还有几个月的时间。 请注意,这一切也将出现在分布式系统中,其中“无损以太网”的需求量很大。

大容量存储系统的行业趋势

优化分布式存储工作的另一种方法是完全拒绝数据镜像。 华为解决方案不再像通常的RAID 1那样使用n个副本,完全切换到机制 EC (擦除编码)。 一个特殊的数学包以一定的频率计算控制块,允许您在丢失的情况下恢复中间数据。

重复数据删除和压缩机制成为强制性的。 如果说在经典存储系统中我们受到控制器中安装的处理器数量的限制,那么在分布式水平可扩展存储系统中,每个节点都包含您需要的一切:磁盘、内存、处理器和互连。 这些资源足以让重复数据删除和压缩对性能的影响降到最低。

以及关于硬件优化的方法。 在这里,可以借助额外的专用微电路(或处理器本身的专用块)来减少中央处理器的负载,这些微电路起到了作用 脚趾 (TCP/IP 卸载引擎)或承担 EC、重复数据删除和压缩的数学任务。

大容量存储系统的行业趋势

数据存储的新方法体现在分解(分布式)架构中。 在集中式存储系统中,有一个服务器工厂通过光纤通道连接到 SAN的 有很多数组。 这种方法的缺点是难以扩展和提供有保证的服务水平(在性能或延迟方面)。 超融合系统使用相同的主机来存储和处理信息。 这为扩展提供了几乎无限的空间,但需要为维护数据完整性付出高昂的成本。

与上述两者不同,分解架构意味着 将系统划分为计算工厂和水平存储系统. 这提供了两种架构的优势,并且只允许几乎无限地扩展性能不够的元素。

大容量存储系统的行业趋势

从整合到融合

一个经典的任务是需要同时提供块存储、文件访问、对象访问、大数据农场的运营等,其相关性在过去 15 年才有所增长。锦上添花可以例如,也可以是磁带的备份系统。

第一阶段,只能统一管理这些服务。 异构数据存储系统对某些专用软件关闭,管理员通过这些软件从可用池中分配资源。 但由于这些池的硬件不同,因此无法在它们之间迁移负载。 在更高级别的集成中,整合发生在网关级别。 如果存在共享文件访问权限,则可以通过不同的协议进行访问。

我们现在可用的最先进的收敛方法涉及创建通用混合系统。 就像我们应该的那样 海洋存储100D. 通用访问使用相同的硬件资源,逻辑上分为不同的池,但允许负载迁移。 所有这些都可以通过一个管理控制台来完成。 通过这种方式,我们成功地实现了“一个数据中心-一个存储系统”的概念。

大容量存储系统的行业趋势

存储信息的成本现在决定了许多架构决策。 虽然它可以安全地放在最前沿,但我们今天讨论的是具有主动访问的“实时”存储,因此还必须考虑性能。 下一代分布式系统的另一个重要特性是统一性。 毕竟,没有人希望从不同的控制台管理多个不同的系统。 所有这些品质都体现在华为新系列产品中。 OceanStor太平洋.

下一代大容量存储

OceanStor Pacific满足六个99,9999(100%)的可靠性要求,可用于打造双活级数据中心。 两个数据中心之间的距离最远为 2 公里,系统显示出 XNUMX 毫秒的额外延迟,这使得基于它们构建任何防灾解决方案成为可能,包括那些具有仲裁服务器的解决方案。

大容量存储系统的行业趋势

新系列的产品在协议方面展示了多功能性。 OceanStor 100D已经支持块访问、对象访问和Hadoop访问。 文件访问将在不久的将来实现。 如果可以通过不同的协议发布数据,则无需保留数据的多个副本。

大容量存储系统的行业趋势

这样看来,“无损网络”的概念跟存储有什么关系呢? 事实上,分布式存储系统是建立在支持适当算法和RoCE机制的快速网络的基础上的。 我们的交换机支持的人工智能系统有助于进一步提高网络速度并减少延迟。 人工智能织物. 开启AI Fabric后,存储系统的性能提升可达20%。

大容量存储系统的行业趋势

什么是新的OceanStor Pacific分布式存储节点? 5U 外形规格的解决方案包括 120 个驱动器,可以替换三个经典节点,使机架空间增加一倍以上。 由于拒绝存储副本,驱动器的效率显着提高(高达 + 92%)。

我们已经习惯了软件定义存储是一种安装在经典服务器上的特殊软件。 但是现在,为了达到最优参数,这种架构方案还需要特殊的节点。 它由两台基于 ARM 处理器的服务器组成,管理着一个三英寸驱动器阵列。

大容量存储系统的行业趋势

这些服务器不太适合超融合解决方案。 一来ARM的应用很少,二来很难保持负载均衡。 我们建议切换到单独的存储:以经典服务器或机架服务器为代表的计算集群单独运行,但连接到 OceanStor Pacific 存储节点,这些节点也执行其直接任务。 它证明了自己。

例如,我们以占用 15 个服务器机架的经典超融合大数据存储解决方案为例。 如果在各个 OceanStor Pacific 计算服务器和存储节点之间分配负载,将它们彼此分开,所需机架的数量将减半! 这降低了数据中心的运营成本并降低了总体拥有成本。 在存储信息量以每年 30% 的速度增长的世界中,这种好处并不少见。

***

有关华为解决方案及其应用场景的更多信息,请访问我们的 在线 或直接联系公司代表。

来源: habr.com

添加评论