Uma.Tech 如何开发基础设施

我们推出了新服务、流量增长、更换了服务器、连接了新站点并改造了数据中心 - 现在我们将讲述这个故事,我们在五年前向您介绍了这个故事的开头.

五年是总结中期业绩的典型时间。 因此,我们决定谈谈我们的基础设施的发展,在过去的五年里,我们的基础设施经历了一条令人惊讶的有趣的发展道路,我们对此感到自豪。 我们实施的量变已经转变为质变;现在基础设施可以以过去十年中看似美妙的模式运行。

我们确保最复杂的项目的运行,对可靠性和负载有最严格的要求,包括 PREMIER 和 Match TV。 体育赛事转播和热门电视剧的首播需要太比特/秒的流量,我们可以轻松实现这一点,而且这样的速度对我们来说早已司空见惯。 五年前,我们系统上运行的最重的项目是 Rutube,该项目自开发以来,数量和流量不断增加,在规划负载时必须考虑到这一点。

我们讨论了如何开发基础设施的硬件(“Rutube 2009-2015:我们硬件的历史”)并开发了一个负责上传视频的系统(“从零到每秒 700 吉比特 - 俄罗斯最大的视频托管网站之一如何上传视频”),但是自从这些文本编写以来已经过去了很多时间,许多其他解决方案已经被创建和实施,其结果使我们能够满足现代要求并足够灵活以适应新任务。

Uma.Tech 如何开发基础设施

网络核心 我们不断发展。 我们在2015年改用了Cisco设备,这一点我们在上一篇文章中提到过。 那时仍然是相同的 10/40G,但由于显而易见的原因,几年后他们升级了现有机箱,现在我们积极使用 25/100G。

Uma.Tech 如何开发基础设施

长期以来,100G 链路既不是奢侈品(而是我们所处时代的迫切需求),也不是稀有品(越来越多的运营商提供这种速度的连接)。 然而,10/40G 仍然具有相关性:通过这些链路,我们继续以少量流量连接运营商,目前不适合使用更大容量的端口。

我们创建的网络核心值得单独考虑,稍后将成为另一篇文章的主题。 在那里,我们将深入研究技术细节,并在创建它时考虑我们的操作逻辑。 但现在我们将继续更示意性地绘制基础设施,因为亲爱的读者,您的注意力不是无限的。

视频输出服务器 快速发展,为此我们付出了很多努力。 如果之前我们主要使用带有 2-4 个网卡(每个网卡有两个 5G 端口)的 10U 服务器,那么现在大部分流量是从 1U 服务器发送的,这些服务器有 2-3 个网卡,每个网卡有两个 25G 端口。 10G 和 25G 卡的成本几乎相同,更快的解决方案允许您通过 10G 和 25G 进行传输。 结果是明显的节省:更少的服务器组件和连接电缆 - 更低的成本(和更高的可靠性),组件在机架中占用的空间更少 - 可以在单位面积上放置更多的服务器,从而降低租赁成本。

但更重要的是速度的提升! 现在我们可以用1U发送超过100G! 而这是在俄罗斯一些大型项目将40U的2G输出称为“成就”的背景下进行的。 我们想解决他们的问题!

Uma.Tech 如何开发基础设施

请注意,我们仍然使用只能运行在 10G 上的一代网卡。 这台设备工作稳定,而且我们也很熟悉,所以我们没有扔掉它,而是为它找到了新的用途。 我们将这些组件安装在视频存储服务器中,一两个 1G 接口显然不足以有效运行;这里 10G 卡就足够了。

存储系统 也在增长。 在过去五年中,它们已从十二个磁盘(12x HDD 2U)变为三十六个磁盘(36x HDD 4U)。 有些人害怕使用如此宽敞的“机箱”,因为如果这样的机箱出现故障,可能会对生产力甚至可操作性造成威胁! – 对于整个系统。 但这不会发生在我们身上:我们提供了地理分布式数据副本级别的备份。 我们将机箱分配到不同的数据中心(总共使用了三个),这消除了机箱故障和站点崩溃时出现问题的情况。

Uma.Tech 如何开发基础设施

当然,这种方法使硬件 RAID 变得多余,我们放弃了。 通过消除冗余,我们同时通过简化解决方案并消除潜在故障点之一来提高系统可靠性。 让我们提醒您,我们的存储系统是“自制的”。 我们这样做是经过深思熟虑的,我们对结果非常满意。

数据中心 五年来,我们发生了多次变化。 自撰写上一篇文章以来,我们不仅仅更改了一个数据中心 - DataLine - 随着我们的基础设施的发展,其余数据中心都需要更换。 站点之间的所有转移均已计划。

两年前,我们搬到了MMTS-9内部,搬到了一个维修质量高、冷却系统良好、供电稳定、没有灰尘的地方,以前灰尘在所有表面厚厚地沉积,也堵塞了我们设备的内部。 选择优质服务——无尘! ——成为我们搬家的原因。

Uma.Tech 如何开发基础设施

几乎总是“一举两得”,但每次迁移过程中遇到的问题都不同。 这一次,在一个数据中心内移动的主要困难是由光交叉连接“提供”的——它们在楼层之间的丰富性没有被电信运营商组合成单个交叉连接。 更新和重新路由交叉连接的过程(MMTS-9 工程师帮助我们)可能是迁移过程中最困难的阶段。

第二次迁移发生在一年前;2019 年,我们从一个不太好的数据中心迁移到 O2xygen。 此举的原因与上面讨论的类似,但补充的是原有数据中心对电信运营商缺乏吸引力的问题——许多提供商必须自己“赶上”这一点。

Uma.Tech 如何开发基础设施

将 13 个机架迁移到 MMTS-9 中的高质量站点使得该位置不仅可以开发为操作员位置(几个机架和操作员的“前沿”),而且还可以将其用作操作员的位置之一。主要的。 这在一定程度上简化了从一个不太好的数据中心的迁移 - 我们将大部分设备从该数据中心运输到另一个站点,O2xygen 被赋予了开发中心的角色,将 5 个装有设备的机架发送到那里。

如今,O2xygen 已经是一个成熟的平台,我们需要的运营商已经“抵达”,并且新的运营商不断连接。 对于运营商来说,从战略发展的角度来看,O2xygen 也具有吸引力。

我们总是在一晚内完成迁移的主要阶段,并且在 MMTS-9 内迁移到 O2xygen 时,我们遵守这一规则。 我们强调,无论货架数量多少,我们都严格遵循“隔夜搬家”规则! 甚至还有先例,我们搬了20个机架,也是一晚上就完成了。 迁移是一个相当简单的过程,需要准确性和一致性,但在准备过程、移动时以及部署到新位置时都存在一些技巧。 如果您有兴趣,我们准备详细讨论迁移。

结果 我们喜欢五年发展计划。 我们已经完成了分布在三个数据中心的新的容错基础设施的建设。 我们大幅提高了流量密度 - 如果说最近我们对 40U 的 80-2G 感到满意,那么现在我们的标准是 100U 的 1G。 现在,即使是太比特的流量也被我们视为司空见惯。 我们已准备好进一步开发我们的基础设施,事实证明该基础设施非常灵活且可扩展。

问题: 亲爱的读者,我应该在下面的文字中告诉你什么? 关于为什么我们开始创建自制数据存储系统? 关于网络核心及其特点? 关于数据中心之间迁移的技巧和微妙之处? 关于通过选择组件和微调参数来优化交付决策? 关于通过数据中心内的多重冗余和水平扩展功能创建可持续的解决方案,这些解决方案在三个数据中心的结构中实施?

作者:Petr Vinogradov - Uma.Tech 技术总监 仓鼠

来源: habr.com

添加评论