我们如何在莫斯科办事处设计和实施华为的新网络,第 1 部分

我们如何在莫斯科办事处设计和实施华为的新网络,第 1 部分

今天我就给大家讲讲我们公司创建一个新的内部网络的想法是如何产生并实施的。 管理层的立场是,你需要为自己和客户做同样的成熟项目。 如果我们自己做得很好,我们就可以邀请客户并向他展示我们提供的产品效果如何。 因此,我们非常彻底地为莫斯科办事处开发新网络的概念,利用整个生产周期:分析部门需求→选择技术解决方案→设计→实施→测试。 那么让我们开始吧。

选择技术解决方案:突变庇护所

目前,GOST 34.601-90“自动化系统”中对复杂自动化系统的工作流程进行了最好的描述。 创造的阶段”,所以我们按照它工作。 在需求形成和概念开发阶段,我们遇到了第一个困难。 各种类型的组织(银行、保险公司、软件开发商等)根据其任务和标准,需要特定类型的网络,其具体细节是明确且标准化的。 然而,这对我们不起作用。

为什么呢?

Jet Infosystems 是一家大型多元化 IT 公司。 同时,我们的内部支持部门虽小(但令人自豪),它保证了基本服务和系统的功能。 该公司包含许多执行不同职能的部门:这些是几个强大的外包团队,以及业务系统和信息安全的内部开发人员,以及计算系统的架构师 - 一般来说,无论是谁。 相应地,它们的任务、系统和安全策略也不同。 正如预期的那样,这给需求分析和标准化过程带来了困难。

例如,这里是开发部门:其员工为大量客户编写和测试代码。 经常需要快速组织测试环境,坦白讲,并不总是能够按照所有内部规定为每个项目制定需求、申请资源并搭建单独的测试环境。 这就产生了奇怪的情况:有一天,你卑微的仆人查看了开发人员的房间,发现桌子下面有一个正常工作的 Hadoop 集群,由 20 个桌面组成,它莫名其妙地连接到一个公共网络。 我认为没有必要澄清该公司的 IT 部门并不知道它的存在。 与许多其他情况一样,这种情况导致了在该项目的开发过程中,“突变储备”一词诞生,描述了长期遭受苦难的办公基础设施的状况。

或者这是另一个例子。 定期在部门内设立测试台。 Jira和Confluence就是这样,软件开发中心在一些项目中有限地使用了它们。 一段时间后,其他部门了解了这些有用的资源,并对它们进行了评估,2018年底,Jira和Confluence从“本地程序员的玩具”状态转变为“公司资源”状态。 现在,必须为这些系统分配所有者、SLA、访问/信息安全策略、备份策略、监控、用于解决问题的路由请求的规则 - 一般来说,必须存在成熟信息系统的所有属性。
我们的每个部门也是一个培育自己产品的孵化器。 其中一些在开发阶段就消失了,一些我们在项目工作时使用,而另一些则扎根并成为我们开始使用并出售给客户的复制解决方案。 对于每个这样的系统,都希望有自己的网络环境,在其中开发时不会干扰其他系统,并且在某些时候可以集成到公司的基础设施中。

除了发展,我们还有非常大的 服务中心 拥有500多名员工,针对每个客户组建团队。 他们参与维护网络和其他系统、远程监控、解决索赔等。 也就是说,SC 的基础设施实际上是他们当前合作的客户的基础设施。 使用这部分网络的特殊之处在于我们公司的工作站部分是外部的,部分是内部的。 因此,对于SC我们采用了如下的做法——公司为相应部门提供网络等资源,将这些部门的工作站视为外部连接(类比分支机构和远程用户)。

公路设计:我们是运营商(惊喜)

在评估了所有陷阱后,我们意识到我们正在一个办公室内获得电信运营商的网络,因此我们开始采取相应行动。

我们创建了一个核心网络,借助该网络,可以为任何内部以及未来的外部消费者提供所需的服务:L2 VPN、L3 VPN 或常规 L3 路由。 一些部门需要安全的互联网访问,而另一些部门则需要没有防火墙的干净访问,但同时保护我们的公司资源和核心网络免受其流量的影响。

我们与每个部门非正式地“签订了 SLA”。 根据该规定,所有发生的事件都必须在一定的、预先商定的时间内消除。 事实证明,该公司对其网络的要求非常严格。 如果电话和电子邮件出现故障,事件的最长响应时间为 5 分钟。 在典型故障期间恢复网络功能的时间不超过一分钟。

由于我们拥有电信级网络,您只能严格按照规则连接。 服务单位制定政策并提供服务。 他们甚至不需要有关特定服务器、虚拟机和工作站的连接的信息。 但同时,还需要保护机制,因为单个连接不应禁用网络。 如果意外地创建了环路,其他用户不应注意到这一点,即需要来自网络的充分响应。 任何电信运营商都在其核心网络中不断解决类似的看似复杂的问题。 它为具有不同需求和流量的许多客户提供服务。 同时,不同的订户不应因其他订户的流量而感到不便。
在国内,我们是通过以下方式解决这个问题的:我们建立了一个全冗余的骨干三层网络,使用IS-IS协议。 基于技术在核心之上构建覆盖网络 以太网VPN/VXLAN,使用路由协议 MP-BGP。 为了加快路由协议的收敛速度,采用了BFD技术。

我们如何在莫斯科办事处设计和实施华为的新网络,第 1 部分
网络结构

在测试中,该方案表现出了出色的表现——当任何通道或交换机断开时,收敛时间不超过0.1-0.2秒,丢失的数据包最少(通常没有),TCP会话不中断,电话通话不被打扰。

我们如何在莫斯科办事处设计和实施华为的新网络,第 1 部分
底层 - 路由

我们如何在莫斯科办事处设计和实施华为的新网络,第 1 部分
覆盖层-路由

分布交换机采用具有VXLAN License的华为CE6870交换机。 该设备具有最佳的性价比,允许您以 10 Gbit/s 的速度连接用户,并以 40–100 Gbit/s 的速度连接到骨干网,具体取决于所使用的收发器。

我们如何在莫斯科办事处设计和实施华为的新网络,第 1 部分
华为CE6870交换机

核心交换机采用华为CE8850交换机。 目标是快速可靠地传输流量。 除了分布交换机之外,没有任何设备连接到它们,它们对 VXLAN 一无所知,因此选择了具有 32 个 40/100 Gbps 端口的型号,具有提供 L3 路由并支持 IS-IS 和 MP-BGP 的基本许可证协议。

我们如何在莫斯科办事处设计和实施华为的新网络,第 1 部分
最下面一张是华为CE8850核心交换机

在设计阶段,团队内部就可用于实现核心网络节点容错连接的技术展开了讨论。 我们的莫斯科办事处位于三栋大楼内,有7个配电室,每个配电室安装了两台华为CE6870配电交换机(几个配电室只安装了接入交换机)。 在开发网络概念时,考虑了两种冗余选项:

  • 将配电交换机合并到每个交叉连接室的容错堆栈中。 优点:简单且易于设置。 缺点:当网络设备的固件出现错误(“内存泄漏”等)时,整个堆栈出现故障的概率较高。
  • 应用M-LAG和Anycast网关技术将设备连接到分布交换机。

最终我们选择了第二种方案。 它的配置稍微困难一些,但在实践中已显示出其性能和高可靠性。
我们首先考虑将终端设备连接到分配交换机:
我们如何在莫斯科办事处设计和实施华为的新网络,第 1 部分

两个分布交换机中包含接入交换机、服务器或任何其他需要容错连接的设备。 M-LAG技术提供数据链路级别的冗余。 假设两个分配交换机对于所连接的设备来说显示为一台设备。 使用 LACP 协议进行冗余和负载平衡。

任播网关技术提供网络级别的冗余。 每个分布交换机上都配置了相当多的 VRF(每个 VRF 都有自己的用途 - 单独用于“常规”用户、单独用于电话、单独用于各种测试和开发环境等),并且在每个分配交换机中都配置了相当多的 VRF。 VRF 配置了多个 VLAN。 在我们的网络中,分配交换机是与其连接的所有设备的默认网关。 两个分布交换机的 VLAN 接口对应的 IP 地址相同。 流量通过最近的交换机进行路由。

现在让我们看看将分发交换机连接到内核:
使用 IS-IS 协议在网络级别提供容错。 请注意,交换机之间提供单独的 L3 通信线路,速度为 100G。 从物理上看,这条通信线是一条 Direct Access 电缆;可以在华为 CE6870 交换机的右侧照片中看到。

另一种选择是组织一个“诚实”的全连接双星拓扑,但是,如上所述,我们在三栋建筑中有 7 个交叉连接的房间。 因此,如果我们选择“双星”拓扑,我们将需要两倍数量的“远程”40G 收发器。 这里的节省非常可观。

关于 VXLAN 和 Anycast 网关技术如何协同工作需要多说几句。 VXLAN,不用赘述,是一种在 UDP 数据包内传输以太网帧的隧道。 分布交换机的Loopback接口作为VXLAN隧道的目的IP地址。 每个交叉都有两个具有相同环回接口地址的交换机,因此数据包可以到达其中任何一个,并可以从中提取以太网帧。

如果交换机知道检索到的帧的目标 MAC 地址,则该帧将被正确传送到其目的地。 为了确保安装在同一交叉连接中的两台分布交换机都具有有关从接入交换机“到达”的所有 MAC 地址的最新信息,M-LAG 机制负责同步 MAC 地址表(以及 ARP)表)在两个交换机 M-LAG 对上。

由于底层网络中存在多条通往分布交换机环回接口的路由,因此可以实现流量平衡。

取而代之的是结论

如上所述,在测试和运行过程中,该网络表现出高可靠性(典型故障恢复时间不超过数百毫秒)和良好的性能——每个交叉连接通过两个40 Gbit/s通道连接到核心。 我们网络中的接入交换机堆叠在一起,并通过具有两个 10 Gbit/s 通道的 LACP/M-LAG 连接到分布交换机。 一个堆叠通常包含 5 个交换机,每个交换机有 48 个端口,每个交叉连接中最多有 10 个接入堆叠连接到分布。 因此,即使在最大理论负载下,主干网也能为每个用户提供约 30 Mbit/s 的速度,在撰写本文时这足以满足我们所有的实际应用。

该网络允许您通过 L2 和 L3 无缝组织任意连接设备的配对,从而提供流量(信息安全服务喜欢的)和故障域(运营团队喜欢的)的完全隔离。

在下一部分中,我们将告诉您我们如何迁移到新网络。 敬请关注!

马克西姆·克洛奇科夫
网络审计及复杂项目组高级顾问
网络解决方案中心
“喷气信息系统”


来源: habr.com

添加评论