大型企业的网络即服务:非标准案例

大型企业的网络即服务:非标准案例
大型企业如何在不停产的情况下更新网络设备? 他谈“心脏直视手术”模式的大型项目 Linxdatacenter 项目管理经理 Oleg Fedorov。 

在过去几年中,我们注意到客户对 IT 基础设施网络组件相关服务的需求不断增加。 几乎所有领域的 IT 系统、服务、应用程序、监控和运营业务管理任务的连接性需求都迫使当今的公司更加关注网络。  

请求的范围从确保网络容错到通过购买 IP 地址块、设置路由协议以及根据组织策略管理流量来创建和管理客户端自治系统。

对构建和维护网络基础设施的综合解决方案的需求也不断增长,主要来自那些网络基础设施是从头开始创建或已经过时、需要进行认真修改的客户。 

这一趋势与Linxdatacenter自身网络基础设施的发展和复杂性时期相吻合。 我们通过连接远程站点扩大了我们在欧洲的业务范围,这反过来又需要改善网络基础设施。 

该公司为客户推出了一项新服务“网络即服务”:我们负责解决所有客户的网络问题,使他们能够专注于自己的核心业务。

2020年夏天,这个方向的第一个大项目完成了,我想讲一下。 

一开始 

一个大型工业综合体委托我们对其一家企业的基础设施网络部分进行现代化改造。 需要用新设备替换旧设备,包括网络核心。

该企业最后一次设备现代化改造发生在大约 10 年前。 企业的新管理层决定改善连接性,从更新最基本的物理层面的基础设施开始。 

该项目分为服务器园区升级和网络设备升级两部分。 我们负责第二部分。 

工作的基本要求包括在工作执行过程中尽量减少企业生产线的停机时间(在某些领域甚至完全消除停机时间)。 任何停工都意味着客户的直接经济损失,这种情况在任何情况下都不应该发生。 由于该设施的运行模式是24x7x365,并且考虑到企业实践中完全没有计划停机时间,所以我们的任务基本上是进行心脏直视手术。 这成为该项目的主要区别特征。

我们走吧

按照从远离核心的网络节点向较近的网络节点、从对生产线工作影响较小的网络节点向直接影响生产线工作的网络节点移动的原则来规划工作。 

例如,如果我们以销售部门的一个网络节点为例,那么由于该部门工作而导致的通信中断不会对生产产生任何影响。 同时,这样的事件将帮助我们作为承包商检查所选择的在这些单位工作的方法的正确性,并在调整行动后进行项目的下一阶段的工作。 

不仅需要更换网络中的节点和线路,而且还需要正确配置所有组件,以使整个解决方案正确运行。 正是以这种方式测试的配置:从核心开始工作,我们似乎赋予自己“犯错误的权利”,而不会将对企业运营至关重要的风险领域置于危险之中。 

我们确定了不影响生产过程的区域,以及关键区域——车间、装卸单元、仓库等。在关键区域,与客户分别商定了每个网络节点可接受的停机时间:从1到15分钟。 完全避免断开各个网络节点的连接是不可能的,因为电缆必须从旧设备物理切换到新设备,并且在切换过程中,还需要解开在几年运行中形成的电线“胡须”,而没有适当的处理。护理(电缆线路安装外包工作的后果之一)。

工作分为几个阶段。

步骤1“ - 审计。 准备和协调工作规划方法以及评估团队准备情况的方法:客户、安装承包商和我们的团队。

步骤2“ – 制定开展工作的格式,并进行深入详细的分析和规划。 我们选择了一种清单格式,其中精确指示了操作的顺序和顺序,一直到按端口切换跳线的顺序。

步骤3“ – 在不影响生产的柜子里进行工作。 估计和调整后续工作阶段的停机时间。

步骤4“ – 在直接影响生产的橱柜中进行工作。 估计和调整最后阶段工作的停机时间。

步骤5“ – 在服务器机房进行剩余设备的切换工作。 在新内核上启动路由。

步骤6“ – 系统核心从旧网络配置连续切换到新网络配置,以实现整个系统复合体(VLAN、路由等)的平稳过渡。 在这个阶段,我们连接了所有用户并将所有服务转移到新硬件上,验证连接是否正确,确保没有停止任何企业服务,确保如果出现任何问题将直接连接到内核,这使得解决可能的问题和最终设置变得更加容易。 

钢丝胡须发型

由于初始条件困难,该项目也变得困难重重。 

首先,网络有大量的节点和部分,具有复杂的拓扑结构和根据用途进行的电线分类。 这些“胡须”必须从柜子里拿出来,煞费苦心地“梳理”,弄清楚哪根电线从哪里来,通向哪里。 

它看起来像这样:

大型企业的网络即服务:非标准案例
如下:

大型企业的网络即服务:非标准案例
左右: 

大型企业的网络即服务:非标准案例
其次,对于每项此类任务,有必要准备一个描述该过程的文件。 “我们从旧设备的端口 1 取出电线 X,将其插入新设备的端口 18。” 这听起来很简单,但是当源数据中有 48 个完全堵塞的端口,并且没有停机选项(我们记得大约是 24x7x365)时,唯一的出路就是分块工作。 一次从旧设备中拔出的电线越多,您就能越快地将它们梳理并插入到新的网络硬件中,从而避免网络出现故障和停机。 

因此,在准备阶段,我们将网络划分为多个块——每个块都属于一个特定的VLAN。 旧设备上的每个端口(或其子集)都是新网络拓扑中的 VLAN 之一。 我们将它们分组如下:交换机的第一个端口容纳用户网络,中间端口容纳生产网络,最后一个端口容纳接入点和上行链路。 

这种方法使得从旧设备中一次性拉出和梳理的不仅仅是 1 根电线,而是 10-15 根电线。 这使工作进程加快了好几倍。  

对了,柜子里的电线梳理后是这样的: 

大型企业的网络即服务:非标准案例
或者,例如,像这样: 

大型企业的网络即服务:非标准案例
完成第二阶段后,我们休息了一下,分析错误和项目动态。 例如,由于向我们提供的网络图不准确,一些小缺陷立即出现(图中的连接器不正确意味着购买的跳线不正确,需要更换)。 

暂停是必要的,因为在服务器端工作时,即使过程中出现小故障也是不可接受的。 如果目标是确保某个网段的停机时间不超过5分钟,那么就不能超过。 任何可能偏离时间表的情况都必须得到客户的同意。 

然而,预先规划并将项目划分为多个区块可以满足所有区域的计划停机时间,并且在大多数情况下完全避免停机。 

时代的挑战——新冠疫情下的一个项目 

然而,这并非没有额外的困难。 当然,冠状病毒是障碍之一。 

由于大流行开始,工作变得复杂,参与该过程的所有专家不可能在客户现场工作期间都在场。 只有安装单位的员工才能进入现场,并通过Zoom room进行控制——里面有Linxdatacenter的网络工程师,我自己担任项目经理,客户的网络工程师负责工作,以及执行安装工作的团队。

工作中出现问题不明,必须即时调整。 这样就可以快速防止人为因素的影响(电路错误、接口活动状态判断错误等)。

尽管远程工作形式在项目之初显得有些不寻常,但我们很快就适应了新的条件,并进入了工作的最后阶段。 

我们启动了网络设置的临时配置,允许新旧两个网络核心并行运行,以实现平滑过渡。 然而,事实证明,新内核的配置文件中没有删除多余的一行,并且没有发生转换。 这迫使我们花一些时间寻找问题所在。 

事实证明,主要流量正确传输,控制流量没有通过新核心到达节点。 由于项目被明确划分为阶段,因此可以快速识别出现问题的网络部分,找出问题并修复它。 

结果

项目技术成果 

首先,创建了新企业网络的新核心,我们为其构建了物理/逻辑环。 这样做的方式是网络中的每个交换机都有一个“第二臂”。 在旧网络中,许多交换机沿着一条路线、一根臂(上行链路)连接到核心。 如果它坏了,开关就完全无法触及。 如果通过一条上行链路连接多个交换机,那么该事故将导致企业的整个部门或生产线瘫痪。 

在新的网络中,即使是相当严重的网络事件,在任何情况下都不可能导致整个网络或其中很大一部分网络瘫痪。 

90% 的网络设备已更新,媒体转换器(信号传播媒体转换器)已退役,通过连接到 PoE 交换机(通过以太网线供电),不再需要为设备供电的专用电源线。 

此外,服务器机房和现场机柜中的所有光纤连接均在所有关键通信节点处进行了标记。 这使得准备网络中的设备和连接的拓扑图成为可能,反映其当前的实际状态。 

网络图
大型企业的网络即服务:非标准案例
从技术角度来说,最重要的结果是:相当大规模的基础设施工作迅速开展,没有对企业的工作造成任何干扰,而且几乎没有被企业人员注意到。 

项目的商业成果

在我看来,这个项目的有趣之处主要不是来自技术方面,而是来自组织方面。 困难主要在于规划和思考实施项目任务的步骤。 

该项目的成功让我们可以说,我们在 Linxdatacenter 服务组合中开发网络领域的举措是公司发展方向的正确选择。 负责任的项目管理方法、有效的策略和清晰的规划使我们能够在适当的水平上完成工作。 

工作质量的确认是客户要求继续在其位于俄罗斯的其余站点提供网络现代化服务的请求。

来源: habr.com

添加评论