如何控制您的网络基础设施。 第二章。 清洁和记录

本文是“如何控制网络基础设施”系列文章的第二篇。 该系列所有文章内容及链接均可找到 这里.

如何控制您的网络基础设施。 第二章。 清洁和记录

我们现阶段的目标是使文档和配置变得有序。
在此过程结束时,您应该拥有一组必要的文档以及根据它们配置的网络。

现在我们不会谈论安全审计——这将是第三部分的主题。

当然,完成这个阶段分配的任务的难度,各个公司差异很大。

理想的情况是当

  • 您的网络是根据项目创建的,并且您拥有一套完整的文档
  • 已在贵公司实施 变更控制和管理流程 对于网络
  • 根据此流程,您拥有提供有关当前事态的完整信息的文档(包括所有必要的图表)

在这种情况下,您的任务非常简单。 您应该研究这些文档并查看已进行的所有更改。

在最坏的情况下,你将有

  • 由不具备足够资质的工程师在没有项目、计划、批准的情况下创建的网络,
  • 存在混乱、未记录的更改,存在大量“垃圾”和次优解决方案

很明显,您的情况介于两者之间,但不幸的是,在这种更好 - 更差的范围内,您很可能会更接近最坏的结局。

在这种情况下,你还需要读心术的能力,因为你要学会理解“设计师”想要做什么,恢复他们的逻辑,完成没有完成的事情,清除“垃圾”。
当然,您需要纠正他们的错误,更改(在这个阶段尽可能少地)设计并更改或重新创建方案。

本文绝不声称是完整的。 这里我只描述一般原理,重点讨论一些需要解决的常见问题。

文件集

让我们从一个例子开始。

以下是思科系统公司在设计过程中通常创建的一些文档。

CR – 客户要求,客户要求(技术规格)。
它是与客户共同创建并确定网络要求。

HLD – High Level Design,基于网络需求(CR)的高层设计。 该文档解释并证明了所采取的架构决策(拓扑、协议、硬件选择……)。 HLD 不包含设计细节,例如所使用的接口和 IP 地址。 另外,具体的硬件配置这里就不讨论了。 相反,本文档旨在向客户的技术管理人员解释关键设计概念。

LLD – Low Level Design,基于高层设计(HLD)的低层设计。
它应包含实施项目所需的所有详细信息,例如有关如何连接和配置设备的信息。 这是实现设计的完整指南。 本文件应为其实施提供足够的信息,即使是由不太合格的人员实施。

例如,IP 地址、AS 编号、物理交换方案(布线)等内容可以“放在”单独的文档中,例如 债券发行计划 (网络实施计划)。

创建这些文档后就开始网络的构建,并严格按照这些文档进行,然后由客户检查(测试)是否符合设计。

当然,不同的集成商、不同的客户、不同的国家可能对项目文档有不同的要求。 但我想避免拘泥于形式,而是根据问题本身来考虑。 这个阶段不是设计,而是把事情整理好,我们需要一组足够的文档(图表、表格、描述......)来完成我们的任务。

在我看来,存在一定的绝对最小值,没有它就不可能有效地控制网络。

这些是以下文件:

  • 物理交换(布线)图(日志)
  • 网络图或包含基本 L2/L3 信息的图表

物理切换图

在一些小公司中,与设备安装和物理交换(布线)相关的工作是网络工程师的职责。

在这种情况下,通过以下方法可以部分解决该问题。

  • 使用接口上的描述来描述与其连接的内容
  • 以管理方式关闭所有未连接的网络设备端口

即使在链路出现问题时(当 cdp 或 lldp 在此接口上不起作用时),这也使您有机会快速确定连接到此端口的端口。
您还可以轻松查看哪些端口被占用、哪些端口空闲,这对于规划新网络设备、服务器或工作站的连接是必要的。

但很明显,如果您无法访问设备,您也将无法访问这些信息。 另外,这样你将无法记录诸如什么类型的设备,什么功耗,有多少端口,在什么机架上,有哪些配线架以及在哪里(在什么机架/配线架中)等重要信息。 )他们是相连的。 因此,额外的文档(不仅仅是设备上的描述)仍然非常有用。

理想的选择是使用专为处理此类信息而设计的应用程序。 但您可以将自己限制为简单的表格(例如,在 Excel 中)或在 L1/L2 图中显示您认为必要的信息。

重要的信息!

当然,网络工程师可以非常了解SCS的复杂性和标准、机架类型、不间断电源类型、什么是冷通道和热通道、如何正确接地……原则上他可以了解基本粒子物理学或 C++。 但还是要明白,这一切都不是他的知识范围。

因此,最好有专门的部门或专门的人员来解决与设备安装、连接、维护以及物理交换相关的问题。 通常对于数据中心来说,这是数据中心工程师,对于办公室来说,这是帮助台。

如果您的公司提供了这样的部门,那么记录物理交换的问题就不是您的任务,您可以将自己限制为仅对接口进行描述以及管理关闭未使用的端口。

网络图

绘制图表没有通用的方法。

最重要的是,这些图表应该让您了解流量如何流动、通过网络的哪些逻辑和物理元素。

我们所说的物理元素是指

  • 主动设备
  • 有源设备的接口/端口

在逻辑下 -

  • 逻辑设备(N7K VDC、Palo Alto VSYS,...)
  • VRF
  • 维兰斯
  • 子接口
  • 隧道
  • ...

此外,如果您的网络不是完全初级的,它将由不同的网段组成。
例如

  • 数据中心
  • 网际网路
  • 广域网
  • 远程访问
  • 办公室局域网
  • DMZ
  • ...

明智的做法是使用几张图表来提供总体情况(所有这些路段之间的流量如何流动)以及每个单独路段的详细说明。

由于在现代网络中可以有许多逻辑层,因此为不同层制作不同的电路可能是一个很好的(但不是必需的)方法,例如,在覆盖方法的情况下,这可能是以下电路:

  • 覆盖
  • L1/L2 衬垫
  • L3 底垫

当然,最重要的图是路由图,没有它就不可能理解你的设计思想。

路由方案

该图至少应反映

  • 使用什么路由协议以及在哪里使用
  • 有关路由协议设置的基本信息(区域/AS 号/router-id/...)
  • 重新分发发生在哪些设备上?
  • 发生过滤和路由聚合的地方
  • 默认路由信息

此外,L2 方案 (OSI) 通常很有用。

L2 方案 (OSI)

该图可能显示以下信息:

  • 什么 VLAN
  • 哪些端口是中继端口
  • 哪些端口聚合成ether-channel(端口通道)、虚拟端口通道
  • 使用哪些 STP 协议以及在哪些设备上使用
  • 基本STP设置:根/根备份、STP成本、端口优先级
  • 其他 STP 设置:BPDU 保护/过滤器、根保护……

典型的设计错误

构建网络的不良方法的一个例子。

我们举一个简单的例子,搭建一个简单的办公局域网。

凭借向学生教授电信的经验,我可以说几乎任何学生在第二学期中期都具备建立简单的办公室局域网所需的知识(作为我教授的课程的一部分)。

将交换机相互连接、设置 VLAN、SVI 接口(对于 L3 交换机)以及设置静态路由有何困难?

一切都会奏效。

但与此同时,相关问题

  • 安全
  • 预订
  • 网络扩展
  • 表现
  • 吞吐量
  • 可靠性
  • ...

我时不时地听到这样的说法:办公室 LAN 非常简单,而且我通常从除了网络之外什么都做的工程师(和经理)那里听到这样的说法,他们如此自信地说,如果 LAN 将成为现实,请不要感到惊讶。由实践和知识不足的人所犯,并且会犯与我将在下面描述的大致相同的错误。

常见的 L1 (OSI) 设计错误

  • 然而,如果您还对 SCS 负责,那么您可能收到的最令人不快的遗产之一就是粗心和考虑不周的切换。

我还将与所用设备的资源相关的 L1 类型错误分类为,例如,

  • 带宽不足
  • 设备上的 TCAM 不足(或未有效使用)
  • 性能不足(通常与防火墙有关)

常见的 L2 (OSI) 设计错误

通常,当没有很好地理解 STP 的工作原理以及它带来的潜在问题时,交换机会使用默认设置进行混乱的连接,而无需额外的 STP 调整。

结果,我们经常会出现以下情况

  • STP网络直径较大,可能导致广播风暴
  • STP 根将随机确定(基于 MAC 地址),并且流量路径将不是最优的
  • 连接到主机的端口不会被配置为边缘(portfast),这将导致打开/关闭终端站时重新计算STP
  • 网络不会在 L1/L2 级别进行分段,因此任何交换机的问题(例如电源过载)都将导致重新计算 STP 拓扑并停止所有交换机上所有 VLAN 中的流量(包括从连续性服务领域的角度来看,这一点至关重要)

L3 (OSI) 设计中的错误示例

网络新手的几个典型错误:

  • 经常使用(或仅使用)静态路由
  • 对于给定的设计使用次优路由协议
  • 次优逻辑网络分段
  • 地址空间的使用不理想,不允许路由聚合
  • 无备份路由
  • 没有预留默认网关
  • 重建路由时的非对称路由(对于 NAT/PAT、全状态防火墙来说可能至关重要)
  • MTU 问题
  • 重建路由时,流量会经过其他安全区域甚至其他防火墙,从而导致流量被丢弃
  • 拓扑可扩展性差

评估设计质量的标准

当我们谈论最优/非最优时,我们必须从什么标准的角度来理解这一点。 从我的角度来看,这里是最重要的(但不是全部)标准(以及与路由协议相关的解释):

  • 可扩展性
    例如,您决定添加另一个数据中心。 你能轻松做到吗?
  • 易用性(可管理性)
    运营变更(例如宣布新的电网或过滤路线)有多容易和安全?
  • 可用性
    您的系统提供所需服务水平的时间百分比是多少?
  • 安全
    传输数据的安全性如何?
  • 价格

变化

这一阶段的基本原则可以用“不伤害”这个公式来表达。
因此,即使您不完全同意设计和所选的实现(配置),也不总是建议进行更改。 合理的方法是根据两个参数对所有已识别的问题进行排名:

  • 这个问题有多容易解决
  • 她承担了多大的风险?

首先,有必要消除当前导致服务水平低于可接受水平的因素,例如导致数据包丢失的问题。 然后按照风险严重性的降序(从高风险设计或配置问题到低风险问题)修复最容易和最安全的问题。

这个阶段的完美主义可能是有害的。 使设计达到令人满意的状态并相应地同步网络配置。

来源: habr.com

添加评论