如何控制您的网络基础设施。 第一章。 抓住

本文是“如何控制网络基础设施”系列文章中的第一篇。 该系列所有文章内容及链接均可找到 这里.

我完全承认,有足够多的公司,网络停机一小时甚至一天并不重要。 不幸或幸运的是,我没有机会在这样的地方工作。 但是,当然,网络不同,要求不同,方法不同,但是,无论以何种形式,下面的列表在许多情况下实际上都是“必须做的”。

那么,初始条件。

您从事新工作,获得晋升,或者决定重新审视自己的职责。 公司网络是您的职责范围。 对于您来说,这在很多方面都是一个挑战和新事物,这在某种程度上证明了本文的指导语气:)。 但我希望这篇文章对任何网络工程师也能有所帮助。

您的第一个战略目标是学会抵抗熵并保持所提供的服务水平。

下面描述的许多问题可以通过各种手段来解决。 我故意不提出技术实现的话题,因为…… 原则上,你如何解决这个或那个问题通常并不那么重要,重要的是你如何使用它以及你是否使用它。 例如,如果您不查看并且不响应警报,您专业构建的监控系统就没有什么用处。

Оборудование

首先,您需要了解最大的风险在哪里。

再说一次,情况可能会有所不同。 我承认,例如,在某个地方,这些将是安全问题,在某个地方,是与服务连续性相关的问题,在某个地方,也许是其他问题。 为什么不?

需要明确的是,我们假设这仍然是服务的连续性(我工作过的所有公司都是这种情况)。

那么就需要从装备开始。 以下是需要注意的主题列表:

  • 按关键程度对设备进行分类
  • 关键设备备份
  • 支持、许可

您需要考虑可能的故障场景,尤其是对于处于关键性分类顶部的设备。 通常,双重问题的可能性被忽略,否则您的解决方案和支持可能会变得不合理地昂贵,但对于真正关键的网络元素,其故障可能会严重影响业务,您应该考虑一下。

例子

假设我们正在讨论数据中心中的根交换机。

由于我们一致认为服务连续性是最重要的标准,因此为该设备提供“热”备份(冗余)是合理的。 但这还不是全部。 您还需要决定,如果第一个开关坏了,您可以接受仅剩下一个开关的生活多久,因为存在它也坏掉的风险。

重要的! 您不必自己决定这个问题。 您必须向管理层或公司管理层描述风险、可能的解决方案和成本。 他们必须做出决定。

因此,如果确定,考虑到双重故障的可能性很小,一台交换机工作 4 小时原则上是可以接受的,那么您可以简单地采取适当的支持(根据该支持,设备将在 4 天内更换)小时)。

但存在他们无法交付的风险。 不幸的是,我们曾经遇到过这样的情况。 设备运行了一周,而不是四个小时!

因此,这种风险也需要讨论,也许您购买另一个交换机(第三个)并将其保存在备件包中(“冷”备份)或用于实验室目的会更正确。

重要的! 制作一个电子表格,列出您拥有的所有支持的到期日期,并将其添加到您的日历中,以便您至少提前一个月收到一封电子邮件,告知您应该开始担心续订您的支持。

如果您忘记续订支持并且在支持结束后的第二天您的硬件出现故障,您将不会被原谅。

应急工作

无论您的网络发生什么情况,理想情况下您都应该保持对网络设备的访问。

重要的! 您必须拥有对所有设备的控制台访问权限,并且此访问权限不应依赖于用户数据网络的运行状况。

您还应该提前预见可能出现的负面情况并记录必要的措施。 该文档的可用性也至关重要,因此它不仅应该发布在部门的共享资源上,还应该保存在工程师的本地计算机上。

必须有

  • 向供应商或集成商支持开具票证所需的信息
  • 有关如何访问任何设备(控制台、管理)的信息

当然,它还可以包含任何其他有用的信息,例如,各种设备的升级过程的描述和有用的诊断命令。

合作伙伴

现在您需要评估与合作伙伴相关的风险。 通常这个

  • 互联网提供商和流量交换点(九)
  • 沟通渠道提供商

你应该问自己什么问题? 与设备一样,必须考虑不同的紧急情况。 例如,对于互联网提供商来说,它可能是这样的:

  • 如果互联网提供商 X 由于某种原因停止向您提供服务,会发生什么?
  • 其他提供商是否有足够的带宽供您使用?
  • 连接性还能维持到什么程度?
  • 您的互联网提供商的独立程度如何?其中一个提供商的严重中断是否会导致其他提供商出现问题?
  • 您的数据中心有多少光纤输入?
  • 如果其中一个输入被完全破坏会发生什么?

关于输入,在我在两家不同公司、两个不同数据中心的实践中,一台挖掘机摧毁了水井,奇迹般的是我们的光学系统没有受到影响。 这种情况并不罕见。

当然,您不仅需要提出这些问题,而且还需要在管理层的支持下,在任何情况下提供可接受的解决方案。

备份

下一个优先级可能是设备配置的备份。 无论如何,这是非常重要的一点。 我不会列出那些可能丢失配置的情况;最好定期进行备份,不要考虑它。 此外,定期备份对于监控更改非常有用。

重要的! 每天进行备份。 这并不是需要保存的大量数据。 早上,值班工程师(或者你)应该会收到系统发来的报告,其中清楚地表明备份是否成功,如果备份不成功,则应解决问题或创建工单(参见网络部门流程)。

软件版本

设备软件是否值得升级的问题并不是那么明确。 一方面,旧版本存在已知的错误和漏洞,但另一方面,新软件首先并不总是无痛的升级过程,其次,存在新的错误和漏洞。

在这里您需要找到最佳选择。 一些明显的建议

  • 仅安装稳定版本
  • 不过,您不应该使用非常旧的软件版本
  • 制作一个标牌,标明有关某些软件所在位置的信息
  • 定期阅读有关软件版本的漏洞和错误的报告,如果出现严重问题,应该考虑升级

在此阶段,通过控制台访问设备、有关支持的信息以及升级过程的描述,原则上您已准备好执行此步骤。 理想的选择是当您拥有实验室设备时,您可以检查整个过程,但不幸的是,这种情况并不经常发生。

对于关键设备,您可以联系供应商的支持人员,请求帮助您进行升级。

票务系统

现在你可以环顾四周了。 您需要建立与其他部门以及部门内部交互的流程。

这可能没有必要(例如,如果您的公司很小),但我强烈建议以所有外部和内部任务都通过票证系统的方式组织工作。

票证系统本质上是您用于内部和外部通信的接口,您应该足够详细地描述该接口。

让我们以开放访问这一重要且常见的任务为例。 我将描述一种在其中一家公司完美运行的算法。

例子

让我们从这样一个事实开始:访问客户经常用网络工程师无法理解的语言表达他们的愿望,即用应用程序的语言,例如“让我访问 1C”。

因此,我们从未直接接受此类用户的请求。
这是第一个要求

  • 访问请求应来自技术部门(在我们的例子中,这些部门是 UNIX、Windows、帮助台工程师)

第二个要求是

  • 必须记录此访问(由我们收到此请求的技术部门),并且作为请求,我们收到此记录访问的链接

该请求的形式必须是我们可以理解的,即

  • 该请求必须包含有关应开放哪个子网和哪个子网访问的信息,以及协议和(在 tcp/udp 的情况下)端口

那里也应该注明

  • 为何开放此访问的说明
  • 临时或永久(如果是临时的,直到什么日期)

非常重要的一点是批准

  • 来自发起访问的部门负责人(例如会计)
  • 来自技术部门负责人,此请求是从那里发送到网络部门的(例如帮助台)

在这种情况下,此访问的“所有者”被认为是发起访问的部门(在我们的示例中为会计)的负责人,他负责确保该部门记录的访问页面保持最新状态。

记录

这是你可能会被淹没的东西。 但如果您想实施积极主动的方法,那么您需要学习如何应对这种数据洪流。

以下是一些实用的建议:

  • 你需要每天查看日志
  • 在计划审查的情况下(而不是紧急情况),您可以将自己限制为严重性级别 0、1、2,并在您认为有必要时添加其他级别的选定模式
  • 编写一个脚本来解析日志并忽略那些已将其模式添加到忽略列表中的日志

随着时间的推移,这种方法将允许您创建一个您不感兴趣的日志的忽略列表,并仅保留那些您真正认为重要的日志。
这对我们来说非常有效。

监控

公司缺乏监控系统的情况并不罕见。 例如,您可以依赖日志,但设备可能只是“死亡”而没有时间“说”任何内容,或者 udp syslog 协议数据包可能会丢失而无法到达。 当然,总的来说,主动监测是重要且必要的。

我实践中最流行的两个例子:

  • 监控通信通道、关键链路(例如,连接到提供商)的负载。 它们使您能够主动发现由于流量丢失而​​导致服务降级的潜在问题,并相应地避免它。
  • 基于 NetFlow 的图表。 它们可以轻松发现流量异常,对于检测一些简单但重要类型的黑客攻击非常有用。

重要的! 为最重要的事件设置短信通知。 这适用于监控和日志记录。 如果您没有值班,那么短信也应该在工作时间之外到达。

以一种不会吵醒所有工程师的方式思考整个过程。 我们有一名工程师负责此事。

切换控制

在我看来,没有必要控制所有的变化。 但是,无论如何,如果有必要,您应该能够轻松找到谁在网络上进行了某些更改以及原因。

一些提示:

  • 使用票证系统详细说明该票证上执行的操作,例如通过将应用的配置复制到票证中
  • 在网络设备上使用评论功能(例如,在 Juniper 上提交评论)。 你可以写下票号
  • 使用配置备份的差异

您可以将此作为一个流程来实施,每天检查所有票证是否有更改。

流程

您必须正式化并描述团队中的流程。 如果您已经达到这一点,那么您的团队应该至少已经运行以下流程:

日常流程:

  • 处理票证
  • 使用日志
  • 切换控制
  • 每日检查表

年度流程:

  • 延长担保、许可

异步进程:

  • 应对各种紧急情况

第一部分的结论

你有没有注意到,这一切还不是关于网络配置、不是关于设计、不是关于网络协议、不是关于路由、不是关于安全……而是关于周围的东西。 但这些虽然可能很无聊,但却是网络部门工作中非常重要的要素。

到目前为止,如您所见,您的网络尚未得到任何改进。 如果存在安全漏洞,那么它们就会保留下来;如果存在糟糕的设计,那么它就会保留下来。 直到您应用了作为网络工程师的技能和知识,您很可能在这方面花费了大量的时间、精力,有时甚至是金钱。 但首先您需要创建(或加固)基础,然后开始构建。

以下部分将告诉您如何查找并消除错误,然后改进您的基础架构。

当然,您不必按顺序执行所有操作。 时间可能很关键。 如果资源允许,可以并行进行。

还有一个重要的补充。 与您的团队沟通、询问、咨询。 最终,他们是支持和做这一切的人。

来源: habr.com

添加评论