🥇在线 SRE 强化：我们会把一切都破坏掉，然后修复它，再破坏几次，然后再次构建它

让我们打破一些东西吧？否则我们就建造再建造、修理再修理。致命的无聊。

让我们打破它，这样我们就不会因此而受到任何影响——我们不仅会因为这种耻辱而受到赞扬。然后我们将再次构建一切——如此之多，以至于它会更好、更容错、更快。

我们会再次打破它。

你认为这是一场使用我们整个航天界最秘密的仪器——俄罗斯大太空锤的比赛吗？

不，这是在线 SRE 强化课程。恰巧每门课程 Slurm SRE 从来没有像以前那样。仅仅因为你永远不会想到，在一个巨大的复杂系统中，每秒有成千上万的用户连接，而观众本身有几百万，它可能会脱落、破裂、变得迟钝、出现故障，并以数百种其他方式毁掉SRE工程师轮班的心情。

XNUMX月我们将举办另一场 SRE 强化.

让我们做一些回顾。还记得几年前，人力资源部门会竞相看看谁能雇佣最多的 DevOps 工程师进入公司。奖品变了。现在，就像 Pantsir-S1 跟踪系统一样，他们检查周围空间并寻找 SRE 工程师。我在文章中谈到“Evgeniy Varavva，谷歌开发人员。如何用 5 个词描述 Google“Google 的 SRE 工程师的生活是什么样的，以及即使是这样的公司也缺乏 SRE 专家。

在网上密集 Slurm SRE 10月，三天时间，从00:19到00:XNUMX，您将学习如何在资源有限的情况下保证网站的速度、容错性和可用性，消除IT事件并进行汇报，使问题不再发生。

课程主讲人：

伊万·克鲁格洛夫。 Databricks 的资深软件工程师。拥有企业公司在分布式消息传递和处理、大数据和网络堆栈、搜索、构建内部云、服务网格方面的经验。

帕维尔·塞利瓦诺夫。 Mail.ru 云解决方案的高级开发运营工程师。我有数十个已构建的基础设施和数百个已编写的 CI/CD 管道。认证 Kubernetes 管理员。多门 Kubernetes 和 DevOps 课程的作者。经常在俄罗斯和国际 IT 会议上发表演讲。

在实践中，一切都将是艰难的、不可预测的。你将建造、破坏和修复——有时以非常不同的顺序。

建造： 你必须为一个由多个微服务组成的站点制定SLO、SLI、SLA指标；开发支持它们的架构和基础设施；组装、测试和部署站点；设置监控和警报。

休息： 您将考虑导致 SLO 恶化的内部和外部因素：开发人员错误、基础设施故障、访问者涌入、DoS 攻击。学习了解弹性、错误预算、测试实践、中断管理和操作工作负载。

维修： 您将接受培训，以快速有效地组织团队工作，以在尽可能短的时间内消除事故：让同事参与，通知利益相关者，确定优先级。

学习： 您将能够从 SRE 的角度分析访问该站点的方法。分析事件。确定未来如何避免它们：改进监控、改变架构、开发和运营方法、法规。自动化流程。

在线 SRE 强化课程模拟真实情况 - 恢复服务的时间将极其有限。就像在现实生活中一样，就像在真实的工作环境中一样。

您可以了解 SRE 课程的条款，并在以下位置学习完整的课程：链接.

在线强化课程计划于 2020 年 XNUMX 月举行。对于那些提前付款参加的人，我们准备了折扣。

您准备好应对高强度训练、非标准任务和突发事故了吗？

它只是不会发生。将会有专业的成长。

来源： habr.com

在线 SRE 密集型：我们将把所有东西彻底分解，然后修复它，我们会再分解几次，然后再次构建它