在线 SRE 密集型:我们将把所有东西彻底分解,然后修复它,我们会再分解几次,然后再次构建它

让我们打破一些东西吧? 否则我们就建造再建造、修理再修理。 致命的无聊。

让我们打破它,这样我们就不会因此而受到任何影响——我们不仅会因为这种耻辱而受到赞扬。 然后我们将再次构建一切——如此之多,以至于它会更好、更容错、更快。

我们会再次打破它。

你认为这是一场使用我们整个航天界最秘密的仪器——俄罗斯大太空锤的比赛吗?

不,这是在线 SRE 强化课程。 恰巧每门课程 Slurm SRE 从来没有像以前那样。 仅仅因为你永远不会想到,在一个巨大的复杂系统中,每秒有成千上万的用户连接,而观众本身有几百万,它可能会脱落、破裂、变得迟钝、出现故障,并以数百种其他方式毁掉SRE工程师轮班的心情。

XNUMX月我们将举办另一场 SRE 强化.

在线 SRE 密集型:我们将把所有东西彻底分解,然后修复它,我们会再分解几次,然后再次构建它

让我们做一些回顾。 还记得几年前,人力资源部门会竞相看看谁能雇佣最多的 DevOps 工程师进入公司。 奖品变了。 现在,就像 Pantsir-S1 跟踪系统一样,他们检查周围空间并寻找 SRE 工程师。 我在文章中谈到“Evgeniy Varavva,谷歌开发人员。 如何用 5 个词描述 Google“Google 的 SRE 工程师的生活是什么样的,以及即使是这样的公司也缺乏 SRE 专家。

在网上密集 Slurm SRE 10月,三天时间,从00:19到00:XNUMX,您将学习如何在资源有限的情况下保证网站的速度、容错性和可用性,消除IT事件并进行汇报,使问题不再发生。

课程主讲人:

伊万·克鲁格洛夫。 Databricks 的资深软件工程师。 拥有企业公司在分布式消息传递和处理、大数据和网络堆栈、搜索、构建内部云、服务网格方面的经验。

帕维尔·塞利瓦诺夫。 Mail.ru 云解决方案的高级开发运营工程师。 我有数十个已构建的基础设施和数百个已编写的 CI/CD 管道。 认证 Kubernetes 管理员。 多门 Kubernetes 和 DevOps 课程的作者。 经常在俄罗斯和国际 IT 会议上发表演讲。

在实践中,一切都将是艰难的、不可预测的。 你将建造、破坏和修复——有时以非常不同的顺序。

建造: 你必须为一个由多个微服务组成的站点制定SLO、SLI、SLA指标; 开发支持它们的架构和基础设施; 组装、测试和部署站点; 设置监控和警报。

休息: 您将考虑导致 SLO 恶化的内部和外部因素:开发人员错误、基础设施故障、访问者涌入、DoS 攻击。 学习了解弹性、错误预算、测试实践、中断管理和操作工作负载。

维修: 您将接受培训,以快速有效地组织团队工作,以在尽可能短的时间内消除事故:让同事参与,通知利益相关者,确定优先级。

学习: 您将能够从 SRE 的角度分析访问该站点的方法。 分析事件。 确定未来如何避免它们:改进监控、改变架构、开发和运营方法、法规。 自动化流程。

在线 SRE 强化课程 模拟真实情况 - 恢复服务的时间将极其有限。 就像在现实生活中一样,就像在真实的工作环境中一样。

您可以了解 SRE 课程的条款,并在以下位置学习完整的课程: 链接.

在线强化课程计划于 2020 年 XNUMX 月举行。 对于那些提前付款参加的人,我们准备了折扣。

您准备好应对高强度训练、非标准任务和突发事故了吗?

它只是不会发生。 将会有专业的成长。

来源: habr.com

添加评论