“希望是一个糟糕的策略。” 3 月 5 日至 XNUMX 日在莫斯科举办 SRE 强化课程

我们宣布在俄罗斯推出首个 SRE 实践课程: Slurm SRE.

在密集训练期间,我们将花费三天时间构建、破坏、修复和改进一个销售电影票的聚合网站。

“希望是一个糟糕的策略。” 3 月 5 日至 XNUMX 日在莫斯科举办 SRE 强化课程

我们选择票务聚合器是因为它有很多故障场景:访客涌入和 DDoS 攻击、众多关键微服务之一(授权、预订、支付处理)出现故障、众多电影院之一无法使用(有关数据交换的信息)。可用座位和预订),以及列表中的更下方。

我们将为我们的聚合站点制定可靠性概念,我们将在工程中进一步开发该概念,从 SRE 的角度分析设计,选择指标,设置监控,消除新出现的事件,对团队合作进行事件培训在接近战斗的情况下,组织一次汇报。

该计划由 Booking.com 和 Google 的员工运营。
这次将不再有远程参与:课程建立在个人互动和团队合作的基础上。

切口下的细节

扬声器

伊万·克鲁格洛夫
Booking.com(荷兰)首席开发人员
自 2013 年加入 Booking.com 以来,他一直从事分布式消息传递和处理、大数据和网络堆栈、搜索等基础设施项目。
目前正在研究构建内部云和服务网格的问题。

本·泰勒
Booking.com(美国)首席开发人员
参与Booking.com平台的内部开发。
专注于服务网格/服务发现、批处理作业调度、事件响应和事后分析过程。
用俄语进行演讲和教学。

叶夫根尼·瓦拉瓦
Google(旧金山)的一般开发人员。
拥有从高负载网络项目到计算机视觉和机器人研究的经验。
自2011年以来,他一直在谷歌参与分布式系统的创建和运营,参与项目的整个生命周期:概念化、设计和架构、启动、折叠和所有中间阶段。

爱德华·梅德韦杰夫
Tungsten Labs(德国)首席技术官
曾在 StackStorm 担任工程师,负责平台的 ChatOps 功能。 开发并实施了用于数据中心自动化的 ChatOps。 在俄罗斯和国际会议上发表演讲。

程序

该计划正在积极开发中。 现在看起来是这样,到二月份可能会有所改善和扩大。

主题#1:SRE 的基本原理和方法

  • 成为 SRE 需要什么?
  • DevOps 与 SRE
  • 为什么开发者重视SRE,当他们不在项目中时会感到非常悲伤
  • SLI、SLO 和 SLA
  • 错误预算及其在 SRE 中的作用

主题#2:分布式系统的设计

  • 应用架构和功能
  • 非抽象大型系统设计
  • 可操作性/故障设计
  • gRPC 或 REST
  • 版本控制和向后兼容性

主题#3:SRE 项目如何被接受

  • SRE 的最佳实践
  • 工程验收清单
  • 日志记录、指标、跟踪
  • 将 CI/CD 掌握在我们自己手中

主题四:分布式系统的设计和启动

  • 逆向工程——系统如何工作?
  • 我们同意 SLI 和 SLO
  • 实践容量规划
  • 向应用程序启动流量,我们的用户开始“使用”它
  • 启动 Prometheus、Grafana、Elastic

主题#5:监控、可观察性和警报

  • 监控对比可观测性
  • 使用 Prometheus 设置监控和警报
  • SLI 和 SLO 的实际监控
  • 症状对比原因
  • 黑盒 vs 黑盒白盒监控
  • 应用程序和服务器可用性的分布式监控
  • 4 个黄金信号(异常检测)

主题六:系统可靠性测试实践

  • 在压力下工作
  • 失败注入
  • 混沌猴

主题#7:事件响应实践

  • 压力管理算法
  • 事件参与者之间的互动
  • 事后剖析
  • 知识共享
  • 塑造文化
  • 故障监控
  • 进行无过失的汇报

主题#8:负载管理实践

  • 负载均衡
  • 应用容错:重试、超时、故障注入、断路器
  • DDoS(创建负载)+ 级联故障

主题#9:事件响应

  • 述职
  • 随叫随到练习
  • 各类事故(测试、配置变更、硬件故障)
  • 事件管理协议

主题#10:诊断和问题解决

  • 记录
  • 调试
  • 对我们的应用程序进行实践分析和调试

主题#11:系统可靠性测试

  • 压力测试
  • 配置测试
  • 性能测试
  • 金丝雀释放

主题12:独立工作和审查

对参与者的建议和要求

SRE 是团队的努力。 我们强烈建议您以团队形式学习该课程。 这就是为什么我们为现成团队提供大幅折扣的原因。

课程价格为每人60₽。
如果一家公司派出 5 人以上的团体 - 40 ₽。

该课程基于 Kubernetes 构建。 要通过考试,您需要对 Kubernetes 有基本的了解。 如果你不和他一起工作,你可以学习 Slurm Basic (在线 или 18 月 20 日至 XNUMX 日强化课程).
另外,你需要精通Linux,了解Gitlab和Prometheus。

注册

如果您有一个复杂的参与想法,例如让首席执行官、首席技术官和开发团队来参加课程,并让他们在考虑到管理垂直领域进行实习,请写信给我个人信息。

来源: habr.com

添加评论