我们宣布在俄罗斯推出首个 SRE 实践课程:
在密集训练期间,我们将花费三天时间构建、破坏、修复和改进一个销售电影票的聚合网站。
我们选择票务聚合器是因为它有很多故障场景:访客涌入和 DDoS 攻击、众多关键微服务之一(授权、预订、支付处理)出现故障、众多电影院之一无法使用(有关数据交换的信息)。可用座位和预订),以及列表中的更下方。
我们将为我们的聚合站点制定可靠性概念,我们将在工程中进一步开发该概念,从 SRE 的角度分析设计,选择指标,设置监控,消除新出现的事件,对团队合作进行事件培训在接近战斗的情况下,组织一次汇报。
该计划由 Booking.com 和 Google 的员工运营。
这次将不再有远程参与:课程建立在个人互动和团队合作的基础上。
切口下的细节
扬声器
伊万·克鲁格洛夫
Booking.com(荷兰)首席开发人员
自 2013 年加入 Booking.com 以来,他一直从事分布式消息传递和处理、大数据和网络堆栈、搜索等基础设施项目。
目前正在研究构建内部云和服务网格的问题。
本·泰勒
Booking.com(美国)首席开发人员
参与Booking.com平台的内部开发。
专注于服务网格/服务发现、批处理作业调度、事件响应和事后分析过程。
用俄语进行演讲和教学。
叶夫根尼·瓦拉瓦
Google(旧金山)的一般开发人员。
拥有从高负载网络项目到计算机视觉和机器人研究的经验。
自2011年以来,他一直在谷歌参与分布式系统的创建和运营,参与项目的整个生命周期:概念化、设计和架构、启动、折叠和所有中间阶段。
爱德华·梅德韦杰夫
Tungsten Labs(德国)首席技术官
曾在 StackStorm 担任工程师,负责平台的 ChatOps 功能。 开发并实施了用于数据中心自动化的 ChatOps。 在俄罗斯和国际会议上发表演讲。
程序
该计划正在积极开发中。 现在看起来是这样,到二月份可能会有所改善和扩大。
主题#1:SRE 的基本原理和方法
- 成为 SRE 需要什么?
- DevOps 与 SRE
- 为什么开发者重视SRE,当他们不在项目中时会感到非常悲伤
- SLI、SLO 和 SLA
- 错误预算及其在 SRE 中的作用
主题#2:分布式系统的设计
- 应用架构和功能
- 非抽象大型系统设计
- 可操作性/故障设计
- gRPC 或 REST
- 版本控制和向后兼容性
主题#3:SRE 项目如何被接受
- SRE 的最佳实践
- 工程验收清单
- 日志记录、指标、跟踪
- 将 CI/CD 掌握在我们自己手中
主题四:分布式系统的设计和启动
- 逆向工程——系统如何工作?
- 我们同意 SLI 和 SLO
- 实践容量规划
- 向应用程序启动流量,我们的用户开始“使用”它
- 启动 Prometheus、Grafana、Elastic
主题#5:监控、可观察性和警报
- 监控对比可观测性
- 使用 Prometheus 设置监控和警报
- SLI 和 SLO 的实际监控
- 症状对比原因
- 黑盒 vs 黑盒白盒监控
- 应用程序和服务器可用性的分布式监控
- 4 个黄金信号(异常检测)
主题六:系统可靠性测试实践
- 在压力下工作
- 失败注入
- 混沌猴
主题#7:事件响应实践
- 压力管理算法
- 事件参与者之间的互动
- 事后剖析
- 知识共享
- 塑造文化
- 故障监控
- 进行无过失的汇报
主题#8:负载管理实践
- 负载均衡
- 应用容错:重试、超时、故障注入、断路器
- DDoS(创建负载)+ 级联故障
主题#9:事件响应
- 述职
- 随叫随到练习
- 各类事故(测试、配置变更、硬件故障)
- 事件管理协议
主题#10:诊断和问题解决
- 记录
- 调试
- 对我们的应用程序进行实践分析和调试
主题#11:系统可靠性测试
- 压力测试
- 配置测试
- 性能测试
- 金丝雀释放
主题12:独立工作和审查
对参与者的建议和要求
SRE 是团队的努力。 我们强烈建议您以团队形式学习该课程。 这就是为什么我们为现成团队提供大幅折扣的原因。
课程价格为每人60₽。
如果一家公司派出 5 人以上的团体 - 40 ₽。
该课程基于 Kubernetes 构建。 要通过考试,您需要对 Kubernetes 有基本的了解。 如果你不和他一起工作,你可以学习 Slurm Basic (
另外,你需要精通Linux,了解Gitlab和Prometheus。
注册
如果您有一个复杂的参与想法,例如让首席执行官、首席技术官和开发团队来参加课程,并让他们在考虑到管理垂直领域进行实习,请写信给我个人信息。
来源: habr.com