“希望是一個糟糕的策略。” 3 月 5 日至 XNUMX 日在莫斯科舉辦 SRE 密集課程

我們宣佈在俄羅斯推出首個 SRE 實踐課程: Slurm SRE.

在密集訓練期間,我們將花費三天時間建立、破壞、修復和改進一個銷售電影票的聚合網站。

“希望是一個糟糕的策略。” 3 月 5 日至 XNUMX 日在莫斯科舉辦 SRE 密集課程

我們選擇票務聚合器是因為它有很多故障場景:訪客湧入和DDoS 攻擊、眾多關鍵微服務之一(授權、預訂、支付處理)出現故障、眾多電影院之一無法使用(有關數據交換的信息) 。

我們將為我們的聚合站點制定可靠性概念,我們將在工程中進一步開發該概念,從 SRE 的角度分析設計,選擇指標,設置監控,消除新出現的事件,對團隊合作進行事件培訓在接近戰鬥的情況下,組織一次報告。

該計劃由 Booking.com 和 Google 的員工營運。
這次將不再有遠距參與:課程建立在個人互動和團隊合作的基礎上。

切口下的細節

揚聲器

伊凡·克魯格洛夫
Booking.com(荷蘭)首席開發人員
自 2013 年加入 Booking.com 以來,他一直從事分散式訊息傳遞和處理、大數據和網路堆疊、搜尋等基礎設施專案。
目前正在研究建立內部雲端和服務網格的問題。

班泰勒
Booking.com(美國)首席開發人員
參與Booking.com平台的內部開發。
專注於服務網格/服務發現、批次作業排程、事件回應和事後分析流程。
用俄語進行演講和教學。

葉夫根尼·瓦拉瓦
Google(舊金山)的一般開發人員。
擁有從高負載網路專案到電腦視覺和機器人研究的經驗。
自2011年以來,他一直在谷歌參與分散式系統的創建和運營,參與專案的整個生命週期:概念化、設計和架構、啟動、折疊和所有中間階段。

愛德華·梅德韋傑夫
Tungsten Labs(德國)首席技術官
曾在 StackStorm 擔任工程師,負責平台的 ChatOps 功能。 開發並實施了用於資料中心自動化的 ChatOps。 在俄羅斯和國際會議上發表演講。

節目

該計劃正在積極開發中。現在看起來是這樣,到二月可能會有所改善和擴大。

主題#1:SRE 的基本原理與方法

  • 成為 SRE 需要什麼?
  • DevOps 與 SRE
  • 為什麼開發者重視SRE,當他們不在專案中時會感到非常悲傷
  • SLI、SLO 和 SLA
  • 錯誤預算及其在 SRE 中的作用

主題#2:分散式系統的設計

  • 應用架構和功能
  • 非抽像大型系統設計
  • 可操作性/故障設計
  • gRPC 或 REST
  • 版本控制和向後相容性

主題#3:SRE 項目如何被接受

  • SRE 的最佳實踐
  • 工程驗收清單
  • 日誌記錄、指標、追蹤
  • 將 CI/CD 掌握在我們自己手中

主題四:分散式系統的設計與啟動

  • 逆向工程-系統如何運作?
  • 我們同意 SLI 和 SLO
  • 實踐容量規劃
  • 向應用程式啟動流量,我們的用戶開始「使用」它
  • 啟動 Prometheus、Grafana、Elastic

主題#5:監控、可觀察性和警報

  • 監控對比可觀測性
  • 使用 Prometheus 設定監控和警報
  • SLI 和 SLO 的實際監控
  • 症狀對比原因
  • 黑盒 vs 黑盒白盒監控
  • 應用程式和伺服器可用性的分散式監控
  • 4 個黃金訊號(異常檢測)

主題六:系統可靠性測試實踐

  • 在壓力下工作
  • 失敗注入
  • 混沌猴

主題#7:事件回應實踐

  • 壓力管理演算法
  • 事件參與者之間的互動
  • 事後剖析
  • 知識共享
  • 塑造文化
  • 故障監控
  • 進行無過失的匯報

主題#8:負載管理實踐

  • 負載均衡
  • 應用容錯:重試、逾時、故障注入、斷路器
  • DDoS(創建負載)+ 級聯故障

主題#9:事件回應

  • 匯報
  • 隨叫隨到練習
  • 各類事故(測試、配置變更、硬體故障)
  • 事件管理協議

主題#10:診斷與問題解決

  • 記錄
  • 偵錯
  • 對我們的應用程式進行實踐分析和調試

主題#11:系統可靠度測試

  • 壓力測試
  • 配置測試
  • 性能測試
  • 金絲雀發布

主題12:獨立工作和審查

對參與者的建議和要求

SRE 是團隊的努力。我們強烈建議您以團隊形式學習課程。這就是為什麼我們為現成團隊提供大幅折扣的原因。

課程價格為每人60₽。
如果一家公司派出 5 人以上的團體 - 40 ₽。

該課程基於 Kubernetes 構建。要通過考試,您需要對 Kubernetes 有基本的了解。如果你不跟他一起工作,你可以學習 Slurm Basic (онлайн18 月 20 日至 XNUMX 日密集課程).
另外,你需要精通Linux,了解Gitlab和Prometheus。

註冊

如果您有一個複雜的參與想法,例如讓執行長、技術長和開發團隊來參加課程,並讓他們在考慮到管理垂直領域進行實習,請寫信給我個人資訊。

來源: www.habr.com

添加評論