我們宣佈在俄羅斯推出首個 SRE 實踐課程:
在密集訓練期間,我們將花費三天時間建立、破壞、修復和改進一個銷售電影票的聚合網站。
我們選擇票務聚合器是因為它有很多故障場景:訪客湧入和DDoS 攻擊、眾多關鍵微服務之一(授權、預訂、支付處理)出現故障、眾多電影院之一無法使用(有關數據交換的信息) 。
我們將為我們的聚合站點制定可靠性概念,我們將在工程中進一步開發該概念,從 SRE 的角度分析設計,選擇指標,設置監控,消除新出現的事件,對團隊合作進行事件培訓在接近戰鬥的情況下,組織一次報告。
該計劃由 Booking.com 和 Google 的員工營運。
這次將不再有遠距參與:課程建立在個人互動和團隊合作的基礎上。
切口下的細節
揚聲器
伊凡·克魯格洛夫
Booking.com(荷蘭)首席開發人員
自 2013 年加入 Booking.com 以來,他一直從事分散式訊息傳遞和處理、大數據和網路堆疊、搜尋等基礎設施專案。
目前正在研究建立內部雲端和服務網格的問題。
班泰勒
Booking.com(美國)首席開發人員
參與Booking.com平台的內部開發。
專注於服務網格/服務發現、批次作業排程、事件回應和事後分析流程。
用俄語進行演講和教學。
葉夫根尼·瓦拉瓦
Google(舊金山)的一般開發人員。
擁有從高負載網路專案到電腦視覺和機器人研究的經驗。
自2011年以來,他一直在谷歌參與分散式系統的創建和運營,參與專案的整個生命週期:概念化、設計和架構、啟動、折疊和所有中間階段。
愛德華·梅德韋傑夫
Tungsten Labs(德國)首席技術官
曾在 StackStorm 擔任工程師,負責平台的 ChatOps 功能。 開發並實施了用於資料中心自動化的 ChatOps。 在俄羅斯和國際會議上發表演講。
節目
該計劃正在積極開發中。現在看起來是這樣,到二月可能會有所改善和擴大。
主題#1:SRE 的基本原理與方法
- 成為 SRE 需要什麼?
- DevOps 與 SRE
- 為什麼開發者重視SRE,當他們不在專案中時會感到非常悲傷
- SLI、SLO 和 SLA
- 錯誤預算及其在 SRE 中的作用
主題#2:分散式系統的設計
- 應用架構和功能
- 非抽像大型系統設計
- 可操作性/故障設計
- gRPC 或 REST
- 版本控制和向後相容性
主題#3:SRE 項目如何被接受
- SRE 的最佳實踐
- 工程驗收清單
- 日誌記錄、指標、追蹤
- 將 CI/CD 掌握在我們自己手中
主題四:分散式系統的設計與啟動
- 逆向工程-系統如何運作?
- 我們同意 SLI 和 SLO
- 實踐容量規劃
- 向應用程式啟動流量,我們的用戶開始「使用」它
- 啟動 Prometheus、Grafana、Elastic
主題#5:監控、可觀察性和警報
- 監控對比可觀測性
- 使用 Prometheus 設定監控和警報
- SLI 和 SLO 的實際監控
- 症狀對比原因
- 黑盒 vs 黑盒白盒監控
- 應用程式和伺服器可用性的分散式監控
- 4 個黃金訊號(異常檢測)
主題六:系統可靠性測試實踐
- 在壓力下工作
- 失敗注入
- 混沌猴
主題#7:事件回應實踐
- 壓力管理演算法
- 事件參與者之間的互動
- 事後剖析
- 知識共享
- 塑造文化
- 故障監控
- 進行無過失的匯報
主題#8:負載管理實踐
- 負載均衡
- 應用容錯:重試、逾時、故障注入、斷路器
- DDoS(創建負載)+ 級聯故障
主題#9:事件回應
- 匯報
- 隨叫隨到練習
- 各類事故(測試、配置變更、硬體故障)
- 事件管理協議
主題#10:診斷與問題解決
- 記錄
- 偵錯
- 對我們的應用程式進行實踐分析和調試
主題#11:系統可靠度測試
- 壓力測試
- 配置測試
- 性能測試
- 金絲雀發布
主題12:獨立工作和審查
對參與者的建議和要求
SRE 是團隊的努力。我們強烈建議您以團隊形式學習課程。這就是為什麼我們為現成團隊提供大幅折扣的原因。
課程價格為每人60₽。
如果一家公司派出 5 人以上的團體 - 40 ₽。
該課程基於 Kubernetes 構建。要通過考試,您需要對 Kubernetes 有基本的了解。如果你不跟他一起工作,你可以學習 Slurm Basic (
另外,你需要精通Linux,了解Gitlab和Prometheus。
註冊
如果您有一個複雜的參與想法,例如讓執行長、技術長和開發團隊來參加課程,並讓他們在考慮到管理垂直領域進行實習,請寫信給我個人資訊。
來源: www.habr.com