線上 SRE 密集型:我們將把所有東西徹底分解,然後修復它,我們會再分解幾次,然後再次建造它

讓我們打破一些東西吧? 否則我們就建啊建,修啊修。 致命的無聊。

讓我們打破它,這樣我們就不會因此而受到任何影響——我們不僅會因為這種恥辱而受到讚揚。 然後我們將再次建構一切——如此之多,以至於它會更好、更容錯、更快。

我們會再次打破它。

你認為這是一場使用我們整個航太界最秘密的儀器——俄羅斯大太空錘的比賽嗎?

不,這是線上 SRE 密集課程。 恰好每門課程 Slurm SRE 從來沒有像以前那樣。 僅僅因為你永遠不會想到,在一個巨大的複雜系統中,每秒有成千上萬的用戶連接,而觀眾本身有幾百萬,它可能會脫落、破裂、變得遲鈍、出現故障,並以數百種其他方式毀掉SRE工程師輪班的心情。

XNUMX月我們將舉辦另一場 SRE 強化.

線上 SRE 密集型:我們將把所有東西徹底分解,然後修復它,我們會再分解幾次,然後再次建造它

讓我們做一些回顧。 還記得幾年前,人資部門會競相看看誰能僱用最多的 DevOps 工程師進入公司。 獎品變了。 現在,就像 Pantsir-S1 追蹤系統一樣,他們檢查周圍空間並尋找 SRE 工程師。 我在文章中談到「Evgeniy Varavva,Google開發人員。 如何用 5 個字描述 Google「Google 的 SRE 工程師的生活是什麼樣的,以及即使是這樣的公司也缺乏 SRE 專家。

在網路上密集 Slurm SRE 10月,三天時間,從00:19到00:XNUMX,您將學習如何在資源有限的情況下保證網站的速度、容錯性和可用性,消除IT事件並進行匯報,使問題不再發生。

課程主講人:

伊凡·克魯格洛夫。 Databricks 的資深軟體工程師。 擁有企業公司在分散式訊息傳遞和處理、大數據和網路堆疊、搜尋、建構內部雲端、服務網格方面的經驗。

帕維爾·謝利瓦諾夫。 Mail.ru 雲端解決方案的高級開發營運工程師。 我有數十個已建置的基礎設施和數百個已編寫的 CI/CD 管道。 認證 Kubernetes 管理員。 多門 Kubernetes 和 DevOps 課程的作者。 經常在俄羅斯和國際 IT 會議上發表演講。

在實踐中,一切都將是艱難的、不可預測的。 你將建造、破壞和修復——有時會以非常不同的順序進行。

建造: 你必須為一個由多個微服務組成的網站制定SLO、SLI、SLA指標; 開發支援它們的架構和基礎設施; 組裝、測試和部署站點; 設定監控和警報。

休息: 您將考慮導致 SLO 惡化的內部和外部因素:開發人員錯誤、基礎設施故障、訪客湧入、DoS 攻擊。 學習了解穩健性、錯誤預算、測試實務、中斷管理和操作工作負載。

維修: 您將接受培訓,以快速有效地組織團隊工作,以在盡可能短的時間內消除事故:讓同事參與,通知利害關係人並確定優先事項。

學習: 您將能夠從 SRE 的角度分析造訪該網站的方法。 分析事件。 確定未來如何避免它們:改善監控、改變架構、開發和營運方法、法規。 自動化流程。

線上 SRE 密集課程 模擬真實情況 - 恢復服務的時間將極為有限。 就像在現實生活中一樣,就像在真實的工作環境中一樣。

您可以了解 SRE 課程的條款,並在以下位置學習完整的課程: 鏈接.

線上密集課程計畫於 2020 年 XNUMX 月舉行。 對於那些提前付款參加的人,我們準備了折扣。

您準備好應付高強度訓練、非標準任務和突發事故了嗎?

它只是不會發生。 將會有專業的成長。

來源: www.habr.com

添加評論