Prohoster > Blog > quản lý > “Hy vọng là một chiến lược tồi.” SRE thâm canh tại Moscow, ngày 3-5 tháng XNUMX
“Hy vọng là một chiến lược tồi.” SRE thâm canh tại Moscow, ngày 3-5 tháng XNUMX
Chúng tôi đang công bố khóa học thực hành đầu tiên về SRE ở Nga: Khu ổ chuột SRE.
Trong thời gian tập trung, chúng tôi sẽ dành ba ngày để xây dựng, phá vỡ, sửa chữa và cải thiện một trang web tổng hợp để bán vé xem phim.
Chúng tôi đã chọn một công cụ tổng hợp vé vì nó có nhiều tình huống thất bại: lượng khách truy cập tràn vào và các cuộc tấn công DDoS, sự thất bại của một trong nhiều dịch vụ vi mô quan trọng (ủy quyền, đặt chỗ, xử lý thanh toán), không có sẵn một trong nhiều rạp chiếu phim (trao đổi dữ liệu về chỗ ngồi có sẵn và đặt chỗ), và tiếp tục xuống danh sách.
Chúng tôi sẽ hình thành khái niệm về Độ tin cậy cho trang web tổng hợp của mình, chúng tôi sẽ phát triển thêm về Kỹ thuật, phân tích thiết kế theo quan điểm của SRE, chọn số liệu, thiết lập giám sát, loại bỏ các sự cố mới phát sinh, tiến hành đào tạo cách làm việc nhóm với các sự cố trong điều kiện cận kề chiến đấu, hãy tổ chức thẩm vấn.
Chương trình được điều hành bởi nhân viên của Booking.com và Google.
Lần này sẽ không có sự tham gia từ xa: khóa học được xây dựng dựa trên sự tương tác cá nhân và làm việc nhóm.
Chi tiết dưới vết cắt
Diễn giả
Ivan Kruglov
Nhà phát triển chính tại Booking.com (Hà Lan)
Kể từ khi gia nhập Booking.com vào năm 2013, anh đã làm việc trong các dự án cơ sở hạ tầng như phân phối và xử lý tin nhắn, BigData và web-stack, tìm kiếm.
Hiện đang nghiên cứu các vấn đề về xây dựng đám mây nội bộ và Lưới dịch vụ.
Ben Tyler
Nhà phát triển chính tại Booking.com (Mỹ)
Tham gia phát triển nội bộ nền tảng Booking.com.
Chuyên về lưới dịch vụ/khám phá dịch vụ, lập kế hoạch công việc hàng loạt, ứng phó sự cố và quy trình khám nghiệm tử thi.
Nói và dạy bằng tiếng Nga.
Evgeniy Varavva
Nhà phát triển chung tại Google (San Francisco).
Kinh nghiệm từ các dự án web có tải trọng cao đến nghiên cứu về thị giác máy tính và robot.
Từ năm 2011, anh đã tham gia vào việc tạo và vận hành các hệ thống phân tán tại Google, tham gia vào toàn bộ vòng đời của dự án: lên ý tưởng, thiết kế và kiến trúc, khởi động, gấp và tất cả các giai đoạn trung gian.
Eduard Medvedev
CTO tại Tungsten Labs (Đức)
Làm kỹ sư tại StackStorm, chịu trách nhiệm về chức năng ChatOps của nền tảng. Phát triển và triển khai ChatOps để tự động hóa trung tâm dữ liệu. Diễn giả tại các hội nghị Nga và quốc tế.
Chương trình
Chương trình đang được tích cực phát triển. Bây giờ thì như thế này, đến tháng 2 thì có thể cải thiện và mở rộng hơn.
Chủ đề #1: Nguyên tắc và phương pháp cơ bản của SRE
Để trở thành SRE cần những gì?
DevOps so với SRE
Vì sao chủ đầu tư coi trọng SRE và rất buồn khi không có mặt trong dự án
SLI, SLO và SLA
Quỹ lỗi và vai trò của nó trong SRE
Chủ đề #2: Thiết kế hệ thống phân tán
Kiến trúc và chức năng ứng dụng
Thiết kế hệ thống lớn không trừu tượng
Khả năng vận hành / Thiết kế cho sự thất bại
gRPC hoặc REST
Phiên bản và khả năng tương thích ngược
Chủ đề #3: Dự án SRE được chấp nhận như thế nào
Các phương pháp hay nhất từ SRE
Danh sách kiểm tra chấp nhận dự án
Ghi nhật ký, số liệu, theo dõi
Đưa CI/CD vào tay chúng ta
Chủ đề số 4: Thiết kế và triển khai hệ thống phân tán
Kỹ thuật đảo ngược - hệ thống hoạt động như thế nào?
Chúng tôi đồng ý về SLI và SLO
Lập kế hoạch năng lực thực hành
Khi khởi chạy lưu lượng truy cập vào ứng dụng, người dùng của chúng tôi bắt đầu “sử dụng” nó
Ra mắt Prometheus, Grafana, Elastic
Chủ đề số 5: Giám sát, quan sát và cảnh báo
Giám sát so với Khả năng quan sát
Thiết lập giám sát và cảnh báo với Prometheus
Giám sát thực tế SLI và SLO
Triệu chứng vs. nguyên nhân
Hộp đen vs. Giám sát hộp trắng
Giám sát phân tán về tính khả dụng của ứng dụng và máy chủ
4 tín hiệu vàng (phát hiện bất thường)
Chuyên đề số 6: Thực hành kiểm tra độ tin cậy của hệ thống
Làm việc dưới áp lực
Tiêm thất bại
Khỉ hỗn loạn
Chủ đề #7: Thực hành ứng phó sự cố
Thuật toán quản lý căng thẳng
Tương tác giữa những người tham gia sự cố
khám nghiệm tử thi
Chia sẻ kiến thức
Định hình văn hóa
Giám sát lỗi
Tiến hành thẩm vấn một cách vô tội vạ
Chủ đề số 8: Thực hành quản lý tải
Cân bằng tải
Khả năng chịu lỗi của ứng dụng: thử lại, hết thời gian, tiêm lỗi, ngắt mạch
DDoS (tạo tải) + Lỗi xếp tầng
Chủ đề #9: Ứng phó sự cố
Cuộc phỏng vấn
Thực hành theo yêu cầu
Các loại tai nạn khác nhau (kiểm tra, thay đổi cấu hình, lỗi phần cứng)
Giao thức quản lý sự cố
Chủ đề #10: Chẩn đoán và giải quyết vấn đề
Ghi nhật ký
Gỡ lỗi
Thực hành phân tích và gỡ lỗi trên ứng dụng của chúng tôi
Chủ đề #11: Kiểm tra độ tin cậy của hệ thống
Bài kiểm tra về áp lực
Kiểm tra cấu hình
Kiểm tra năng suất
Canary phát hành
Chuyên đề 12: Làm việc độc lập và rà soát
Khuyến nghị và yêu cầu đối với người tham gia
SRE là một nỗ lực của nhóm. Chúng tôi thực sự khuyên bạn nên tham gia khóa học với tư cách là một nhóm. Đó là lý do tại sao chúng tôi đưa ra mức giảm giá lớn cho các đội đã sẵn sàng.
Giá của khóa học là 60 ₽ mỗi người.
Nếu công ty gửi nhóm từ 5 người trở lên - 40 ₽.
Khóa học được xây dựng trên Kubernetes. Để vượt qua, bạn cần biết Kubernetes ở mức cơ bản. Nếu bạn không làm việc với anh ấy, bạn có thể xem qua Slurm Basic (онлайн hoặc chuyên sâu 18-20 tháng XNUMX).
Ngoài ra, bạn cần thành thạo Linux và biết Gitlab, Prometheus.
Nếu bạn có một ý tưởng phức tạp về việc tham gia, chẳng hạn như mời Giám đốc điều hành, CTO và một nhóm nhà phát triển tham gia khóa học và để họ trải qua một đợt thực tập có tính đến ngành quản lý, hãy viết thư cho tôi bằng tin nhắn cá nhân.