“Hy vọng là một chiến lược tồi.” SRE thâm canh tại Moscow, ngày 3-5 tháng XNUMX

Chúng tôi đang công bố khóa học thực hành đầu tiên về SRE ở Nga: Khu ổ chuột SRE.

Trong thời gian tập trung, chúng tôi sẽ dành ba ngày để xây dựng, phá vỡ, sửa chữa và cải thiện một trang web tổng hợp để bán vé xem phim.

“Hy vọng là một chiến lược tồi.” SRE thâm canh tại Moscow, ngày 3-5 tháng XNUMX

Chúng tôi đã chọn một công cụ tổng hợp vé vì nó có nhiều tình huống thất bại: lượng khách truy cập tràn vào và các cuộc tấn công DDoS, sự thất bại của một trong nhiều dịch vụ vi mô quan trọng (ủy quyền, đặt chỗ, xử lý thanh toán), không có sẵn một trong nhiều rạp chiếu phim (trao đổi dữ liệu về chỗ ngồi có sẵn và đặt chỗ), và tiếp tục xuống danh sách.

Chúng tôi sẽ hình thành khái niệm về Độ tin cậy cho trang web tổng hợp của mình, chúng tôi sẽ phát triển thêm về Kỹ thuật, phân tích thiết kế theo quan điểm của SRE, chọn số liệu, thiết lập giám sát, loại bỏ các sự cố mới phát sinh, tiến hành đào tạo cách làm việc nhóm với các sự cố trong điều kiện cận kề chiến đấu, hãy tổ chức thẩm vấn.

Chương trình được điều hành bởi nhân viên của Booking.com và Google.
Lần này sẽ không có sự tham gia từ xa: khóa học được xây dựng dựa trên sự tương tác cá nhân và làm việc nhóm.

Chi tiết dưới vết cắt

Diễn giả

Ivan Kruglov
Nhà phát triển chính tại Booking.com (Hà Lan)
Kể từ khi gia nhập Booking.com vào năm 2013, anh đã làm việc trong các dự án cơ sở hạ tầng như phân phối và xử lý tin nhắn, BigData và web-stack, tìm kiếm.
Hiện đang nghiên cứu các vấn đề về xây dựng đám mây nội bộ và Lưới dịch vụ.

Ben Tyler
Nhà phát triển chính tại Booking.com (Mỹ)
Tham gia phát triển nội bộ nền tảng Booking.com.
Chuyên về lưới dịch vụ/khám phá dịch vụ, lập kế hoạch công việc hàng loạt, ứng phó sự cố và quy trình khám nghiệm tử thi.
Nói và dạy bằng tiếng Nga.

Evgeniy Varavva
Nhà phát triển chung tại Google (San Francisco).
Kinh nghiệm từ các dự án web có tải trọng cao đến nghiên cứu về thị giác máy tính và robot.
Từ năm 2011, anh đã tham gia vào việc tạo và vận hành các hệ thống phân tán tại Google, tham gia vào toàn bộ vòng đời của dự án: lên ý tưởng, thiết kế và kiến ​​trúc, khởi động, gấp và tất cả các giai đoạn trung gian.

Eduard Medvedev
CTO tại Tungsten Labs (Đức)
Làm kỹ sư tại StackStorm, chịu trách nhiệm về chức năng ChatOps của nền tảng. Phát triển và triển khai ChatOps để tự động hóa trung tâm dữ liệu. Diễn giả tại các hội nghị Nga và quốc tế.

Chương trình

Chương trình đang được tích cực phát triển. Bây giờ thì như thế này, đến tháng 2 thì có thể cải thiện và mở rộng hơn.

Chủ đề #1: Nguyên tắc và phương pháp cơ bản của SRE

  • Để trở thành SRE cần những gì?
  • DevOps so với SRE
  • Vì sao chủ đầu tư coi trọng SRE và rất buồn khi không có mặt trong dự án
  • SLI, SLO và SLA
  • Quỹ lỗi và vai trò của nó trong SRE

Chủ đề #2: Thiết kế hệ thống phân tán

  • Kiến trúc và chức năng ứng dụng
  • Thiết kế hệ thống lớn không trừu tượng
  • Khả năng vận hành / Thiết kế cho sự thất bại
  • gRPC hoặc REST
  • Phiên bản và khả năng tương thích ngược

Chủ đề #3: Dự án SRE được chấp nhận như thế nào

  • Các phương pháp hay nhất từ ​​SRE
  • Danh sách kiểm tra chấp nhận dự án
  • Ghi nhật ký, số liệu, theo dõi
  • Đưa CI/CD vào tay chúng ta

Chủ đề số 4: Thiết kế và triển khai hệ thống phân tán

  • Kỹ thuật đảo ngược - hệ thống hoạt động như thế nào?
  • Chúng tôi đồng ý về SLI và SLO
  • Lập kế hoạch năng lực thực hành
  • Khi khởi chạy lưu lượng truy cập vào ứng dụng, người dùng của chúng tôi bắt đầu “sử dụng” nó
  • Ra mắt Prometheus, Grafana, Elastic

Chủ đề số 5: Giám sát, quan sát và cảnh báo

  • Giám sát so với Khả năng quan sát
  • Thiết lập giám sát và cảnh báo với Prometheus
  • Giám sát thực tế SLI và SLO
  • Triệu chứng vs. nguyên nhân
  • Hộp đen vs. Giám sát hộp trắng
  • Giám sát phân tán về tính khả dụng của ứng dụng và máy chủ
  • 4 tín hiệu vàng (phát hiện bất thường)

Chuyên đề số 6: Thực hành kiểm tra độ tin cậy của hệ thống

  • Làm việc dưới áp lực
  • Tiêm thất bại
  • Khỉ hỗn loạn

Chủ đề #7: Thực hành ứng phó sự cố

  • Thuật toán quản lý căng thẳng
  • Tương tác giữa những người tham gia sự cố
  • khám nghiệm tử thi
  • Chia sẻ kiến ​​thức
  • Định hình văn hóa
  • Giám sát lỗi
  • Tiến hành thẩm vấn một cách vô tội vạ

Chủ đề số 8: Thực hành quản lý tải

  • Cân bằng tải
  • Khả năng chịu lỗi của ứng dụng: thử lại, hết thời gian, tiêm lỗi, ngắt mạch
  • DDoS (tạo tải) + Lỗi xếp tầng

Chủ đề #9: Ứng phó sự cố

  • Cuộc phỏng vấn
  • Thực hành theo yêu cầu
  • Các loại tai nạn khác nhau (kiểm tra, thay đổi cấu hình, lỗi phần cứng)
  • Giao thức quản lý sự cố

Chủ đề #10: Chẩn đoán và giải quyết vấn đề

  • Ghi nhật ký
  • Gỡ lỗi
  • Thực hành phân tích và gỡ lỗi trên ứng dụng của chúng tôi

Chủ đề #11: Kiểm tra độ tin cậy của hệ thống

  • Bài kiểm tra về áp lực
  • Kiểm tra cấu hình
  • Kiểm tra năng suất
  • Canary phát hành

Chuyên đề 12: Làm việc độc lập và rà soát

Khuyến nghị và yêu cầu đối với người tham gia

SRE là một nỗ lực của nhóm. Chúng tôi thực sự khuyên bạn nên tham gia khóa học với tư cách là một nhóm. Đó là lý do tại sao chúng tôi đưa ra mức giảm giá lớn cho các đội đã sẵn sàng.

Giá của khóa học là 60 ₽ mỗi người.
Nếu công ty gửi nhóm từ 5 người trở lên - 40 ₽.

Khóa học được xây dựng trên Kubernetes. Để vượt qua, bạn cần biết Kubernetes ở mức cơ bản. Nếu bạn không làm việc với anh ấy, bạn có thể xem qua Slurm Basic (онлайн hoặc chuyên sâu 18-20 tháng XNUMX).
Ngoài ra, bạn cần thành thạo Linux và biết Gitlab, Prometheus.

đăng ký

Nếu bạn có một ý tưởng phức tạp về việc tham gia, chẳng hạn như mời Giám đốc điều hành, CTO và một nhóm nhà phát triển tham gia khóa học và để họ trải qua một đợt thực tập có tính đến ngành quản lý, hãy viết thư cho tôi bằng tin nhắn cá nhân.

Nguồn: www.habr.com

Thêm một lời nhận xét