Hệ thống ứng phó sự cố OnCall nguồn mở Grafana

Grafana Labs, công ty phát triển nền tảng trực quan hóa dữ liệu Grafana và hệ thống giám sát Prometheus, đã công bố nguồn mở của hệ thống ứng phó sự cố OnCall, được thiết kế để cho phép các nhóm cộng tác nhằm giải quyết và phân tích sự cố. OnCall trước đây được cung cấp dưới dạng sản phẩm độc quyền và được Grafana mua lại như một phần của việc mua lại Amixr Inc. năm ngoái. Mã dự án được viết bằng Python và được mở theo giấy phép AGPLv3.

Hệ thống cho phép bạn thu thập thông tin về các điểm bất thường và sự kiện từ nhiều hệ thống giám sát khác nhau, sau đó tự động nhóm dữ liệu, gửi thông báo đến các nhóm chịu trách nhiệm và theo dõi trạng thái giải quyết vấn đề. Hỗ trợ tích hợp với các hệ thống giám sát Grafana, Prometheus, AlertManager và Zabbix. Từ thông tin nhận được từ hệ thống giám sát, các sự kiện nhỏ và không đáng kể sẽ được lọc ra, các sự kiện trùng lặp được tổng hợp và các vấn đề có thể giải quyết mà không cần sự can thiệp của con người sẽ được loại bỏ.

Các sự kiện quan trọng đã được loại bỏ nhiễu thông tin dư thừa sẽ được gửi đến hệ thống con gửi thông báo, hệ thống này xác định nhân viên chịu trách nhiệm giải quyết các loại vấn đề đã xác định và gửi thông báo có tính đến lịch trình làm việc và mức độ làm việc của họ (dữ liệu từ công cụ lập kế hoạch lịch được đánh giá). Hỗ trợ luân chuyển các sự cố giữa các nhân viên khác nhau và chuyển các vấn đề đặc biệt quan trọng hoặc chưa được giải quyết sang các thành viên khác trong nhóm hoặc nhân viên ở cấp cao hơn.

Hệ thống ứng phó sự cố OnCall nguồn mở Grafana

Tùy thuộc vào mức độ nghiêm trọng của sự cố, thông báo có thể được gửi qua cuộc gọi điện thoại, SMS, email, tạo sự kiện trong lịch lập lịch, tin nhắn tức thời Slack và Telegram. Đồng thời, các kênh có thể được tạo tự động trong Slack để thảo luận các vấn đề liên quan đến giải quyết sự cố mà cả cá nhân nhân viên và toàn bộ nhóm đều được kết nối tự động.

Hệ thống cung cấp các tùy chọn tùy chỉnh và mở rộng linh hoạt (ví dụ: bạn có thể định cấu hình nhóm và định tuyến các sự kiện để phù hợp với sở thích của mình, xác định quy tắc và kênh để gửi thông báo). Hỗ trợ API và Terraform được cung cấp để tích hợp với các hệ thống bên ngoài. Hoạt động được điều khiển thông qua giao diện web.

Hệ thống ứng phó sự cố OnCall nguồn mở Grafana


Nguồn: opennet.ru

Thêm một lời nhận xét