Grafana オープンコード オンコール インシデント対応システム

Grafana データ視覚化プラットフォームと Prometheus 監視システムを開発する Grafana Labs は、チーム間の協力でインシデントを解決および分析できるように設計された OnCall インシデント対応システムのオープンソースを発表しました。 OnCall は以前は独自製品として提供されていましたが、Amixr Inc の買収の一環として Grafana に買収されました。 去年。 プロジェクト コードは Python で書かれており、AGPLv3 ライセンスの下で公開されています。

このシステムを使用すると、さまざまな監視システムから異常やイベントに関する情報を収集し、データを自動的にグループ化し、担当グループに通知を送信し、問題解決のステータスを追跡できます。 監視システム Grafana、Prometheus、AlertManager、Zabbix との統合がサポートされています。 監視システムから受け取った情報から、軽微で重要ではないイベントが除外され、重複が集約され、人間の介入なしで解決できる問題が排除されます。

過剰な情報ノイズが除去された重要なイベントは、通知送信サブシステムに送信されます。このサブシステムは、特定された問題のカテゴリを解決する責任のある従業員を特定し、その従業員の作業スケジュールと雇用の程度を考慮して通知を送信します (カレンダー プランナーからのデータが評価されます)。 さまざまな従業員間でのインシデントのローテーション、および特に重要な問題または未解決の問題の他のチームメンバーまたはより高いレベルの従業員へのエスカレーションがサポートされています。

Grafana オープンコード オンコール インシデント対応システム

インシデントの重大度に応じて、電話、SMS、電子メール、スケジューラ カレンダーでのイベントの作成、Slack および Telegram インスタント メッセンジャーを通じて通知を送信できます。 同時に、インシデントの解決に関連する問題について話し合うためのチャネルが Slack に自動的に作成され、個々の従業員とチーム全体の両方が自動的に接続されます。

このシステムは、柔軟な拡張およびカスタマイズのオプションを提供します (たとえば、好みに合わせてイベントのグループ化とルーティングを構成したり、通知配信のルールやチャネルを定義したりできます)。 外部システムとの統合のために、API および Terraform のサポートが提供されます。 操作はWebインターフェース経由で制御されます。

Grafana オープンコード オンコール インシデント対応システム


出所: オープンネット.ru

コメントを追加します