Système de réponse aux incidents Grafana Open-Code OnCall

Grafana Labs, qui développe la plateforme de visualisation de données Grafana et le système de surveillance Prometheus, a annoncé l'open source du système de réponse aux incidents OnCall, conçu pour permettre la collaboration entre les équipes pour résoudre et analyser les incidents. OnCall était auparavant fourni en tant que produit exclusif et a été acquis par Grafana dans le cadre de son acquisition d'Amixr Inc. l'année dernière. Le code du projet est écrit en Python et est ouvert sous licence AGPLv3.

Le système vous permet de collecter des informations sur les anomalies et les événements provenant de divers systèmes de surveillance, puis de regrouper automatiquement les données, d'envoyer des notifications aux groupes responsables et de suivre l'état de résolution des problèmes. L'intégration avec les systèmes de surveillance Grafana, Prometheus, AlertManager et Zabbix est prise en charge. À partir des informations reçues des systèmes de surveillance, les événements mineurs et insignifiants sont filtrés, les doublons sont regroupés et les problèmes pouvant être résolus sans intervention humaine sont éliminés.

Les événements importants débarrassés du bruit d'information excessif sont envoyés au sous-système d'envoi de notifications, qui identifie les employés chargés de résoudre les catégories de problèmes identifiées et envoie des notifications en tenant compte de leur horaire de travail et de leur degré d'emploi (les données du planificateur de calendrier sont évaluées). La rotation des incidents entre différents employés et la transmission de problèmes particulièrement importants ou non résolus à d'autres membres de l'équipe ou à des employés de niveaux supérieurs sont prises en charge.

Système de réponse aux incidents Grafana Open-Code OnCall

En fonction de la gravité de l'incident, des notifications peuvent être envoyées via des appels téléphoniques, des SMS, des e-mails, en créant des événements dans le calendrier du planificateur, des messageries instantanées Slack et Telegram. Dans le même temps, des canaux peuvent être automatiquement créés dans Slack pour discuter des problèmes liés à la résolution d'un incident, auxquels les employés individuels et des équipes entières sont automatiquement connectés.

Le système offre des options d'extension et de personnalisation flexibles (par exemple, vous pouvez configurer le regroupement et le routage des événements en fonction de vos préférences, définir des règles et des canaux pour l'envoi des notifications). La prise en charge des API et Terraform est fournie pour l'intégration avec des systèmes externes. Le fonctionnement est contrôlé via une interface Web.

Système de réponse aux incidents Grafana Open-Code OnCall


Source: opennet.ru

Ajouter un commentaire