Grafana Open-Code OnCall Incident Response System

Grafana Labs, das die Grafana-Datenvisualisierungsplattform und das Prometheus-Überwachungssystem entwickelt, kündigte die Open Source des OnCall-Incident-Response-Systems an, das die Zusammenarbeit zwischen Teams bei der Lösung und Analyse von Vorfällen ermöglichen soll. OnCall wurde zuvor als proprietäres Produkt bereitgestellt und von Grafana im Rahmen der Übernahme von Amixr Inc. übernommen. letztes Jahr. Der Projektcode ist in Python geschrieben und steht unter der AGPLv3-Lizenz zur Verfügung.

Das System ermöglicht es Ihnen, Informationen über Anomalien und Ereignisse aus verschiedenen Überwachungssystemen zu sammeln und die Daten dann automatisch zu gruppieren, Benachrichtigungen an verantwortliche Gruppen zu senden und den Status der Problemlösung zu verfolgen. Die Integration mit den Überwachungssystemen Grafana, Prometheus, AlertManager und Zabbix wird unterstützt. Aus den von Überwachungssystemen erhaltenen Informationen werden kleinere und unbedeutende Ereignisse herausgefiltert, Duplikate aggregiert und Probleme, die ohne menschliches Eingreifen gelöst werden können, beseitigt.

Bedeutende Ereignisse, die von übermäßigem Informationsrauschen befreit sind, werden an das Benachrichtigungs-Subsystem gesendet, das die für die Lösung der identifizierten Problemkategorien verantwortlichen Mitarbeiter identifiziert und Benachrichtigungen unter Berücksichtigung ihres Arbeitsplans und Beschäftigungsgrads sendet (Daten aus dem Kalenderplaner werden ausgewertet). Die Rotation von Vorfällen zwischen verschiedenen Mitarbeitern und die Eskalation besonders wichtiger oder ungelöster Probleme an andere Teammitglieder oder Mitarbeiter auf höheren Ebenen wird unterstützt.

Grafana Open-Code OnCall Incident Response System

Abhängig von der Schwere des Vorfalls können Benachrichtigungen über Telefonanrufe, SMS, E-Mail, das Erstellen von Ereignissen im Terminkalender sowie über Slack- und Telegram-Instant Messenger gesendet werden. Gleichzeitig können in Slack automatisch Kanäle zur Diskussion von Problemen im Zusammenhang mit der Lösung eines Vorfalls erstellt werden, in die sowohl einzelne Mitarbeiter als auch ganze Teams automatisch eingebunden werden.

Das System bietet flexible Erweiterungs- und Anpassungsmöglichkeiten (z. B. können Sie die Gruppierung und Weiterleitung von Ereignissen nach Ihren Wünschen konfigurieren, Regeln und Kanäle für die Benachrichtigungszustellung definieren). Für die Integration mit externen Systemen wird API- und Terraform-Unterstützung bereitgestellt. Die Bedienung erfolgt über ein Webinterface.

Grafana Open-Code OnCall Incident Response System


Source: opennet.ru

Kommentar hinzufügen