Grafana Open-Code OnCall Incident Response-systeem

Grafana Labs, dat het Grafana-datavisualisatieplatform en het Prometheus-monitoringsysteem ontwikkelt, heeft de open source aangekondigd van het OnCall-incidentresponssysteem, ontworpen om samenwerking tussen teams mogelijk te maken om incidenten op te lossen en te analyseren. OnCall werd voorheen geleverd als een eigen product en werd door Grafana overgenomen als onderdeel van de overname van Amixr Inc. afgelopen jaar. De projectcode is geschreven in Python en is open onder de AGPLv3-licentie.

Met het systeem kunt u informatie verzamelen over afwijkingen en gebeurtenissen uit verschillende monitoringsystemen en vervolgens de gegevens automatisch groeperen, meldingen naar verantwoordelijke groepen sturen en de status van de probleemoplossing volgen. Integratie met monitoringsystemen Grafana, Prometheus, AlertManager en Zabbix wordt ondersteund. Uit de informatie die wordt ontvangen van monitoringsystemen worden kleine en onbeduidende gebeurtenissen uitgefilterd, duplicaten samengevoegd en problemen die zonder menselijke tussenkomst kunnen worden opgelost, geëlimineerd.

Significante gebeurtenissen die zijn ontdaan van overtollige informatieruis worden verzonden naar het subsysteem voor het verzenden van meldingen, dat werknemers identificeert die verantwoordelijk zijn voor het oplossen van de geïdentificeerde categorieën problemen en meldingen verzendt, rekening houdend met hun werkschema en mate van dienstverband (gegevens van de kalenderplanner worden beoordeeld). Rotatie van incidenten tussen verschillende medewerkers en escalatie van bijzonder belangrijke of onopgeloste problemen naar andere teamleden of medewerkers op hogere niveaus wordt ondersteund.

Grafana Open-Code OnCall Incident Response-systeem

Afhankelijk van de ernst van het incident kunnen meldingen worden verzonden via telefoongesprekken, sms, e-mail, het aanmaken van evenementen in de plannerkalender, Slack en Telegram instant messengers. Tegelijkertijd kunnen in Slack automatisch kanalen worden aangemaakt om zaken rondom het oplossen van een incident te bespreken, waar zowel individuele medewerkers als hele teams automatisch mee worden verbonden.

Het systeem biedt flexibele uitbreidings- en aanpassingsopties (u kunt bijvoorbeeld de groepering en routering van gebeurtenissen configureren om aan uw voorkeuren te voldoen, regels en kanalen definiëren voor het bezorgen van meldingen). Er wordt API- en Terraform-ondersteuning geboden voor integratie met externe systemen. De bediening wordt geregeld via een webinterface.

Grafana Open-Code OnCall Incident Response-systeem


Bron: opennet.ru

Voeg een reactie