Sistema de respuesta a incidentes OnCall de código abierto de Grafana

Grafana Labs, que desarrolla la plataforma de visualización de datos Grafana y el sistema de monitoreo Prometheus, anunció el código abierto del sistema de respuesta a incidentes OnCall, diseñado para permitir la colaboración entre equipos para resolver y analizar incidentes. OnCall se ofrecía anteriormente como un producto propietario y fue adquirido por Grafana como parte de su adquisición de Amixr Inc. el año pasado. El código del proyecto está escrito en Python y está abierto bajo la licencia AGPLv3.

El sistema le permite recopilar información sobre anomalías y eventos de varios sistemas de monitoreo y luego agrupar automáticamente los datos, enviar notificaciones a los grupos responsables y realizar un seguimiento del estado de resolución del problema. Se admite la integración con los sistemas de monitoreo Grafana, Prometheus, AlertManager y Zabbix. A partir de la información recibida de los sistemas de seguimiento se filtran los eventos menores e insignificantes, se agregan los duplicados y se eliminan los problemas que pueden resolverse sin intervención humana.

Los eventos importantes libres de exceso de ruido de información se envían al subsistema de envío de notificaciones, que identifica a los empleados responsables de resolver las categorías de problemas identificadas y envía notificaciones teniendo en cuenta su horario de trabajo y grado de empleo (se evalúan los datos del planificador del calendario). Se admite la rotación de incidentes entre diferentes empleados y la escalada de problemas particularmente importantes o no resueltos a otros miembros del equipo o empleados de niveles superiores.

Sistema de respuesta a incidentes OnCall de código abierto de Grafana

Dependiendo de la gravedad del incidente, las notificaciones se pueden enviar a través de llamadas telefónicas, SMS, correo electrónico, creación de eventos en el calendario del planificador, mensajería instantánea Slack y Telegram. Al mismo tiempo, se pueden crear automáticamente canales en Slack para discutir cuestiones relacionadas con la resolución de un incidente, a los que se conectan automáticamente tanto empleados individuales como equipos completos.

El sistema proporciona opciones flexibles de expansión y personalización (por ejemplo, puede configurar la agrupación y el enrutamiento de eventos para adaptarlos a sus preferencias, definir reglas y canales para la entrega de notificaciones). Se proporciona soporte API y Terraform para la integración con sistemas externos. El funcionamiento se controla a través de una interfaz web.

Sistema de respuesta a incidentes OnCall de código abierto de Grafana


Fuente: opennet.ru

Añadir un comentario