Grafana Open-Code OnCall Incident Response System

A Grafana Labs, que desenvolve a plataforma de visualização de dados Grafana e o sistema de monitoramento Prometheus, anunciou o código aberto do sistema de resposta a incidentes OnCall, projetado para permitir a colaboração entre equipes para resolver e analisar incidentes. OnCall era anteriormente fornecido como um produto proprietário e foi adquirido pela Grafana como parte da aquisição da Amixr Inc. ano passado. O código do projeto é escrito em Python e aberto sob a licença AGPLv3.

O sistema permite coletar informações sobre anomalias e eventos de diversos sistemas de monitoramento, e então agrupar automaticamente os dados, enviar notificações aos grupos responsáveis ​​e acompanhar o status de resolução de problemas. É suportada integração com sistemas de monitoramento Grafana, Prometheus, AlertManager e Zabbix. Das informações recebidas dos sistemas de monitoramento, são filtrados eventos menores e insignificantes, agregadas duplicatas e eliminados problemas que podem ser resolvidos sem intervenção humana.

Os eventos significativos eliminados do excesso de ruído de informação são enviados para o subsistema de envio de notificações, que identifica os colaboradores responsáveis ​​​​pela resolução das categorias de problemas identificadas e envia notificações tendo em conta o seu horário de trabalho e grau de emprego (são avaliados os dados do planeador de calendário). É apoiada a rotação de incidentes entre diferentes funcionários e o escalonamento de problemas particularmente importantes ou não resolvidos para outros membros da equipe ou funcionários de níveis superiores.

Grafana Open-Code OnCall Incident Response System

Dependendo da gravidade do incidente, as notificações podem ser enviadas por meio de ligações telefônicas, SMS, e-mail, criação de eventos no calendário agendador, mensageiros instantâneos Slack e Telegram. Ao mesmo tempo, canais podem ser criados automaticamente no Slack para discutir questões relacionadas à resolução de um incidente, aos quais funcionários individuais e equipes inteiras estão automaticamente conectados.

O sistema oferece opções flexíveis de expansão e personalização (por exemplo, você pode configurar o agrupamento e roteamento de eventos de acordo com suas preferências, definir regras e canais para entrega de notificações). Suporte API e Terraform são fornecidos para integração com sistemas externos. A operação é controlada através de uma interface web.

Grafana Open-Code OnCall Incident Response System


Fonte: opennet.ru

Adicionar um comentário