A Grafana Labs, que desenvolve a plataforma de visualização de dados Grafana e o sistema de monitoramento Prometheus, anunciou o código aberto do sistema de resposta a incidentes OnCall, projetado para permitir a colaboração entre equipes para resolver e analisar incidentes. OnCall era anteriormente fornecido como um produto proprietário e foi adquirido pela Grafana como parte da aquisição da Amixr Inc. ano passado. O código do projeto é escrito em Python e aberto sob a licença AGPLv3.
O sistema permite coletar informações sobre anomalias e eventos de diversos sistemas de monitoramento, e então agrupar automaticamente os dados, enviar notificações aos grupos responsáveis e acompanhar o status de resolução de problemas. É suportada integração com sistemas de monitoramento Grafana, Prometheus, AlertManager e Zabbix. Das informações recebidas dos sistemas de monitoramento, são filtrados eventos menores e insignificantes, agregadas duplicatas e eliminados problemas que podem ser resolvidos sem intervenção humana.
Os eventos significativos eliminados do excesso de ruído de informação são enviados para o subsistema de envio de notificações, que identifica os colaboradores responsáveis pela resolução das categorias de problemas identificadas e envia notificações tendo em conta o seu horário de trabalho e grau de emprego (são avaliados os dados do planeador de calendário). É apoiada a rotação de incidentes entre diferentes funcionários e o escalonamento de problemas particularmente importantes ou não resolvidos para outros membros da equipe ou funcionários de níveis superiores.
Dependendo da gravidade do incidente, as notificações podem ser enviadas por meio de ligações telefônicas, SMS, e-mail, criação de eventos no calendário agendador, mensageiros instantâneos Slack e Telegram. Ao mesmo tempo, canais podem ser criados automaticamente no Slack para discutir questões relacionadas à resolução de um incidente, aos quais funcionários individuais e equipes inteiras estão automaticamente conectados.
O sistema oferece opções flexíveis de expansão e personalização (por exemplo, você pode configurar o agrupamento e roteamento de eventos de acordo com suas preferências, definir regras e canais para entrega de notificações). Suporte API e Terraform são fornecidos para integração com sistemas externos. A operação é controlada através de uma interface web.
Fonte: opennet.ru