Grafana 开源 OnCall 事件响应系统

开发 Grafana 数据可视化平台和 Prometheus 监控系统的 Grafana Labs 宣布开源 OnCall 事件响应系统,旨在实现团队之间的协作以解决和分析事件。 OnCall 之前作为专有产品提供,并作为 Grafana 收购 Amixr Inc. 的一部分而被 Grafana 收购。 去年。 该项目代码是用Python编写的,并在AGPLv3许可证下开放。

该系统允许您从各种监控系统收集有关异常和事件的信息,然后自动对数据进行分组,向负责组发送通知并跟踪问题解决的状态。 支持与监控系统 Grafana、Prometheus、AlertManager 和 Zabbix 集成。 从监控系统收到的信息中,次要和无关紧要的事件被过滤掉,重复的事件被聚合,无需人工干预即可解决的问题被消除。

清除过多信息噪声的重大事件被发送到通知发送子系统,该子系统识别负责解决已识别问题类别的员工,并考虑到他们的工作时间表和就业程度(评估来自日历规划器的数据)来发送通知。 支持在不同员工之间轮流处理事件,并将特别重要或未解决的问题上报给其他团队成员或更高级别的员工。

Grafana 开源 OnCall 事件响应系统

根据事件的严重程度,可以通过电话、短信、电子邮件、在调度程序日历中创建事件、Slack 和 Telegram 即时通讯程序发送通知。 同时,可以在 Slack 中自动创建频道来讨论与解决事件相关的问题,个人员工和整个团队都会自动连接到该频道。

该系统提供灵活的扩展和定制选项(例如,您可以根据自己的喜好配置事件的分组和路由,定义通知传递的规则和渠道)。 提供 API 和 Terraform 支持以与外部系统集成。 操作通过网络界面进行控制。

Grafana 开源 OnCall 事件响应系统


来源: opennet.ru

添加评论