Sistema di risposta agli incidenti OnCall a codice aperto Grafana

Grafana Labs, che sviluppa la piattaforma di visualizzazione dei dati Grafana e il sistema di monitoraggio Prometheus, ha annunciato il codice open source per il sistema di risposta agli incidenti OnCall, progettato per garantire che i team lavorino insieme per eliminare e analizzare gli incidenti. OnCall è stato precedentemente distribuito come prodotto proprietario ed è stato acquisito da Grafana attraverso la sua acquisizione di Amixr Inc. l'anno scorso. Il codice del progetto è scritto in Python ed è aperto con licenza AGPLv3.

Il sistema consente di raccogliere informazioni su anomalie ed eventi da vari sistemi di monitoraggio, quindi raggruppare automaticamente i dati, inviare notifiche ai gruppi responsabili e tracciare lo stato di risoluzione dei problemi. È supportata l'integrazione con i sistemi di monitoraggio Grafana, Prometheus, AlertManager e Zabbix. Gli eventi minori e non significativi vengono filtrati dalle informazioni ricevute dai sistemi di monitoraggio, i duplicati vengono aggregati e vengono esclusi i problemi che possono essere risolti senza intervento umano.

Gli eventi significativi eliminati dal rumore informativo non necessario vengono inviati al sottosistema di invio delle notifiche, che identifica i dipendenti responsabili della risoluzione delle categorie di problemi identificate e invia le notifiche tenendo conto del loro programma di lavoro e del grado di occupazione (i dati del pianificatore vengono valutati). Viene supportata la rotazione dell'associazione degli incidenti tra diversi dipendenti e l'escalation di problemi particolarmente importanti o irrisolti ad altri membri del team o dipendenti di livelli superiori.

Sistema di risposta agli incidenti OnCall a codice aperto Grafana

A seconda della gravità dell'incidente, le notifiche possono essere inviate tramite telefonate, SMS, e-mail, creazione di eventi nel calendario dello scheduler, messaggistica Slack e Telegram. Allo stesso tempo, Slack può creare automaticamente canali per la discussione di questioni relative alla risoluzione di un incidente, a cui sono collegati automaticamente sia i singoli dipendenti che interi team.

Il sistema offre opzioni flessibili di espansione e personalizzazione (ad esempio, è possibile personalizzare il raggruppamento e l'instradamento degli eventi in base alle proprie preferenze, definire regole e canali per la consegna delle notifiche). Per l'integrazione con sistemi esterni, viene fornito un supporto API e Terraform. La gestione del lavoro avviene attraverso l'interfaccia web.

Sistema di risposta agli incidenti OnCall a codice aperto Grafana


Fonte: opennet.ru

Aggiungi un commento