Grafana atvērtā koda OnCall incidentu reaģēšanas sistēma

Grafana Labs, kas izstrādā Grafana datu vizualizācijas platformu un Prometheus uzraudzības sistēmu, paziņoja par OnCall incidentu reaģēšanas sistēmas atvērto avotu, kas paredzēts, lai nodrošinātu sadarbību starp komandām, lai atrisinātu un analizētu incidentus. OnCall iepriekš tika nodrošināts kā patentēts produkts, un Grafana to iegādājās kā daļu no Amixr Inc. iegādes. pagājušais gads. Projekta kods ir rakstīts Python un ir atvērts saskaņā ar AGPLv3 licenci.

Sistēma ļauj apkopot informāciju par anomālijām un notikumiem no dažādām uzraudzības sistēmām, un pēc tam automātiski grupēt datus, nosūtīt paziņojumus atbildīgajām grupām un izsekot problēmu risināšanas statusam. Tiek atbalstīta integrācija ar monitoringa sistēmām Grafana, Prometheus, AlertManager un Zabbix. No monitoringa sistēmām saņemtās informācijas tiek atfiltrēti sīki un nenozīmīgi notikumi, tiek apkopoti dublikāti un novērstas problēmas, kuras var atrisināt bez cilvēka iejaukšanās.

Būtiski notikumi, kas atbrīvoti no liekā informācijas trokšņa, tiek nosūtīti uz paziņojumu nosūtīšanas apakšsistēmu, kas identificē darbiniekus, kas ir atbildīgi par identificēto kategoriju problēmu risināšanu, un nosūta paziņojumus, ņemot vērā viņu darba grafiku un nodarbinātības pakāpi (tiek novērtēti kalendāra plānotāja dati). Tiek atbalstīta incidentu rotācija starp dažādiem darbiniekiem un īpaši svarīgu vai neatrisinātu problēmu eskalācija citiem komandas locekļiem vai augstāka līmeņa darbiniekiem.

Grafana atvērtā koda OnCall incidentu reaģēšanas sistēma

Atkarībā no incidenta nopietnības paziņojumus var nosūtīt, izmantojot tālruņa zvanus, SMS, e-pastu, veidojot pasākumus plānotāja kalendārā, Slack un Telegram tūlītējos ziņotājus. Tajā pašā laikā Slack var automātiski izveidot kanālus, lai apspriestu ar incidenta risināšanu saistītos jautājumus, kuriem automātiski tiek pievienoti gan atsevišķi darbinieki, gan veselas komandas.

Sistēma nodrošina elastīgas paplašināšanas un pielāgošanas iespējas (piemēram, varat konfigurēt notikumu grupēšanu un maršrutēšanu atbilstoši savām vēlmēm, definēt noteikumus un kanālus paziņojumu piegādei). API un Terraform atbalsts tiek nodrošināts integrācijai ar ārējām sistēmām. Darbība tiek kontrolēta, izmantojot tīmekļa saskarni.

Grafana atvērtā koda OnCall incidentu reaģēšanas sistēma


Avots: opennet.ru

Pievieno komentāru