Sistem za odzivanje na incidente OnCall z odprto kodo Grafana

Grafana Labs, ki razvija platformo za vizualizacijo podatkov Grafana in nadzorni sistem Prometheus, je napovedal odprtokodni sistem odzivanja na incidente OnCall, ki je zasnovan tako, da omogoča sodelovanje med ekipami pri reševanju in analizi incidentov. OnCall je bil prej na voljo kot lastniški izdelek in ga je Grafana kupila kot del prevzema Amixr Inc. lansko leto. Projektna koda je napisana v Pythonu in je odprta pod licenco AGPLv3.

Sistem omogoča zbiranje informacij o anomalijah in dogodkih iz različnih nadzornih sistemov, nato pa samodejno grupiranje podatkov, pošiljanje obvestil odgovornim skupinam in spremljanje statusa reševanja težav. Podprta je integracija z nadzornimi sistemi Grafana, Prometheus, AlertManager in Zabbix. Iz informacij, prejetih iz nadzornih sistemov, se izločijo manjši in nepomembni dogodki, združijo dvojniki in odpravijo težave, ki jih je mogoče rešiti brez človeškega posredovanja.

Pomembni dogodki, očiščeni odvečnega informacijskega šuma, se pošljejo v podsistem za pošiljanje obvestil, ki identificira zaposlene, ki so odgovorni za reševanje ugotovljenih kategorij problemov, in pošilja obvestila ob upoštevanju njihovega delovnika in stopnje zaposlenosti (ocenjujejo se podatki iz koledarskega planerja). Podprta je rotacija incidentov med različnimi zaposlenimi in stopnjevanje posebej pomembnih ali nerešenih problemov na druge člane ekipe ali zaposlene na višjih ravneh.

Sistem za odzivanje na incidente OnCall z odprto kodo Grafana

Odvisno od resnosti incidenta se lahko obvestila pošiljajo prek telefonskih klicev, SMS-ov, e-pošte, ustvarjanja dogodkov v koledarju razporejevalnika, sporočil Slack in Telegram. Hkrati se lahko v Slacku samodejno ustvarijo kanali za razpravo o vprašanjih, povezanih z reševanjem incidenta, na katere se avtomatsko povežejo tako posamezni zaposleni kot celotne ekipe.

Sistem ponuja prilagodljive možnosti razširitve in prilagajanja (lahko na primer konfigurirate združevanje in usmerjanje dogodkov po svojih željah, določite pravila in kanale za dostavo obvestil). Podpora za API in Terraform je na voljo za integracijo z zunanjimi sistemi. Delovanje je nadzorovano preko spletnega vmesnika.

Sistem za odzivanje na incidente OnCall z odprto kodo Grafana


Vir: opennet.ru

Dodaj komentar