„Grafana“ atvirojo kodo „OnCall“ reagavimo į incidentus sistema

„Grafana Labs“, kurianti „Grafana“ duomenų vizualizacijos platformą ir „Prometheus“ stebėjimo sistemą, paskelbė apie reagavimo į incidentus sistemos „OnCall“ atvirojo kodą, skirtą užtikrinti, kad komandos dirbtų kartu šalindamos ir analizuodamos incidentus. „OnCall“ anksčiau buvo pristatytas kaip patentuotas produktas, o „Grafana“ jį įsigijo perėmusi „Amixr Inc. praeitais metais. Projekto kodas parašytas Python ir yra atidarytas pagal AGPLv3 licenciją.

Sistema leidžia rinkti informaciją apie anomalijas ir įvykius iš įvairių stebėjimo sistemų, o vėliau automatiškai grupuoti duomenis, siųsti pranešimus atsakingoms grupėms ir sekti problemos sprendimo būseną. Palaikoma integracija su Grafana, Prometheus, AlertManager ir Zabbix stebėjimo sistemomis. Iš stebėjimo sistemų gaunamos informacijos išfiltruojami smulkūs ir nereikšmingi įvykiai, dublikatai sujungiami ir neįtraukiamos problemos, kurias galima išspręsti be žmogaus įsikišimo.

Reikšmingi įvykiai, išvalyti nuo nereikalingo informacinio triukšmo, siunčiami į pranešimų siuntimo posistemį, kuris identifikuoja darbuotojus, atsakingus už nustatytų kategorijų problemų sprendimą, ir siunčia pranešimus atsižvelgdamas į jų darbo grafiką ir užimtumo laipsnį (vertinami planuotojo duomenys). Palaikoma incidentų įrišimo tarp skirtingų darbuotojų rotacija ir ypač svarbių ar neišspręstų problemų eskalavimas kitiems komandos nariams ar aukštesnio lygio darbuotojams.

„Grafana“ atvirojo kodo „OnCall“ reagavimo į incidentus sistema

Priklausomai nuo incidento sunkumo, pranešimai gali būti siunčiami telefono skambučiais, SMS, el. paštu, kuriant įvykius tvarkaraščio kalendoriuje, „Slack“ ir „Telegram“ pasiuntiniais. Tuo pačiu metu „Slack“ gali automatiškai sukurti su incidento sprendimu susijusių klausimų aptarimo kanalus, prie kurių automatiškai prisijungia tiek atskiri darbuotojai, tiek visos komandos.

Sistema suteikia lanksčias išplėtimo ir tinkinimo parinktis (pavyzdžiui, galite tinkinti įvykių grupavimą ir maršrutą, kad atitiktų jūsų pageidavimus, apibrėžti pranešimų pateikimo taisykles ir kanalus). Integracijai su išorinėmis sistemomis suteikiamas API ir Terraform palaikymas. Darbo valdymas vykdomas per internetinę sąsają.

„Grafana“ atvirojo kodo „OnCall“ reagavimo į incidentus sistema


Šaltinis: opennet.ru

Добавить комментарий