Systém odozvy na incidenty s otvoreným kódom Grafana

Spoločnosť Grafana Labs, ktorá vyvíja platformu na vizualizáciu údajov Grafana a monitorovací systém Prometheus, oznámila otvorený zdroj systému reakcie na incidenty OnCall, ktorý je navrhnutý tak, aby umožnil spoluprácu medzi tímami pri riešení a analýze incidentov. OnCall bol predtým poskytovaný ako proprietárny produkt a spoločnosť Grafana ho získala ako súčasť akvizície spoločnosti Amixr Inc. minulý rok. Kód projektu je napísaný v jazyku Python a je otvorený pod licenciou AGPLv3.

Systém umožňuje zbierať informácie o anomáliách a udalostiach z rôznych monitorovacích systémov a následne automaticky zoskupovať údaje, posielať upozornenia zodpovedným skupinám a sledovať stav riešenia problémov. Podporovaná je integrácia s monitorovacími systémami Grafana, Prometheus, AlertManager a Zabbix. Z informácií získaných z monitorovacích systémov sa filtrujú menšie a nepodstatné udalosti, agregujú sa duplicity a eliminujú sa problémy, ktoré je možné vyriešiť bez zásahu človeka.

Významné udalosti očistené od nadmerného informačného šumu sú zasielané do podsystému zasielania upozornení, ktorý identifikuje zamestnancov zodpovedných za riešenie zistených kategórií problémov a zasiela upozornenia s prihliadnutím na ich rozvrhnutie práce a stupeň zamestnania (hodnotia sa údaje z kalendára). Podporuje sa striedanie incidentov medzi rôznymi zamestnancami a eskalácia obzvlášť dôležitých alebo nevyriešených problémov na iných členov tímu alebo zamestnancov na vyšších úrovniach.

Systém odozvy na incidenty s otvoreným kódom Grafana

V závislosti od závažnosti incidentu môžu byť upozornenia odosielané prostredníctvom telefónnych hovorov, SMS, e-mailu, vytvárania udalostí v kalendári plánovača, Slack a okamžitých správ Telegram. Zároveň je možné v Slacku automaticky vytvárať kanály na diskusiu o problémoch súvisiacich s riešením incidentu, ku ktorým sú automaticky pripojení jednotliví zamestnanci aj celé tímy.

Systém poskytuje flexibilné možnosti rozšírenia a prispôsobenia (napríklad môžete nakonfigurovať zoskupovanie a smerovanie udalostí podľa vašich preferencií, definovať pravidlá a kanály pre doručovanie upozornení). Pre integráciu s externými systémami je poskytovaná podpora API a Terraform. Prevádzka je riadená cez webové rozhranie.

Systém odozvy na incidenty s otvoreným kódom Grafana


Zdroj: opennet.ru

Pridať komentár