Systém pro odezvu na incidenty s otevřeným kódem Grafana

Společnost Grafana Labs, která vyvíjí platformu pro vizualizaci dat Grafana a monitorovací systém Prometheus, oznámila otevřený zdrojový kód pro systém reakce na incidenty OnCall, který má zajistit, aby týmy spolupracovaly při odstraňování a analýze incidentů. OnCall byl dříve dodáván jako proprietární produkt a byl získán společností Grafana převzetím společnosti Amixr Inc. minulý rok. Kód projektu je napsán v Pythonu a je otevřen pod licencí AGPLv3.

Systém umožňuje shromažďovat informace o anomáliích a událostech z různých monitorovacích systémů a následně automaticky seskupovat data, odesílat upozornění odpovědným skupinám a sledovat stav řešení problémů. Podporována je integrace s monitorovacími systémy Grafana, Prometheus, AlertManager a Zabbix. Drobné a nevýznamné události jsou odfiltrovány z informací získaných z monitorovacích systémů, duplikáty jsou agregovány a jsou vyloučeny problémy, které lze vyřešit bez lidského zásahu.

Významné události zbavené zbytečného informačního šumu jsou zasílány do subsystému zasílání upozornění, který identifikuje pracovníky odpovědné za řešení identifikovaných kategorií problémů a zasílá upozornění s přihlédnutím k jejich pracovnímu rozvrhu a stupni zaměstnání (vyhodnocuje se data z plánovače). Je podporováno střídání vázání incidentů mezi různými zaměstnanci a eskalace zvláště důležitých nebo nevyřešených problémů na další členy týmu nebo zaměstnance vyšších úrovní.

Systém pro odezvu na incidenty s otevřeným kódem Grafana

V závislosti na závažnosti incidentu lze zasílat upozornění prostřednictvím telefonních hovorů, SMS, e-mailu, vytváření událostí v kalendáři plánovače, zpráv Slack a Telegram. Slack zároveň dokáže automaticky vytvářet kanály pro projednávání problémů souvisejících s řešením incidentu, ke kterým jsou automaticky připojeni jak jednotliví zaměstnanci, tak celé týmy.

Systém poskytuje flexibilní možnosti rozšíření a přizpůsobení (můžete si například přizpůsobit seskupování a směrování událostí tak, aby vyhovovalo vašim preferencím, definovat pravidla a kanály pro doručování upozornění). Pro integraci s externími systémy je poskytována podpora API a Terraform. Řízení práce se provádí přes webové rozhraní.

Systém pro odezvu na incidenty s otevřeným kódem Grafana


Zdroj: opennet.ru

Přidat komentář