System reagowania na incydenty Grafana Open Code OnCall

Grafana Labs, która rozwija platformę wizualizacji danych Grafana i system monitorowania Prometheus, ogłosiła udostępnienie open source systemu reagowania na incydenty OnCall, zaprojektowanego tak, aby umożliwić współpracę między zespołami przy rozwiązywaniu i analizowaniu incydentów. OnCall był wcześniej dostarczany jako produkt zastrzeżony i został przejęty przez Grafanę w ramach przejęcia Amixr Inc. ostatni rok. Kod projektu napisany jest w języku Python i jest otwarty na licencji AGPLv3.

System umożliwia zbieranie informacji o anomaliach i zdarzeniach z różnych systemów monitorowania, a następnie automatyczne grupowanie danych, wysyłanie powiadomień do odpowiedzialnych grup oraz śledzenie statusu rozwiązania problemu. Obsługiwana jest integracja z systemami monitorującymi Grafana, Prometheus, AlertManager i Zabbix. Z informacji otrzymanych z systemów monitoringu odfiltrowuje się drobne i nieistotne zdarzenia, agreguje duplikaty i eliminuje problemy, które można rozwiązać bez interwencji człowieka.

Istotne zdarzenia oczyszczone z nadmiaru szumu informacyjnego trafiają do podsystemu wysyłania powiadomień, który identyfikuje pracowników odpowiedzialnych za rozwiązanie zidentyfikowanych kategorii problemów i wysyła powiadomienia z uwzględnieniem ich harmonogramu pracy i stopnia zatrudnienia (oceniane są dane z planisty kalendarza). Wspierana jest rotacja incydentów pomiędzy różnymi pracownikami i eskalacja szczególnie ważnych lub nierozwiązanych problemów do innych członków zespołu lub pracowników wyższych szczebli.

System reagowania na incydenty Grafana Open Code OnCall

W zależności od powagi zdarzenia powiadomienia mogą być wysyłane poprzez rozmowy telefoniczne, SMS, e-mail, tworzenie wydarzeń w kalendarzu harmonogramu, komunikatory Slack i Telegram. Jednocześnie w Slacku mogą być automatycznie tworzone kanały omawiania kwestii związanych z rozwiązaniem incydentu, do których automatycznie przyłączani są zarówno indywidualni pracownicy, jak i całe zespoły.

System zapewnia elastyczne możliwości rozbudowy i dostosowywania (możliwość np. skonfigurowania grupowania i routingu zdarzeń według własnych preferencji, zdefiniowania reguł i kanałów dostarczania powiadomień). Zapewniona jest obsługa API i Terraform w celu integracji z systemami zewnętrznymi. Sterowanie odbywa się za pośrednictwem interfejsu internetowego.

System reagowania na incydenty Grafana Open Code OnCall


Źródło: opennet.ru

Dodaj komentarz