Sistemi i reagimit ndaj incidentit OnCall me burim të hapur Grafana

Grafana Labs, e cila zhvillon platformën e vizualizimit të të dhënave Grafana dhe sistemin e monitorimit Prometheus, njoftoi burimin e hapur të sistemit të reagimit ndaj incidenteve OnCall, i krijuar për të mundësuar bashkëpunimin midis ekipeve për të zgjidhur dhe analizuar incidentet. OnCall ishte ofruar më parë si një produkt pronësor dhe u ble nga Grafana si pjesë e blerjes së Amixr Inc. vitin e kaluar. Kodi i projektit është shkruar në Python dhe është i hapur nën licencën AGPLv3.

Sistemi ju lejon të grumbulloni informacione rreth anomalive dhe ngjarjeve nga sisteme të ndryshme monitorimi, dhe më pas të gruponi automatikisht të dhënat, të dërgoni njoftime te grupet përgjegjëse dhe të gjurmoni statusin e zgjidhjes së problemit. Mbështetet integrimi me sistemet e monitorimit Grafana, Prometheus, AlertManager dhe Zabbix. Nga informacionet e marra nga sistemet e monitorimit filtrohen ngjarje të vogla dhe të parëndësishme, grumbullohen dublikatat dhe eliminohen problemet që mund të zgjidhen pa ndërhyrjen njerëzore.

Ngjarjet e rëndësishme të pastruara nga zhurma e tepërt e informacionit dërgohen në nënsistemin e dërgimit të njoftimeve, i cili identifikon punonjësit përgjegjës për zgjidhjen e kategorive të identifikuara të problemeve dhe dërgon njoftime duke marrë parasysh orarin e tyre të punës dhe shkallën e punësimit (vlerësohen të dhënat nga planifikuesi kalendar). Mbështetet rotacioni i incidenteve midis punonjësve të ndryshëm dhe përshkallëzimi i problemeve veçanërisht të rëndësishme ose të pazgjidhura te anëtarët e tjerë të ekipit ose punonjësit në nivele më të larta.

Sistemi i reagimit ndaj incidentit OnCall me burim të hapur Grafana

Në varësi të ashpërsisë së incidentit, njoftimet mund të dërgohen përmes telefonatave, SMS-ve, emaileve, krijimit të ngjarjeve në kalendarin e planifikuesit, mesazheve të çastit Slack dhe Telegram. Në të njëjtën kohë, kanalet mund të krijohen automatikisht në Slack për të diskutuar çështje që lidhen me zgjidhjen e një incidenti, me të cilin lidhen automatikisht si punonjës individualë ashtu edhe ekipe të tëra.

Sistemi ofron opsione fleksibël zgjerimi dhe personalizimi (për shembull, ju mund të konfiguroni grupimin dhe drejtimin e ngjarjeve për t'iu përshtatur preferencave tuaja, të përcaktoni rregullat dhe kanalet për dërgimin e njoftimeve). Mbështetja API dhe Terraform ofrohet për integrim me sisteme të jashtme. Operacioni kontrollohet nëpërmjet një ndërfaqeje në internet.

Sistemi i reagimit ndaj incidentit OnCall me burim të hapur Grafana


Burimi: opennet.ru

Shto një koment