Sistem respons insiden OnCall sumber terbuka Grafana

Grafana Labs, pembangun platform visualisasi data Grafana dan sistem pemantauan Prometheus, mengumumkan sumber terbuka sistem tindak balas insiden OnCall, yang direka untuk membolehkan kerjasama antara pasukan menyelesaikan dan menganalisis insiden. OnCall sebelum ini tersedia sebagai produk proprietari dan telah diperoleh oleh Grafana sebagai sebahagian daripada pemerolehan Amixr Inc. tahun lepas. Kod projek ditulis dalam Python dan dibuka di bawah lesen AGPLv3.

Sistem ini membolehkan anda mengumpul maklumat tentang anomali dan peristiwa daripada pelbagai sistem pemantauan, dan kemudian secara automatik mengumpulkan data, menghantar pemberitahuan kepada kumpulan yang bertanggungjawab dan menjejaki status penyelesaian masalah. Integrasi dengan sistem pemantauan Grafana, Prometheus, AlertManager dan Zabbix disokong. Daripada maklumat yang diterima daripada sistem pemantauan, peristiwa kecil dan tidak penting ditapis, pendua diagregatkan dan masalah yang boleh diselesaikan tanpa campur tangan manusia dihapuskan.

Peristiwa penting yang dibersihkan daripada bunyi maklumat berlebihan dihantar ke subsistem penghantaran pemberitahuan, yang mengenal pasti pekerja yang bertanggungjawab untuk menyelesaikan kategori masalah yang dikenal pasti dan menghantar pemberitahuan dengan mengambil kira jadual kerja dan tahap pekerjaan mereka (data daripada perancang kalendar dinilai). Putaran insiden antara pekerja yang berbeza dan peningkatan masalah yang sangat penting atau tidak dapat diselesaikan kepada ahli pasukan atau pekerja lain di peringkat lebih tinggi disokong.

Sistem respons insiden OnCall sumber terbuka Grafana

Bergantung pada keparahan kejadian, pemberitahuan boleh dihantar melalui panggilan telefon, SMS, e-mel, mencipta acara dalam kalendar penjadual, Slack dan messenger segera Telegram. Pada masa yang sama, saluran boleh dibuat secara automatik dalam Slack untuk membincangkan isu yang berkaitan dengan menyelesaikan insiden, yang mana kedua-dua pekerja individu dan keseluruhan pasukan disambungkan secara automatik.

Sistem ini menyediakan pilihan pengembangan dan penyesuaian yang fleksibel (contohnya, anda boleh mengkonfigurasi pengelompokan dan penghalaan acara agar sesuai dengan pilihan anda, mentakrifkan peraturan dan saluran untuk penghantaran pemberitahuan). Sokongan API dan Terraform disediakan untuk penyepaduan dengan sistem luaran. Operasi dikawal melalui antara muka web.

Sistem respons insiden OnCall sumber terbuka Grafana


Sumber: opennet.ru

Tambah komen