Grafana Open-Code OnCall Incident Response System

Grafana Labs, yang mengembangkan platform visualisasi data Grafana dan sistem pemantauan Prometheus, mengumumkan sistem respons insiden OnCall open source, yang dirancang untuk memungkinkan kolaborasi antar tim untuk menyelesaikan dan menganalisis insiden. OnCall sebelumnya disediakan sebagai produk berpemilik dan diakuisisi oleh Grafana sebagai bagian dari akuisisi Amixr Inc. tahun lalu. Kode proyek ditulis dengan Python dan terbuka di bawah lisensi AGPLv3.

Sistem ini memungkinkan Anda mengumpulkan informasi tentang anomali dan peristiwa dari berbagai sistem pemantauan, dan kemudian secara otomatis mengelompokkan data, mengirim pemberitahuan ke kelompok yang bertanggung jawab, dan melacak status penyelesaian masalah. Integrasi dengan sistem pemantauan Grafana, Prometheus, AlertManager dan Zabbix didukung. Dari informasi yang diterima dari sistem pemantauan, peristiwa-peristiwa kecil dan tidak penting disaring, duplikat dikumpulkan dan masalah-masalah yang dapat diselesaikan tanpa campur tangan manusia dihilangkan.

Peristiwa penting yang dibersihkan dari kebisingan informasi berlebih dikirim ke subsistem pengirim pemberitahuan, yang mengidentifikasi karyawan yang bertanggung jawab untuk memecahkan kategori masalah yang diidentifikasi dan mengirimkan pemberitahuan dengan mempertimbangkan jadwal kerja dan tingkat pekerjaan mereka (data dari perencana kalender dinilai). Rotasi insiden antara karyawan yang berbeda dan eskalasi masalah yang sangat penting atau belum terselesaikan ke anggota tim lain atau karyawan di tingkat yang lebih tinggi didukung.

Grafana Open-Code OnCall Incident Response System

Tergantung pada tingkat keparahan insiden, pemberitahuan dapat dikirim melalui panggilan telepon, SMS, email, pembuatan acara di kalender penjadwal, pesan instan Slack dan Telegram. Pada saat yang sama, saluran dapat dibuat secara otomatis di Slack untuk mendiskusikan masalah yang berkaitan dengan penyelesaian suatu insiden, yang secara otomatis terhubung dengan masing-masing karyawan dan seluruh tim.

Sistem menyediakan opsi perluasan dan penyesuaian yang fleksibel (misalnya, Anda dapat mengonfigurasi pengelompokan dan perutean peristiwa agar sesuai dengan preferensi Anda, menentukan aturan dan saluran untuk pengiriman pemberitahuan). Dukungan API dan Terraform disediakan untuk integrasi dengan sistem eksternal. Pengoperasian dikontrol melalui antarmuka web.

Grafana Open-Code OnCall Incident Response System


Sumber: opennet.ru

Tambah komentar