Grafana Open-Code OnCall Incident Response System

Grafana Labs ซึ่งพัฒนาแพลตฟอร์มการแสดงภาพข้อมูล Grafana และระบบตรวจสอบ Prometheus ได้ประกาศเปิดตัวซอร์สโค้ดสำหรับระบบตอบสนองเหตุการณ์ OnCall ซึ่งออกแบบมาเพื่อให้มั่นใจว่าทีมทำงานร่วมกันเพื่อกำจัดและวิเคราะห์เหตุการณ์ ก่อนหน้านี้ OnCall ได้รับการจัดส่งเป็นผลิตภัณฑ์ที่เป็นกรรมสิทธิ์และถูกซื้อโดย Grafana ผ่านการซื้อกิจการของ Amixr Inc. ปีที่แล้ว. รหัสโครงการเขียนด้วย Python และเปิดภายใต้ใบอนุญาต AGPLv3

ระบบช่วยให้คุณสามารถรวบรวมข้อมูลเกี่ยวกับความผิดปกติและเหตุการณ์ต่างๆ จากระบบตรวจสอบต่างๆ แล้วจัดกลุ่มข้อมูลโดยอัตโนมัติ ส่งการแจ้งเตือนไปยังกลุ่มที่รับผิดชอบ และติดตามสถานะของการแก้ปัญหา รองรับการผสานรวมกับระบบตรวจสอบ Grafana, Prometheus, AlertManager และ Zabbix เหตุการณ์เล็กน้อยและไม่มีนัยสำคัญจะถูกกรองออกจากข้อมูลที่ได้รับจากระบบการตรวจสอบ ข้อมูลซ้ำจะถูกรวมเข้าด้วยกัน และไม่รวมปัญหาที่สามารถแก้ไขได้โดยปราศจากการแทรกแซงของมนุษย์

เหตุการณ์สำคัญที่ปราศจากสัญญาณรบกวนข้อมูลที่ไม่จำเป็นจะถูกส่งไปยังระบบย่อยการส่งการแจ้งเตือน ซึ่งจะระบุพนักงานที่รับผิดชอบในการแก้ปัญหาตามหมวดหมู่ที่ระบุ และส่งการแจ้งเตือนโดยคำนึงถึงตารางการทำงานและระดับการจ้างงานของพวกเขา (ข้อมูลจากตัวกำหนดตารางเวลาจะได้รับการประเมิน) รองรับการหมุนเวียนของการผูกมัดเหตุการณ์ระหว่างพนักงานที่แตกต่างกันและการเพิ่มปัญหาที่สำคัญเป็นพิเศษหรือปัญหาที่ยังไม่ได้รับการแก้ไขไปยังสมาชิกในทีมหรือพนักงานในระดับที่สูงขึ้นได้รับการสนับสนุน

Grafana Open-Code OnCall Incident Response System

ขึ้นอยู่กับความรุนแรงของเหตุการณ์ การแจ้งเตือนสามารถส่งผ่านทางโทรศัพท์, SMS, อีเมล, การสร้างกิจกรรมในปฏิทินตัวกำหนดตารางเวลา, Slack และ Telegram messengers ในขณะเดียวกัน Slack สามารถสร้างช่องทางโดยอัตโนมัติสำหรับการหารือเกี่ยวกับปัญหาที่เกี่ยวข้องกับการแก้ไขเหตุการณ์ ซึ่งพนักงานแต่ละคนและทั้งทีมจะเชื่อมต่อกันโดยอัตโนมัติ

ระบบมีตัวเลือกการขยายและการปรับแต่งที่ยืดหยุ่น (เช่น คุณสามารถปรับแต่งการจัดกลุ่มและการกำหนดเส้นทางของเหตุการณ์ให้เหมาะกับความต้องการของคุณ กำหนดกฎและช่องทางสำหรับส่งการแจ้งเตือน) สำหรับการรวมเข้ากับระบบภายนอก มีการสนับสนุน API และ Terraform การจัดการงานดำเนินการผ่านเว็บอินเตอร์เฟส

Grafana Open-Code OnCall Incident Response System


ที่มา: opennet.ru

เพิ่มความคิดเห็น