PagerDuty немесе операциялық бөлім неге түнде ұйықтай алмайды

Жүйе неғұрлым күрделі болса, соғұрлым ол ескертулердің барлық түрлерімен толып кетеді. Және дәл осы ескертулерге әрекет ету, оларды біріктіру және визуализациялау қажет. Меніңше, бұл көпшілікке жүйкесін жұқартатындай таныс жағдай.

Талқыланатын шешім ең күтпеген нәрсе емес, бірақ іздеу осы тақырып бойынша толыққанды мақаланы қайтармайды.

Сондықтан мен FunCorp тәжірибесімен бөлісуді және кезекшілік процесінің қалай құрылымдалғаны, кім қоңырау шалатыны, неге және қалай қарауға болатыны туралы сөйлесуді шештім.

PagerDuty немесе операциялық бөлім неге түнде ұйықтай алмайды

PagerDuty дегеніміз не?

Осылайша, барлық осы мәселелерді шешу үшін біз ыңғайлы құралды іздей бастадық. Біраз іздегеннен кейін біз PagerDuty таңдадық. PD бізге көптеген интеграциялар мен параметрлері бар жеткілікті толық және қысқа шешім болып көрінді. Ол қандай?

Қысқаша айтқанда, PagerDuty - инциденттерді әртүрлі интеграциялар арқылы өңдей алатын, кезекшілік бұйрықтарын орната алатын, содан кейін инцидент деңгейіне байланысты (жоғары деңгейде - қоңырау, төмен деңгейде -) кезекші инженерге хабарлай алатын инциденттерді өңдеу платформасы. қолданбадан / SMS-тен push).

Кезекші кім?

Бұл PD орнатуды бастау үшін бірінші орын болуы мүмкін.

FunCorp-та басқа компаниялар сияқты кезекші құрметті лауазымы бар. Инженерден инженерге күніне бір рет беріледі. PagerDuty ескертуіне жауап берудің бірінші және екінші жолы бар. Жоғары кезекті ескерту келді делік, егер бірінші жолдан кезекшіге қоңырау шалғаннан кейін 10 минуттан кейін оған реакция болмаса (яғни, ол растау немесе шешілді мәртебесіне ауыспаса), қоңырау екіншіге өтеді делік. кезекші инженер. Бұл PagerDuty бағдарламасында Эскалация саясаттары арқылы конфигурацияланған.

PagerDuty немесе операциялық бөлім неге түнде ұйықтай алмайды

Екінші кезекші жауап бермесе, хабарлама кері қайтарылады негізгі кезекшіге.

Осылайша, кез келген кіріс жоғары басымдықты ескерту өңделмей қала алмайды. 

Енді оқиғалардың қайдан болуы мүмкін екенін көрейік.

Біз қандай интеграцияларды қолданамыз?

PD әртүрлі қызметтерден көптеген әртүрлі оқиғаларды алады. Қазіргі уақытта бізде осындай 25-ке жуық қызмет бар және оларды өңдеу үшін біз кейбір дайын интеграцияларды қолданамыз.

  • Прометей

Метрикаларды жинаудың негізгі жүйесі - Прометей. Бұл туралы Habré-де көп нәрсе жазылған, мен олардың әртүрлі орталар үшін бізде бірнешеуі бар екенін айтайын: біреуі виртуалды машиналар мен докерлерден метрика жинайды, екіншісі Amazon қызметтерінен, үшіншісі аппараттық машиналардан. Telegraf негізінен метрика экспорттаушысы ретінде пайдаланылады.

  • Электрондық пошта

Бұл жерде де, менің ойымша, бәрі тақырыптан анық көрінеді. Бұл біріктіру cron арқылы орындалатын кейбір сценарийлерден хабарландыруларды жіберу үшін пайдаланылады. PD сізге хаттар жіберетін белгілі бір мекенжайды береді. Осындай интеграциясы бар қызметті құру кезінде сіз басымдықтарды, кіріс инциденттері қандай ретпен өңделетінін, ескертуді қалай жасау керектігін (әрбір кіріс хат үшін, кіріс хат үшін + белгілі бір ереже және т.б.) орнатуға болады.

PagerDuty немесе операциялық бөлім неге түнде ұйықтай алмайды

  • бостық

Менің ойымша, өте қызықты интеграция. Бірдеңе болып, бірақ оқиғалармен жабылмайтын кездер болады. Сондықтан оқиғаны жасау үшін Slack интеграциясын қостық. Яғни, сіз корпоративтік Slack-ке жаза аласыз /callofduty бәрі баяу және жақын арада бұзылады және ПД оны өңдеп, оқиғаны кезекші инженерге жібереді.

Біз жасаймыз:

PagerDuty немесе операциялық бөлім неге түнде ұйықтай алмайды

Біз көріп тұрмыз:

PagerDuty немесе операциялық бөлім неге түнде ұйықтай алмайды

  • API

HTTP интеграциясы. Шын мәнінде, мұнда ерекше қызықты ештеңе жоқ, тек JSON пішіміндегі денесі бар POST сұрауы. Мысалы, қызықты нәрсе: біз оны сыртқы бақылау үшін пайдаланамыз https://www.statuscake.com/. Бұл қызмет әлемнің әртүрлі бөліктеріндегі сайттарымыздың қолжетімділігін тексереді. Біз қабылданбайтын жауап кодын алған жағдайда (мысалы, 502), оқиға жасалады, содан кейін бәрі жоғарыда сипатталған тізбек бойынша жүреді. StatusCake өзі ішкі URL мекенжайларын, SSL сертификатын немесе доменнің жарамдылық мерзімін бақылау мүмкіндігіне ие.

  • LibreNMS

Бұл басқа бақылау жүйесі, бұл туралы толығырақ олардың веб-сайтында оқи аласыз https://www.librenms.org/. Оның көмегімен біз серверлерден желілік интерфейстер мен iDRAC бақылаймыз.

PagerDuty немесе операциялық бөлім неге түнде ұйықтай алмайды

Сондай-ақ Datadog, CloudWatch сияқты интеграциялар болды. Олармен не болғанын көбірек көре аласыз мұнда.

Көрнекілік

Оқиға туралы хабарлаудың негізгі жүйесі - Slack. ПД-ға келетін барлық оқиғалар арнайы чатта жазылады, егер олардың күйі өзгерсе, бұл да чатта көрсетіледі.

PagerDuty немесе операциялық бөлім неге түнде ұйықтай алмайды

Төбеде ілулі тұрған мониторлардың экрандарында пайдалы деректерді көрсету мүмкіндігі пайда болғанда, біз кенеттен бізде (девоптар бөлімінде) оларда көрсететін ештеңе жоқ екенін түсіндік. Керемет Grafana бар, бірақ ол бәрін қамтымайды және қызметкерлер диаграммаларға емес, ескертулерге жауап береді.

GitHub-та PD үшін қысқа және мазмұнды «тақтаны» мұқият, бірақ сәтсіз іздегеннен кейін, біз өзімізді жазуды шештік - тек бізге қажет нәрсемен. Басында PD интерфейсінің өзін көрсету идеясы болғанымен, ол одан да ыңғайсыз болып көрінді.

Оны жазу үшін сізге тек оқуға арналған құқықтары бар PD кілтін алу жеткілікті.
Ал біз мынаны алдық:

PagerDuty немесе операциялық бөлім неге түнде ұйықтай алмайды

Экран ағымдағы ашық оқиғаларды, таңдалған кестеден ағымдағы кезекші инженердің аты-жөнін және жоғары басымдықты оқиғасыз уақытты көрсетеді (жоғары басым оқиғасы бар панель қызыл түспен белгіленеді).

Бұл іске асыру көздерін мына жерден қараңыз.

Нәтижесінде біз барлық оқиғаларымызды көруге ыңғайлы бақылау тақтасын алдық. Егер сіздердің кейбіреулеріңіз біздің тәжірибемізді пайдалы деп тапсаңыз, мен қуаныштымын.

Ақпарат көзі: www.habr.com

пікір қалдыру