PagerDuty, o Ngano nga ang Departamento sa Operasyon Dili Makatulog sa Gabii

Ang labi ka komplikado nga sistema, labi nga kini napuno sa tanan nga mga matang sa mga alerto. Ug adunay kinahanglan nga reaksyon sa parehas nga mga alerto, pag-aggregate niini ug paghanduraw niini. Sa akong hunahuna kini usa ka sitwasyon nga pamilyar sa kadaghanan hangtod sa punto sa kakulba.

Ang solusyon nga pagahisgutan dili ang labing wala damha, apan ang pagpangita wala magbalik sa usa ka bug-os nga artikulo bahin sa kini nga hilisgutan.

Busa, nakahukom ko nga ipaambit ang kasinatian sa FunCorp ug hisgotan kung giunsa pagkahan-ay ang proseso sa katungdanan, kinsay nanawag, ngano ug unsaon nimo pagtan-aw kining tanan.

PagerDuty, o Ngano nga ang Departamento sa Operasyon Dili Makatulog sa Gabii

Unsa ang PagerDuty?

Busa, aron masulbad kining tanan nga mga problema, nagsugod kami sa pagpangita alang sa usa ka sayon ​​​​nga himan. Human sa pipila ka pagpangita, among gipili ang PagerDuty. Ang PD ingon kanamo usa ka medyo kompleto ug mubo nga solusyon nga adunay daghang gidaghanon sa mga panagsama ug mga setting. Unsa siya?

Sa laktud nga pagkasulti, ang PagerDuty usa ka plataporma sa pagproseso sa insidente nga makaproseso sa umaabot nga mga insidente pinaagi sa lainlaing mga panagsama, mag-set up sa mga mando sa katungdanan ug dayon alerto ang engineer nga nag-duty depende sa lebel sa insidente (sa taas nga lebel - usa ka tawag, sa ubos nga lebel - usa ka pagduso gikan sa aplikasyon / SMS) .

Kinsa ang opisyal sa katungdanan?

Tingali kini ang una nga lugar aron magsugod sa pag-set up sa PD.

Sa FunCorp, sama sa ubang mga kompanya, adunay usa ka honorary nga posisyon sa katungdanan nga opisyal. Gipasa kini gikan sa engineer ngadto sa engineer kausa sa usa ka adlaw. Adunay gitawag nga una ug ikaduhang linya sa pagtubag sa usa ka alerto gikan sa PagerDuty. Ibutang ta nga moabut ang usa ka taas nga prayoridad nga alerto, ug kung 10 minuto pagkahuman sa pagtawag sa opisyal sa katungdanan gikan sa una nga linya wala’y reaksyon niini (pananglitan, wala kini gibalhin sa giila o nasulbad nga kahimtang), ang tawag moadto sa ikaduha. katungdanan engineer. Gi-configure kini sa PagerDuty mismo pinaagi sa Mga Patakaran sa Escalation.

PagerDuty, o Ngano nga ang Departamento sa Operasyon Dili Makatulog sa Gabii

Kung ang ikaduhang katungdanan nga opisyal dili motubag, ang pahibalo mobalik sa nag-una sa duty officer.

Busa, ang bisan unsang umaabot nga taas nga prayoridad nga alerto dili magpabilin nga wala maproseso. 

Karon tan-awon naton kung diin gikan ang mga insidente.

Unsa nga mga panagsama ang atong gigamit?

Nakadawat ang PD og daghang lainlaing insidente gikan sa lainlaing mga serbisyo. Kami karon adunay mga 25 nga ingon nga mga serbisyo, ug aron maproseso kini among gigamit ang pipila nga andam na nga mga panagsama.

  • Prometheus

Ang nag-unang metrics collection system mao ang Prometheus. Daghan na ang nasulat bahin niini sa HabrΓ©, isulti ko lang nga kami adunay daghan niini alang sa lainlaing mga palibot: ang usa nagkolekta mga sukatan gikan sa mga virtual nga makina ug mga pantalan, usa gikan sa mga serbisyo sa Amazon, ang ikatulo gikan sa mga makina sa hardware. Ang Telegraf kay kasagarang gigamit isip metrics exporter.

  • Email

Dinhi usab, sa akong hunahuna, ang tanan klaro gikan sa titulo. Kini nga panagsama gigamit sa pagpadala sa mga pahibalo gikan sa pipila ka mga script nga gipatuman sa cron. Ang PD naghatag kanimo ug usa ka piho nga adres diin ikaw nagpadala ug mga sulat. Kung maghimo usa ka serbisyo nga adunay ingon nga panagsama, mahimo nimong itakda ang mga prayoridad, kung unsang pagkasunud ang pagproseso sa umaabot nga mga insidente, kung giunsa paghimo ang usa ka alerto (alang sa matag umaabot nga sulat, alang sa usa ka umaabot nga sulat + usa ka piho nga lagda, ug uban pa).

PagerDuty, o Ngano nga ang Departamento sa Operasyon Dili Makatulog sa Gabii

  • nga tapulan

Sa akong opinyon, usa ka makapaikag kaayo nga panagsama. Adunay mga higayon nga adunay mahitabo apan dili matabonan sa mga panghitabo. Busa, gidugang namon ang panagsama gikan sa Slack aron makahimo usa ka insidente. Kana mao, mahimo kang magsulat sa corporate Slack /callofduty hinay ang tanan ug maguba dayon ug ang PD maoy moproseso niini ug ipadala ang insidente sa duty engineer.

Atong buhaton:

PagerDuty, o Ngano nga ang Departamento sa Operasyon Dili Makatulog sa Gabii

Atong makita:

PagerDuty, o Ngano nga ang Departamento sa Operasyon Dili Makatulog sa Gabii

  • API

Paghiusa sa HTTP. Sa tinuud, wala’y labi ka makapaikag dinhi, usa lamang ka hangyo sa POST nga adunay usa ka lawas sa format nga JSON. Pananglitan, usa ka butang nga makapaikag: gigamit namon kini alang sa paggamit sa gawas nga pag-monitor https://www.statuscake.com/. Kini nga serbisyo nagsusi sa accessibility sa atong mga site gikan sa lain-laing mga bahin sa kalibutan. Sa kaso kung makadawat kami usa ka dili madawat nga code sa pagtubag (pananglitan, 502), usa ka insidente ang gihimo ug pagkahuman ang tanan nagsunod sa kadena nga gihulagway sa ibabaw. Ang StatusCake mismo adunay katakus sa pag-monitor sa mga internal nga URL, sertipiko sa SSL o pag-expire sa domain.

  • LibreNMS

Kini usa pa nga sistema sa pag-monitor, mahimo nimong mabasa ang dugang bahin niini sa ilang website https://www.librenms.org/. Uban sa tabang niini, among gimonitor ang mga interface sa network ug iDRAC gikan sa mga server.

PagerDuty, o Ngano nga ang Departamento sa Operasyon Dili Makatulog sa Gabii

Adunay usab mga panagsama sama sa Datadog, CloudWatch. Makita nimo ang dugang bahin sa nahitabo kanila dinhi mismo.

Paglaraw

Ang nag-unang sistema sa pagreport sa insidente mao ang Slack. Ang tanan nga mga insidente nga moabut sa PD gisulat sa usa ka espesyal nga chat, ug kung ang ilang kahimtang mausab, kini usab gipakita sa chat.

PagerDuty, o Ngano nga ang Departamento sa Operasyon Dili Makatulog sa Gabii

Sa diha nga ang oportunidad mitungha aron ipakita ang mapuslanon nga datos sa mga screen sa mga monitor nga nagbitay gikan sa kisame, kalit kaming nakaamgo nga kami (sa departamento sa devops) walay bisan unsa nga ipakita niini. Adunay usa ka talagsaon nga Grafana, apan wala kini naglangkob sa tanan, ug ang mga empleyado nag-reaksyon sa mga alerto, dili mga tsart.

Pagkahuman sa usa ka bug-os apan dili malampuson nga pagpangita sa GitHub alang sa usa ka mubo ug informative nga "board" alang sa PD, nakahukom kami nga isulat ang among kaugalingon - kung unsa ang among kinahanglan. Bisan kung sa una adunay usa ka ideya nga ipakita ang PD interface mismo, kini tan-awon labi pa nga dili kombenyente.

Aron masulat kini, ang kinahanglan nimong buhaton mao ang pagkuha usa ka yawe gikan sa usa ka PD nga adunay mga katungod nga mabasa lamang.
Ug kini ang among nakuha:

PagerDuty, o Ngano nga ang Departamento sa Operasyon Dili Makatulog sa Gabii

Gipakita sa screen ang kasamtangan nga bukas nga mga insidente, ang ngalan sa kasamtangan nga engineer nga nag-duty gikan sa pinili nga iskedyul, ug ang oras nga walay taas nga prayoridad nga insidente (ang panel nga adunay taas nga priority nga insidente i-highlight sa pula).

Tan-awa ang mga tinubdan niini nga pagpatuman dinhi.

Ingon usa ka sangputanan, nakadawat kami usa ka dali nga dashboard alang sa pagtan-aw sa tanan namon nga mga insidente. Malipay ko kung makita sa uban nga mapuslanon ang among kasinatian.

Source: www.habr.com

Idugang sa usa ka comment