PagerDuty, edo zergatik Operazio Sailak ezin du gauez lo egin

Zenbat eta konplexuagoa izan sistema, orduan eta gehiago hazten da mota guztietako alertak. Eta alerta horien aurrean erreakzionatu, batu eta bistaratu beharra dago. Uste dut askorentzat ezaguna den egoera dela, urduritasuneraino.

Eztabaidatuko den irtenbidea ez da ezustekoena, baina bilaketak ez du gai honi buruzko artikulu osorik itzultzen.

Hori dela eta, FunCorp-en esperientzia partekatzea eta betebehar-prozesua nola egituratzen den hitz egitea erabaki nuen, nork deitzen duen, zergatik eta nola begiratu dezakezun guztia.

PagerDuty, edo zergatik Operazio Sailak ezin du gauez lo egin

Zer da PagerDuty?

Beraz, arazo hauek guztiak konpontzeko, tresna eroso baten bila hasi ginen. Bilatu ondoren, PagerDuty aukeratu dugu. PD nahiko konponbide osoa eta zehatza iruditu zitzaigun, integrazio eta ezarpen ugarirekin. Nolakoa da bera?

Laburbilduz, PagerDuty gertakariak prozesatzeko plataforma bat da, sarrerako gorabeherak hainbat integrazioren bidez prozesatu ditzakeena, betebehar-aginduak konfiguratu eta gero guardiako ingeniariari abisua eman diezaioke gertakariaren mailaren arabera (maila altuan - deia, maila baxuan -). aplikaziotik/SMS push bat).

Nor da betebeharko ofiziala?

Hau da ziurrenik PD konfiguratzen hasteko lehen lekua.

FunCorp-en, beste enpresetan bezala, betebeharreko ofizialaren ohorezko postua dago. Ingeniaritik ingeniarira egunean behin transmititzen da. PagerDuty-ren alerta bati lehen eta bigarren erantzun lerroa deitzen zaio. Demagun lehentasun handiko alerta bat iristen dela, eta lehen lerroko funtzionarioari dei egin eta 10 minutu igaro ondoren ez bada erreakziorik gertatzen (hau da, ez dela onartu edo ebatzitako egoerara pasatzen), deia bigarrenera doa. betebeharreko ingeniaria. Hau PagerDuty-n bertan konfiguratzen da Escalation Politiken bidez.

PagerDuty, edo zergatik Operazio Sailak ezin du gauez lo egin

Bigarren funtzionarioak erantzuten ez badu, jakinarazpena itzuliko da nagusia betebeharreko ofizialari.

Beraz, lehentasun handiko edozein alerta ezin da prozesatu gabe geratu. 

Orain ikus dezagun nondik etor daitezkeen gorabeherak.

Zein integrazio erabiltzen ditugu?

PD-k hainbat zerbitzutatik hainbat gorabehera jasotzen ditu. Gaur egun horrelako 25 zerbitzu inguru ditugu, eta horiek prozesatzeko prest egindako integrazio batzuk erabiltzen ditugu.

  • Prometeo

Neurri bilketa sistema nagusia Prometheus da. Dagoeneko asko idatzi da HabrΓ©-n horri buruz, esango dut hainbat ingurune ezberdinetarako ditugula: batek makina birtualetako eta docker-en neurketak biltzen ditu, beste batek Amazon zerbitzuetakoak, hirugarrenak hardware-makinetatik. Telegraf metrika esportatzaile gisa erabiltzen da batez ere.

  • Emaila

Hemen ere, nik uste, izenburutik dena argi dago. Integrazio hau cron-ek exekutatutako script batzuetatik jakinarazpenak bidaltzeko erabiltzen da. PD-k gutunak bidaltzen dituzun helbide jakin bat ematen dizu. Integrazio hori duen zerbitzu bat sortzean, lehentasunak ezar ditzakezu, zer ordenatan prozesatuko diren sarrerako gorabeherak, nola sortu zehazki alerta bat (sarrerako gutun bakoitzeko, sarrerako gutun bat + arau jakin bat, etab.).

PagerDuty, edo zergatik Operazio Sailak ezin du gauez lo egin

  • Galdutako

Nire ustez, oso integrazio interesgarria. Batzuetan zerbait gertatzen da, baina istiluek estaltzen ez dutenean. Hori dela eta, Slack-en integrazioa gehitu dugu gorabehera bat sortzeko. Hau da, Slack enpresara idatz dezakezu /callofduty dena motela da eta laster apurtuko da eta PDk prozesatu eta intzidentzia betebeharko ingeniariari bidaliko dio.

Egiten dugu:

PagerDuty, edo zergatik Operazio Sailak ezin du gauez lo egin

Ikusten dugu:

PagerDuty, edo zergatik Operazio Sailak ezin du gauez lo egin

  • API

HTTP integrazioa. Izan ere, hemen ez dago ezer bereziki interesgarririk, JSON formatuan gorputza duen POST eskaera bat besterik ez. Adibidez, zerbait interesgarria: kanpoko monitorizaziorako erabiltzen dugu https://www.statuscake.com/. Zerbitzu honek munduko leku ezberdinetako gure webguneen irisgarritasuna egiaztatzen du. Erantzun kode onartezin bat jasotzen dugunean (adibidez, 502), gorabehera bat sortzen da eta orduan dena goian deskribatutako kateari jarraitzen dio. StatusCake-k berak barne URLak, SSL ziurtagiria edo domeinuaren iraungipena kontrolatzeko gaitasuna du.

  • LibreNMS

Hau beste monitorizazio sistema bat da, bere webgunean horri buruz gehiago irakur dezakezu https://www.librenms.org/. Haren laguntzarekin, sareko interfazeak eta iDRAC monitorizatzen ditugu zerbitzarietatik.

PagerDuty, edo zergatik Operazio Sailak ezin du gauez lo egin

Datadog, CloudWatch bezalako integrazioak ere bazeuden. Gertatutakoari buruz gehiago ikus dezakezu hemen.

Bistaratzea

Gertaeren berri emateko sistema nagusia Slack da. PDra datozen gorabehera guztiak txat berezi batean idazten dira, eta haien egoera aldatzen bada, hau ere txatean bistaratzen da.

PagerDuty, edo zergatik Operazio Sailak ezin du gauez lo egin

Sabaitik zintzilik zeuden monitoreen pantailetan datu erabilgarriak bistaratzeko aukera sortu zenean, bat-batean konturatu ginen guk (devops sailean) ez genuela ezer erakusteko. Grafana zoragarria dago, baina ez du dena estaltzen, eta langileek erreakzionatzen dute alerten aurrean, ez diagrametan.

GitHub-en PDrako "taula" zehatz eta informatzaile baten bila ibili ostean, geurea idaztea erabaki genuen, behar genuenarekin soilik. Hasieran PD interfazea bera bistaratzeko ideia bazegoen ere, are deserosoagoa zirudien.

Idazteko, irakurtzeko soilik eskubideak dituen PD baten gako bat eskuratzea besterik ez duzu behar.
Eta hau da lortu duguna:

PagerDuty, edo zergatik Operazio Sailak ezin du gauez lo egin

Pantailan uneko intzidentzia irekiak, hautatutako ordutegitik lanean ari den uneko ingeniariaren izena eta lehentasun handiko gorabeherarik gabeko ordua bistaratzen dira (lehentasun handiko gertakaria duen panela gorriz nabarmenduko da).

Ikusi hemen ezarpen honen iturriak.

Ondorioz, gure gorabehera guztiak ikusteko panel eroso bat jaso genuen. Pozik egongo naiz zuetako batzuk gure esperientzia baliagarria iruditzen bazaie.

Iturria: www.habr.com

Gehitu iruzkin berria