PagerDuty, oder Firwat d'Operatiounsdepartement kann nuets net schlofen

Wat de System méi komplizéiert ass, dest méi gëtt et mat all Zorte vun Alarmer iwwerwältegt. An et ass e Besoin fir op déiselwecht Alarmer ze reagéieren, se aggregéieren an ze visualiséieren. Ech mengen dat ass eng Situatioun déi vill kennt ass bis zum Punkt vun der Nervositéit.

D'Léisung déi diskutéiert gëtt ass net déi onerwaartst, awer d'Sich gëtt net e vollwäertege Artikel iwwer dëst Thema zréck.

Dofir hunn ech décidéiert d'Erfahrung vum FunCorp ze deelen an ze schwätzen iwwer wéi de Pflichtprozess strukturéiert ass, wien rifft, firwat a wéi Dir alles kuckt.

PagerDuty, oder Firwat d'Operatiounsdepartement kann nuets net schlofen

Wat ass PagerDuty?

Also, fir all dës Problemer ze léisen, hu mir ugefaang no engem prakteschen Tool ze sichen. No e puer Sichen hu mir PagerDuty gewielt. PD schéngt eis eng zimlech komplett a präzis Léisung mat enger grousser Zuel vun Integratiounen an Astellungen ze sinn. Wéi ass hatt?

Kuerz gesot, PagerDuty ass eng Tëschefallveraarbechtungsplattform déi erakommen Tëschefäll duerch verschidden Integratiounen veraarbecht kann, Pflichtbestellungen opstellen an dann den Ingenieur op Pflicht alarméieren ofhängeg vum Niveau vum Tëschefall (op engem héijen Niveau - en Uruff, op engem nidderegen Niveau - e Push vun der Applikatioun / SMS).

Wien ass den Duty Offizéier?

Dëst ass wahrscheinlech déi éischt Plaz fir PD opzestellen.

Bei FunCorp, wéi aner Firmen, gëtt et eng Éierepositioun vum Flichtoffizéier. Et gëtt eemol am Dag vum Ingenieur zum Ingenieur iwwerdroen. Et gëtt eng sougenannt éischt an zweet Linn vun der Äntwert op eng Alarm vu PagerDuty. Stellt Iech vir, datt eng héich-Prioritéit Alarm ukomm ass, a wann 10 Minutte nom Uruff un den Duty Offizéier vun der éischter Linn keng Reaktioun drop ass (dh et gëtt net op d'Unerkennung oder de geléiste Status transferéiert), geet den Uruff op déi zweet Flicht Ingenieur. Dëst ass an PagerDuty selwer konfiguréiert duerch Escalation Policies.

PagerDuty, oder Firwat d'Operatiounsdepartement kann nuets net schlofen

Wann den zweeten Offizéier net reagéiert, gëtt d'Notifikatioun zréck op Haaptsäit an den Duty Offizéier.

Also kann all erakommen héich Prioritéit Alarm net onbehandelt bleiwen. 

Elo kucke mer wou Tëschefäll hierkommen.

Wéi eng Integratioune benotze mir?

PD kritt vill verschidden Tëschefäll vu verschiddene Servicer. Mir hunn am Moment ongeféier 25 esou Servicer, a fir se ze veraarbecht benotze mir e puer fäerdeg Integratiounen.

  • Prometheus

Den Haapt Metrik Sammlung System ass Prometheus. Vill ass schonn iwwer Habré geschriwwe ginn, ech wäert just soen datt mir e puer vun hinnen fir verschidden Ëmfeld hunn: een sammelt Metriken vu virtuelle Maschinnen an Dockers, een aneren vun Amazon Servicer, déi drëtt aus Hardware Maschinnen. Telegraf gëtt haaptsächlech als Metrikexporter benotzt.

  • Email

Och hei ass, mengen ech, aus dem Titel alles kloer. Dës Integratioun gëtt benotzt fir Notifikatiounen vun e puer Skripte ze schécken, déi vum Cron ausgefouert ginn. PD gëtt Iech eng bestëmmte Adress un déi Dir Bréiwer schéckt. Wann Dir e Service mat esou enger Integratioun erstellt, kënnt Dir Prioritéite setzen, a wéi enger Reiefolleg déi erakommen Tëschefäll veraarbecht ginn, wéi genee eng Alarm erstellen (fir all erakommen Bréif, fir en erakommen Bréif + eng bestëmmte Regel, etc.).

PagerDuty, oder Firwat d'Operatiounsdepartement kann nuets net schlofen

  • D'Visiteuren haten et

Menger Meenung no eng ganz interessant Integratioun. Et ginn Zäiten wou eppes geschitt awer net vun Tëschefäll ofgedeckt ass. Dofir hu mir Integratioun vu Slack bäigefüügt fir en Tëschefall ze kreéieren. Dat ass, Dir kënnt op Corporate Slack schreiwen /callofduty alles ass lues a brécht geschwënn an d'PD wäert et veraarbecht an den Zwëschefall un de Flichtingenieur schécken.

Mir maachen:

PagerDuty, oder Firwat d'Operatiounsdepartement kann nuets net schlofen

Mir gesinn:

PagerDuty, oder Firwat d'Operatiounsdepartement kann nuets net schlofen

  • API

HTTP Integratioun. Tatsächlech gëtt et näischt besonnesch interessant hei, just eng POST Ufro mat engem Kierper am JSON Format. Zum Beispill, eppes interessant: mir benotzen et fir extern Iwwerwachung benotzt https://www.statuscake.com/. Dëse Service kontrolléiert d'Accessibilitéit vun eise Site aus verschiddenen Deeler vun der Welt. Am Fall wou mir en inakzeptablen Äntwertcode kréien (zum Beispill 502), gëtt en Tëschefall erstallt an dann ass alles no der uewen beschriwwener Kette. StatusCake selwer huet d'Fäegkeet intern URLen, SSL Zertifikat oder Domain Verfall ze iwwerwaachen.

  • LibreNMS

Dëst ass en aneren Iwwerwaachungssystem, Dir kënnt méi doriwwer op hirer Websäit liesen https://www.librenms.org/. Mat senger Hëllef iwwerwaachen mir Reseau Schnëttplazen an iDRAC aus Serveren.

PagerDuty, oder Firwat d'Operatiounsdepartement kann nuets net schlofen

Et goufen och Integratioune wéi Datadog, CloudWatch. Dir kënnt méi iwwer gesinn wat mat hinnen geschitt ass hei riets.

Visualiséierung

Den Haaptincident Berichterstattungssystem ass Slack. All Tëschefäll, déi op PD kommen, ginn op e spezielle Chat geschriwwe, a wann hire Status ännert, gëtt dat och am Chat ugewisen.

PagerDuty, oder Firwat d'Operatiounsdepartement kann nuets net schlofen

Wann d'Geleeënheet entstanen ass, nëtzlech Donnéeën op de Schiirme vu Monitore ze weisen, déi vun der Plafong hänken, hu mir op eemol gemierkt datt mir (an der Devops-Departement) näischt op hinnen ze weisen. Et gëtt eng wonnerbar Grafana, awer et deckt net alles, an d'Mataarbechter reagéieren op Alarmer, net Charts.

No enger grëndlecher awer net erfollegräicher Sich op GitHub fir e präzis an informativen "Bord" fir PD, hu mir beschloss eis eegen ze schreiwen - nëmme mat deem wat mir gebraucht hunn. Och wann et am Ufank eng Iddi war fir d'PD-Interface selwer ze weisen, huet et nach méi onbequem ausgesinn.

Fir et ze schreiwen, alles wat Dir maache musst ass e Schlëssel vun enger PD mat Liesrechter ze kréien.
An dat ass wat mir kruten:

PagerDuty, oder Firwat d'Operatiounsdepartement kann nuets net schlofen

Den Écran weist déi aktuell oppe Tëschefäll, den Numm vum aktuellen Ingenieur am Pflicht aus dem ausgewielten Zäitplang, an d'Zäit ouni e prioritären Tëschefall (de Panel mat engem héigen prioritären Tëschefall gëtt rout markéiert).

Kuckt d'Quelle vun dëser Ëmsetzung hei.

Als Resultat hu mir e praktescht Dashboard kritt fir all eis Tëschefäll ze gesinn. Ech wäert frou sinn wann e puer vun iech eis Erfahrung nëtzlech fannen.

Source: will.com

Setzt e Commentaire