PagerDuty, au Kwa Nini Idara ya Uendeshaji Haiwezi Kulala Usiku

Kadiri mfumo unavyozidi kuwa mgumu zaidi, ndivyo unavyozidi kuwa na kila aina ya arifa. Na kuna haja ya kuguswa na arifa hizi hizo, kuzikusanya na kuziona. Nadhani hii ni hali ambayo inajulikana kwa wengi hadi kufikia hatua ya woga.

Suluhisho ambalo litajadiliwa sio lisilotarajiwa zaidi, lakini utaftaji haurudishi nakala kamili juu ya mada hii.

Kwa hivyo, niliamua kushiriki uzoefu wa FunCorp na kuzungumza kuhusu jinsi mchakato wa wajibu ulivyoundwa, nani anayepiga simu, kwa nini na jinsi gani unaweza kuiangalia yote.

PagerDuty, au Kwa Nini Idara ya Uendeshaji Haiwezi Kulala Usiku

PagerDuty ni nini?

Kwa hiyo, ili kutatua matatizo haya yote, tulianza kutafuta chombo cha urahisi. Baada ya kutafuta, tulichagua PagerDuty. PD ilionekana kwetu kuwa suluhisho kamili na fupi yenye idadi kubwa ya miunganisho na mipangilio. Mwanamke huyo anafananaje?

Kwa kifupi, PagerDuty ni jukwaa la usindikaji wa matukio ambalo linaweza kuchakata matukio yanayoingia kupitia miunganisho mbalimbali, kuweka maagizo ya kazi na kisha kumtahadharisha mhandisi wa zamu kulingana na kiwango cha tukio (kwa kiwango cha juu - simu, kwa kiwango cha chini - msukumo kutoka kwa programu/SMS) .

Afisa wa zamu ni nani?

Pengine hapa ni mahali pa kwanza pa kuanza kusanidi PD.

Katika FunCorp, kama kampuni zingine, kuna nafasi ya heshima ya afisa wa zamu. Inapitishwa kutoka kwa mhandisi hadi mhandisi mara moja kwa siku. Kuna kinachojulikana kama mstari wa kwanza na wa pili wa jibu kwa tahadhari kutoka PagerDuty. Tuseme tahadhari ya kipaumbele cha juu inafika, na ikiwa dakika 10 baada ya simu kwa afisa wa zamu kutoka kwa mstari wa kwanza hakuna majibu kwa hilo (yaani, haijahamishwa kwa hali ya kukiri au kutatuliwa), simu huenda kwa pili. mhandisi wa kazi. Hii imesanidiwa katika PagerDuty yenyewe kupitia Sera za Upanuzi.

PagerDuty, au Kwa Nini Idara ya Uendeshaji Haiwezi Kulala Usiku

Ikiwa afisa wa pili wa zamu hatajibu, arifa inarudi kwa kuu kwa afisa wa zamu.

Kwa hivyo, tahadhari yoyote inayoingia ya kipaumbele haiwezi kubaki bila kuchakatwa. 

Sasa tuone matukio yanaweza kutoka wapi.

Je, ni miunganisho gani tunayotumia?

PD hupokea matukio mengi tofauti kutoka kwa huduma mbalimbali. Kwa sasa tuna takriban huduma 25 kama hizo, na kuzichakata tunatumia miunganisho iliyo tayari.

  • Prometheus

Mfumo mkuu wa ukusanyaji wa metriki ni Prometheus. Mengi tayari yameandikwa juu yake kwenye Habre, nitasema tu kwamba tunayo kadhaa kwa mazingira tofauti: moja hukusanya metrics kutoka kwa mashine za kawaida na dockers, nyingine kutoka kwa huduma za Amazon, ya tatu kutoka kwa mashine za vifaa. Telegraf hutumiwa zaidi kama muuzaji wa metrics.

  • Barua pepe

Hapa pia, nadhani, kila kitu ni wazi kutoka kwa kichwa. Muunganisho huu hutumiwa kutuma arifa kutoka kwa baadhi ya hati zinazotekelezwa na cron. PD hukupa anwani fulani ambayo unatuma barua. Wakati wa kuunda huduma kwa ushirikiano huo, unaweza kuweka vipaumbele, kwa utaratibu gani matukio yanayoingia yatashughulikiwa, jinsi gani hasa kuunda tahadhari (kwa kila barua inayoingia, kwa barua inayoingia + sheria fulani, nk).

PagerDuty, au Kwa Nini Idara ya Uendeshaji Haiwezi Kulala Usiku

  • Slack

Kwa maoni yangu, ushirikiano wa kuvutia sana. Kuna wakati jambo linatokea lakini halifungwi na matukio. Kwa hivyo, tuliongeza muunganisho kutoka kwa Slack ili kuunda tukio. Hiyo ni, unaweza kuandika kwa Slack ya ushirika /callofduty kila kitu ni polepole na itavunjika hivi karibuni na PD ataichakata na kutuma tukio kwa mhandisi wa zamu.

Tunafanya:

PagerDuty, au Kwa Nini Idara ya Uendeshaji Haiwezi Kulala Usiku

Tunaona:

PagerDuty, au Kwa Nini Idara ya Uendeshaji Haiwezi Kulala Usiku

  • API

Ujumuishaji wa HTTP. Kwa kweli, hakuna kitu cha kufurahisha hapa, ombi tu la POST na mwili katika umbizo la JSON. Kwa mfano, kitu cha kuvutia: tunaitumia kwa ufuatiliaji wa nje kwa kutumia https://www.statuscake.com/. Huduma hii hukagua ufikiaji wa tovuti zetu kutoka sehemu mbalimbali za dunia. Katika kesi tunapopokea msimbo wa majibu usiokubalika (kwa mfano, 502), tukio linaundwa na kisha kila kitu kinafuata mlolongo ulioelezwa hapo juu. StatusCake yenyewe ina uwezo wa kufuatilia URL za ndani, cheti cha SSL au mwisho wa muda wa kikoa.

  • LibreNMS

Huu ni mfumo mwingine wa ufuatiliaji, unaweza kusoma zaidi kuhusu hilo kwenye tovuti yao https://www.librenms.org/. Kwa msaada wake, tunafuatilia miingiliano ya mtandao na iDRAC kutoka kwa seva.

PagerDuty, au Kwa Nini Idara ya Uendeshaji Haiwezi Kulala Usiku

Pia kulikuwa na miunganisho kama vile Datadog, CloudWatch. Unaweza kuona zaidi juu ya kile kilichotokea kwao hapa.

Visualization

Mfumo mkuu wa kuripoti matukio ni Slack. Matukio yote yanayokuja kwa PD yameandikwa kwa gumzo maalum, na ikiwa hali yao itabadilika, hii pia huonyeshwa kwenye gumzo.

PagerDuty, au Kwa Nini Idara ya Uendeshaji Haiwezi Kulala Usiku

Wakati fursa ilipotokea ya kuonyesha data muhimu kwenye skrini za wachunguzi zilizowekwa kwenye dari, ghafla tuligundua kuwa sisi (katika idara ya devops) hatukuwa na kitu cha kuonyesha juu yao. Kuna Grafana ya ajabu, lakini haijumuishi kila kitu, na wafanyakazi huguswa na tahadhari, sio chati.

Baada ya utafutaji wa kina lakini ambao haukufanikiwa kwenye GitHub kwa "ubao" mfupi na wa taarifa kwa PD, tuliamua kuandika yetu - tu kwa kile tulichohitaji. Ingawa mwanzoni kulikuwa na wazo la kuonyesha kiolesura cha PD chenyewe, lilionekana kuwa lisilofaa zaidi.

Ili kuiandika, unachohitaji kufanya ni kupata ufunguo kutoka kwa PD yenye haki za kusoma tu.
Na hii ndio tulipata:

PagerDuty, au Kwa Nini Idara ya Uendeshaji Haiwezi Kulala Usiku

Skrini inaonyesha matukio ya sasa ya wazi, jina la mhandisi wa sasa aliye zamu kutoka kwa ratiba iliyochaguliwa, na wakati bila tukio la kipaumbele cha juu (jopo lenye tukio la kipaumbele litaangaziwa kwa rangi nyekundu).

Tazama vyanzo vya utekelezaji huu hapa.

Kwa hiyo, tulipokea dashibodi ifaayo kwa ajili ya kutazama matukio yetu yote. Nitafurahi ikiwa baadhi yenu watapata uzoefu wetu kuwa muhimu.

Chanzo: mapenzi.com

Kuongeza maoni