Ano ang dapat isipin kapag nagpapatupad ng mga paglilipat ng tungkulin

Ang mabisang may-akda ng DevOps na si Ryn Daniels ay nagbabahagi ng mga diskarte na magagamit ng sinuman para gumawa ng mas mahusay, hindi gaanong nakakadismaya, at mas napapanatiling pag-ikot ng Oncall.

Ano ang dapat isipin kapag nagpapatupad ng mga paglilipat ng tungkulin

Sa pagdating ng Devops, maraming mga inhinyero sa mga araw na ito ang nag-oorganisa ng mga shift sa isang paraan o iba pa, na minsan ay nag-iisang responsibilidad ng mga sysadmin o operations engineer. Ang pagiging on duty, lalo na sa mga oras na walang pasok, ay hindi isang gawain na kinagigiliwan ng karamihan. Ang oncall duty ay maaaring makagambala sa ating pagtulog, makagambala sa normal na gawain na sinusubukan nating gawin sa araw, at makagambala sa ating buhay sa pangkalahatan. Habang dumarami ang mga koponan na nakikilahok sa mga pagbabantay, itinanong namin ang tanong na, "Ano ang magagawa natin bilang mga indibidwal, koponan at organisasyon upang gawing mas makatao at napapanatiling ang mga pagbabantay?"

I-save ang iyong pagtulog

Kadalasan ang unang bagay na iniisip ng mga tao kapag iniisip nila ang pagiging nasa tungkulin ay ang negatibong epekto nito sa kanilang pagtulog; walang gustong gisingin sila sa kalagitnaan ng gabi. Kung lumaki nang sapat ang iyong organisasyon o koponan, maaari kang gumamit ng mga "follow-the-sun" na pag-ikot, kung saan ang mga koponan sa maraming time zone ay lumalahok sa parehong pag-ikot, na may mas maiikling paglilipat ng tungkulin. kaya ang bawat time zone ay mag-duty lamang sa panahon ng negosyo nito (o hindi bababa sa paggising) oras. Ang pagtatatag ng naturang pag-ikot ay maaaring gumawa ng mga kababalaghan upang mabawasan ang karga ng trabaho sa gabi na ginagawa ng attendant.

Kung wala kang sapat na mga inhinyero at ang heograpikong pamamahagi upang suportahan ang isang follow-the-sun rotation, mayroon ka pa ring mga bagay na magagawa mo upang mabawasan ang posibilidad na magising ang mga tao nang hindi kinakailangang magising sa kalagitnaan ng gabi. Pagkatapos ng lahat, isang bagay ang bumangon sa kama sa 4 a.m. upang malutas ang isang mahirap, problemang kinakaharap ng customer; Ibang klase ang gumising para lang malaman na maling alarma ang kinakaharap mo. Makakatulong na suriin ang lahat ng alertong na-set up mo at tanungin ang iyong team kung alin ang talagang kailangan para gisingin ang isang tao pagkalipas ng mga oras, at kung ang mga alertong iyon ay maaaring maghintay hanggang sa umaga. Maaaring mahirap makuha ang mga tao na sumang-ayon na i-off ang ilang hindi gumaganang alerto, lalo na kung ang mga napalampas na isyu ay nagdulot ng mga problema sa nakaraan, ngunit mahalagang tandaan na ang isang inhinyero na kulang sa tulog ay hindi ang pinakaepektibong engineer. Itakda ang mga alertong ito sa mga oras ng negosyo kapag talagang mahalaga ang mga ito. Karamihan sa mga tool sa alerto sa mga araw na ito ay nagbibigay-daan sa iyo na mag-set up ng iba't ibang mga panuntunan para sa mga abiso pagkatapos ng oras, maging ito sa mga panahon ng notification sa Nagios o pagse-set up ng iba't ibang mga iskedyul sa PagerDuty.

Tulog, tungkulin at kultura ng pangkat

Ang iba pang mga solusyon sa pagkagambala sa pagtulog ay nagsasangkot ng mas malalaking pagbabago sa kultura. Ang isang paraan upang malutas ang problemang ito ay ang pagsubaybay sa mga alerto, pagbibigay ng partikular na atensyon sa pagdating ng mga ito at kung maaaksyunan ang mga ito. Opsweekly ay isang tool na nilikha at nai-publish ng Etsy na nagbibigay-daan sa mga koponan na subaybayan at ikategorya ang mga alerto na kanilang natatanggap. Maaari itong bumuo ng mga graph na nagpapakita kung gaano karaming mga alerto ang gumising sa mga tao (gamit ang data ng pagtulog mula sa mga fitness tracker), pati na rin kung gaano karaming mga alerto ang aktwal na nangangailangan ng pagkilos ng tao. Gamit ang mga teknolohiyang ito, masusubaybayan mo ang pagiging epektibo ng iyong on-call rotation at ang epekto nito sa pagtulog sa paglipas ng panahon.

Ang koponan ay maaaring gumanap ng isang papel sa pagtiyak na ang bawat taong naka-duty ay nakakakuha ng sapat na pahinga. Lumikha ng kultura na naghihikayat sa mga tao na pangalagaan ang kanilang sarili: kung nawawalan ka ng tulog dahil tinawag ka sa gabi, maaari kang matulog nang mas matagal sa umaga upang subukang mabawi ang nawalang oras ng pagtulog. Maaaring bantayan ng mga miyembro ng team ang isa't isa: Kapag ibinahagi ng mga team ang kanilang data sa pagtulog sa isa't isa sa pamamagitan ng isang bagay tulad ng Opsweekly, maaari silang pumunta sa kanilang mga kasamahan na naka-duty at sabihing, "Uy, mukhang nagkaroon ka ng mahirap na gabi sa PagerDuty kagabi." "Gusto mo bang takpan kita ngayong gabi para makapagpahinga ka?" Hikayatin ang mga tao na suportahan ang isa't isa sa ganitong paraan at pigilan ang isang "kulturang bayani" kung saan itutulak ng mga tao ang kanilang sarili sa limitasyon at iwasang humingi ng tulong.

Pagbabawas ng epekto ng pagiging nasa tungkulin sa trabaho

Kapag ang mga inhinyero ay pagod dahil nagising sila habang nasa duty, halatang hindi sila gagana sa 100% na kapasidad para sa araw, ngunit kahit na hindi isinasaalang-alang ang kawalan ng tulog, ang pagiging naka-duty ay maaari ding magkaroon ng iba pang mga epekto sa trabaho. Ang isa sa pinakamahalagang pagkalugi sa panahon ng tungkulin ay dahil sa salik ng pagkaantala, pagbabago ng konteksto: ang isang pagkaantala ay maaaring magresulta sa pagkawala ng hindi bababa sa 20 minuto dahil sa pagkawala ng focus at paglipat ng konteksto. Malamang na ang iyong mga koponan ay magkakaroon ng iba pang mga pinagmumulan ng mga pagkaantala, tulad ng mga tiket na nabuo ng iba pang mga koponan, mga kahilingan o mga tanong na dumarating sa pamamagitan ng chat at/o email. Depende sa dami ng iba pang mga pagkaantala na ito, maaari mong isaalang-alang ang pagdaragdag sa mga ito sa isang kasalukuyang pag-ikot habang nasa tungkulin o pag-set up ng pangalawang pag-ikot para lang mahawakan ang iba pang mga kahilingang ito.

Mahalagang isaalang-alang ito kapag pinaplano mo ang gawaing gagawin ng pangkat, parehong pangmatagalan at panandaliang panahon. Kung ang iyong koponan ay may posibilidad na magkaroon ng medyo matinding paglilipat ng tungkulin, ang katotohanang ito ay kailangang isaalang-alang sa pangmatagalang pagpaplano, dahil maaari kang magkaroon ng sitwasyon kung saan ang buong kawani ay epektibong nasa tungkulin sa anumang partikular na oras, sa halip na gumawa ng iba pang gawain. Sa panandaliang pagpaplano, maaari mong makita na ang on-call na tao ay hindi nakakatugon sa mga deadline dahil sa kanilang on-call na mga responsibilidad - ito ay dapat asahan at ang natitirang bahagi ng koponan ay dapat na handang tumanggap at tumulong upang matiyak na ang trabaho tapos na at ang on-call na tao ay sinusuportahan sa kanilang mga gawain sa trabaho. Hindi alintana kung ang on-call na tao ay tinawag, ang on-call shift ay makakaapekto sa kakayahan ng on-call na tao na magsagawa ng iba pang trabahoβ€”huwag asahan na ang on-call na tao ay magtatrabaho sa gabi upang makumpleto ang mga nakaiskedyul na proyekto bilang karagdagan sa pagiging sa duty pagkatapos ng oras.

Ang mga koponan ay kailangang maghanap ng paraan upang makayanan ang dagdag na gawaing nabuo habang nasa tungkulin. Ang gawaing ito ay maaaring maging tunay na gawain upang ayusin ang mga tunay na problemang natukoy ng mga sistema ng pagsubaybay at pag-aalerto, o maaaring trabaho upang ayusin ang pagsubaybay at mga alerto upang bawasan ang bilang ng mga maling positibong alerto. Anuman ang uri ng gawaing nilikha, mahalagang ipamahagi ang gawaing iyon nang patas at napapanatiling sa buong pangkat. Hindi lahat ng on-call shift ay ginawang pantay, at ang ilan ay mas kumplikado kaysa sa iba, kaya ang pagsasabi na ang taong tumatanggap ng alerto ay ang taong responsable sa pagharap sa lahat ng mga kahihinatnan ng alertong iyon ay maaaring humantong sa hindi pantay na pamamahagi ng trabaho. Maaaring mas makatuwiran para sa taong naka-duty na maging responsable para sa pag-iskedyul o pamamahagi ng trabaho, na may pag-asa na ang natitirang bahagi ng koponan ay handang tumulong sa pagkumpleto ng gawaing ginawa.

Paglikha at pagpapanatili ng balanse sa trabaho-buhay

Isipin ang epekto ng pagiging nasa tungkulin sa iyong buhay sa labas ng trabaho. Kapag naka-duty ka, malamang na nakatali ka sa iyong mobile phone at laptop, ang ibig sabihin nito ay palagi kang may dalang laptop at mobile router (usb modem) o kaya naman ay hindi ka na lang umaalis sa iyong bahay/opisina. Ang pagiging on call ay karaniwang nangangahulugan ng pagsuko sa mga bagay tulad ng pakikipagkita sa mga kaibigan o pamilya sa panahon ng iyong shift. Nangangahulugan ito na ang haba ng bawat shift ay nakadepende sa bilang ng mga tao sa iyong team, at ang dalas ng mga shift ay maaaring magdulot ng hindi nararapat na pasanin sa mga tao. Maaaring kailanganin mong mag-eksperimento sa haba at timing ng iyong mga shift upang makahanap ng iskedyul na gumagana para sa hindi bababa sa karamihan ng mga taong kasangkot, dahil ang iba't ibang mga koponan at mga tao ay magkakaroon ng magkakaibang mga priyoridad at kagustuhan.

Mahalagang kilalanin ang epekto ng pagiging nasa tungkulin sa buhay ng mga tao, kapwa sa antas ng pamamahala at sa indibidwal na antas. Dapat tandaan na ang epekto ay mararamdaman nang hindi katimbang ng mga taong may kaunting pribilehiyo. Halimbawa, kung kailangan mong gumugol ng oras sa pag-aalaga sa mga bata o iba pang miyembro ng pamilya, o kung nalaman mong ang karamihan sa mga gawaing bahay ay nasa iyong mga balikat, mayroon ka nang mas kaunting oras at lakas kaysa sa isang taong wala. Ang ganitong uri ng "second shift" o "third shift" na trabaho ay may posibilidad na hindi katimbang ang epekto sa mga tao, at kung magtatatag ka ng mga on-call rotation na may iskedyul o intensity na ipinapalagay na ang mga kalahok ay walang personal na buhay sa labas ng opisina, nililimitahan mo ang mga taong maaaring lumahok sa iyong koponan.

Hikayatin ang mga tao na subukang panatilihin ang higit pa sa kanilang regular na iskedyul. Dapat mong isaalang-alang ang pagbibigay sa koponan ng mga mobile router (usb modem) upang ang mga tao ay makaalis ng bahay gamit ang kanilang laptop at magkaroon pa rin ng ilang pagkakahawig ng isang buhay. Hikayatin ang mga tao na makipagpalitan ng mga oras sa pagtawag sa isa't isa, kung kinakailangan, sa maikling panahon upang ang mga tao ay makapunta sa gym o magpatingin sa doktor habang naka-duty. Huwag lumikha ng isang kultura kung saan ang pagiging on call ay nangangahulugan na ang mga inhinyero ay literal na walang ginagawa kundi maging on call. Ang balanse sa trabaho-buhay ay isang mahalagang bahagi ng anumang trabaho, ngunit lalo na kapag isinasaalang-alang mo ang mga oras na wala sa tungkulin, ang mas matatandang miyembro ng iyong koponan ay dapat na maging halimbawa para sa iba sa mga tuntunin ng balanse sa buhay-trabaho, hangga't maaari habang nasa tungkulin.

Sa isang indibidwal na antas, huwag kalimutang ipaliwanag kung ano ang ibig sabihin ng pagiging nasa tungkulin sa iyong mga kaibigan, pamilya, kasosyo, alagang hayop, atbp. (malamang na walang pakialam ang iyong mga pusa dahil gising na sila ng 4 a.m. kapag nakuha mo ang alerto , bagama't hindi nila gustong tulungan kang lutasin ito). Siguraduhing babayaran mo ang nawalang oras pagkatapos ng iyong shift, halimbawa man ito ay upang makita ang mga kaibigan, pamilya o pagtulog. Kung magagawa mo, isaalang-alang ang pag-set up ng silent alarm (tulad ng isang smartwatch) na maaaring gumising sa iyo sa pamamagitan ng pag-buzz ng iyong pulso upang hindi mo magising ang sinuman sa paligid mo. Humanap ng mga paraan para pangalagaan ang iyong sarili kapag nasa kalagitnaan ka ng iyong on-call shift at kapag tapos na ito. Baka gusto mong magsama-sama ng isang "on-call survival kit" na tutulong sa iyong makapagpahinga: makinig sa isang playlist ng iyong paboritong musika, basahin ang iyong paboritong libro, o maglaan ng oras upang makipaglaro sa iyong alagang hayop. Dapat hikayatin ng mga tagapamahala ang pangangalaga sa sarili sa pamamagitan ng pagbibigay sa mga tao ng isang araw na walang pasok pagkatapos ng isang linggo sa tungkulin at pagtiyak na ang mga tao ay humihingi (at makakakuha) ng tulong kapag kailangan nila ito.

Pagpapabuti ng karanasan sa tungkulin

Sa pangkalahatan, ang pagiging naka-duty ay hindi lang dapat tingnan bilang isang kahila-hilakbot na trabaho: mayroon kang pagkakataon at responsibilidad bilang isang taong naka-duty na aktibong magtrabaho para mas mapaganda ito para sa mga taong gaganap sa hinaharap, na nangangahulugang ang mga tao ay makakatanggap ng mas kaunting mga mensahe at sila ay magiging mas tumpak. Muli, ang pagsubaybay sa halaga ng iyong mga alerto gamit ang isang bagay tulad ng Opsweekly ay makakatulong sa iyong malaman kung ano ang nakakainis sa iyong on-call at ayusin ito. Para sa mga hindi aktibong alerto, tanungin ang iyong sarili kung may mga paraan upang maalis ang mga alertong ito - marahil ay nangangahulugan ito na mawawala lang ang mga ito sa mga oras ng negosyo, dahil may ilang bagay na hindi mo na kailangang tumugon sa kalagitnaan ng gabi. Huwag matakot na tanggalin ang mga alerto, baguhin ang mga ito, o baguhin ang paraan ng pagpapadala mula sa "ipadala sa telepono at email" sa "email lamang." Ang eksperimento at pag-ulit ay ang susi sa pagpapabuti ng tungkulin sa paglipas ng panahon.

Para sa mga alertong aktwal na naaaksyunan, dapat mong isaalang-alang kung gaano kadali para sa isang engineer na gawin ang mga kinakailangang aksyon. Ang bawat tumatakbong alerto ay dapat may runbook na kasama nito - isaalang-alang ang paggamit ng tool tulad ng nagios-herald upang magdagdag ng mga link ng runbook sa iyong mga alerto. Kung ang alerto ay sapat na simple na hindi nito kailangan ng isang runbook, malamang na ito ay sapat na simple na maaari mong i-automate ang tugon gamit ang isang bagay tulad ng Nagios event handler, na nagliligtas sa mga tao na kailangang magising o makagambala sa kanilang sarili para sa madaling awtomatikong mga gawain. Ang parehong mga runbook at nagios-herald ay maaaring makatulong sa iyo na magdagdag ng mahalagang konteksto sa iyong mga alerto, na makakatulong sa mga tao na tumugon sa mga ito nang mas epektibo. Tingnan kung masasagot mo ang mga karaniwang tanong tulad ng: Kailan ang huling pagkakataong nag-off ang alertong ito? Sino ang sumagot nito sa huling pagkakataon, at anong mga aksyon ang kanilang ginawa sa huli (kung mayroon man)? Anong iba pang mga alerto ang lumalabas kasabay nito at may kaugnayan ba ang mga ito? Ang ganitong uri ng kontekstwal na impormasyon ay kadalasang napupunta lamang sa utak ng mga tao, kaya ang paghikayat sa kultura ng pagdodokumento at pagbabahagi ng kontekstwal na impormasyon ay maaaring mabawasan ang halaga ng overhead na kinakailangan upang tumugon sa mga alerto.

Ang isang malaking bahagi ng pagkapagod na nagmumula sa mga on-call ay hindi sila matataposβ€”kung may mga on-call ang iyong team, malabong magwawakas sila anumang oras sa nakikinita na hinaharap. Ang mga pagbabago ay hindi natatapos, at maaari nating maramdaman na palagi silang magiging kakila-kilabot. Ang kawalan ng pag-asa na ito ay isang malaking isyu sa pag-iisip na maaaring mag-ambag sa stress at pagkahapo, kaya ang pagtugon sa pang-unawa (bilang karagdagan sa katotohanan) na ang tungkulin ay palaging magiging kahila-hilakbot ay isang magandang lugar upang simulan ang pag-iisip tungkol sa iyong tungkulin sa mahabang panahon.

Upang mabigyan ang mga tao ng pag-asa na ang sitwasyon sa tungkulin ay bubuti pa, kinakailangan na magkaroon ng observability ng system (kaparehong pagsubaybay at pagkakategorya ng tungkulin na nabanggit ko kanina). Subaybayan kung gaano karaming mga alerto ang mayroon ka, ilang porsyento ng mga ito ang nangangailangan ng interbensyon ng attendant, kung ilan sa mga ito ang gumising sa mga tao, at pagkatapos ay gumawa ng isang kultura na naghihikayat sa mga tao na gawin ang mga bagay na mas mahusay. Kung mayroon kang malaking team, maaari itong maging kaakit-akit, sa sandaling matapos ang iyong relo, na itaas ang iyong mga kamay at sabihing "problema iyon ng isang opisyal ng tungkulin sa hinaharap" sa halip na maghukay upang ayusin ang isang bagay - na gustong gumastos ng higit pa pagsisikap sa tungkulin kaysa sa kailangan nila? Ito ay kung saan ang isang kultura ng empatiya ay maaaring gumawa ng isang malaking pagkakaiba, dahil hindi mo lamang tinitingnan ang iyong kapakanan sa tungkulin, kundi pati na rin ang iyong mga kasamahan.

Ito ay tungkol sa empatiya

Ang empatiya ay isang mahalagang bahagi ng kung ano ang nagbibigay-daan sa amin na humimok ng performance na nagpapahusay sa on-call na karanasan. Bilang isang manager o miyembro, maaari mong positibong suriin o gantimpalaan ang mga tao para sa pag-uugali na nagpapaganda ng pagbabago. Ang suporta sa pagpapatakbo ay isa sa mga lugar kung saan kadalasang nararamdaman ng mga inhinyero na binibigyang-pansin lamang sila ng mga tao kapag may nangyaring mali: ang mga tao ay naroroon upang sigawan sila kapag nag-crash ang isang site, ngunit bihira nilang malaman ang tungkol sa mga pagsisikap sa likod ng mga eksena na nagpapatakbo. inilagay ng mga inhinyero sa pagpapanatiling gumagana ang site sa natitirang oras. Malaki ang maitutulong ng pagkilala sa trabaho, ito man ay pagpapasalamat sa isang tao sa isang pulong o sa isang pangkalahatang email para sa pagpapabuti ng isang partikular na alerto, isang teknikal na aspeto ng pagiging nasa tungkulin, o pagbibigay ng isang tao ng oras upang mag-cover para sa isa pang engineer sa shift nang ilang sandali.

Hikayatin ang mga tao na gumugol ng oras at pagsisikap upang mapabuti ang kanilang sitwasyon sa pagtawag sa mahabang panahon. Kung ang iyong koponan ay may mga on-call, dapat mong planuhin at unahin ang gawaing ito sa parehong paraan na gagawin mo sa anumang iba pang gawain sa iyong roadmap. Ang mga on-call ay 90% entropy, at maliban kung aktibo kang nagsusumikap upang mapabuti ang mga ito, lalala ang mga ito at lalala sa paglipas ng panahon. Makipagtulungan sa iyong koponan upang malaman kung ano ang pinakamahusay na nag-uudyok at nagbibigay ng reward sa mga tao, at pagkatapos ay gamitin iyon upang hikayatin ang mga tao na bawasan ang ingay ng alerto, magsulat ng mga runbook, at lumikha ng mga tool na lumulutas sa kanilang mga problema sa pagtawag. Anuman ang iyong gawin, huwag tumira sa kakila-kilabot na tungkulin bilang isang permanenteng bahagi ng estado ng mga gawain.

Pinagmulan: www.habr.com

Magdagdag ng komento