Cosa à pensà quandu implementate i turni

L'autore efficace di DevOps Ryn Daniels sparte strategie chì qualcunu pò aduprà per creà rotazioni Oncall megliu, menu frustranti è più sustenibili.

Cosa à pensà quandu implementate i turni

Cù l'avventu di Devops, parechji ingegneri in questi ghjorni urganizanu turni in un modu o un altru, chì era una volta a sola rispunsabilità di sysadmins o ingegneri di operazioni. Esse in turnu, soprattuttu durante l'ora di travagliu, ùn hè micca un compitu chì a maiò parte di a ghjente piace. U duvere oncall pò disturbà u nostru sonnu, interferiscenu cù u travagliu normale chì pruvemu di fà durante u ghjornu, è interferiscenu cù a nostra vita in generale. Cume più è più squadre participanu à e vigili, avemu dumandatu a quistione: "Chì pudemu fà cum'è individui, squadre è urganisazioni per fà vigili più umani è sustinibili?"

Salvà u vostru sonnu

Spessu u primu chì a ghjente pensa à quandu pensanu à esse in u duvere hè chì affettarà negativamente u so sonnu; nimu ùn vole una alerta per svegliarli in mezzu di notte. Se a vostra urganizazione o squadra diventa abbastanza grande, pudete aduprà rotazioni "follow-the-sun", induve e squadre in parechji fusi orari participanu à a listessa rotazione, cù turni di travagliu più brevi, cusì ogni fusu orariu serà solu in turnu durante a so attività. (o almenu svegliate) ore. Stabbilimentu di una tale rotazione pò fà meraviglie per riduce a carica di travagliu di notte chì l'assistente assume.

Se ùn avete micca abbastanza ingegneri è a distribuzione geografica per sustene una rotazione di seguitu à u sole, ci sò ancu cose chì pudete fà per riduce a probabilità di e persone chì si sveglianu inutilmente in u mità di a notte. Dopu tuttu, hè una cosa di esce da u lettu à 4 ore di sera per risolve un prublema pressante, di u cliente; Hè un altru di svegliate solu per truvà chì avete trattatu cù una falsa alarma. Puderà aiutà à riviseghjà tutte l'alerte chì avete stabilitu è ​​dumandate à a vostra squadra quale sò in realtà necessarii per sveglià qualcunu dopu l'ore, è se quelli alerti ponu aspittà finu à a matina. Pò esse difficiule d'avè a ghjente d'accordu per disattivà alcune alerti chì ùn sò micca funzionanti, soprattuttu se i prublemi mancati anu causatu prublemi in u passatu, ma hè impurtante ricurdà chì un ingegnere privatu di u sonnu ùn hè micca l'ingegnere più efficace. Stabilite questi avvisi durante l'ore di l'affari quandu importanu veramente. A maiò parte di l'attrezzi d'alerta in questi ghjorni permettenu di stabilisce diverse regule per e notificazioni dopu l'ora, sia per i periodi di notificazione Nagios sia per stabilisce diverse pianificazioni in PagerDuty.

Sonnu, duvere è cultura di squadra

Altre suluzioni à a disrupzione di u sonnu implicanu cambiamenti culturali più grandi. Una manera di risolve stu prublema hè di monitorà l'alerta, fendu una attenzione particulari à quandu ghjunghjenu è s'ellu sò azzione. Opsweekly hè un strumentu creatu è publicatu da Etsy chì permette à e squadre di seguità è categurizà l'alerta chì ricevenu. Puderà generà grafici chì mostranu quante alerti anu svegliatu a ghjente (aduprendu dati di sonnu da i trackers di fitness), è quante alerti necessitanu veramente l'azzione umana. Utilizendu sti tecnulugii, pudete seguità l'efficacità di a vostra rotazione on-call è u so impattu nantu à u sonnu cù u tempu.

A squadra pò ghjucà un rolu à assicurà chì ogni persona in turnu si riposa bè. Crià una cultura chì incuraghjite a ghjente à piglià cura di sè stessu : s'è vo perde u sonnu perchè vi sò stati chjamati a notte, pudete dorme un pocu di più in a matina per pruvà à cumpensà u tempu di sonnu persu. I membri di a squadra ponu guardà l'altri: Quandu e squadre sparte e so dati di u sonnu cù l'altri attraversu qualcosa cum'è Opsweekly, ponu andà à i so culleghi di turnu è dì: "Ehi, pare chì avete avutu una notte dura cù PagerDuty a notte scorsa". "Vulite chì ti copre sta sera per pudè riposà un pocu?" Incuraghjenu a ghjente à sustene l'altri in questu modu è scoraggià una "cultura di l'eroi" induve a ghjente si spingerà à u limitu è ​​evitendu dumandà aiutu.

Reduce l'impattu di esse in u travagliu à u travagliu

Quandu l'ingegneri sò stanchi perchè sò stati svegliati mentre sò in turnu, ovviamente ùn anu micca travagliatu à u 100% di a capacità per u ghjornu, ma ancu senza cuntà a privazione di u sonnu, esse in turnu pò ancu avè altri impatti nantu à u travagliu. Una di e perdite più impurtanti durante u duvere hè duvuta à u fattore di interruzzione, u cambiamentu di u cuntestu: una sola interruzzione pò esse risultatu in a perdita di almenu 20 minuti per a perdita di u focu è u cambiamentu di u cuntestu. Hè prubabile chì e vostre squadre anu altre fonti di interruzzioni, cum'è i biglietti generati da altre squadre, dumande o dumande chì venenu per chat è / o email. Sicondu u voluminu di queste altre interruzioni, pudete cunsiderà aghjunghje à una rotazione esistente mentre era in u travagliu o stabilisce una seconda rotazione solu per trattà queste altre dumande.

Hè impurtante di piglià questu in contu quandu avete pianificatu u travagliu chì a squadra farà, à longu andà è à cortu termini. Se u vostru squadra tende à avè un turnu di duvere abbastanza intensu, stu fattu deve esse cunsideratu in a pianificazione à longu andà, cum'è pudete avè una situazione induve u persunale tutale hè in modu efficau in ogni mumentu, invece di fà un altru travagliu. In a pianificazione di cortu-termine, pudete truvà chì a persona di chjamà ùn hè micca capace di scuntrà i termini per via di e so rispunsabilità di chjamà - questu deve esse previstu è u restu di a squadra deve esse disposti à accoglie è aiutà à assicurà chì u travagliu. hè fattu è a persona di chjama hè supportata in i so travaglii di travagliu. Indipendentemente da se a persona di chjamà hè chjamata, u turnu di chjamà hà un impattu nantu à a capacità di a persona di chjamà à fà un altru travagliu - ùn aspettate micca chì a persona di chjamà travaglia notti per compie i prughjetti pianificati in più di esse. in turnu dopu l'ore.

E squadre anu da truvà un modu per affruntà u travagliu extra generatu mentre sò in turnu. Stu travagliu puderia esse u travagliu veru per riparà i prublemi veri rilevati da i sistemi di monitoraghju è d'alerta, o puderia esse u travagliu per riparà u monitoraghju è l'alerta per riduce u numeru di falsi alerti pusitivi. Qualunque sia a natura di u travagliu chì hè creatu, hè impurtante distribuisce quellu travagliu in modu ghjustu è sustinibili in tutta a squadra. Ùn sò micca tutti i turni nantu à a chjama sò creati uguali, è certi sò più cumplessi ca l'altri, cusì dichjarà chì a persona chì riceve l'alerta hè a persona rispunsevuli di trattà tutte e cunsequenze di quella alerta pò purtà à una distribuzione irregulare di u travagliu. Pò esse più sensu per a persona di turnu per esse rispunsevuli di scheduling o di distribuzione di u travagliu, cù l'aspittà chì u restu di a squadra serà dispostu à aiutà à compie u travagliu creatu.

Crià è mantene l'equilibriu di u travagliu è a vita

Pensate à l'impattu di u duvere hà nantu à a vostra vita fora di u travagliu. Quandu site in turnu, pudete sentu ligatu à u vostru telefuninu è u laptop, questu significa chì porta sempre un laptop è un router mobile (modem USB) cun voi o simpricimenti ùn lasciate micca a vostra casa / uffiziu. Esse in chjama di solitu significa rinunzià cose cum'è vede amichi o famiglia durante u vostru turnu. Questu significa chì a durata di ogni turnu dipende da u numeru di persone in a vostra squadra, è a freccia di i turni pò mette una carica indebita à e persone. Puderete bisognu di sperimentà cù a durata è u timing di i vostri turni per truvà un schedariu chì travaglia per almenu a maiò parte di e persone implicate, postu chì e diverse squadre è persone averebbenu priorità è preferenze diverse.

Hè vitale di ricunnosce l'impattu chì esse in u duvere averà nantu à a vita di e persone, sia à livellu di gestione sia à livellu individuale. Hè da nutà chì l'impattu serà risentitu sproporzionatu da e persone cù menu privilegiu. Per esempiu, s'è vo avete à passà tempu a cura di i zitelli o àutri membri di a famiglia, o s'è vo truvà chì a maiò parte di i travaglii di casa cascà nantu à e vostre spalle, avete digià menu tempu è energia chì qualchissia chì ùn hà micca rispunsabilità. Stu tipu di travagliu di "secondu turnu" o di "terzu turnu" tende à impactà in modu sproporzionatu à e persone, è se stabilisce rotazioni di chjama cù un calendariu o intensità chì assume chì i participanti ùn anu micca una vita persunale fora di l'uffiziu, limità e persone chì pò participà à a vostra squadra.

Incuragisce a ghjente à pruvà à mantene più di u so schedariu regulare. Avete da cunsiderà furnisce a squadra cù routers mobili (modems USB) per chì e persone ponu lascià a casa cù u so laptop è anu sempre una parvenza di vita. Incuragisce e persone à scambià l'ore di chjama cù l'altri, se ne necessariu, per brevi periodi di tempu per chì a ghjente pò andà in palestra o vede un duttore mentre era di turnu. Ùn create micca una cultura induve esse in chjamà significa chì l'ingegneri ùn facenu literalmente nunda ma esse chjamà. U equilibriu di u travagliu è a vita hè una parte impurtante di ogni travagliu, ma soprattuttu quandu avete cunsideratu l'ore di u travagliu, i membri più anziani di a vostra squadra anu da esse un esempiu per l'altri in quantu à l'equilibriu di a vita di u travagliu, quant'è pussibule in u travagliu.

À u livellu individuale, ùn vi scurdate di spiegà ciò chì significa esse di turnu à i vostri amichi, famiglia, partenarii, animali domestici, ecc. , ancu s'ellu ùn volenu in alcun modu aiutà à risolve). Assicuratevi di ricuperà u tempu persu dopu à a fine di u vostru turnu, sia per vede amichi, famiglia o dorme, per esempiu. Se pudete, cunsiderà a creazione di una alarme silenziu (cum'è un smartwatch) chì vi pò svegliate zunendu u polsu per ùn svegliate nimu intornu à voi. Truvate manere di piglià cura di sè stessu quandu site in u mità di u vostru turnu di chjama è quandu hè finitu. Puderete vulete mette inseme un "kit di sopravvivenza on-call" chì vi aiuterà à rilassate: ascolta una playlist di a vostra musica preferita, leghjite u vostru libru preferitu, o pigliate u tempu per ghjucà cù u vostru animali. I gestori anu da incuragisce l'autocura dendu à e persone un ghjornu di riposu dopu à una settimana di turnu è assicurendu chì e persone dumandanu (è uttene) aiutu quandu anu bisognu.

Migliurà l'esperienza di u duvere

In generale, esse in turnu ùn deve esse vistu solu cum'è un travagliu terribili: avete l'uppurtunità è a rispunsabilità cum'è una persona di turnu di travaglià attivamente per fà megliu per e persone chì saranu in turnu in u futuru, chì significa chì e persone. riceveranu menu messagi è seranu più precisi. In novu, u seguimentu di u valore di e vostre alerti utilizendu qualcosa cum'è Opsweekly pò aiutà à capisce ciò chì rende u vostru fastidiosu nantu à a chjama è riparà. Per alerti inattivi, dumandate sè stessu s'ellu ci sò manere di sbarazzà di sti alerti - forse questu significa chì andaranu solu durante l'ora di l'affari, perchè ci sò cose chì ùn avete micca bisognu di risponde à a mità di a notte. Ùn àbbia paura di sguassà alerti, canciari li, o canciari lu mètudu di mandà da "mandà à telefonu è email" à "email solu". L'esperimentazione è l'iterazione sò a chjave per migliurà u duvere cù u tempu.

Per alerti chì sò veramente azzione, duvete cunsiderà quantu hè faciule per un ingegnere di piglià l'azzioni necessarii. Ogni alerta in esecuzione duverebbe avè un runbook chì l'accompagna - cunzidira à utilizà un strumentu cum'è nagios-herald per aghjunghje ligami di runbook à i vostri alerti. Se l'alerta hè abbastanza simplice chì ùn hà micca bisognu di un runbook, hè prubabilmente abbastanza simplice chì pudete automatizà a risposta usendu qualcosa cum'è i gestori di eventi Nagios, chì salva à e persone chì anu da svegliate o interrompe per i travaglii facilmente automatizati. Tutti i runbooks è u nagios-herald ponu aiutà à aghjunghje un cuntestu preziosu à i vostri alerti, chì aiuterà a ghjente à risponde più efficacemente. Vede s'ellu pudete risponde à e dumande cumuni cum'è: Quandu hè stata l'ultima volta chì sta alerta hè andata? Quale hà rispostu l'ultima volta, è chì azzioni anu fattu ultimamente (se ci hè) ? Chì altre alerti appariscenu à u stessu tempu è sò ligati? Stu tipu d'infurmazione contextuale spessu finisce solu in u cervellu di e persone, cusì incuraghjendu una cultura di documentà è sparte infurmazione contextuale pò riduce a quantità di overhead necessaria per risponde à l'alerta.

Una grande parte di a fatigue chì vene da e chiamate hè chì ùn finiscinu mai - se a vostra squadra hà una chjama, hè improbabile chì finiscinu in ogni mumentu in u futuru prevedibile. I turni ùn finiscinu mai, è pudemu sentu chì saranu sempre terribili. Questa mancanza di speranza hè un grande prublema mentale chì pò cuntribuisce à u stress è l'esaurimentu, cusì affruntà a percepzione (in più di a realità) chì u duvere serà sempre terribili hè un bonu postu per cumincià à pensà à u vostru duvere à longu andà.

Per dà a ghjente a speranza chì a situazione di u duvere hà sempre megliurà, hè necessariu di avè l'osservabilità di u sistema (u stessu seguimentu è categurizazione di u duvere chì aghju citatu prima). Mantene una traccia di quante alerti avete, chì percentuale di elli necessitanu intervenzione di l'assistente, quanti di elli svegliate a ghjente, è dopu travaglià per creà una cultura chì incuraghje a ghjente à fà e cose megliu. Sè vo avete una grande squadra, pò esse tentatore, appena u vostru sguardu finisce, di scaccià e mani è dì "hè un prublema di l'ufficiale di u futuru" piuttostu chè di scavà per riparà qualcosa - chì vole spende più. sforzu nantu à u duvere chè da elli necessariu? Hè quì chì una cultura di l'empatia pò fà una grande diferenza, perchè ùn site micca solu à circà u vostru benessiri in turnu, ma ancu per i vostri culleghi.

Hè tuttu nantu à l'empatia

L'empatia hè una parte impurtante di ciò chì ci permette di guidà u rendiment chì migliurà l'esperienza di chjamà. Cum'è manager o membru, pudete evaluà positivamente o ancu ricumpinsà e persone per u cumpurtamentu chì face u cambiamentu megliu. U supportu di l'operazioni hè unu di quelli spazii induve l'ingegneri spessu si sentenu chì a ghjente li presta attenzione solu quandu qualcosa va male: a ghjente serà quì per gridà à elli quandu un situ crashs, ma raramente amparanu nantu à i sforzi di daretu à e scene chì l'operazioni. ingegneri mette in mantene u situ in esecuzione u restu di u tempu. A ricunniscenza di u travagliu pò andà assai, sia per ringrazià qualcunu in una reunione o in un email generale per migliurà una alerta specifica, un aspettu tecnicu di esse in turnu, o dà à qualchissia tempu per copre un altru ingegnere in turnu per un tempu.

Incuragisce a ghjente à passà u tempu è u sforzu per migliurà a so situazione di chjama à longu andà. Se u vostru squadra hà chjamà, duvete pianificà è priurità stu travagliu di listessa manera chì avete qualsiasi altru travagliu nantu à a vostra strada. On-calls sò 90% d'entropia, è salvu chì ùn travagliate attivamente per migliurà, si peghju è peghju cù u tempu. U travagliu cù a vostra squadra per capisce ciò chì motiva megliu è ricumpensa e persone, è dopu aduprate quellu per incuragisce a ghjente à riduce u rumore di l'alerta, scrive runbooks, è crea strumenti chì risolve i so prublemi di chjama. Qualchese chì fate, ùn si mette micca in un terribile duvere cum'è una parte permanente di u statu di l'affari.

Source: www.habr.com

Add a comment