La ce să vă gândiți când implementați schimburile de serviciu

Autorul eficient DevOps, Ryn Daniels, împărtășește strategii pe care oricine le poate folosi pentru a crea rotații Oncall mai bune, mai puțin frustrante și mai durabile.

La ce să vă gândiți când implementați schimburile de serviciu

Odată cu apariția Devops, mulți ingineri din aceste zile organizează ture într-un fel sau altul, care odată era responsabilitatea exclusivă a administratorilor de sistem sau a inginerilor operaționali. A fi de serviciu, mai ales în timpul orelor de lucru, nu este o sarcină care îi place celor mai mulți oameni. Datoria la gardă ne poate perturba somnul, poate interfera cu munca normală pe care încercăm să o facem în timpul zilei și poate interfera cu viața noastră în general. Pe măsură ce tot mai multe echipe participă la privegheri, am pus întrebarea: „Ce putem face noi, indivizi, echipe și organizații pentru a face vegherile mai umane și mai durabile?”

Economisiți somnul

Adesea, primul lucru la care se gândesc oamenii atunci când se gândesc la serviciu este că le va afecta negativ somnul; nimeni nu vrea o alertă care să-i trezească în miezul nopții. Dacă organizația sau echipa dvs. devine suficient de mare, puteți utiliza rotații „follow-the-sun”, în care echipele din mai multe fusuri orare participă la aceeași rotație, cu ture de serviciu mai scurte. astfel încât fiecare fus orar va fi de serviciu numai în timpul activității sale. (sau cel puțin trezire) ore. Stabilirea unei astfel de rotații poate face minuni pentru a reduce volumul de muncă de noapte pe care însoțitorul îl asumă.

Dacă nu aveți suficienți ingineri și distribuția geografică pentru a susține o rotație care urmărește soarele, mai există lucruri pe care le puteți face pentru a reduce probabilitatea ca oamenii să fie treziți inutil în miezul nopții. La urma urmei, un lucru este să te ridici din pat la 4 a.m. pentru a rezolva o problemă presantă, cu care se confruntă clienții; Cu totul altceva este să te trezești doar pentru a descoperi că ai de-a face cu o alarmă falsă. Vă poate ajuta să examinați toate alertele pe care le-ați configurat și să întrebați echipa care sunt de fapt necesare pentru a trezi pe cineva după ore și dacă acele alerte pot aștepta până dimineața. Poate fi dificil să convingi oamenii să accepte să dezactiveze unele alerte care nu funcționează, mai ales dacă problemele ratate au cauzat probleme în trecut, dar este important să reții că un inginer lipsit de somn nu este cel mai eficient inginer. Setați aceste alerte în timpul programului de lucru când contează cu adevărat. Majoritatea instrumentelor de alertă din aceste zile vă permit să configurați reguli diferite pentru notificările după orele de program, fie că este vorba de perioade de notificare Nagios sau de stabilirea unor programe diferite în PagerDuty.

Somn, datorie și cultura de echipă

Alte soluții pentru întreruperea somnului implică schimbări culturale mai mari. O modalitate de a rezolva această problemă este de a monitoriza alertele, acordând o atenție deosebită când sosesc și dacă sunt acționabile. Ops săptămânal este un instrument creat și publicat de Etsy care permite echipelor să urmărească și să clasifice alertele pe care le primesc. Poate genera grafice care arată câte alerte au trezit oamenii (folosind datele despre somn de la trackerele de fitness), precum și câte alerte au necesitat de fapt acțiune umană. Folosind aceste tehnologii, puteți urmări eficacitatea rotației dvs. de gardă și impactul acesteia asupra somnului în timp.

Echipa poate juca un rol în a se asigura că fiecare persoană de serviciu se odihnește adecvat. Creați o cultură care încurajează oamenii să aibă grijă de ei înșiși: dacă pierzi somnul pentru că ai fost chemat noaptea, poți dormi puțin mai mult dimineața pentru a încerca să recuperezi timpul de somn pierdut. Membrii echipei pot avea grijă unul de celălalt: atunci când echipele își împărtășesc datele despre somn prin ceva de genul Opsweekly, pot merge la colegii lor de serviciu și pot spune: „Hei, se pare că ai avut o noapte grea cu PagerDuty aseară.” — Vrei să te acopăr în seara asta ca să te poți odihni puțin? Încurajați oamenii să se sprijine reciproc în acest fel și descurajați o „cultură a eroului” în care oamenii se vor împinge la limită și vor evita să ceară ajutor.

Reducerea impactului de a fi la serviciu la serviciu

Când inginerii sunt obosiți pentru că au fost treziți în timpul serviciului, evident că nu vor lucra la capacitate de 100% pentru o zi, dar chiar și fără a lua în considerare privarea de somn, a fi la serviciu poate avea și alte impacturi asupra muncii. Una dintre cele mai semnificative pierderi în timpul serviciului se datorează factorului de întrerupere, schimbării contextului: o singură întrerupere poate duce la pierderea a cel puțin 20 de minute din cauza pierderii concentrării și a schimbării contextului. Este probabil ca echipele dvs. să aibă alte surse de întreruperi, cum ar fi bilete generate de alte echipe, solicitări sau întrebări care vin prin chat și/sau e-mail. În funcție de volumul acestor alte întreruperi, puteți lua în considerare adăugarea acestora la o rotație existentă în timpul serviciului sau configurarea unei a doua rotații doar pentru a gestiona aceste alte solicitări.

Este important să țineți cont de acest lucru atunci când planificați munca pe care o va face echipa, atât pe termen lung, cât și pe termen scurt. Dacă echipa dvs. tinde să aibă schimburi de sarcini destul de intense, acest fapt trebuie luat în considerare în planificarea pe termen lung, deoarece este posibil să aveți o situație în care întregul personal este efectiv de serviciu la un moment dat, mai degrabă decât să facă altă muncă. În planificarea pe termen scurt, este posibil să descoperiți că persoana de gardă nu poate respecta termenele limită din cauza responsabilităților sale de gardă - acest lucru ar trebui să fie de așteptat, iar restul echipei ar trebui să fie dispus să se adapteze și să ajute să se asigure că locul de muncă se termină, iar persoana de gardă este sprijinită în sarcinile sale de lucru. Indiferent dacă persoana de gardă este chemată, tura de gardă va afecta capacitatea persoanei de gardă de a efectua alte lucrări — nu vă așteptați ca persoana de gardă să lucreze noaptea pentru a finaliza proiectele programate în plus față de de serviciu după ore.

Echipele vor trebui să găsească o modalitate de a face față muncii suplimentare generate în timpul serviciului. Această muncă ar putea fi o muncă reală pentru a remedia problemele reale detectate de sistemele de monitorizare și alertă sau ar putea fi o muncă de a repara monitorizarea și alertele pentru a reduce numărul de alerte fals pozitive. Indiferent de natura muncii create, este important să distribuiți acea muncă în mod echitabil și sustenabil în cadrul echipei. Nu toate turele de gardă sunt create egale, iar unele sunt mai complexe decât altele, astfel încât afirmarea că persoana care primește alerta este persoana responsabilă pentru gestionarea tuturor consecințelor acelei alerte poate duce la o distribuție inegală a muncii. Poate avea mai mult sens ca persoana de serviciu să fie responsabilă pentru programarea sau distribuirea muncii, cu așteptarea ca restul echipei să fie dispus să ajute la finalizarea muncii create.

Crearea și menținerea echilibrului dintre viața profesională și viața privată

Gândește-te la impactul pe care îl are a fi la datorie asupra vieții tale în afara serviciului. Când sunteți de serviciu, este posibil să vă simțiți legat de telefonul mobil și de laptop, asta înseamnă că purtați întotdeauna cu dvs. un laptop și un router mobil (modem usb) sau pur și simplu nu vă părăsiți acasă/birou. A fi de gardă înseamnă, de obicei, să renunți la lucruri precum să te vezi cu prietenii sau familia în timpul turei. Aceasta înseamnă că durata fiecărei ture depinde de numărul de oameni din echipa ta, iar frecvența schimburilor poate pune o povară excesivă asupra oamenilor. Este posibil să fie nevoie să experimentați cu durata și durata schimburilor pentru a găsi un program care să funcționeze pentru cel puțin majoritatea persoanelor implicate, deoarece echipe și oameni diferite vor avea priorități și preferințe diferite.

Este vital să recunoaștem impactul pe care starea de serviciu îl va avea asupra vieții oamenilor, atât la nivel de management, cât și la nivel individual. Trebuie remarcat faptul că impactul va fi resimțit în mod disproporționat de persoanele cu mai puține privilegii. De exemplu, dacă trebuie să-ți petreci timp îngrijind copii sau alți membri ai familiei, sau dacă descoperi că majoritatea treburilor casnice îți cade pe umeri, ai deja mai puțin timp și energie decât cineva care nu are responsabilități. Acest tip de muncă din „turul al doilea” sau „turul al treilea” tinde să afecteze în mod disproporționat oamenii și, dacă stabiliți rotații de gardă cu un program sau o intensitate care presupune că participanții nu au viață personală în afara biroului, limitați persoanele care pot participa în echipa ta.

Încurajați oamenii să încerce să-și mențină mai mult programul obișnuit. Ar trebui să vă gândiți să oferiți echipei routere mobile (modem-uri USB), astfel încât oamenii să poată ieși din casă cu laptopul și să aibă în continuare o aparență de viață. Încurajați oamenii să schimbe orele de gardă între ei, dacă este necesar, pentru perioade scurte de timp, astfel încât oamenii să poată merge la sală sau să consulte un medic în timpul serviciului. Nu creați o cultură în care a fi de gardă înseamnă că inginerii nu fac nimic altceva decât să fie de gardă. Echilibrul dintre viața profesională și viața privată este o parte importantă a oricărui loc de muncă, dar mai ales când luați în considerare orele în afara serviciului, membrii mai înalți ai echipei dvs. ar trebui să dea un exemplu pentru ceilalți în ceea ce privește echilibrul dintre viața profesională și viața privată, pe cât posibil în timpul serviciului.

La nivel individual, nu uitați să explicați ce înseamnă a fi de serviciu prietenilor, familiei, partenerilor, animalelor de companie etc. (pisicile dvs. probabil nu le va păsa, deoarece sunt deja trează la 4 a.m. când primiți alerta , deși nu vor dori în niciun caz să vă ajute să o rezolvați). Asigurați-vă că recuperați timpul pierdut după încheierea turei, fie că este vorba de a vedea prietenii, familia sau somnul, de exemplu. Dacă puteți, luați în considerare configurarea unei alarme silențioase (cum ar fi un ceas inteligent) care vă poate trezi bâzâind încheietura mâinii, astfel încât să nu treziți pe nimeni din jurul vostru. Găsește modalități de a avea grijă de tine atunci când te afli în mijlocul turei de gardă și când s-a terminat. Poate doriți să creați un „kit de supraviețuire la gardă” care vă va ajuta să vă relaxați: ascultați o listă de redare cu muzica preferată, citiți cartea preferată sau luați timp pentru a vă juca cu animalul dvs. de companie. Managerii ar trebui să încurajeze îngrijirea de sine, oferind oamenilor o zi liberă după o săptămână de serviciu și asigurându-se că oamenii solicită (și primesc) ajutor atunci când au nevoie.

Îmbunătățirea experienței în serviciu

În general, a fi la datorie nu ar trebui să fie privit doar ca o slujbă groaznică: aveți oportunitatea și responsabilitatea ca persoană de serviciu de a lucra activ pentru a face ca oamenii care vor fi de serviciu în viitor să fie mai bine, ceea ce înseamnă că oamenii vor primi mai puține mesaje și vor fi mai precise. Din nou, urmărirea valorii alertelor dvs. folosind ceva de genul Opsweekly vă poate ajuta să vă dați seama de ce vă deranjează apelul și să remediați acest lucru. Pentru alertele inactive, întreabă-te dacă există modalități de a scăpa de aceste alerte - poate că asta înseamnă că vor declanșa doar în timpul programului de lucru, deoarece există unele lucruri la care pur și simplu nu trebuie să răspunzi în miezul nopții. Nu vă fie teamă să ștergeți alertele, să le schimbați sau să schimbați metoda de trimitere de la „trimite la telefon și e-mail” la „numai e-mail”. Experimentarea și iterația sunt cheia pentru îmbunătățirea sarcinii în timp.

Pentru alertele care sunt efectiv acționabile, ar trebui să luați în considerare cât de ușor este pentru un inginer să ia măsurile necesare. Fiecare alertă de rulare ar trebui să aibă un runbook care este însoțit de ea - luați în considerare utilizarea unui instrument precum nagios-herald pentru a adăuga linkuri runbook la alertele dvs. Dacă alerta este suficient de simplă încât să nu aibă nevoie de un runbook, probabil că este suficient de simplu încât să poți automatiza răspunsul folosind ceva de genul gestionarilor de evenimente Nagios, ceea ce scutește oamenii să se trezească sau să se întrerupă pentru sarcini ușor automatizate. Atât runbook-urile, cât și nagios-herald vă pot ajuta să adăugați un context valoros alertelor dvs., ceea ce va ajuta oamenii să le răspundă mai eficient. Vedeți dacă puteți răspunde la întrebări frecvente precum: Când a fost ultima dată când a declanșat această alertă? Cine a răspuns ultima dată și ce acțiuni au întreprins în cele din urmă (dacă a fost cazul)? Ce alte alerte apar în același timp cu aceasta și au legătură? Acest tip de informații contextuale ajung adesea doar în creierul oamenilor, astfel încât încurajarea unei culturi de documentare și partajare a informațiilor contextuale poate reduce cantitatea de cheltuieli generale necesare pentru a răspunde la alerte.

O mare parte a oboselii care vine de la apeluri este că acestea nu se termină niciodată – dacă echipa ta are telefoane, este puțin probabil ca acestea să se termine oricând în viitorul apropiat. Schimbările nu se termină niciodată și putem simți că vor fi întotdeauna îngrozitoare. Această lipsă de speranță este o mare problemă mentală care poate contribui la stres și epuizare, așa că abordarea percepției (pe lângă realitate) că datoria va fi întotdeauna teribilă este un loc bun pentru a începe să te gândești la datoria ta pe termen lung.

Pentru a le da oamenilor speranța că situația de serviciu se va îmbunătăți vreodată, este necesar să existe observabilitate a sistemului (aceeași urmărire și clasificare a datoriei pe care am menționat-o mai devreme). Urmăriți câte alerte aveți, ce procent dintre ele necesită intervenția însoțitoare, câte dintre ele trezesc oamenii și apoi lucrați pentru a crea o cultură care să încurajeze oamenii să facă lucrurile mai bine. Dacă ai o echipă mare, poate fi tentant, de îndată ce ceasul tău se termină, să arunci mâinile în sus și să spui „aceasta este o problemă a viitorului ofițer de serviciu” în loc să te bagi pentru a repara ceva - cine vrea să cheltuiască mai mult efort la datorie decât a cerut de la ei? Aici o cultură a empatiei poate face o mare diferență, pentru că nu ai grijă doar de bunăstarea ta la datorie, ci și de colegii tăi.

Totul tine de empatie

Empatia este o parte importantă a ceea ce ne permite să creștem performanța care îmbunătățește experiența de gardă. În calitate de manager sau membru, puteți evalua pozitiv sau chiar recompensa oamenii pentru comportamentul care face schimbarea mai bună. Asistența operațională este una dintre acele domenii în care inginerii simt adesea că oamenii le acordă atenție doar atunci când ceva nu merge bine: oamenii vor fi acolo să țipe la ei atunci când un șantier se prăbușește, dar rareori învață despre eforturile din culise ale operațiunilor. inginerii s-au ocupat de menținerea site-ului în funcțiune pentru restul timpului. Recunoașterea muncii poate merge foarte mult, fie că este vorba despre mulțumirea cuiva într-o întâlnire sau într-un e-mail general pentru îmbunătățirea unei alerte specifice, un aspect tehnic de serviciu sau acordarea cuiva timp pentru a acoperi un alt inginer în tură pentru o perioadă.

Încurajați oamenii să petreacă timp și efort pentru a-și îmbunătăți situația de gardă pe termen lung. Dacă echipa dvs. are la dispoziție, ar trebui să planificați și să acordați prioritate acestei lucrări în același mod în care ați face orice altă lucrare de pe foaia de parcurs. Apelurile au o entropie de 90% și, dacă nu lucrați activ pentru a le îmbunătăți, acestea se vor înrăutăți în timp. Colaborați cu echipa pentru a afla ce motivează și recompensează cel mai bine oamenii, apoi utilizați-l pentru a încuraja oamenii să reducă zgomotul de alertă, să scrie runbook-uri și să creeze instrumente care le rezolvă problemele de gardă. Orice ai face, nu te mulțumi cu datoria teribilă ca parte permanentă a stării de lucruri.

Sursa: www.habr.com

Adauga un comentariu