Què cal pensar a l'hora d'implementar els torns

L'autor de DevOps eficaç Ryn Daniels comparteix estratègies que qualsevol pot utilitzar per crear rotacions Oncall millors, menys frustrants i més sostenibles.

Què cal pensar a l'hora d'implementar els torns

Amb l'arribada de Devops, molts enginyers en aquests dies estan organitzant torns d'una manera o una altra, que abans era responsabilitat exclusiva dels administradors del sistema o dels enginyers d'operacions. Estar de guàrdia, sobretot durant les hores no laborals, no és una tasca que gaudeixi la majoria de la gent. El deure de guàrdia pot interrompre el nostre son, interferir amb el treball normal que estem intentant fer durant el dia i interferir amb les nostres vides en general. A mesura que cada cop més equips participen a les vetlles, vam fer la pregunta: "Què podem fer com a persones, equips i organitzacions per fer que les vetlles siguin més humanes i sostenibles?"

Estalvia el teu son

Sovint, el primer que pensa la gent quan pensa en estar de servei és que afectarà negativament el seu son; ningú vol una alerta per despertar-los enmig de la nit. Si la vostra organització o equip és prou gran, podeu utilitzar rotacions "seguint el sol", on els equips de diverses zones horàries participen en la mateixa rotació, amb torns de treball més curts, de manera que cada zona horària només estarà de servei durant la seva activitat. (o almenys despertar) hores. Establir aquesta rotació pot fer meravelles per reduir la càrrega de treball nocturn que assumeix l'assistent.

Si no teniu prou enginyers i la distribució geogràfica per suportar una rotació de seguiment del sol, encara hi ha coses que podeu fer per reduir la probabilitat que la gent es desperti innecessàriament enmig de la nit. Al cap i a la fi, una cosa és aixecar-se del llit a les 4 de la matinada per resoldre un problema urgent de cara al client; Una altra cosa és despertar-se només per descobrir que estàs davant d'una falsa alarma. Pot ajudar a revisar totes les alertes que heu configurat i preguntar al vostre equip quines són realment necessàries per despertar algú després de les hores i si aquestes alertes poden esperar fins al matí. Pot ser difícil aconseguir que la gent accepti desactivar algunes alertes que no funcionen, sobretot si els problemes perduts han causat problemes en el passat, però és important recordar que un enginyer privat de son no és l'enginyer més eficaç. Configureu aquestes alertes durant l'horari comercial quan realment importin. Actualment, la majoria de les eines d'alerta us permeten configurar diferents regles per a les notificacions fora de l'horari, ja siguin períodes de notificació de Nagios o configurar diferents horaris a PagerDuty.

Son, deure i cultura d'equip

Altres solucions per a la interrupció del son impliquen canvis culturals més grans. Una manera de resoldre aquest problema és supervisar les alertes, prestant especial atenció a quan arriben i si són accionables. Ops setmanal és una eina creada i publicada per Etsy que permet als equips fer un seguiment i classificar les alertes que reben. Pot generar gràfics que mostren quantes alertes van despertar la gent (utilitzant dades de son dels rastrejadors de fitness), així com quantes alertes realment requerien l'acció humana. Amb aquestes tecnologies, podeu fer un seguiment de l'efectivitat de la vostra rotació de guàrdia i el seu impacte en el son al llarg del temps.

L'equip pot jugar un paper per garantir que totes les persones de servei descansin prou. Crea una cultura que encoratja la gent a cuidar-se: si estàs perdent el son perquè t'han trucat a la nit, pots dormir una mica més al matí per intentar recuperar el temps perdut. Els membres de l'equip poden cuidar-se els uns dels altres: quan els equips comparteixen les seves dades de son entre ells a través d'alguna cosa com Opsweekly, poden anar als seus col·legues de torn i dir-los: "Eh, sembla que vau tenir una nit difícil amb PagerDuty ahir a la nit". "Vols que et cobri aquesta nit perquè puguis descansar una mica?" Animeu la gent a donar-se suport mútuament d'aquesta manera i desanimar una "cultura d'heroi" on la gent s'ampliï fins al límit i evitarà demanar ajuda.

Reduir l'impacte de ser de servei a la feina

Quan els enginyers estan cansats perquè els van despertar mentre estaven de servei, òbviament no treballaran al 100% de la capacitat durant el dia, però fins i tot sense tenir en compte la privació del son, estar de servei també pot tenir altres impactes en la feina. Una de les pèrdues més importants durant el servei es deu al factor d'interrupció, el canvi de context: una sola interrupció pot provocar la pèrdua d'almenys 20 minuts a causa de la pèrdua d'enfocament i el canvi de context. És probable que els vostres equips tinguin altres fonts d'interrupcions, com ara entrades generades per altres equips, sol·licituds o preguntes a través del xat i/o el correu electrònic. Depenent del volum d'aquestes altres interrupcions, podeu considerar afegir-les a una rotació existent durant el servei o configurar una segona rotació només per gestionar aquestes altres sol·licituds.

És important tenir-ho en compte a l'hora de planificar la feina que farà l'equip, tant a llarg termini com a curt termini. Si el vostre equip acostuma a tenir torns de treball força intensos, aquest fet s'ha de tenir en compte en la planificació a llarg termini, ja que és possible que tingueu una situació en què tot el personal estigui efectivament de servei en un moment donat, en lloc de fer altres tasques. En la planificació a curt termini, és possible que la persona de guàrdia no pugui complir els terminis a causa de les seves responsabilitats de guàrdia; això s'hauria d'esperar i la resta de l'equip hauria d'estar disposat a acomodar-se i ajudar a garantir que la feina es fa i la persona de guàrdia té suport en les seves tasques laborals. Independentment de si es truca a la persona de guàrdia, el torn de guàrdia afectarà la capacitat de la persona de guàrdia per realitzar altres treballs; no esperis que la persona de guàrdia treballi les nits per completar els projectes programats a més de ser de servei després de l'horari.

Els equips hauran de trobar una manera de fer front al treball addicional generat durant el servei. Aquest treball podria ser un treball real per solucionar problemes reals detectats pels sistemes de monitorització i alerta, o podria ser un treball per solucionar el monitoratge i alertes per reduir el nombre d'alertes positives falses. Sigui quina sigui la naturalesa del treball que s'està creant, és important distribuir-lo de manera justa i sostenible entre l'equip. No tots els torns de guàrdia es creen iguals, i alguns són més complexos que d'altres, per la qual cosa afirmar que la persona que rep l'alerta és la responsable d'atendre totes les conseqüències d'aquesta alerta pot comportar una distribució desigual del treball. Pot ser que tingui més sentit que la persona de torn sigui la responsable de programar o distribuir el treball, amb l'expectativa que la resta de l'equip estigui disposat a ajudar a completar el treball creat.

Crear i mantenir la conciliació de la vida laboral i familiar

Penseu en l'impacte que té estar de servei en la vostra vida fora de la feina. Quan esteu de servei, és probable que us sentiu lligat al vostre telèfon mòbil i al vostre ordinador portàtil, això vol dir que porteu sempre un ordinador portàtil i un encaminador mòbil (mòdem USB) o simplement no sortiu de casa/oficina. Estar de guàrdia sol significa renunciar a coses com ara veure amics o familiars durant el teu torn. Això vol dir que la durada de cada torn depèn del nombre de persones del vostre equip i la freqüència dels torns pot suposar una càrrega indeguda per a les persones. És possible que hàgiu d'experimentar amb la durada i el temps dels vostres torns per trobar un horari que funcioni almenys per a la majoria de les persones implicades, ja que els diferents equips i persones tindran prioritats i preferències diferents.

És vital reconèixer l'impacte que el fet de ser de servei tindrà en la vida de les persones, tant a nivell de gestió com a nivell individual. Cal tenir en compte que l'impacte el sentiran de manera desproporcionada les persones amb menys privilegis. Per exemple, si has de dedicar temps a cuidar fills o altres membres de la família, o si trobes que la majoria de les tasques domèstiques et cauen a les espatlles, ja tens menys temps i energia que algú que no té responsabilitats. Aquest tipus de treball de "segon torn" o "tercer torn" acostuma a afectar de manera desproporcionada les persones, i si estableixes rotacions de guàrdia amb un horari o intensitat que suposa que els participants no tenen vida personal fora de l'oficina, estàs limitant les persones que pot participar en el seu equip.

Animeu la gent a intentar mantenir més el seu horari habitual. Hauríeu de plantejar-vos proporcionar a l'equip encaminadors mòbils (mòdems USB) perquè la gent pugui sortir de casa amb el seu ordinador portàtil i encara tingui una mica de vida. Animeu les persones a intercanviar hores de guàrdia entre elles, si és necessari, durant períodes curts de temps perquè la gent pugui anar al gimnàs o veure un metge durant el servei. No creeu una cultura on estar de guàrdia vol dir que els enginyers, literalment, no fan res més que estar de guàrdia. La conciliació de la vida laboral i la vida familiar és una part important de qualsevol feina, però sobretot si teniu en compte les hores fora de servei, els membres més alts del vostre equip haurien de donar exemple per als altres en termes de conciliació de la vida laboral i familiar, tant com sigui possible durant el servei.

A nivell individual, no us oblideu d'explicar què significa estar de guàrdia als vostres amics, familiars, parelles, mascotes, etc. (els vostres gats probablement no els importarà perquè ja s'han llevat a les 4 de la matinada quan rebeu l'alerta). , encara que de cap manera voldran ajudar-te a resoldre'l). Assegureu-vos de recuperar el temps perdut després d'acabar el vostre torn, ja sigui per veure els amics, la família o dormir, per exemple. Si podeu, penseu a configurar una alarma silenciosa (com un rellotge intel·ligent) que us pugui despertar fent brunzir el canell per no despertar ningú al vostre voltant. Trobeu maneres de cuidar-vos quan esteu enmig del vostre torn de guàrdia i quan acabi. És possible que vulgueu crear un "kit de supervivència de guàrdia" que us ajudarà a relaxar-vos: escolteu una llista de reproducció de la vostra música preferida, llegiu el vostre llibre preferit o preneu-vos el temps per jugar amb la vostra mascota. Els directius haurien de fomentar l'autocura donant a les persones un dia lliure després d'una setmana de servei i assegurant-se que les persones demanin (i rebin) ajuda quan la necessitin.

Millorar l'experiència del deure

En general, estar de servei no s'ha de veure només com una feina terrible: tens l'oportunitat i la responsabilitat com a persona de torn de treballar activament per millorar-ho per a les persones que estaran de servei en el futur, la qual cosa significa que les persones rebran menys missatges i seran més precisos. Un cop més, fer un seguiment del valor de les vostres alertes amb alguna cosa com Opsweekly us pot ajudar a esbrinar què fa que la vostra trucada sigui molesta i solucionar-ho. Per a les alertes inactives, pregunteu-vos si hi ha maneres de desfer-se d'aquestes alertes; potser això vol dir que només s'activaran durant l'horari comercial, perquè hi ha algunes coses a les quals no cal respondre a mitja nit. No tingueu por d'eliminar alertes, canviar-les o canviar el mètode d'enviament de "envia a telèfon i correu electrònic" a "només correu electrònic". L'experimentació i la iteració són la clau per millorar el deure al llarg del temps.

Per a les alertes que són realment accionables, hauríeu de considerar com de fàcil és per a un enginyer prendre les accions necessàries. Cada alerta en execució hauria de tenir un runbook que l'acompanyi; penseu en utilitzar una eina com nagios-herald per afegir enllaços de runbook a les vostres alertes. Si l'alerta és prou senzilla com per no necessitar un runbook, és probable que sigui prou senzill com per automatitzar la resposta utilitzant alguna cosa com els gestors d'esdeveniments de Nagios, que estalvien que la gent s'hagi de despertar o interrompre per a tasques fàcilment automatitzades. Tant els runbooks com el nagios-herald us poden ajudar a afegir un context valuós a les vostres alertes, cosa que ajudarà la gent a respondre-hi de manera més eficaç. Comproveu si podeu respondre preguntes habituals com ara: Quan va ser l'última vegada que es va activar aquesta alerta? Qui ho va respondre l'última vegada i quines accions van prendre finalment (si n'hi ha hagut)? Quines altres alertes apareixen al mateix temps que aquesta i estan relacionades? Aquest tipus d'informació contextual sovint acaba només al cervell de les persones, de manera que fomentar una cultura de documentació i intercanvi d'informació contextual pot reduir la quantitat de sobrecàrrega necessària per respondre a les alertes.

Una gran part del cansament que prové de les trucades és que no s'acaben mai; si el vostre equip té trucades, és poc probable que acabin en qualsevol moment en un futur previsible. Els torns no s'acaben mai, i podem sentir que sempre seran terribles. Aquesta falta d'esperança és un gran problema mental que pot contribuir a l'estrès i l'esgotament, de manera que abordar la percepció (a més de la realitat) que el deure sempre serà terrible és un bon lloc per començar a pensar en el vostre deure a llarg termini.

Per tal de donar a la gent l'esperança que la situació de servei millori mai, és necessari tenir observabilitat del sistema (el mateix seguiment i categorització del deure que he esmentat anteriorment). Feu un seguiment de quantes alertes teniu, quin percentatge d'elles requereixen una intervenció assistent, quantes d'elles desperten la gent i, a continuació, treballeu per crear una cultura que encoratgi la gent a fer les coses millor. Si tens un equip gran, pot ser temptador, tan bon punt el teu rellotge s'acabi, aixecar les mans i dir "això és un problema d'un futur oficial de servei" en lloc d'arreglar alguna cosa, qui vol gastar més. esforç de servei del que requereixen? Aquí és on una cultura de l'empatia pot marcar una gran diferència, perquè no només estàs veient pel teu benestar de servei, sinó també pels teus companys.

Tot es tracta d'empatia

L'empatia és una part important del que ens permet impulsar un rendiment que millora l'experiència de guàrdia. Com a gerent o membre, podeu avaluar positivament o fins i tot recompensar les persones pel comportament que millori el canvi. El suport a les operacions és una d'aquelles àrees en què els enginyers sovint senten que la gent només els hi presta atenció quan alguna cosa va malament: la gent hi serà per cridar-los quan s'estavella un lloc, però poques vegades s'assabenten dels esforços entre bastidors de les operacions. els enginyers es van dedicar a mantenir el lloc en funcionament la resta del temps. Reconèixer la feina pot fer un llarg camí, ja sigui agraint a algú en una reunió o en un correu electrònic general per millorar una alerta específica, un aspecte tècnic d'estar de servei o donar temps a algú per cobrir un altre enginyer en torn durant un temps.

Animeu les persones a dedicar temps i esforços per millorar la seva situació de guàrdia a llarg termini. Si el vostre equip està de guàrdia, hauríeu de planificar i prioritzar aquest treball de la mateixa manera que ho faríeu amb qualsevol altra feina del vostre full de ruta. Les trucades tenen un 90% d'entropia i, tret que treballeu activament per millorar-les, empitjoraran amb el temps. Treballeu amb el vostre equip per esbrinar què és el que millor motiva i recompensa la gent i, a continuació, utilitzeu-ho per animar la gent a reduir el soroll d'alerta, escriure runbooks i crear eines que resolguin els seus problemes de guàrdia. Feu el que feu, no us conformeu amb un deure terrible com a part permanent de l'estat de coses.

Font: www.habr.com

Afegeix comentari