Que pensar á hora de implementar quendas

O autor de DevOps eficaz Ryn Daniels comparte estratexias que calquera pode usar para crear rotacións Oncall mellores, menos frustrantes e máis sostibles.

Que pensar á hora de implementar quendas

Coa chegada de Devops, moitos enxeñeiros nestes días están a organizar quendas dun xeito ou doutro, que antes eran responsabilidade exclusiva dos administradores do sistema ou dos enxeñeiros de operacións. Estar de servizo, sobre todo en horario non laborable, non é unha tarefa que guste á maioría da xente. O deber de garda pode perturbar o noso sono, interferir co traballo normal que intentamos facer durante o día e interferir coas nosas vidas en xeral. A medida que cada vez máis equipos participan nas vixilias, fixemos a pregunta: "Que podemos facer como individuos, equipos e organizacións para que as vixilias sexan máis humanas e sostibles?"

Garda o sono

Moitas veces, o primeiro que pensa a xente cando pensa en estar de servizo é que afectará negativamente ao seu sono; ninguén quere unha alerta para espertalos no medio da noite. Se a túa organización ou equipo se fai o suficientemente grande, podes usar rotacións "seguindo o sol", onde os equipos de varias zonas horarias participan na mesma rotación, con quendas de traballo máis curtas, polo que cada zona horaria só estará de servizo durante a súa actividade. (ou polo menos espertar) horas. Establecer tal rotación pode facer marabillas para reducir a carga de traballo nocturno que asume o encargado.

Se non tes suficientes enxeñeiros e a distribución xeográfica para soportar unha rotación de seguimento do sol, aínda hai cousas que podes facer para reducir a probabilidade de que a xente se esperte innecesariamente no medio da noite. Despois de todo, unha cousa é levantarse da cama ás 4 da mañá para resolver un problema acuciante de cara ao cliente; Outra cousa é espertar só para descubrir que estás a tratar cunha falsa alarma. Pode ser útil revisar todas as alertas que configuraches e preguntarlle ao teu equipo cales son realmente necesarias para espertar a alguén despois das horas, e se esas alertas poden esperar ata a mañá. Pode ser difícil conseguir que a xente acceda a desactivar algunhas alertas que non funcionan, especialmente se problemas perdidos causaron problemas no pasado, pero é importante lembrar que un enxeñeiro privado de sono non é o enxeñeiro máis eficaz. Establece estas alertas durante o horario laboral cando realmente importan. A maioría das ferramentas de alerta nestes días permítenche configurar diferentes regras para as notificacións fóra do horario, xa sexan períodos de notificación de Nagios ou configurar diferentes horarios en PagerDuty.

Sono, deber e cultura de equipo

Outras solucións para a interrupción do sono implican cambios culturais máis grandes. Unha forma de solucionar este problema é supervisar as alertas, prestando especial atención a cando chegan e se son accionables. Opssemanal é unha ferramenta creada e publicada por Etsy que permite aos equipos rastrexar e categorizar as alertas que reciben. Pode xerar gráficos que mostran cantas alertas espertaron a xente (usando os datos do sono dos rastreadores de fitness), así como cantas alertas realmente requirían acción humana. Usando estas tecnoloxías, podes rastrexar a eficacia da túa rotación de garda e o seu impacto no sono ao longo do tempo.

O equipo pode desempeñar un papel para garantir que todas as persoas de servizo descansen adecuadamente. Crea unha cultura que anime á xente a coidar de si mesma: se estás a perder o sono porque te chamaron pola noite, podes durmir un pouco máis pola mañá para tentar compensar o tempo perdido. Os membros do equipo poden buscarse entre eles: cando os equipos comparten os seus datos de sono a través de Opsweekly, poden acudir aos seus colegas de servizo e dicir: "Oe, parece que tiveches unha noite difícil con PagerDuty onte á noite". "Queres que te cubra esta noite para que poidas descansar?" Animar á xente a apoiarse entre si deste xeito e desalentar unha "cultura do heroe" onde a xente se empurrará ata o límite e evitaría pedir axuda.

Reducir o impacto de estar en servizo no traballo

Cando os enxeñeiros están cansos porque se espertaron mentres estaban de servizo, obviamente non traballarán ao 100% da súa capacidade durante o día, pero aínda sen ter en conta a privación do sono, estar de servizo tamén pode ter outros impactos no traballo. Unha das perdas máis importantes durante o servizo débese ao factor de interrupción, o cambio de contexto: unha soa interrupción pode provocar a perda de polo menos 20 minutos debido á perda de foco e ao cambio de contexto. É probable que os teus equipos teñan outras fontes de interrupcións, como tickets xerados por outros equipos, solicitudes ou preguntas que chegan a través do chat e/ou correo electrónico. Dependendo do volume destas outras interrupcións, podes considerar engadilas a unha rotación existente mentres estás de servizo ou configurar unha segunda rotación só para xestionar estas outras solicitudes.

É importante telo en conta á hora de planificar o traballo que fará o equipo, tanto a longo como a curto prazo. Se o teu equipo adoita ter quendas de traballo bastante intensas, este feito debe terse en conta na planificación a longo prazo, xa que podes ter unha situación na que todo o persoal estea efectivamente de servizo en cada momento, en lugar de realizar outro traballo. Na planificación a curto prazo, pode descubrir que a persoa de garda non pode cumprir os prazos debido ás súas responsabilidades de garda; isto debería esperarse e o resto do equipo debería estar disposto a acomodar e axudar a garantir que o traballo faise e a persoa de garda recibe apoio nas súas tarefas laborais. Independentemente de que a persoa de garda sexa chamada, a quenda de garda afectará a capacidade da persoa de garda para realizar outro traballo; non esperes que a persoa de garda traballe noites para completar proxectos programados ademais de ser de servizo despois das horas.

Os equipos terán que atopar un xeito de facer fronte ao traballo extra xerado durante o servizo. Este traballo podería ser un traballo real para solucionar problemas reais detectados polos sistemas de monitorización e alertas, ou podería ser un traballo para corrixir monitorizacións e alertas para reducir o número de alertas falsas positivas. Sexa cal sexa a natureza do traballo que se crea, é importante distribuír ese traballo de forma xusta e sostible entre o equipo. Non todas as quendas de garda se crean iguais, e algunhas son máis complexas que outras, polo que afirmar que a persoa que recibe a alerta é a responsable de facer fronte a todas as consecuencias desa alerta pode provocar unha distribución desigual do traballo. Pode ter máis sentido que a persoa de garda sexa a responsable da programación ou distribución do traballo, coa expectativa de que o resto do equipo estea disposto a axudar a completar o traballo creado.

Creación e mantemento da conciliación da vida laboral e familiar

Pensa no impacto que ten estar de servizo na túa vida fóra do traballo. Cando estás de servizo, é probable que te sintas atado ao teu teléfono móbil e ao teu portátil, isto significa que sempre levas contigo un portátil e un enrutador móbil (módem USB) ou simplemente non saes da túa casa/oficina. Estar de garda normalmente significa renunciar a cousas como ver amigos ou familiares durante a túa quenda. Isto significa que a duración de cada quenda depende do número de persoas do teu equipo e a frecuencia das quendas pode supoñer unha carga excesiva para as persoas. É posible que teñas que probar a duración e o tempo das túas quendas para atopar un horario que funcione polo menos para a maioría das persoas implicadas, xa que os distintos equipos e persoas terán prioridades e preferencias diferentes.

É vital recoñecer o impacto que vai ter o feito de estar de servizo na vida das persoas, tanto a nivel directivo como individual. Cómpre sinalar que o impacto será sentido de forma desproporcionada polas persoas con menos privilexios. Por exemplo, se tes que dedicar tempo a coidar dos fillos ou doutros membros da familia, ou se consideras que a maior parte do traballo doméstico recae sobre os teus ombreiros, xa tes menos tempo e enerxía que alguén que non ten responsabilidades. Este tipo de traballo de "segunda quenda" ou "terceira quenda" tende a afectar de forma desproporcionada ás persoas, e se estableces rotacións de garda cun horario ou intensidade que supón que os participantes non teñen vida persoal fóra da oficina, estás limitando ás persoas que podes participar no teu equipo.

Anima a xente a que intente manter máis o seu horario habitual. Deberías considerar proporcionarlle ao equipo enrutadores móbiles (módems USB) para que a xente poida saír da casa co seu portátil e aínda teña unha aparencia de vida. Animar ás persoas a intercambiar horas de garda entre elas, se é necesario, durante períodos curtos de tempo para que a xente poida ir ao ximnasio ou ver un médico mentres estea de servizo. Non crees unha cultura onde estar de garda significa que os enxeñeiros, literalmente, non fan máis que estar de garda. A conciliación da vida laboral e familiar é unha parte importante de calquera traballo, pero especialmente cando consideras as horas fóra de servizo, os membros máis altos do teu equipo deberían dar exemplo para os demais en canto á conciliación da vida laboral e familiar, na medida do posible mentres estean de servizo.

A nivel individual, non esquezas explicar o que significa estar de garda aos teus amigos, familiares, parellas, mascotas, etc. (aos teus gatos probablemente non lles importará porque xa están levantados ás 4 da mañá cando recibas a alerta). , aínda que de ningún xeito quererán axudarche a resolvelo). Asegúrate de recuperar o tempo perdido despois de que remate a túa quenda, xa sexa para ver amigos, familiares ou durmir, por exemplo. Se podes, considera configurar unha alarma silenciosa (como un reloxo intelixente) que che poida espertar zumbando o pulso para que non espertes a ninguén ao teu redor. Busca formas de coidarte cando esteas no medio da túa quenda de garda e cando remate. Quizais queiras elaborar un "kit de supervivencia de garda" que che axude a relaxarte: escoita unha lista de reprodución da túa música favorita, le o teu libro favorito ou tómate un tempo para xogar coa túa mascota. Os xestores deben fomentar o autocoidado dándolle ás persoas un día libre despois dunha semana de servizo e asegurándose de que a xente pida (e reciba) axuda cando a precisen.

Mellorar a experiencia do deber

En xeral, estar de servizo non debe ser visto só como un traballo terrible: tes a oportunidade e a responsabilidade como persoa de servizo de traballar activamente para mellorar as persoas que estarán de servizo no futuro, o que significa que as persoas recibirán menos mensaxes e serán máis precisas. De novo, o seguimento do valor das túas alertas usando algo como Opsweekly pode axudarche a descubrir o que está a molestar a túa garda e solucionalo. Para as alertas inactivas, pregúntate se hai formas de desfacerse destas alertas; quizais isto signifique que só se activarán durante o horario laboral, porque hai algunhas cousas ás que simplemente non precisas responder no medio da noite. Non teñas medo de eliminar alertas, cambialas ou cambiar o método de envío de "enviar a teléfono e correo electrónico" a "só correo electrónico". A experimentación e a iteración son a clave para mellorar o deber ao longo do tempo.

Para alertas que son realmente accionables, debes considerar o fácil que é para un enxeñeiro tomar as medidas necesarias. Cada alerta en execución debe ter un runbook que vai con ela; considere usar unha ferramenta como nagios-herald para engadir ligazóns de runbook ás súas alertas. Se a alerta é o suficientemente sinxela como para non necesitar un runbook, probablemente sexa o suficientemente sinxelo como para que poidas automatizar a resposta usando algo como os controladores de eventos de Nagios, o que evita que as persoas teñan que espertar ou interromperse para realizar tarefas facilmente automatizadas. Tanto os runbooks como nagios-herald poden axudarche a engadir un contexto valioso ás túas alertas, o que axudará ás persoas a responder a elas de forma máis eficaz. Mira se podes responder preguntas comúns como: Cando foi a última vez que se disparou esta alerta? Quen respondeu a última vez e que accións tomaron finalmente (se as houbo)? Que outras alertas aparecen ao mesmo tempo que esta e están relacionadas? Este tipo de información contextual adoita acabar só no cerebro das persoas, polo que fomentar unha cultura de documentación e intercambio de información contextual pode reducir a cantidade de gastos xerais necesarios para responder ás alertas.

Unha gran parte do cansazo que se deriva das gardas é que nunca rematan; se o teu equipo ten gardas, é pouco probable que rematen nun futuro próximo. As quendas nunca rematan, e podemos sentir que sempre serán terribles. Esta falta de esperanza é un gran problema mental que pode contribuír ao estrés e ao esgotamento, polo que abordar a percepción (ademais da realidade) de que o deber sempre será terrible é un bo lugar para comezar a pensar no seu deber a longo prazo.

Para darlle á xente a esperanza de que a situación de servizo mellore algunha vez, é necesario ter observabilidade do sistema (o mesmo seguimento e categorización do deber que mencionei anteriormente). Fai un seguimento de cantas alertas tes, que porcentaxe delas requiren a intervención dun asistente, cantas espertan á xente e despois traballa para crear unha cultura que anime á xente a facer as cousas mellor. Se tes un equipo grande, pode ser tentador, en canto remate o teu reloxo, botar as mans e dicir "ese é un problema do futuro oficial de servizo" en lugar de afondar para arranxar algo: quen quere gastar máis esforzo de servizo que deles requirido? Aquí é onde a cultura da empatía pode marcar unha gran diferenza, porque non só estás mirando polo teu benestar de servizo, senón tamén polos teus compañeiros.

Todo é cuestión de empatía

A empatía é unha parte importante do que nos permite impulsar o rendemento que mellora a experiencia de garda. Como xestor ou membro, podes avaliar positivamente ou incluso recompensar ás persoas polo comportamento que mellore o cambio. O apoio ás operacións é unha desas áreas nas que os enxeñeiros adoitan sentir que a xente só lles presta atención cando algo vai mal: a xente estará aí para gritarlles cando falla un sitio, pero raramente aprenden sobre os esforzos detrás das escenas das operacións. Os enxeñeiros puxéronse en manter o sitio funcionando o resto do tempo. Recoñecer o traballo pode axudarche moito, xa sexa agradecerlle a alguén nunha reunión ou nun correo electrónico xeral por mellorar unha alerta específica, un aspecto técnico de estar de servizo ou darlle tempo a alguén para cubrir a outro enxeñeiro en quenda durante un tempo.

Animar á xente a dedicar tempo e esforzo para mellorar a súa situación de garda a longo prazo. Se o teu equipo ten garda, deberías planificar e priorizar este traballo do mesmo xeito que farías con calquera outro traballo da túa folla de ruta. As gardas teñen un 90 % de entropía e, a menos que traballes activamente para melloralas, empeorarán co paso do tempo. Traballa co teu equipo para descubrir o que mellor motiva e recompensa a xente e, a continuación, utilízao para animar á xente a reducir o ruído de alerta, escribir runbooks e crear ferramentas que resolvan os seus problemas de garda. Fagas o que fagas, non te conformes co terrible deber como parte permanente do estado das cousas.

Fonte: www.habr.com

Engadir un comentario