En qué pensar al implementar turnos

El autor eficaz de DevOps, Ryn Daniels, comparte estrategias que cualquiera puede utilizar para crear rotaciones de guardia mejores, menos frustrantes y más sostenibles.

En qué pensar al implementar turnos

Con la llegada de Devops, muchos ingenieros hoy en día están organizando turnos de una forma u otra, lo que alguna vez fue responsabilidad exclusiva de los administradores de sistemas o ingenieros de operaciones. Estar de servicio, especialmente fuera del horario laboral, no es una tarea que la mayoría de la gente disfrute. El servicio de guardia puede alterar nuestro sueño, interferir con el trabajo normal que intentamos realizar durante el día e interferir con nuestras vidas en general. A medida que más y más equipos participan en las vigilias, nos hicimos la pregunta: "¿Qué podemos hacer nosotros, como individuos, equipos y organizaciones, para que las vigilias sean más humanas y sostenibles?"

Guarda tu sueño

A menudo, lo primero en lo que piensa la gente cuando piensa en estar de servicio es que afectará negativamente a su sueño; nadie quiere que una alerta lo despierte en medio de la noche. Si su organización o equipo crece lo suficiente, puede usar rotaciones "seguir el sol", donde equipos en múltiples zonas horarias participan en la misma rotación, con turnos de trabajo más cortos, de modo que cada zona horaria solo estará de servicio durante su actividad comercial. (o al menos despertar) horas. Establecer dicha rotación puede hacer maravillas para reducir la carga de trabajo nocturno que asume el asistente.

Si no tiene suficientes ingenieros y la distribución geográfica para soportar una rotación que sigue al sol, todavía hay cosas que puede hacer para reducir la probabilidad de que las personas se despierten innecesariamente en medio de la noche. Después de todo, una cosa es levantarse de la cama a las 4 a. m. para resolver un problema apremiante del cliente; Otra muy distinta es despertarse y descubrir que se trata de una falsa alarma. Puede ser útil revisar todas las alertas que ha configurado y preguntarle a su equipo cuáles son realmente necesarias para despertar a alguien fuera de horario y si esas alertas pueden esperar hasta la mañana. Puede ser difícil lograr que las personas acepten desactivar algunas alertas que no funcionan, especialmente si problemas omitidos han causado problemas en el pasado, pero es importante recordar que un ingeniero con falta de sueño no es el ingeniero más eficaz. Configure estas alertas durante el horario comercial cuando realmente importan. La mayoría de las herramientas de alerta hoy en día le permiten configurar diferentes reglas para notificaciones fuera del horario de atención, ya sean períodos de notificación de Nagios o configurar diferentes horarios en PagerDuty.

Sueño, deber y cultura de equipo.

Otras soluciones a la interrupción del sueño implican cambios culturales más importantes. Una forma de resolver este problema es monitorear las alertas, prestando especial atención a cuándo llegan y si son procesables. Opsweekly es una herramienta creada y publicada por Etsy que permite a los equipos rastrear y categorizar las alertas que reciben. Puede generar gráficos que muestran cuántas alertas despertaron a las personas (utilizando datos de sueño de los rastreadores de actividad física), así como cuántas alertas realmente requirieron acción humana. Con estas tecnologías, puede realizar un seguimiento de la eficacia de su rotación de guardia y su impacto en el sueño a lo largo del tiempo.

El equipo puede desempeñar un papel para garantizar que todas las personas en servicio descansen lo suficiente. Cree una cultura que anime a las personas a cuidarse a sí mismas: si está perdiendo el sueño porque lo llamaron por la noche, puede dormir un poco más por la mañana para tratar de compensar el tiempo de sueño perdido. Los miembros del equipo pueden cuidarse unos a otros: cuando los equipos comparten sus datos de sueño entre sí a través de algo como Opsweekly, pueden acudir a sus colegas de servicio y decirles: "Oye, parece que anoche tuviste una noche difícil con PagerDuty". “¿Quieres que te cubra esta noche para que puedas descansar un poco?” Anime a las personas a apoyarse mutuamente de esta manera y desalentar una “cultura de héroes” en la que las personas se esfuercen hasta el límite y eviten pedir ayuda.

Reducir el impacto de estar de guardia en el trabajo

Cuando los ingenieros están cansados ​​porque los despertaron mientras estaban de servicio, obviamente no trabajarán al 100% de su capacidad durante el día, pero incluso sin tener en cuenta la falta de sueño, estar de servicio también puede tener otros impactos en el trabajo. Una de las pérdidas más importantes durante el servicio se debe al factor de interrupción, el cambio de contexto: una sola interrupción puede resultar en la pérdida de al menos 20 minutos debido a la pérdida de concentración y al cambio de contexto. Es probable que sus equipos tengan otras fuentes de interrupciones, como tickets generados por otros equipos, solicitudes o preguntas provenientes del chat y/o correo electrónico. Dependiendo del volumen de estas otras interrupciones, puede considerar agregarlas a una rotación existente mientras está de servicio o configurar una segunda rotación solo para manejar estas otras solicitudes.

Es importante tener esto en cuenta a la hora de planificar el trabajo que realizará el equipo, tanto a largo como a corto plazo. Si su equipo tiende a tener turnos de trabajo bastante intensos, este hecho debe tenerse en cuenta en la planificación a largo plazo, ya que puede tener una situación en la que todo el personal esté efectivamente trabajando en un momento dado, en lugar de realizar otro trabajo. En la planificación a corto plazo, es posible que la persona de guardia no pueda cumplir con los plazos debido a sus responsabilidades de guardia; esto es de esperarse y el resto del equipo debe estar dispuesto a adaptarse y ayudar a garantizar que el trabajo se realiza y la persona de guardia recibe apoyo en sus tareas laborales. Independientemente de si se llama a la persona de guardia, el turno de guardia afectará la capacidad de la persona de guardia para realizar otros trabajos; no espere que la persona de guardia trabaje por las noches para completar proyectos programados además de estar de servicio fuera de horario.

Los equipos tendrán que encontrar una manera de hacer frente al trabajo extra generado durante el servicio. Este trabajo podría ser un trabajo real para solucionar problemas reales detectados por los sistemas de monitoreo y alerta, o podría ser un trabajo para solucionar el monitoreo y las alertas para reducir la cantidad de alertas de falsos positivos. Cualquiera que sea la naturaleza del trabajo que se está creando, es importante distribuirlo de manera justa y sostenible entre todo el equipo. No todos los turnos de guardia son iguales y algunos son más complejos que otros, por lo que afirmar que la persona que recibe la alerta es la responsable de afrontar todas las consecuencias de esa alerta puede llevar a una distribución desigual del trabajo. Puede tener más sentido que la persona de turno sea responsable de programar o distribuir el trabajo, con la expectativa de que el resto del equipo esté dispuesto a ayudar a completar el trabajo creado.

Crear y mantener el equilibrio entre la vida personal y laboral

Piense en el impacto que tiene estar de servicio en su vida fuera del trabajo. Cuando está de servicio, es probable que se sienta atado a su teléfono móvil y computadora portátil, esto significa que siempre lleva consigo una computadora portátil y un enrutador móvil (módem USB) o simplemente no sale de su casa/oficina. Estar de guardia generalmente significa renunciar a cosas como ver a amigos o familiares durante su turno. Esto significa que la duración de cada turno depende de la cantidad de personas de su equipo, y la frecuencia de los turnos puede suponer una carga excesiva para las personas. Es posible que tengas que experimentar con la duración y el horario de tus turnos para encontrar un horario que funcione al menos para la mayoría de las personas involucradas, ya que diferentes equipos y personas tendrán diferentes prioridades y preferencias.

Es vital reconocer el impacto que tendrá el estar de servicio en la vida de las personas, tanto a nivel gerencial como a nivel individual. Cabe señalar que el impacto lo sentirán desproporcionadamente las personas con menos privilegios. Por ejemplo, si tienes que dedicar tiempo al cuidado de niños u otros miembros de la familia, o si descubres que la mayor parte de las tareas del hogar recaen sobre tus hombros, ya tienes menos tiempo y energía que alguien que no tiene responsabilidades. Este tipo de trabajo de “segundo turno” o “tercer turno” tiende a impactar desproporcionadamente a las personas, y si estableces rotaciones de guardia con un horario o intensidad que asume que los participantes no tienen vida personal fuera de la oficina, estás limitando a las personas que puedes participar en tu equipo.

Anime a las personas a tratar de mantener una mayor parte de su horario habitual. Debería considerar proporcionar al equipo enrutadores móviles (módems USB) para que las personas puedan salir de casa con su computadora portátil y aún tener algo parecido a una vida. Aliente a las personas a intercambiar horas de guardia entre sí, si es necesario, durante períodos cortos de tiempo para que puedan ir al gimnasio o consultar a un médico mientras están de servicio. No cree una cultura en la que estar de guardia signifique que los ingenieros literalmente no hagan nada más que estar de guardia. El equilibrio entre la vida personal y laboral es una parte importante de cualquier trabajo, pero especialmente cuando se consideran las horas fuera de servicio, los miembros de mayor rango de su equipo deben dar ejemplo a los demás en términos de equilibrio entre la vida personal y laboral, en la medida de lo posible mientras están de servicio.

A nivel individual, no olvides explicar lo que significa estar de guardia a tus amigos, familiares, parejas, mascotas, etc. (a tus gatos probablemente no les importará ya que ya están despiertos a las 4 a. m. cuando recibes la alerta). , aunque de ninguna manera querrán ayudarte a solucionarlo). Asegúrate de recuperar el tiempo perdido una vez finalizado tu turno, ya sea para ver a amigos, familiares o dormir, por ejemplo. Si puede, considere configurar una alarma silenciosa (como un reloj inteligente) que pueda despertarlo haciendo sonar su muñeca para no despertar a nadie a su alrededor. Encuentre formas de cuidarse cuando esté en medio de su turno de guardia y cuando termine. Quizás quieras preparar un “kit de supervivencia de guardia” que te ayudará a relajarte: escucha una lista de reproducción de tu música favorita, lee tu libro favorito o tómate un tiempo para jugar con tu mascota. Los gerentes deben fomentar el autocuidado dando a las personas un día libre después de una semana de servicio y asegurándose de que pidan (y obtengan) ayuda cuando la necesiten.

Mejorando la experiencia del deber

En general, estar de servicio no debería verse simplemente como un trabajo terrible: usted tiene la oportunidad y la responsabilidad como persona de servicio de trabajar activamente para mejorar las cosas para las personas que estarán de servicio en el futuro, lo que significa que las personas Recibirás menos mensajes y serán más precisos. Nuevamente, rastrear el valor de sus alertas usando algo como Opsweekly puede ayudarlo a descubrir qué hace que su guardia sea molesta y solucionarlo. Para las alertas inactivas, pregúntese si hay formas de deshacerse de estas alertas; tal vez esto signifique que solo se activarán durante el horario comercial, porque hay algunas cosas a las que simplemente no necesita responder en medio de la noche. No tenga miedo de eliminar alertas, cambiarlas o cambiar el método de envío de "enviar al teléfono y correo electrónico" a "solo correo electrónico". La experimentación y la iteración son la clave para mejorar el servicio con el tiempo.

Para las alertas que realmente son procesables, debe considerar lo fácil que es para un ingeniero tomar las medidas necesarias. Cada alerta en ejecución debe tener un runbook que la acompañe; considere usar una herramienta como nagios-herald para agregar enlaces de runbook a sus alertas. Si la alerta es lo suficientemente simple como para no necesitar un runbook, probablemente sea lo suficientemente simple como para poder automatizar la respuesta usando algo como los controladores de eventos de Nagios, lo que evita que las personas tengan que despertarse o interrumpirse para realizar tareas fácilmente automatizadas. Tanto los runbooks como nagios-herald pueden ayudarle a agregar contexto valioso a sus alertas, lo que ayudará a las personas a responder a ellas de manera más efectiva. Vea si puede responder preguntas comunes como: ¿Cuándo fue la última vez que se activó esta alerta? ¿Quién respondió la última vez y qué medidas tomaron finalmente (si las hubo)? ¿Qué otras alertas aparecen al mismo tiempo que esta y están relacionadas? Este tipo de información contextual a menudo termina solo en el cerebro de las personas, por lo que fomentar una cultura de documentar y compartir información contextual puede reducir la cantidad de gastos generales necesarios para responder a las alertas.

Una gran parte de la fatiga que surge de las llamadas de guardia es que nunca terminan; si su equipo tiene llamadas de guardia, es poco probable que terminen en el futuro previsible. Los cambios nunca terminan y podemos sentir que siempre serán terribles. Esta falta de esperanza es un gran problema mental que puede contribuir al estrés y al agotamiento, por lo que abordar la percepción (además de la realidad) de que el deber siempre será terrible es un buen punto para empezar a pensar en el deber a largo plazo.

Para darle a la gente la esperanza de que la situación en el servicio mejorará alguna vez, es necesario tener observabilidad del sistema (el mismo seguimiento y categorización del servicio que mencioné anteriormente). Lleve un registro de cuántas alertas tiene, qué porcentaje de ellas requieren la intervención de un asistente, cuántas de ellas despiertan a las personas y luego trabaje para crear una cultura que anime a las personas a hacer las cosas mejor. Si tiene un equipo grande, puede ser tentador, tan pronto como finalice su turno, levantar las manos y decir "ese es el problema de un futuro oficial de servicio" en lugar de profundizar para arreglar algo: ¿quién quiere gastar más? ¿Esfuerzo en servicio que el requerido por ellos? Aquí es donde una cultura de empatía puede marcar una gran diferencia, porque no sólo estás velando por tu bienestar en el trabajo, sino también por el de tus compañeros.

Todo es cuestión de empatía

La empatía es una parte importante de lo que nos permite impulsar un rendimiento que mejora la experiencia de guardia. Como gerente o miembro, usted puede evaluar positivamente o incluso recompensar a las personas por comportamientos que mejoren el cambio. El soporte de operaciones es una de esas áreas donde los ingenieros a menudo sienten que la gente sólo les presta atención cuando algo sale mal: la gente estará allí para gritarles cuando un sitio falla, pero rara vez aprenden sobre los esfuerzos detrás de escena que realizan las operaciones. Los ingenieros se esforzaron por mantener el sitio en funcionamiento el resto del tiempo. Reconocer el trabajo puede ser de gran ayuda, ya sea agradecer a alguien en una reunión o en un correo electrónico general por mejorar una alerta específica, un aspecto técnico de estar de servicio o darle tiempo a alguien para cubrir a otro ingeniero de turno por un tiempo.

Aliente a las personas a dedicar tiempo y esfuerzo a mejorar su situación de guardia a largo plazo. Si su equipo tiene guardias, debe planificar y priorizar este trabajo de la misma manera que lo haría con cualquier otro trabajo en su hoja de ruta. Las llamadas de guardia tienen un 90% de entropía y, a menos que trabaje activamente para mejorarlas, empeorarán cada vez más con el tiempo. Trabaje con su equipo para descubrir qué motiva y recompensa mejor a las personas y luego utilícelo para alentar a las personas a reducir el ruido de alerta, escribir runbooks y crear herramientas que resuelvan sus problemas de guardia. Hagas lo que hagas, no te conformes con una responsabilidad terrible como parte permanente de la situación.

Fuente: habr.com

Añadir un comentario