O que pensar ao implementar turnos de trabalho

O autor de DevOps eficaz, Ryn Daniels, compartilha estratégias que qualquer pessoa pode usar para criar rotações Oncall melhores, menos frustrantes e mais sustentáveis.

O que pensar ao implementar turnos de trabalho

Com o advento do Devops, muitos engenheiros hoje em dia estão organizando turnos de uma forma ou de outra, o que antes era responsabilidade exclusiva dos administradores de sistemas ou engenheiros de operações. Estar de plantão, principalmente fora do horário de trabalho, não é uma tarefa que a maioria das pessoas goste. O plantão pode atrapalhar nosso sono, interferir no trabalho normal que tentamos realizar durante o dia e interferir em nossas vidas em geral. À medida que mais e mais equipas participam em vigílias, fizemos a pergunta: “O que podemos nós, como indivíduos, equipas e organizações, fazer para tornar as vigílias mais humanas e sustentáveis?”

Salve seu sono

Muitas vezes, a primeira coisa que as pessoas pensam quando pensam em estar de plantão é que isso afetará negativamente o seu sono; ninguém quer um alerta para acordá-los no meio da noite. Se sua organização ou equipe ficar grande o suficiente, você poderá usar rotações "follow-the-sun", onde equipes em vários fusos horários participam da mesma rotação, com turnos de trabalho mais curtos. Assim, cada fuso horário só estará de serviço durante seu horário comercial. (ou pelo menos acordar) horas. Estabelecer tal rotação pode fazer maravilhas para reduzir a carga de trabalho noturna que o atendente assume.

Se você não tiver engenheiros suficientes e distribuição geográfica para suportar uma rotação seguindo o sol, ainda há coisas que você pode fazer para reduzir a probabilidade de as pessoas serem acordadas desnecessariamente no meio da noite. Afinal, uma coisa é sair da cama às 4 da manhã para resolver um problema urgente do cliente; Outra bem diferente é acordar e descobrir que você está lidando com um alarme falso. Pode ser útil revisar todos os alertas que você configurou e perguntar à sua equipe quais deles são realmente necessários para acordar alguém depois do expediente e se esses alertas podem esperar até de manhã. Pode ser difícil fazer com que as pessoas concordem em desligar alguns alertas que não funcionam, especialmente se questões perdidas causaram problemas no passado, mas é importante lembrar que um engenheiro privado de sono não é o engenheiro mais eficaz. Defina esses alertas durante o horário comercial, quando eles realmente importam. A maioria das ferramentas de alerta hoje em dia permite que você configure regras diferentes para notificações fora do horário comercial, seja em períodos de notificação do Nagios ou na configuração de programações diferentes no PagerDuty.

Sono, dever e cultura de equipe

Outras soluções para a perturbação do sono envolvem mudanças culturais maiores. Uma forma de resolver este problema é monitorizar os alertas, prestando especial atenção ao momento em que chegam e se são acionáveis. Operações semanais é uma ferramenta criada e publicada pela Etsy que permite às equipes rastrear e categorizar os alertas que recebem. Ele pode gerar gráficos que mostram quantos alertas acordaram as pessoas (usando dados de sono de rastreadores de condicionamento físico), bem como quantos alertas realmente exigiram ação humana. Usando essas tecnologias, você pode acompanhar a eficácia do rodízio de plantão e seu impacto no sono ao longo do tempo.

A equipe pode desempenhar um papel para garantir que cada pessoa em serviço tenha um descanso adequado. Crie uma cultura que incentive as pessoas a cuidarem de si mesmas: se você está perdendo o sono porque foi chamado à noite, você pode dormir um pouco mais pela manhã para tentar compensar o sono perdido. Os membros da equipe podem cuidar uns dos outros: quando as equipes compartilham seus dados de sono por meio de algo como o Opsweekly, eles podem ir até seus colegas de plantão e dizer: “Ei, parece que você teve uma noite difícil com o PagerDuty ontem à noite”. "Você gostaria que eu te cobrisse esta noite para que você possa descansar um pouco?" Incentive as pessoas a apoiarem-se umas às outras desta forma e desencoraje uma “cultura de herói”, onde as pessoas se esforçarão ao máximo e evitarão pedir ajuda.

Reduzindo o impacto de estar de plantão no trabalho

Quando os engenheiros estão cansados ​​porque foram acordados durante o serviço, obviamente não trabalharão a 100% da capacidade durante o dia, mas mesmo sem contabilizar a privação de sono, estar em serviço também pode ter outros impactos no trabalho. Uma das perdas mais significativas durante o plantão se deve ao fator de interrupção, mudança de contexto: uma única interrupção pode resultar na perda de pelo menos 20 minutos por perda de foco e troca de contexto. É provável que suas equipes tenham outras fontes de interrupções, como tickets gerados por outras equipes, solicitações ou dúvidas vindas por chat e/ou e-mail. Dependendo do volume dessas outras interrupções, você pode considerar adicioná-las a um rodízio existente durante o serviço ou configurar um segundo rodízio apenas para atender a essas outras solicitações.

É importante levar isso em consideração ao planejar o trabalho que a equipe fará, tanto no longo quanto no curto prazo. Se a sua equipe tende a ter turnos de trabalho bastante intensos, esse fato precisa ser levado em consideração no planejamento de longo prazo, pois você pode ter uma situação em que toda a equipe esteja efetivamente de plantão a qualquer momento, em vez de fazer outro trabalho. No planejamento de curto prazo, você pode descobrir que a pessoa de plantão não consegue cumprir os prazos devido às suas responsabilidades de plantão - isso deve ser esperado e o restante da equipe deve estar disposto a acomodar e ajudar a garantir que o trabalho é feito e a pessoa de plantão é apoiada em suas tarefas de trabalho. Independentemente de a pessoa de plantão ser chamada ou não, o turno de plantão afetará a capacidade da pessoa de plantão de realizar outro trabalho - não espere que a pessoa de plantão trabalhe à noite para concluir projetos agendados, além de ser de plantão depois do expediente.

As equipes terão que encontrar uma maneira de lidar com o trabalho extra gerado durante o serviço. Este trabalho pode ser um trabalho real para corrigir problemas reais detectados pelos sistemas de monitoramento e alerta, ou pode ser um trabalho para corrigir o monitoramento e os alertas para reduzir o número de alertas falsos positivos. Qualquer que seja a natureza do trabalho que está sendo criado, é importante distribuí-lo de forma justa e sustentável por toda a equipe. Nem todos os turnos de plantão são iguais e alguns são mais complexos que outros, portanto, afirmar que a pessoa que recebe o alerta é a pessoa responsável por lidar com todas as consequências desse alerta pode levar a uma distribuição desigual do trabalho. Pode fazer mais sentido que o plantonista seja o responsável pelo agendamento ou distribuição do trabalho, com a expectativa de que o restante da equipe esteja disposto a ajudar a concluir o trabalho criado.

Criar e manter o equilíbrio entre vida pessoal e profissional

Pense no impacto que estar de plantão tem em sua vida fora do trabalho. Quando você está de plantão, é provável que você se sinta preso ao seu celular e laptop, isso significa que você sempre carrega um laptop e um roteador móvel (modem USB) com você ou simplesmente não sai de casa/escritório. Estar de plantão geralmente significa desistir de coisas como ver amigos ou familiares durante o seu turno. Isso significa que a duração de cada turno depende do número de pessoas da sua equipe, e a frequência dos turnos pode sobrecarregar indevidamente as pessoas. Talvez seja necessário experimentar a duração e o tempo dos seus turnos para encontrar um cronograma que funcione pelo menos para a maioria das pessoas envolvidas, já que equipes e pessoas diferentes terão prioridades e preferências diferentes.

É vital reconhecer o impacto que o serviço terá na vida das pessoas, tanto a nível de gestão como a nível individual. Deve-se notar que o impacto será sentido desproporcionalmente pelas pessoas com menos privilégios. Por exemplo, se você tem que gastar tempo cuidando dos filhos ou de outros membros da família, ou se descobre que a maior parte do trabalho doméstico recai sobre seus ombros, você já tem menos tempo e energia do que alguém que não tem responsabilidades. Esse tipo de trabalho de “segundo turno” ou “terceiro turno” tende a impactar desproporcionalmente as pessoas, e se você estabelecer rodízios de plantão com um cronograma ou intensidade que pressuponha que os participantes não tenham vida pessoal fora do escritório, você estará limitando as pessoas que pode participar da sua equipe.

Incentive as pessoas a tentarem manter mais sua programação regular. Você deve considerar fornecer à equipe roteadores móveis (modems USB) para que as pessoas possam sair de casa com seus laptops e ainda ter alguma aparência de vida. Incentive as pessoas a trocarem horários de plantão entre si, se necessário, por curtos períodos de tempo, para que possam ir à academia ou consultar um médico durante o plantão. Não crie uma cultura em que estar de plantão signifique que os engenheiros literalmente não façam nada além de estar de plantão. O equilíbrio entre vida pessoal e profissional é uma parte importante de qualquer trabalho, mas especialmente quando você considera as horas de folga, os membros mais experientes de sua equipe devem dar o exemplo para os outros em termos de equilíbrio entre vida pessoal e profissional, tanto quanto possível durante o serviço.

A nível individual, não se esqueça de explicar o que significa estar de serviço aos seus amigos, familiares, parceiros, animais de estimação, etc. (seus gatos provavelmente não se importarão, pois já estão acordados às 4 da manhã quando você receber o alerta , embora eles não queiram de forma alguma ajudá-lo a resolvê-lo). Certifique-se de recuperar o tempo perdido após o término do seu turno, seja para ver amigos, família ou dormir, por exemplo. Se puder, considere configurar um alarme silencioso (como um smartwatch) que pode acordá-lo com um zumbido no pulso para não acordar ninguém ao seu redor. Encontre maneiras de cuidar de si mesmo quando estiver no meio do turno de plantão e quando ele terminar. Você pode montar um “kit de sobrevivência de plantão” que o ajudará a relaxar: ouça uma playlist com suas músicas favoritas, leia seu livro favorito ou reserve um tempo para brincar com seu animal de estimação. Os gestores devem incentivar o autocuidado, dando às pessoas um dia de folga após uma semana de serviço e certificando-se de que elas peçam (e obtenham) ajuda quando precisarem.

Melhorando a experiência de serviço

No geral, estar de plantão não deve ser visto apenas como um trabalho terrível: você tem a oportunidade e a responsabilidade, como pessoa de plantão, de trabalhar ativamente para melhorar as coisas para as pessoas que estarão de plantão no futuro, o que significa que as pessoas receberá menos mensagens e serão mais precisas. Novamente, rastrear o valor de seus alertas usando algo como Opsweekly pode ajudá-lo a descobrir o que está tornando seu plantão irritante e corrigi-lo. Para alertas inativos, pergunte-se se há maneiras de se livrar desses alertas - talvez isso signifique que eles só dispararão durante o horário comercial, porque há algumas coisas às quais você simplesmente não precisa responder no meio da noite. Não tenha medo de excluir alertas, alterá-los ou alterar o método de envio de “enviar para telefone e e-mail” para “somente e-mail”. A experimentação e a iteração são a chave para melhorar o serviço ao longo do tempo.

Para alertas que são realmente acionáveis, considere como é fácil para um engenheiro tomar as ações necessárias. Cada alerta em execução deve ter um runbook que o acompanhe - considere usar uma ferramenta como o nagios-herald para adicionar links de runbook aos seus alertas. Se o alerta for simples o suficiente para não precisar de um runbook, provavelmente será simples o suficiente para que você possa automatizar a resposta usando algo como os manipuladores de eventos do Nagios, o que evita que as pessoas tenham que acordar ou se interromper para tarefas facilmente automatizadas. Tanto os runbooks quanto o nagios-herald podem ajudá-lo a adicionar um contexto valioso aos seus alertas, o que ajudará as pessoas a responder a eles de maneira mais eficaz. Veja se você consegue responder a perguntas comuns como: Quando foi a última vez que esse alerta disparou? Quem respondeu da última vez e que ações eles tomaram (se houver)? Que outros alertas aparecem ao mesmo tempo que este e estão relacionados? Este tipo de informação contextual muitas vezes acaba apenas no cérebro das pessoas, pelo que encorajar uma cultura de documentação e partilha de informação contextual pode reduzir a quantidade de sobrecarga necessária para responder aos alertas.

Uma grande parte do cansaço que advém dos plantões é que eles nunca terminam – se sua equipe tiver plantões, é improvável que terminem a qualquer momento no futuro próximo. As mudanças nunca terminam e podemos sentir que sempre serão terríveis. Essa falta de esperança é um grande problema mental que pode contribuir para o estresse e a exaustão, portanto, abordar a percepção (além da realidade) de que o dever sempre será terrível é um bom ponto de partida para começar a pensar no seu dever a longo prazo.

Para dar esperança às pessoas de que a situação de plantão irá algum dia melhorar, é necessário ter observabilidade do sistema (o mesmo rastreamento e categorização de plantão que mencionei anteriormente). Acompanhe quantos alertas você tem, que porcentagem deles requer intervenção do atendente, quantos deles acordam as pessoas e, em seguida, trabalhe para criar uma cultura que incentive as pessoas a fazerem as coisas melhor. Se você tem uma equipe grande, pode ser tentador, assim que seu turno termina, levantar as mãos e dizer "isso é problema do futuro oficial de serviço" em vez de se esforçar para consertar alguma coisa - quem quer gastar mais esforço no serviço do que deles exigido? É aqui que uma cultura de empatia pode fazer uma grande diferença, porque você não está zelando apenas pelo seu bem-estar no serviço, mas também pelo dos seus colegas.

É tudo uma questão de empatia

A empatia é uma parte importante do que nos permite impulsionar o desempenho que melhora a experiência de plantão. Como gerente ou membro, você pode avaliar positivamente ou até mesmo recompensar as pessoas por comportamentos que melhorem a mudança. O suporte às operações é uma daquelas áreas em que os engenheiros muitas vezes sentem que as pessoas só prestam atenção neles quando algo dá errado: as pessoas estarão lá para gritar com eles quando um local falhar, mas raramente aprendem sobre os esforços nos bastidores que as operações engenheiros investidos para manter o site funcionando pelo resto do tempo. Reconhecer o trabalho pode ajudar muito, seja agradecendo a alguém em uma reunião ou em um e-mail geral por melhorar um alerta específico, um aspecto técnico de estar de plantão ou dar tempo a alguém para substituir outro engenheiro em turno por um tempo.

Incentive as pessoas a dedicarem tempo e esforço para melhorar sua situação de plantão no longo prazo. Se sua equipe tiver plantões, você deve planejar e priorizar esse trabalho da mesma forma que faria com qualquer outro trabalho em seu roteiro. As chamadas têm 90% de entropia e, a menos que você trabalhe ativamente para melhorá-las, elas ficarão cada vez piores com o tempo. Trabalhe com sua equipe para descobrir o que melhor motiva e recompensa as pessoas e, em seguida, use isso para incentivá-las a reduzir o ruído de alerta, escrever runbooks e criar ferramentas que resolvam seus problemas de plantão. Faça o que fizer, não se contente com o terrível dever como parte permanente da situação.

Fonte: habr.com

Adicionar um comentário