À quoi faut-il penser lors de la mise en œuvre des changements

L'auteur DevOps efficace, Ryn Daniels, partage les stratégies que tout le monde peut utiliser pour créer des rotations de garde meilleures, moins frustrantes et plus durables.

À quoi faut-il penser lors de la mise en œuvre des changements

Avec l'avènement de Devops, de nombreux ingénieurs organisent aujourd'hui leurs équipes d'une manière ou d'une autre, ce qui était autrefois la seule responsabilité des administrateurs système ou des ingénieurs d'exploitation. Être en service, surtout en dehors des heures de travail, n'est pas une tâche que la plupart des gens apprécient. Le service de garde peut perturber notre sommeil, interférer avec le travail normal que nous essayons d'effectuer pendant la journée et interférer avec notre vie en général. Alors que de plus en plus d’équipes participent aux veillées, nous avons posé la question suivante : « Que pouvons-nous faire en tant qu’individus, équipes et organisations pour rendre les veillées plus humaines et durables ? »

Économisez votre sommeil

Souvent, la première chose à laquelle les gens pensent lorsqu’ils envisagent d’être en service est que cela affectera négativement leur sommeil ; personne ne veut une alerte pour le réveiller au milieu de la nuit. Si votre organisation ou votre équipe devient suffisamment grande, vous pouvez utiliser des rotations « suivant le soleil », où les équipes de plusieurs fuseaux horaires participent à la même rotation, avec des quarts de travail plus courts. Ainsi, chaque fuseau horaire ne sera en service que pendant son activité. (ou au moins se réveiller) heures. L’établissement d’une telle rotation peut faire des merveilles pour réduire la charge de travail de nuit assumée par le préposé.

Si vous ne disposez pas de suffisamment d'ingénieurs et de la répartition géographique pour prendre en charge une rotation qui suit le soleil, vous pouvez toujours faire certaines choses pour réduire le risque que les gens soient réveillés inutilement au milieu de la nuit. Après tout, c'est une chose de se lever du lit à 4 heures du matin pour résoudre un problème urgent auquel le client est confronté ; C'en est une autre de se réveiller et de constater que l'on a affaire à une fausse alerte. Il peut être utile de passer en revue toutes les alertes que vous avez configurées et de demander à votre équipe lesquelles sont réellement nécessaires pour réveiller quelqu'un après les heures normales et si ces alertes peuvent attendre jusqu'au matin. Il peut être difficile d'amener les gens à accepter de désactiver certaines alertes qui ne fonctionnent pas, surtout si des problèmes manqués ont causé des problèmes dans le passé, mais il est important de se rappeler qu'un ingénieur privé de sommeil n'est pas l'ingénieur le plus efficace. Définissez ces alertes pendant les heures de bureau lorsqu'elles sont vraiment importantes. De nos jours, la plupart des outils d'alerte vous permettent de définir différentes règles pour les notifications en dehors des heures d'ouverture, qu'il s'agisse de périodes de notification Nagios ou de configuration de différents horaires dans PagerDuty.

Sommeil, devoir et culture d’équipe

D’autres solutions aux troubles du sommeil impliquent des changements culturels plus importants. Une façon de résoudre ce problème consiste à surveiller les alertes, en accordant une attention particulière au moment où elles arrivent et si elles peuvent donner lieu à une action. Opérations hebdomadaires est un outil créé et publié par Etsy qui permet aux équipes de suivre et de catégoriser les alertes qu'elles reçoivent. Il peut générer des graphiques montrant combien d'alertes ont réveillé les gens (en utilisant les données de sommeil des trackers de fitness), ainsi que combien d'alertes ont réellement nécessité une action humaine. Grâce à ces technologies, vous pouvez suivre l’efficacité de votre rotation de garde et son impact sur le sommeil au fil du temps.

L’équipe peut jouer un rôle en garantissant que chaque personne en service bénéficie de suffisamment de repos. Créez une culture qui encourage les gens à prendre soin d'eux-mêmes : si vous perdez le sommeil parce qu'on vous appelle la nuit, vous pouvez dormir un peu plus longtemps le matin pour tenter de rattraper le temps de sommeil perdu. Les membres de l'équipe peuvent veiller les uns sur les autres : lorsque les équipes partagent leurs données de sommeil entre elles via quelque chose comme Opsweekly, elles peuvent s'adresser à leurs collègues de service et leur dire : "Hé, on dirait que vous avez eu une nuit difficile avec PagerDuty la nuit dernière." « Voudrais-tu que je te couvre ce soir pour que tu puisses te reposer ? Encouragez les gens à se soutenir mutuellement de cette manière et découragez une « culture du héros » où les gens repousseront leurs limites et éviteront de demander de l’aide.

Réduire l’impact du devoir au travail

Lorsque les ingénieurs sont fatigués parce qu'ils ont été réveillés pendant leur service, ils ne travailleront évidemment pas à 100 % de leur capacité pendant la journée, mais même sans tenir compte du manque de sommeil, le fait d'être en service peut également avoir d'autres impacts sur le travail. L'une des pertes les plus importantes pendant le service est due au facteur d'interruption, le changement de contexte : une seule interruption peut entraîner une perte d'au moins 20 minutes en raison d'une perte de concentration et d'un changement de contexte. Il est probable que vos équipes auront d'autres sources d'interruptions, telles que des tickets générés par d'autres équipes, des demandes ou des questions provenant du chat et/ou du courrier électronique. Selon le volume de ces autres interruptions, vous pouvez envisager de les ajouter à une rotation existante pendant votre service ou de mettre en place une deuxième rotation uniquement pour traiter ces autres demandes.

Il est important d’en tenir compte lorsque vous planifiez le travail que l’équipe effectuera, à long terme comme à court terme. Si votre équipe a tendance à avoir des quarts de travail assez intenses, ce fait doit être pris en compte dans la planification à long terme, car vous pouvez vous retrouver dans une situation où l'ensemble du personnel est effectivement en service à un moment donné, plutôt que d'effectuer d'autres tâches. Dans la planification à court terme, vous constaterez peut-être que la personne de garde n'est pas en mesure de respecter les délais en raison de ses responsabilités de garde. Il faut s'y attendre et le reste de l'équipe doit être prêt à s'adapter et à aider à garantir que le travail soit accompli. se fait et la personne de garde est soutenue dans ses tâches de travail. Que la personne de garde soit appelée ou non, le quart de travail de garde aura un impact sur sa capacité à effectuer d'autres tâches. Ne vous attendez pas à ce que la personne de garde travaille de nuit pour terminer des projets planifiés en plus d'être en service après les heures.

Les équipes devront trouver un moyen de faire face au travail supplémentaire généré pendant leur service. Ce travail pourrait être un véritable travail visant à résoudre les problèmes réels détectés par les systèmes de surveillance et d'alerte, ou il pourrait s'agir d'un travail visant à corriger la surveillance et les alertes afin de réduire le nombre d'alertes faussement positives. Quelle que soit la nature du travail créé, il est important de répartir ce travail de manière équitable et durable au sein de l’équipe. Tous les quarts de travail de garde ne sont pas égaux et certains sont plus complexes que d'autres. Ainsi, affirmer que la personne qui reçoit l'alerte est la personne chargée de gérer toutes les conséquences de cette alerte peut conduire à une répartition inégale du travail. Il peut être plus logique que la personne de service soit responsable de la planification ou de la répartition du travail, en espérant que le reste de l'équipe sera prêt à aider à terminer le travail créé.

Créer et maintenir un équilibre travail-vie personnelle

Pensez à l’impact de votre service sur votre vie en dehors du travail. Lorsque vous êtes en service, vous vous sentirez probablement lié à votre téléphone portable et à votre ordinateur portable, cela signifie que vous emportez toujours un ordinateur portable et un routeur mobile (modem USB) avec vous ou que vous ne quittez tout simplement pas votre domicile/bureau. Être de garde signifie généralement renoncer à des choses comme voir des amis ou de la famille pendant votre quart de travail. Cela signifie que la durée de chaque quart de travail dépend du nombre de personnes composant votre équipe et que la fréquence des quarts de travail peut imposer une charge excessive aux personnes. Vous devrez peut-être expérimenter la durée et le calendrier de vos quarts de travail pour trouver un horaire qui convient à au moins la majorité des personnes impliquées, car différentes équipes et personnes auront des priorités et des préférences différentes.

Il est essentiel de reconnaître l'impact qu'aura le fait d'être en service sur la vie des gens, tant au niveau de la direction qu'au niveau individuel. Il convient de noter que l’impact sera ressenti de manière disproportionnée par les personnes moins privilégiées. Par exemple, si vous devez consacrer du temps à vous occuper des enfants ou d'autres membres de la famille, ou si vous constatez que la plupart des tâches ménagères reposent sur vos épaules, vous avez déjà moins de temps et d'énergie que quelqu'un qui n'a pas de responsabilités. Ce type de travail de « deuxième équipe » ou de « troisième équipe » a tendance à avoir un impact disproportionné sur les gens, et si vous établissez des rotations de garde avec un horaire ou une intensité qui suppose que les participants n'ont pas de vie personnelle en dehors du bureau, vous limitez le nombre de personnes qui pouvez participer à votre équipe.

Encouragez les gens à essayer de respecter davantage leur horaire habituel. Vous devriez envisager de fournir à l’équipe des routeurs mobiles (modems USB) afin que les gens puissent quitter la maison avec leur ordinateur portable tout en conservant un semblant de vie. Encouragez les gens à échanger leurs heures de garde, si nécessaire, pendant de courtes périodes afin que les gens puissent aller à la salle de sport ou consulter un médecin pendant leur service. Ne créez pas une culture dans laquelle le fait d'être de garde signifie que les ingénieurs ne font littéralement rien d'autre que d'être de garde. L'équilibre travail-vie personnelle est un élément important de tout travail, mais surtout si l'on considère les heures hors service, les membres les plus expérimentés de votre équipe devraient donner l'exemple aux autres en termes d'équilibre travail-vie personnelle, autant que possible pendant leur service.

Au niveau individuel, n'oubliez pas d'expliquer ce que signifie être de service à vos amis, votre famille, vos partenaires, vos animaux de compagnie, etc. (vos chats s'en moqueront probablement puisqu'ils sont déjà debout à 4 heures du matin lorsque vous recevez l'alerte. , même s'ils ne voudront en aucun cas vous aider à le résoudre). Assurez-vous de rattraper le temps perdu après la fin de votre quart de travail, que ce soit pour voir vos amis, votre famille ou dormir, par exemple. Si vous le pouvez, envisagez de configurer une alarme silencieuse (comme une montre intelligente) qui peut vous réveiller en faisant vibrer votre poignet afin de ne réveiller personne autour de vous. Trouvez des moyens de prendre soin de vous lorsque vous êtes au milieu de votre quart de travail de garde et à la fin. Vous voudrez peut-être constituer un « kit de survie de garde » qui vous aidera à vous détendre : écoutez une playlist de votre musique préférée, lisez votre livre préféré ou prenez le temps de jouer avec votre animal de compagnie. Les responsables devraient encourager les soins personnels en accordant aux employés un jour de congé après une semaine de service et en s'assurant que les employés demandent (et obtiennent) de l'aide lorsqu'ils en ont besoin.

Améliorer l'expérience de service

Dans l'ensemble, être en service ne doit pas être simplement considéré comme un travail épouvantable : vous avez la possibilité et la responsabilité, en tant que personne en service, de travailler activement pour améliorer la situation des personnes qui seront en service à l'avenir, ce qui signifie que les personnes recevra moins de messages et ils seront plus précis. Encore une fois, suivre la valeur de vos alertes à l'aide de quelque chose comme Opsweekly peut vous aider à comprendre ce qui rend votre appel ennuyeux et à y remédier. Pour les alertes inactives, demandez-vous s'il existe des moyens de se débarrasser de ces alertes - cela signifie peut-être qu'elles ne se déclencheront que pendant les heures de bureau, car il y a certaines choses auxquelles vous n'avez tout simplement pas besoin de répondre au milieu de la nuit. N'hésitez pas à supprimer les alertes, à les modifier ou à modifier la méthode d'envoi de « envoyer par téléphone et par e-mail » à « par e-mail uniquement ». L'expérimentation et l'itération sont la clé pour améliorer le devoir au fil du temps.

Pour les alertes réellement exploitables, vous devez considérer la facilité avec laquelle un ingénieur peut prendre les mesures nécessaires. Chaque alerte en cours d'exécution doit être accompagnée d'un runbook - pensez à utiliser un outil tel que nagios-herald pour ajouter des liens de runbook à vos alertes. Si l'alerte est suffisamment simple pour ne pas nécessiter de runbook, elle est probablement suffisamment simple pour que vous puissiez automatiser la réponse à l'aide de quelque chose comme les gestionnaires d'événements Nagios, ce qui évite aux utilisateurs d'avoir à se réveiller ou à s'interrompre pour des tâches facilement automatisées. Les runbooks et nagios-herald peuvent vous aider à ajouter un contexte précieux à vos alertes, ce qui aidera les gens à y répondre plus efficacement. Voyez si vous pouvez répondre à des questions courantes telles que : À quand remonte la dernière fois que cette alerte s'est déclenchée ? Qui a répondu la dernière fois et quelles mesures ont-ils finalement prises (le cas échéant) ? Quelles autres alertes apparaissent en même temps et sont-elles liées ? Ce type d'informations contextuelles aboutit souvent uniquement dans le cerveau des gens. Encourager une culture de documentation et de partage d'informations contextuelles peut donc réduire la quantité de surcharge nécessaire pour répondre aux alertes.

Une grande partie de la fatigue liée aux gardes vient du fait qu'elles ne finissent jamais : si votre équipe a des gardes, il est peu probable qu'elles se terminent dans un avenir prévisible. Les changements ne finissent jamais et nous pouvons avoir l’impression qu’ils seront toujours terribles. Ce manque d'espoir est un problème mental majeur qui peut contribuer au stress et à l'épuisement. Par conséquent, aborder la perception (en plus de la réalité) selon laquelle le devoir sera toujours terrible est un bon point de départ pour commencer à réfléchir à votre devoir à long terme.

Afin de donner aux gens l'espoir que la situation en service s'améliorera un jour, il est nécessaire d'avoir une observabilité du système (le même suivi et catégorisation du service que j'ai mentionné plus tôt). Gardez une trace du nombre d'alertes dont vous disposez, du pourcentage d'entre elles qui nécessitent une intervention, du nombre d'entre elles qui réveillent les gens, puis travaillez à créer une culture qui encourage les gens à mieux faire les choses. Si vous avez une grande équipe, il peut être tentant, dès que votre montre touche à sa fin, de baisser les bras et de dire "c'est un problème pour un futur officier de service" plutôt que de creuser pour réparer quelque chose - qui veut dépenser plus effort en service que de leur part requis? C'est là qu'une culture de l'empathie peut faire une grande différence, car vous ne veillez pas seulement à votre bien-être au travail, mais aussi à celui de vos collègues.

Tout est question d'empathie

L'empathie est un élément important de ce qui nous permet d'obtenir des performances qui améliorent l'expérience de garde. En tant que manager ou membre, vous pouvez évaluer positivement ou même récompenser les personnes pour leur comportement qui améliore le changement. Le support opérationnel est l'un de ces domaines dans lequel les ingénieurs ont souvent l'impression que les gens ne leur prêtent attention que lorsque quelque chose ne va pas : les gens seront là pour leur crier dessus lorsqu'un site tombe en panne, mais ils sont rarement informés des efforts en coulisses que les opérations ont déployés. les ingénieurs s'occupent du fonctionnement du site le reste du temps. Reconnaître le travail peut être très utile, qu'il s'agisse de remercier quelqu'un lors d'une réunion ou dans un e-mail général pour avoir amélioré une alerte spécifique, un aspect technique du service, ou de donner à quelqu'un le temps de remplacer un autre ingénieur en poste pendant un certain temps.

Encouragez les gens à consacrer du temps et des efforts pour améliorer leur situation de garde à long terme. Si votre équipe a des gardes, vous devez planifier et prioriser ce travail de la même manière que vous le feriez pour tout autre travail sur votre feuille de route. Les appels représentent 90 % d'entropie, et à moins que vous ne travailliez activement pour les améliorer, ils empireront avec le temps. Travaillez avec votre équipe pour déterminer ce qui motive et récompense le mieux les gens, puis utilisez-le pour encourager les gens à réduire le bruit des alertes, à rédiger des runbooks et à créer des outils qui résolvent leurs problèmes de garde. Quoi que vous fassiez, ne vous contentez pas d’un devoir terrible comme élément permanent de la situation.

Source: habr.com

Ajouter un commentaire