Was ist bei der Umsetzung von Schichten zu beachten?

Ryn Daniels, Autor von „Effective DevOps“, stellt Strategien vor, mit denen jeder bessere, weniger frustrierende und nachhaltigere Oncall-Rotationen erstellen kann.

Was ist bei der Umsetzung von Schichten zu beachten?

Mit dem Aufkommen von Devops organisieren heutzutage viele Ingenieure Schichten auf die eine oder andere Weise, was früher in der alleinigen Verantwortung von Systemadministratoren oder Betriebsingenieuren lag. Im Dienst zu sein, insbesondere außerhalb der Arbeitszeit, ist für die meisten Menschen keine Freude. Bereitschaftsdienst kann unseren Schlaf stören, die normale Arbeit, die wir tagsüber erledigen, beeinträchtigen und unser Leben im Allgemeinen beeinträchtigen. Da immer mehr Teams an Mahnwachen teilnehmen, stellten wir die Frage: „Was können wir als Einzelpersonen, Teams und Organisationen tun, um Mahnwachen menschlicher und nachhaltiger zu gestalten?“

Sparen Sie Ihren Schlaf

Wenn man an den Dienst denkt, denkt man oft als Erstes daran, dass er sich negativ auf den Schlaf auswirkt. Niemand möchte mitten in der Nacht durch einen Alarm geweckt werden. Wenn Ihre Organisation oder Ihr Team groß genug wird, können Sie „Follow-the-Sun“-Rotationen verwenden, bei denen Teams in mehreren Zeitzonen an derselben Rotation mit kürzeren Dienstschichten teilnehmen. So ist jede Zeitzone nur während ihrer Geschäftstätigkeit im Dienst (oder zumindest aufwachen) Stunden. Die Einrichtung einer solchen Rotation kann Wunder bewirken und die nächtliche Arbeitsbelastung der Telefonzentrale verringern.

Wenn Sie nicht über genügend Ingenieure und die geografische Verteilung verfügen, um eine Rotation nach der Sonne zu unterstützen, können Sie dennoch Maßnahmen ergreifen, um die Wahrscheinlichkeit zu verringern, dass Menschen mitten in der Nacht unnötig geweckt werden. Schließlich ist es eine Sache, um 4 Uhr morgens aufzustehen, um ein dringendes, kundenorientiertes Problem zu lösen; Es ist etwas ganz anderes, aufzuwachen und festzustellen, dass es sich um einen Fehlalarm handelt. Es kann hilfreich sein, alle von Ihnen eingerichteten Benachrichtigungen zu überprüfen und Ihr Team zu fragen, welche tatsächlich benötigt werden, um jemanden nach Feierabend zu wecken, und ob diese Benachrichtigungen bis zum Morgen warten können. Es kann schwierig sein, die Leute davon zu überzeugen, einige nicht funktionierende Warnungen zu deaktivieren, insbesondere wenn übersehene Probleme in der Vergangenheit zu Problemen geführt haben. Es ist jedoch wichtig, sich daran zu erinnern, dass ein Ingenieur, der unter Schlafmangel leidet, nicht der effektivste Ingenieur ist. Richten Sie diese Benachrichtigungen während der Geschäftszeiten ein, wenn sie wirklich wichtig sind. Mit den meisten Alarm-Tools können Sie heutzutage verschiedene Regeln für Benachrichtigungen außerhalb der Geschäftszeiten einrichten, sei es Nagios-Benachrichtigungszeiträume oder die Einrichtung verschiedener Zeitpläne in PagerDuty.

Schlaf, Pflicht und Teamkultur

Andere Lösungen für Schlafstörungen erfordern größere kulturelle Veränderungen. Eine Möglichkeit, dieses Problem zu lösen, besteht darin, Warnungen zu überwachen und dabei besonders darauf zu achten, wann sie eintreffen und ob sie umsetzbar sind. Opsweekly ist ein von Etsy erstelltes und veröffentlichtes Tool, mit dem Teams die erhaltenen Benachrichtigungen verfolgen und kategorisieren können. Es kann Diagramme erstellen, die zeigen, wie viele Alarme Menschen geweckt haben (unter Verwendung von Schlafdaten von Fitness-Trackern) und wie viele Alarme tatsächlich menschliches Eingreifen erforderten. Mithilfe dieser Technologien können Sie die Wirksamkeit Ihres Bereitschaftsdienstes und dessen Auswirkungen auf den Schlaf im Laufe der Zeit verfolgen.

Das Team kann dazu beitragen, dass jeder Diensthabende ausreichend Ruhe erhält. Schaffen Sie eine Kultur, die Menschen dazu ermutigt, auf sich selbst aufzupassen: Wenn Sie Schlafstörungen haben, weil Sie nachts gerufen wurden, können Sie morgens etwas länger schlafen, um die verlorene Schlafzeit auszugleichen. Teammitglieder können aufeinander aufpassen: Wenn Teams ihre Schlafdaten über etwas wie Opsweekly miteinander teilen, können sie zu ihren diensthabenden Kollegen gehen und sagen: „Hey, es sieht so aus, als hätten Sie letzte Nacht eine harte Nacht mit PagerDuty gehabt.“ „Möchten Sie, dass ich Sie heute Abend bedecke, damit Sie sich etwas ausruhen können?“ Ermutigen Sie die Menschen, sich gegenseitig auf diese Weise zu unterstützen, und verhindern Sie eine „Heldenkultur“, in der Menschen bis an ihre Grenzen gehen und es vermeiden, um Hilfe zu bitten.

Reduzieren Sie die Auswirkungen, die der Dienst am Arbeitsplatz mit sich bringt

Wenn Ingenieure müde sind, weil sie während des Dienstes geweckt wurden, werden sie den ganzen Tag natürlich nicht zu 100 % ausgelastet sein, aber auch ohne Berücksichtigung des Schlafmangels kann der Dienst auch andere Auswirkungen auf die Arbeit haben. Einer der größten Verluste im Dienst ist auf den Unterbrechungsfaktor Kontextwechsel zurückzuführen: Eine einzige Unterbrechung kann aufgrund von Fokusverlust und Kontextwechsel zum Verlust von mindestens 20 Minuten führen. Es ist wahrscheinlich, dass Ihre Teams andere Unterbrechungsquellen haben, z. B. von anderen Teams generierte Tickets, Anfragen oder Fragen, die per Chat und/oder E-Mail eingehen. Abhängig vom Umfang dieser anderen Unterbrechungen können Sie erwägen, sie zu einer bestehenden Rotation während des Dienstes hinzuzufügen oder eine zweite Rotation einzurichten, nur um diese anderen Anfragen zu bearbeiten.

Es ist wichtig, dies zu berücksichtigen, wenn Sie die Arbeit des Teams planen, sowohl langfristig als auch kurzfristig. Wenn Ihr Team dazu neigt, recht intensive Dienstschichten zu haben, muss dieser Umstand bei der langfristigen Planung berücksichtigt werden, da es vorkommen kann, dass das gesamte Personal zu einem bestimmten Zeitpunkt tatsächlich im Dienst ist, anstatt andere Arbeiten zu erledigen. Bei der kurzfristigen Planung stellen Sie möglicherweise fest, dass die Bereitschaftsperson aufgrund ihrer Bereitschaftspflichten nicht in der Lage ist, Fristen einzuhalten – damit sollte man rechnen und der Rest des Teams sollte bereit sein, darauf einzugehen und dabei zu helfen, die Arbeit sicherzustellen erledigt und die Bereitschaftsperson wird bei ihren Arbeitsaufgaben unterstützt. Unabhängig davon, ob die Bereitschaftsperson hinzugezogen wird, wirkt sich die Bereitschaftsschicht auf die Fähigkeit der Bereitschaftsperson aus, andere Arbeiten auszuführen. Erwarten Sie nicht, dass die Bereitschaftsperson zusätzlich zu ihrer Arbeit auch nachts arbeitet, um geplante Projekte abzuschließen nach Feierabend im Dienst.

Die Teams müssen einen Weg finden, mit der zusätzlichen Arbeit umzugehen, die im Dienst entsteht. Diese Arbeit könnte echte Arbeit sein, um echte Probleme zu beheben, die von Überwachungs- und Warnsystemen erkannt werden, oder es könnte Arbeit sein, Überwachung und Warnungen zu korrigieren, um die Anzahl falsch positiver Warnungen zu reduzieren. Unabhängig von der Art der zu erstellenden Arbeit ist es wichtig, diese Arbeit fair und nachhaltig im Team zu verteilen. Nicht alle Bereitschaftsschichten sind gleich und einige sind komplexer als andere. Daher kann die Aussage, dass die Person, die die Alarmierung erhält, für die Bewältigung aller Konsequenzen dieser Alarmierung verantwortlich ist, zu einer ungleichen Arbeitsverteilung führen. Es kann sinnvoller sein, dass die diensthabende Person für die Planung oder Verteilung der Arbeit verantwortlich ist, mit der Erwartung, dass der Rest des Teams bereit ist, bei der Fertigstellung der erstellten Arbeit zu helfen.

Work-Life-Balance herstellen und aufrechterhalten

Denken Sie darüber nach, welche Auswirkungen der Dienst auf Ihr Leben außerhalb der Arbeit hat. Wenn Sie im Dienst sind, fühlen Sie sich wahrscheinlich an Ihr Mobiltelefon und Ihren Laptop gebunden, das heißt, Sie tragen immer einen Laptop und einen mobilen Router (USB-Modem) bei sich oder verlassen Ihr Zuhause/Ihr Büro einfach nicht. Bereitschaftsdienst bedeutet in der Regel, dass Sie während Ihrer Schicht auf Dinge wie das Treffen mit Freunden oder der Familie verzichten müssen. Das bedeutet, dass die Länge jeder Schicht von der Anzahl der Personen in Ihrem Team abhängt und die Häufigkeit der Schichten eine übermäßige Belastung für die Mitarbeiter darstellen kann. Möglicherweise müssen Sie mit der Länge und dem Zeitpunkt Ihrer Schichten experimentieren, um einen Zeitplan zu finden, der zumindest für die Mehrheit der beteiligten Personen funktioniert, da verschiedene Teams und Personen unterschiedliche Prioritäten und Vorlieben haben.

Es ist wichtig, die Auswirkungen zu erkennen, die der Dienst auf das Leben der Menschen haben wird, sowohl auf Managementebene als auch auf individueller Ebene. Es ist zu beachten, dass die Auswirkungen für Menschen mit weniger Privilegien unverhältnismäßig stark zu spüren sein werden. Wenn Sie beispielsweise Zeit damit verbringen müssen, sich um Kinder oder andere Familienmitglieder zu kümmern, oder wenn Sie feststellen, dass der Großteil der Hausarbeit auf Ihren Schultern liegt, haben Sie bereits weniger Zeit und Energie als jemand, der dies nicht tut. Diese Art von Arbeit in der „zweiten Schicht“ oder „dritten Schicht“ wirkt sich tendenziell unverhältnismäßig stark auf die Menschen aus, und wenn Sie Bereitschaftsrotationen mit einem Zeitplan oder einer Intensität einrichten, bei denen davon ausgegangen wird, dass die Teilnehmer kein Privatleben außerhalb des Büros haben, schränken Sie die Anzahl der Personen ein, die diese Aufgaben wahrnehmen können in Ihrem Team mitmachen.

Ermutigen Sie die Menschen, zu versuchen, mehr von ihrem regulären Zeitplan einzuhalten. Sie sollten erwägen, dem Team mobile Router (USB-Modems) zur Verfügung zu stellen, damit die Leute das Haus mit ihrem Laptop verlassen können und trotzdem ein gewisses Maß an Leben führen können. Ermutigen Sie die Menschen dazu, bei Bedarf Bereitschaftszeiten für kurze Zeiträume miteinander zu tauschen, damit die Menschen während des Dienstes ins Fitnessstudio gehen oder einen Arzt aufsuchen können. Schaffen Sie keine Kultur, in der Bereitschaftsdienst bedeutet, dass Ingenieure buchstäblich nichts anderes tun, als auf Abruf zu sein. Work-Life-Balance ist ein wichtiger Teil jedes Jobs, aber insbesondere wenn Sie die dienstfreien Zeiten berücksichtigen, sollten erfahrenere Mitglieder Ihres Teams ein Vorbild für andere in Sachen Work-Life-Balance sein, und zwar so weit wie möglich während des Dienstes.

Vergessen Sie auf individueller Ebene nicht, Ihren Freunden, Ihrer Familie, Ihrem Partner, Ihren Haustieren usw. zu erklären, was es bedeutet, im Dienst zu sein (Ihren Katzen wird es wahrscheinlich egal sein, da sie bereits um 4 Uhr morgens aufstehen, wenn Sie den Alarm erhalten). , obwohl sie Ihnen in keiner Weise bei der Lösung helfen wollen). Stellen Sie sicher, dass Sie die verlorene Zeit nach Schichtende nachholen, sei es zum Beispiel, um Freunde oder Familie zu sehen oder zu schlafen. Wenn Sie können, sollten Sie darüber nachdenken, einen stillen Alarm einzurichten (z. B. eine Smartwatch), der Sie durch das Summen Ihres Handgelenks wecken kann, sodass Sie niemanden in Ihrer Nähe wecken. Finden Sie Möglichkeiten, auf sich selbst aufzupassen, wenn Sie sich mitten in Ihrer Bereitschaftsschicht befinden und diese beendet ist. Vielleicht möchten Sie ein „Überlebenspaket für den Bereitschaftsdienst“ zusammenstellen, das Ihnen hilft, sich zu entspannen: Hören Sie eine Playlist mit Ihrer Lieblingsmusik, lesen Sie Ihr Lieblingsbuch oder nehmen Sie sich Zeit, mit Ihrem Haustier zu spielen. Manager sollten die Selbstfürsorge fördern, indem sie den Mitarbeitern nach einer Woche im Dienst einen Tag frei geben und sicherstellen, dass sie um Hilfe bitten (und diese erhalten), wenn sie diese benötigen.

Verbesserung des Diensterlebnisses

Insgesamt sollte man den Dienst nicht nur als schrecklichen Job ansehen: Man hat als Diensthabender die Möglichkeit und die Verantwortung, sich aktiv dafür einzusetzen, dass es für die Menschen, die in Zukunft im Dienst sein werden, also für die Menschen, besser wird Sie erhalten weniger Nachrichten und sind genauer. Auch hier kann die Verfolgung des Werts Ihrer Benachrichtigungen mithilfe von Opsweekly Ihnen dabei helfen, herauszufinden, was Ihren Bereitschaftsdienst nervt, und das Problem zu beheben. Fragen Sie sich bei inaktiven Benachrichtigungen, ob es Möglichkeiten gibt, diese Benachrichtigungen zu entfernen. Möglicherweise bedeutet dies, dass sie nur während der Geschäftszeiten ausgelöst werden, da es einige Dinge gibt, auf die Sie mitten in der Nacht einfach nicht reagieren müssen. Scheuen Sie sich nicht, Benachrichtigungen zu löschen, zu ändern oder die Sendemethode von „An Telefon und E-Mail senden“ auf „Nur E-Mail“ zu ändern. Experimentieren und Iteration sind der Schlüssel zur Verbesserung der Leistung im Laufe der Zeit.

Bei tatsächlich umsetzbaren Warnungen sollten Sie bedenken, wie einfach es für einen Techniker ist, die erforderlichen Maßnahmen zu ergreifen. Zu jeder laufenden Warnung sollte ein Runbook gehören. Erwägen Sie die Verwendung eines Tools wie nagios-herald, um Runbook-Links zu Ihren Warnungen hinzuzufügen. Wenn die Warnung so einfach ist, dass kein Runbook erforderlich ist, ist sie wahrscheinlich so einfach, dass Sie die Reaktion mit etwas wie Nagios-Ereignishandlern automatisieren können, was den Benutzern erspart, für leicht zu automatisierende Aufgaben aufzuwachen oder sich selbst zu unterbrechen. Sowohl Runbooks als auch Nagios-Herald können Ihnen dabei helfen, Ihren Warnungen wertvollen Kontext hinzuzufügen, sodass die Leute effektiver auf sie reagieren können. Versuchen Sie, häufig gestellte Fragen zu beantworten, z. B.: Wann wurde diese Warnung das letzte Mal ausgelöst? Wer hat zuletzt geantwortet und welche Maßnahmen haben sie letztendlich ergriffen (falls vorhanden)? Welche anderen Warnungen werden gleichzeitig angezeigt und hängen sie zusammen? Diese Art von Kontextinformationen landen oft nur im Gehirn der Menschen. Daher kann die Förderung einer Kultur der Dokumentation und Weitergabe von Kontextinformationen den für die Reaktion auf Warnungen erforderlichen Aufwand reduzieren.

Ein großer Teil der Müdigkeit, die mit Bereitschaftsdiensten einhergeht, besteht darin, dass sie nie enden – wenn Ihr Team Bereitschaftsdienste hat, ist es unwahrscheinlich, dass diese in absehbarer Zukunft enden. Die Schichten enden nie und wir haben vielleicht das Gefühl, dass sie immer schrecklich sein werden. Dieser Mangel an Hoffnung ist ein großes mentales Problem, das zu Stress und Erschöpfung führen kann. Daher ist es ein guter Ausgangspunkt, langfristig über die Pflicht nachzudenken, wenn man sich (zusätzlich zur Realität) mit der Wahrnehmung auseinandersetzt, dass Pflichten immer schrecklich sein werden.

Um den Menschen Hoffnung zu geben, dass sich die Situation im Dienst jemals verbessern wird, ist eine Beobachtbarkeit des Systems erforderlich (die gleiche Verfolgung und Kategorisierung des Dienstes, die ich zuvor erwähnt habe). Behalten Sie den Überblick darüber, wie viele Alarme Sie haben, wie viel Prozent davon ein Eingreifen durch eine Begleitperson erfordern, wie viele davon Menschen aufwecken, und arbeiten Sie dann daran, eine Kultur zu schaffen, die Menschen dazu ermutigt, Dinge besser zu machen. Wenn Sie ein großes Team haben, kann es verlockend sein, sobald Ihre Dienstzeit zu Ende geht, die Hände zu heben und zu sagen: „Das ist das Problem eines künftigen diensthabenden Offiziers“, anstatt sich darauf einzulassen, etwas zu reparieren – wer möchte schon mehr ausgeben Aufwand im Dienst als von ihnen gefordert? Hier kann eine Kultur der Empathie einen großen Unterschied machen, denn Sie kümmern sich nicht nur um Ihr Wohlergehen im Dienst, sondern auch um das Ihrer Kollegen.

Es geht um Empathie

Empathie ist ein wichtiger Teil dessen, was es uns ermöglicht, die Leistung zu steigern, die das Bereitschaftserlebnis verbessert. Als Manager oder Mitglied können Sie Menschen für Verhalten, das den Wandel verbessert, positiv bewerten oder sogar belohnen. Die Betriebsunterstützung ist einer der Bereiche, in denen Ingenieure oft das Gefühl haben, dass ihnen die Leute nur dann Aufmerksamkeit schenken, wenn etwas schief geht: Die Leute sind da, um sie anzuschreien, wenn eine Site abstürzt, aber sie erfahren selten etwas über die Bemühungen hinter den Kulissen, die der Betrieb durchführt Ingenieure haben dafür gesorgt, dass die Site in der restlichen Zeit am Laufen bleibt. Die Anerkennung von Arbeit kann viel bewirken, sei es, dass man sich in einer Besprechung oder in einer allgemeinen E-Mail bei jemandem für die Verbesserung einer bestimmten Warnung bedankt, für einen technischen Aspekt des Dienstes oder dafür, dass man jemandem Zeit gibt, einen anderen Ingenieur während der Schicht für eine Weile zu vertreten.

Ermutigen Sie die Menschen, Zeit und Mühe zu investieren, um ihre Bereitschaftssituation langfristig zu verbessern. Wenn Ihr Team Bereitschaftsdienste hat, sollten Sie diese Arbeit genauso planen und priorisieren wie jede andere Arbeit auf Ihrer Roadmap. Bereitschaftsdienste bestehen zu 90 % aus Entropie, und wenn Sie nicht aktiv daran arbeiten, sie zu verbessern, werden sie mit der Zeit immer schlimmer. Arbeiten Sie mit Ihrem Team zusammen, um herauszufinden, was Menschen am besten motiviert und belohnt, und nutzen Sie diese Erkenntnisse dann, um die Menschen dazu zu ermutigen, Alarmgeräusche zu reduzieren, Runbooks zu schreiben und Tools zu entwickeln, die ihre Bereitschaftsprobleme lösen. Was auch immer Sie tun, geben Sie sich nicht damit zufrieden, dass schreckliche Pflichten ein fester Bestandteil der Lage sind.

Source: habr.com

Kommentar hinzufügen