Waar u aan moet denken bij het doorvoeren van dienstverschuivingen

Effectieve DevOps-auteur Ryn Daniels deelt strategieën die iedereen kan gebruiken om betere, minder frustrerende en duurzamere Oncall-rotaties te creëren.

Waar u aan moet denken bij het doorvoeren van dienstverschuivingen

Met de komst van Devops organiseren veel ingenieurs tegenwoordig op de een of andere manier ploegendiensten, wat ooit de exclusieve verantwoordelijkheid was van systeembeheerders of operationele ingenieurs. Dienst hebben, vooral buiten werktijd, is geen taak waar de meeste mensen van genieten. De wachtdienst kan onze slaap verstoren, het normale werk dat we overdag proberen te doen, en ons leven in het algemeen verstoren. Nu steeds meer teams deelnemen aan wakes, stelden we de vraag: “Wat kunnen wij als individuen, teams en organisaties doen om wakes menselijker en duurzamer te maken?”

Bespaar je slaap

Vaak is het eerste waar mensen aan denken als ze aan dienst denken, dat dit hun slaap negatief zal beïnvloeden; niemand wil een waarschuwing om ze midden in de nacht wakker te maken. Als uw organisatie of team groot genoeg wordt, kunt u 'follow-the-sun'-rotaties gebruiken, waarbij teams in meerdere tijdzones deelnemen aan dezelfde rotatie, met kortere dienstdiensten, zodat elke tijdzone alleen dienst heeft tijdens de werkzaamheden. (of in ieder geval wakker worden) uur. Het instellen van een dergelijke rotatie kan wonderen doen om de nachtelijke werklast van de begeleider te verminderen.

Als je niet genoeg technici en de geografische spreiding hebt om een ​​volg-de-zon-rotatie te ondersteunen, zijn er nog steeds dingen die je kunt doen om de kans te verkleinen dat mensen midden in de nacht onnodig wakker worden. Het is tenslotte één ding om om vier uur 's ochtends uit bed te komen om een ​​urgent, klantgericht probleem op te lossen; Het is iets heel anders als je wakker wordt en ontdekt dat je met een vals alarm te maken hebt. Het kan helpen om alle waarschuwingen die u heeft ingesteld te bekijken en uw team te vragen welke daadwerkelijk nodig zijn om iemand buiten kantooruren wakker te maken, en of die waarschuwingen tot de ochtend kunnen wachten. Het kan moeilijk zijn om mensen zover te krijgen dat ze sommige niet-werkende waarschuwingen uitzetten, vooral als gemiste problemen in het verleden problemen hebben veroorzaakt. Het is echter belangrijk om te onthouden dat een ingenieur met slaapgebrek niet de meest effectieve ingenieur is. Stel deze waarschuwingen in tijdens kantooruren, wanneer ze er echt toe doen. Met de meeste waarschuwingstools kunt u tegenwoordig verschillende regels instellen voor meldingen buiten kantooruren, of het nu om Nagios-meldingsperioden gaat of om verschillende schema's in PagerDuty.

Slaap-, plichts- en teamcultuur

Andere oplossingen voor slaapverstoring brengen grotere culturele veranderingen met zich mee. Eén manier om dit probleem op te lossen is het monitoren van waarschuwingen, waarbij bijzondere aandacht moet worden besteed aan wanneer ze binnenkomen en of er actie op ondernomen kan worden. Opsweekly is een tool gemaakt en gepubliceerd door Etsy waarmee teams de meldingen die ze ontvangen kunnen volgen en categoriseren. Het kan grafieken genereren die laten zien hoeveel waarschuwingen mensen wakker hebben gemaakt (met behulp van slaapgegevens van fitnesstrackers), en hoeveel waarschuwingen daadwerkelijk menselijke actie vereisten. Met behulp van deze technologieën kunt u de effectiviteit van uw oproeproutine en de impact ervan op de slaap in de loop van de tijd volgen.

Het team kan een rol spelen door ervoor te zorgen dat iedere dienstdoende persoon voldoende rust krijgt. Creëer een cultuur die mensen aanmoedigt om voor zichzelf te zorgen: als je slaapt omdat je 's nachts werd opgeroepen, kun je 's ochtends wat langer slapen om te proberen de verloren slaaptijd in te halen. Teamleden kunnen op elkaar letten: wanneer teams hun slaapgegevens met elkaar delen via zoiets als Opsweekly, kunnen ze naar hun dienstdoende collega's gaan en zeggen: "Hé, het lijkt erop dat je gisteravond een zware nacht hebt gehad met PagerDuty." 'Wil je dat ik je vanavond dekking geef, zodat je wat kunt uitrusten?' Moedig mensen aan om elkaar op deze manier te steunen en ontmoedig een ‘heldencultuur’ waarin mensen zichzelf tot het uiterste drijven en vermijden om hulp te vragen.

De impact van dienstplicht op het werk verminderen

Wanneer ingenieurs moe zijn omdat ze tijdens hun dienst wakker zijn geworden, zullen ze uiteraard niet op 100% van de capaciteit van de dag kunnen werken, maar zelfs als er geen rekening wordt gehouden met slaapgebrek, kan het hebben van dienst ook andere gevolgen hebben voor het werk. Een van de grootste verliezen tijdens dienst is te wijten aan de onderbrekingsfactor, contextverandering: een enkele onderbreking kan resulteren in een verlies van minstens 20 minuten als gevolg van verlies van focus en contextwisseling. Het is waarschijnlijk dat uw teams te maken krijgen met andere bronnen van onderbrekingen, zoals tickets gegenereerd door andere teams, verzoeken of vragen die binnenkomen via chat en/of e-mail. Afhankelijk van het volume van deze andere onderbrekingen, kunt u overwegen deze toe te voegen aan een bestaande rotatie tijdens uw dienst, of een tweede rotatie in te stellen om deze andere verzoeken af ​​te handelen.

Het is belangrijk om hiermee rekening te houden bij het plannen van het werk dat het team gaat doen, zowel op de lange als op de korte termijn. Als uw team de neiging heeft om vrij intensieve dienstdiensten te hebben, moet hiermee rekening worden gehouden bij de langetermijnplanning, aangezien u zich in een situatie kunt bevinden waarin het gehele personeel op een gegeven moment effectief dienst heeft, in plaats van ander werk te doen. Bij de kortetermijnplanning kan het voorkomen dat de oproepkracht de deadlines niet kan halen vanwege zijn oproepverantwoordelijkheden. Dit is te verwachten en de rest van het team moet bereid zijn om tegemoet te komen en te helpen ervoor te zorgen dat de taak wordt uitgevoerd. klaar is en de oproepkracht wordt ondersteund bij zijn werktaken. Ongeacht of de oproeper wordt opgeroepen, zal de wachtdienst van invloed zijn op het vermogen van de oproeper om ander werk te verrichten. Verwacht niet dat de oproeper ook 's nachts werkt om geplande projecten af ​​te ronden. dienst na sluitingstijd.

Teams zullen een manier moeten vinden om om te gaan met het extra werk dat tijdens hun dienst wordt gegenereerd. Dit werk kan het echte werk zijn om echte problemen op te lossen die worden gedetecteerd door monitoring- en waarschuwingssystemen, of het kan werk zijn om monitoring en waarschuwingen op te lossen om het aantal vals-positieve waarschuwingen te verminderen. Wat de aard van het werk ook is dat wordt gecreëerd, het is belangrijk om dat werk eerlijk en duurzaam over het team te verdelen. Niet alle wachtdiensten zijn hetzelfde, en sommige zijn complexer dan andere. Als je dus stelt dat de persoon die de waarschuwing ontvangt de persoon is die verantwoordelijk is voor het omgaan met alle gevolgen van die waarschuwing, kan dit leiden tot een ongelijke verdeling van het werk. Het kan logischer zijn dat de dienstdoende persoon verantwoordelijk is voor het plannen of verdelen van het werk, in de verwachting dat de rest van het team bereid zal zijn om het gecreëerde werk te helpen voltooien.

Balans tussen werk en privé creëren en behouden

Denk eens na over de impact die het hebben van dienst heeft op uw leven buiten het werk. Als u dienst heeft, voelt u zich waarschijnlijk gebonden aan uw mobiele telefoon en laptop, dit betekent dat u altijd een laptop en een mobiele router (usb-modem) bij u heeft of simpelweg uw huis/kantoor niet verlaat. Op afroep zijn betekent meestal dat u dingen moet opgeven zoals het zien van vrienden of familie tijdens uw dienst. Dit betekent dat de lengte van elke dienst afhangt van het aantal mensen in uw team, en dat de frequentie van de diensten een onnodige last op mensen kan leggen. Mogelijk moet u experimenteren met de lengte en timing van uw diensten om een ​​schema te vinden dat voor ten minste de meerderheid van de betrokken mensen werkt, aangezien verschillende teams en mensen verschillende prioriteiten en voorkeuren zullen hebben.

Het is essentieel om te onderkennen welke impact het hebben van dienst heeft op het leven van mensen, zowel op managementniveau als op individueel niveau. Opgemerkt moet worden dat de impact disproportioneel zal worden gevoeld door mensen met minder privileges. Als u bijvoorbeeld tijd moet besteden aan de zorg voor kinderen of andere familieleden, of als u merkt dat het grootste deel van het huishoudelijk werk op uw schouders valt, heeft u al minder tijd en energie dan iemand die dat niet doet. Dit soort werk in de ‘tweede ploeg’ of ‘derde ploeg’ heeft de neiging een onevenredige impact op mensen te hebben, en als je een roulatie van oproepdiensten instelt met een schema of intensiteit die ervan uitgaat dat de deelnemers geen persoonlijk leven hebben buiten het kantoor, beperk je de mensen die dat wel doen. kan meedoen in jouw team.

Moedig mensen aan om meer van hun normale schema aan te houden. Je zou kunnen overwegen om het team te voorzien van mobiele routers (usb-modems), zodat mensen met hun laptop het huis kunnen verlaten en toch nog enigszins een leven kunnen leiden. Moedig mensen aan om, indien nodig, voor korte perioden wachturen met elkaar te ruilen, zodat mensen tijdens hun dienst naar de sportschool kunnen of naar de dokter gaan. Creëer geen cultuur waarin bereikbaarheid betekent dat technici letterlijk niets anders doen dan bereikbaar zijn. De balans tussen werk en privéleven is een belangrijk onderdeel van elke baan, maar vooral als je rekening houdt met de vrije uren, moeten hogere leden van je team een ​​voorbeeld zijn voor anderen op het gebied van de balans tussen werk en privé, zoveel mogelijk tijdens hun dienst.

Vergeet op individueel niveau niet uit te leggen wat dienst hebben betekent aan je vrienden, familie, partners, huisdieren, etc. (het kan je katten waarschijnlijk niets schelen, aangezien ze al om 4 uur 's ochtends op zijn als je de waarschuwing krijgt , hoewel ze je op geen enkele manier willen helpen het probleem op te lossen). Zorg ervoor dat je de verloren tijd inhaalt nadat je dienst voorbij is, of het nu is om bijvoorbeeld vrienden, familie te zien of te slapen. Als je kunt, overweeg dan om een ​​stil alarm in te stellen (zoals een smartwatch) dat je kan wekken door met je pols te zoemen, zodat niemand om je heen wakker wordt. Vind manieren om voor uzelf te zorgen wanneer u midden in uw dienst zit en wanneer deze voorbij is. Misschien wilt u een ‘overlevingspakket op afroep’ samenstellen dat u zal helpen ontspannen: luister naar een afspeellijst met uw favoriete muziek, lees uw favoriete boek of neem de tijd om met uw huisdier te spelen. Managers moeten zelfzorg aanmoedigen door mensen een dag vrij te geven na een week dienst en ervoor te zorgen dat mensen om hulp vragen (en krijgen) wanneer ze die nodig hebben.

Verbetering van de plichtservaring

Over het geheel genomen moet dienstdoen niet alleen als een vreselijke baan worden gezien: je hebt als dienstdoende persoon de kans en de verantwoordelijkheid om actief te werken aan het verbeteren van de situatie voor de mensen die in de toekomst dienst zullen hebben, wat betekent dat mensen ontvangen minder berichten en zijn nauwkeuriger. Nogmaals, door de waarde van uw waarschuwingen bij te houden met behulp van zoiets als Opsweekly, kunt u erachter komen wat uw bereikbaarheid vervelend maakt en dit oplossen. Voor inactieve waarschuwingen vraagt ​​u zich af of er manieren zijn om van deze waarschuwingen af ​​te komen. Misschien betekent dit dat ze alleen tijdens kantooruren afgaan, omdat er bepaalde dingen zijn waarop u midden in de nacht gewoon niet hoeft te reageren. Wees niet bang om waarschuwingen te verwijderen, te wijzigen of de verzendmethode te wijzigen van 'verzenden naar telefoon en e-mail' in 'alleen e-mail'. Experimenteren en herhalen zijn de sleutel tot het verbeteren van de taak in de loop van de tijd.

Voor waarschuwingen waar daadwerkelijk actie op ondernomen kan worden, moet u bedenken hoe gemakkelijk het voor een technicus is om de noodzakelijke actie te ondernemen. Elke actieve waarschuwing moet een bijbehorende runbook hebben. Overweeg een hulpprogramma als nagios-herald te gebruiken om runbook-koppelingen aan uw waarschuwingen toe te voegen. Als de waarschuwing zo eenvoudig is dat er geen runbook voor nodig is, is deze waarschijnlijk eenvoudig genoeg om de reactie te automatiseren met behulp van zoiets als Nagios-gebeurtenishandlers, waardoor mensen niet meer wakker hoeven te worden of zichzelf moeten onderbreken voor eenvoudig geautomatiseerde taken. Zowel runbooks als nagios-herald kunnen u helpen waardevolle context aan uw waarschuwingen toe te voegen, waardoor mensen er effectiever op kunnen reageren. Kijk of u veelgestelde vragen kunt beantwoorden, zoals: Wanneer was de laatste keer dat deze waarschuwing afging? Wie heeft de vraag de vorige keer beantwoord en welke acties hebben zij uiteindelijk ondernomen (indien van toepassing)? Welke andere waarschuwingen verschijnen tegelijkertijd met deze en houden deze verband met elkaar? Dit soort contextuele informatie komt vaak alleen in de hersenen van mensen terecht. Het aanmoedigen van een cultuur van het documenteren en delen van contextuele informatie kan de hoeveelheid overhead die nodig is om op waarschuwingen te reageren, verminderen.

Een groot deel van de vermoeidheid die voortkomt uit oproepdiensten is dat ze nooit eindigen. Als uw team oproepdiensten heeft, is het onwaarschijnlijk dat deze in de nabije toekomst op enig moment zullen eindigen. De verschuivingen houden nooit op, en we hebben misschien het gevoel dat ze altijd verschrikkelijk zullen zijn. Dit gebrek aan hoop is een groot mentaal probleem dat kan bijdragen aan stress en uitputting, dus het aanpakken van de perceptie (naast de realiteit) dat plicht altijd verschrikkelijk zal zijn, is een goed moment om na te denken over je plicht op de lange termijn.

Om mensen de hoop te geven dat de situatie tijdens de dienst ooit zal verbeteren, is het noodzakelijk om het systeem waarneembaar te maken (dezelfde tracking en categorisering van dienst die ik eerder noemde). Houd bij hoeveel waarschuwingen u heeft, welk percentage daarvan bijkomende interventie vereist, hoeveel waarschuwingen mensen wakker maken, en werk vervolgens aan het creëren van een cultuur die mensen aanmoedigt om dingen beter te doen. Als je een groot team hebt, kan het verleidelijk zijn om, zodra je wacht afloopt, je handen op te steken en te zeggen "dat is het probleem van een toekomstige officier van dienst" in plaats van je te verdiepen in het repareren van iets - wie wil er nog meer uitgeven? inspanning van dienst dan van hen vereist? Dit is waar een cultuur van empathie een groot verschil kan maken, omdat je niet alleen op je welzijn let tijdens je dienst, maar ook op je collega's.

Het draait allemaal om empathie

Empathie is een belangrijk onderdeel van wat ons in staat stelt prestaties te stimuleren die de oproepervaring verbeteren. Als manager of lid kun je mensen positief beoordelen of zelfs belonen voor gedrag dat de dienst beter maakt. Operationele ondersteuning is een van die gebieden waar ingenieurs vaak het gevoel hebben dat mensen alleen aandacht aan hen besteden als er iets misgaat: mensen zullen er zijn om tegen hen te schreeuwen als een site crasht, maar ze leren zelden over de inspanningen achter de schermen die operaties verrichten ingenieurs die zich inspannen om de site de rest van de tijd draaiende te houden. Het herkennen van werk kan een grote bijdrage leveren, of het nu gaat om het bedanken van iemand in een vergadering of in een algemene e-mail voor het verbeteren van een specifieke waarschuwing, een technisch aspect van dienstdoen, of iemand de tijd geven om een ​​tijdje in te vallen voor een andere ingenieur.

Stimuleer mensen om tijd en moeite te besteden aan het verbeteren van hun bereikbaarheidssituatie op de lange termijn. Als uw team oproepdiensten heeft, moet u dit werk op dezelfde manier plannen en prioriteren als elk ander werk op uw routekaart. On-calls zijn voor 90% entropie, en tenzij je er actief aan werkt om ze te verbeteren, zullen ze in de loop van de tijd steeds erger worden. Werk samen met uw team om erachter te komen wat mensen het beste motiveert en beloont, en gebruik dat vervolgens om mensen aan te moedigen waarschuwingsgeluiden te verminderen, runbooks te schrijven en tools te creëren die hun bereikbaarheidsproblemen oplossen. Wat u ook doet, neem geen genoegen met een vreselijke plicht als permanent onderdeel van de gang van zaken.

Bron: www.habr.com

Voeg een reactie