Hva bør man tenke på når man gjennomfører vaktskift

Den effektive DevOps-forfatteren Ryn Daniels deler strategier alle kan bruke for å skape bedre, mindre frustrerende og mer bærekraftige Oncall-rotasjoner.

Hva bør man tenke på når man gjennomfører vaktskift

Med ankomsten av Devops, organiserer mange ingeniører i disse dager skift på en eller annen måte, som en gang var eneansvaret til systemadministratorer eller driftsingeniører. Å være på vakt, spesielt i arbeidsfri tid, er ikke en oppgave de fleste liker. Tilkalling kan forstyrre søvnen vår, forstyrre det vanlige arbeidet vi prøver å gjøre i løpet av dagen, og forstyrre livene våre generelt. Etter hvert som flere og flere lag deltar på vakter, stilte vi spørsmålet "Hva kan vi som enkeltpersoner, lag og organisasjoner gjøre for å gjøre vakene mer humane og bærekraftige?"

Spar søvn

Ofte er det første folk tenker på når de tenker på å være på vakt at det vil påvirke søvnen negativt; ingen vil ha et varsel for å vekke dem midt på natten. Hvis organisasjonen eller teamet ditt blir stort nok, kan du bruke "følg-solen"-rotasjoner, der team i flere tidssoner deltar i samme rotasjon, med kortere vaktskift. slik at hver tidssone kun vil være på vakt under virksomheten. (eller i det minste våkne) timer. Å etablere en slik turnus kan gjøre underverker for å redusere nattarbeidsbelastningen som ledsager tar på seg.

Hvis du ikke har nok ingeniører og den geografiske distribusjonen til å støtte en følg-solen-rotasjon, er det fortsatt ting du kan gjøre for å redusere sannsynligheten for at folk blir unødvendig vekket midt på natten. Tross alt er det én ting å stå opp av sengen klokken 4 for å løse et presserende, kundevendt problem; Det er noe helt annet å våkne bare for å oppdage at du har å gjøre med en falsk alarm. Det kan hjelpe å gå gjennom alle varslene du har satt opp og spørre teamet ditt hvilke som faktisk trengs for å vekke noen etter arbeidstid, og om disse varslene kan vente til morgenen. Det kan være vanskelig å få folk til å gå med på å slå av noen varsler som ikke fungerer, spesielt hvis tapte problemer har forårsaket problemer tidligere, men det er viktig å huske at en ingeniør med søvnmangel ikke er den mest effektive ingeniøren. Still inn disse varslene i arbeidstiden når de virkelig betyr noe. De fleste varslingsverktøy i disse dager lar deg sette opp forskjellige regler for varsler etter arbeidstid, enten det er Nagios varslingsperioder eller å sette opp forskjellige tidsplaner i PagerDuty.

Søvn, plikt og lagkultur

Andre løsninger på søvnforstyrrelser innebærer større kulturelle endringer. En måte å løse dette problemet på er å overvåke varsler, være spesielt oppmerksom på når de ankommer og om de kan handles. Ops ukentlig er et verktøy laget og publisert av Etsy som lar team spore og kategorisere varslene de mottar. Den kan generere grafer som viser hvor mange varsler som vekket folk (ved hjelp av søvndata fra treningssporere), samt hvor mange varsler som faktisk krevde menneskelig handling. Ved å bruke disse teknologiene kan du spore effektiviteten av vaktrotasjonen og dens innvirkning på søvn over tid.

Teamet kan spille en rolle i å sikre at alle på vakt får nok hvile. Skap en kultur som oppmuntrer folk til å ta vare på seg selv: Hvis du mister søvn fordi du ble tilkalt om natten, kan du sove litt lenger om morgenen for å prøve å ta igjen tapt søvntid. Teammedlemmer kan passe på hverandre: Når team deler søvndataene sine med hverandre gjennom noe som Opsweekly, kan de gå til kollegene på vakt og si: «Hei, det ser ut som du hadde en tøff natt med PagerDuty i går kveld.» "Vil du at jeg skal dekke deg i kveld slik at du kan hvile deg?" Oppmuntre folk til å støtte hverandre på denne måten og fraråde en «heltekultur» der folk vil presse seg selv til det ytterste og unngå å be om hjelp.

Redusere virkningen av å være på vakt på jobb

Når ingeniører er slitne fordi de ble vekket mens de var på vakt, vil de åpenbart ikke jobbe med 100 % kapasitet for dagen, men selv uten å ta hensyn til søvnmangel, kan det å være på vakt også ha andre konsekvenser for arbeidet. Et av de mest betydelige tapene under tjeneste skyldes avbruddsfaktoren, kontekstforandring: et enkelt avbrudd kan resultere i tap på minst 20 minutter på grunn av tap av fokus og kontekstbytte. Det er sannsynlig at lagene dine vil ha andre kilder til avbrudd, for eksempel billetter generert av andre lag, forespørsler eller spørsmål som kommer via chat og/eller e-post. Avhengig av volumet av disse andre avbruddene, kan du vurdere å legge dem til en eksisterende rotasjon mens du er på vakt eller sette opp en ny rotasjon bare for å håndtere disse andre forespørslene.

Det er viktig å ta hensyn til dette når du planlegger arbeidet som teamet skal gjøre, både langsiktig og kortsiktig. Hvis teamet ditt har en tendens til å ha ganske intense vaktskifter, må dette faktum tas i betraktning i langsiktig planlegging, da du kan ha en situasjon der hele personalet effektivt er på vakt til enhver tid, i stedet for å gjøre annet arbeid. I kortsiktig planlegging kan du oppleve at vaktpersonen ikke klarer å overholde tidsfrister på grunn av sitt vaktansvar – dette bør forventes og resten av teamet bør være villige til å imøtekomme og bidra til å sikre at jobben blir gjort og vaktpersonen støttes i sine arbeidsoppgaver. Uavhengig av om vaktpersonen kalles inn, vil vaktvakten påvirke vaktpersonens evne til å utføre annet arbeid – ikke forvent at vaktpersonen skal jobbe natt for å fullføre planlagte prosjekter i tillegg til å være på vakt etter arbeidstid.

Teamene må finne en måte å takle ekstraarbeidet som genereres mens de er på vakt. Dette arbeidet kan være reelt arbeid for å fikse reelle problemer oppdaget av overvåkings- og varslingssystemer, eller det kan være arbeid med å fikse overvåking og varsler for å redusere antallet falske positive varsler. Uansett arten av arbeidet som skapes, er det viktig å fordele dette arbeidet rettferdig og bærekraftig på tvers av teamet. Ikke alle vaktvakter er skapt like, og noen er mer komplekse enn andre, så det kan føre til ujevn arbeidsfordeling å si at den som mottar varslingen er den som er ansvarlig for å håndtere alle konsekvensene av den varslingen. Det kan være mer fornuftig at den på vakt har ansvaret for å planlegge eller fordele arbeid, med forventning om at resten av teamet vil være villige til å hjelpe til med å fullføre arbeidet som er opprettet.

Skape og opprettholde balanse mellom arbeid og privatliv

Tenk på hvilken innvirkning det å være på vakt har på livet ditt utenom jobben. Når du er på vakt vil du sannsynligvis føle deg bundet til din mobiltelefon og laptop, dette betyr at du alltid har med deg en bærbar PC og en mobilruter (usb-modem) eller rett og slett ikke forlater hjemmet/kontoret. Å være på vakt betyr vanligvis å gi opp ting som å se venner eller familie under skiftet. Dette betyr at lengden på hvert skift avhenger av antall personer i teamet ditt, og hyppigheten av skift kan legge en unødig belastning på folk. Det kan hende du må eksperimentere med lengden og tidspunktet for skift for å finne en tidsplan som fungerer for i det minste de fleste involverte, ettersom forskjellige lag og personer vil ha forskjellige prioriteringer og preferanser.

Det er viktig å erkjenne hvilken innvirkning det å være på vakt vil ha på menneskers liv, både på ledernivå og på individnivå. Det bør bemerkes at virkningen vil merkes uforholdsmessig av personer med mindre privilegier. Hvis du for eksempel må bruke tid på å ta deg av barn eller andre familiemedlemmer, eller hvis du opplever at det meste av husarbeidet faller på skuldrene dine, har du allerede mindre tid og energi enn noen som ikke gjør det. Denne typen "andre skift" eller "tredje skift"-arbeid har en tendens til å påvirke folk uforholdsmessig, og hvis du etablerer vaktrotasjoner med en tidsplan eller intensitet som forutsetter at deltakerne ikke har noe personlig liv utenfor kontoret, begrenser du menneskene som kan delta på laget ditt.

Oppmuntre folk til å prøve å opprettholde mer av sin vanlige timeplan. Du bør vurdere å forsyne teamet med mobile rutere (usb-modemer) slik at folk kan forlate huset med den bærbare datamaskinen og fortsatt ha et liv. Oppmuntre folk til å bytte vakttid med hverandre, om nødvendig, i korte perioder, slik at folk kan gå på treningsstudio eller oppsøke lege mens de er på vakt. Ikke skap en kultur der det å være på vakt betyr at ingeniører bokstavelig talt ikke gjør annet enn å være på vakt. Balanse mellom arbeid og privatliv er en viktig del av enhver jobb, men spesielt når du vurderer fritimer, bør seniormedlemmer i teamet ditt være et eksempel for andre når det gjelder balanse mellom arbeid og privatliv, så mye som mulig mens de er på vakt.

På et individuelt nivå, ikke glem å forklare hva det å være på vakt betyr for venner, familie, partnere, kjæledyr osv. (kattene dine vil sannsynligvis ikke bry seg siden de allerede er oppe klokken 4 når du får varselet , selv om de på ingen måte vil hjelpe deg med å løse det). Pass på at du tar igjen tapt tid etter at skiftet slutter, enten det er for å se venner, familie eller sove, for eksempel. Hvis du kan, bør du vurdere å sette opp en stille alarm (som en smartklokke) som kan vekke deg ved å surre på håndleddet, slik at du ikke vekker noen rundt deg. Finn måter å ta vare på deg selv når du er midt i vaktvakten og når den er over. Det kan være lurt å sette sammen et "on-call survival kit" som vil hjelpe deg å slappe av: lytt til en spilleliste med favorittmusikken din, les favorittboken din, eller ta deg tid til å leke med kjæledyret ditt. Ledere bør oppmuntre til egenomsorg ved å gi folk en fridag etter en uke på vakt og sørge for at folk ber om (og får) hjelp når de trenger det.

Forbedre tjenesteopplevelsen

Totalt sett skal det å være på vakt ikke bare ses på som en forferdelig jobb: du har muligheten og ansvaret som vaktperson til å aktivt jobbe for å gjøre det bedre for de som skal være på vakt i fremtiden, noe som betyr at folk vil motta færre meldinger og de vil være mer nøyaktige. Igjen, sporing av verdien av varslene dine ved å bruke noe som Opsweekly kan hjelpe deg med å finne ut hva som gjør vaktholdet ditt irriterende og fikse det. For inaktive varsler, spør deg selv om det er måter å bli kvitt disse varslene på - kanskje betyr dette at de bare vil gå av i arbeidstiden, fordi det er enkelte ting du bare ikke trenger å svare på midt på natten. Ikke vær redd for å slette varsler, endre dem eller endre sendemetoden fra «send til telefon og e-post» til «bare e-post». Eksperimentering og iterasjon er nøkkelen til å forbedre plikten over tid.

For varsler som faktisk er handlingsdyktige, bør du vurdere hvor enkelt det er for en ingeniør å iverksette nødvendige tiltak. Hvert løpende varsel bør ha en runbook som følger med den - vurder å bruke et verktøy som nagios-herald for å legge til runbook-lenker til varslene dine. Hvis varselet er enkelt nok til at det ikke trenger en runbook, er det sannsynligvis enkelt nok til at du kan automatisere responsen ved å bruke noe som Nagios hendelsesbehandlere, noe som sparer folk for å måtte våkne eller avbryte seg selv for lett automatiserte oppgaver. Både runbooks og nagios-herald kan hjelpe deg å legge til verdifull kontekst til varslene dine, noe som vil hjelpe folk å svare på dem mer effektivt. Se om du kan svare på vanlige spørsmål som: Når gikk dette varselet sist? Hvem svarte sist gang, og hvilke handlinger tok de til slutt (hvis noen)? Hvilke andre varsler vises samtidig med dette, og er de relatert? Denne typen kontekstuell informasjon ender ofte bare i folks hjerner, så å oppmuntre til en kultur for å dokumentere og dele kontekstuell informasjon kan redusere mengden overhead som kreves for å svare på varsler.

En stor del av trettheten som kommer fra vakter er at de aldri tar slutt – hvis teamet ditt har vakter, er det usannsynlig at de slutter når som helst i overskuelig fremtid. Skiftene tar aldri slutt, og vi kan føle at de alltid vil være forferdelige. Denne mangelen på håp er et stort mentalt problem som kan bidra til stress og utmattelse, så å adressere oppfatningen (i tillegg til virkeligheten) om at plikt alltid vil være forferdelig er et godt sted å begynne å tenke på plikten din på lang sikt.

For å gi folk håp om at situasjonen på vakt noen gang vil bli bedre, er det nødvendig å ha observerbarhet av systemet (samme sporing og kategorisering av vakt som jeg nevnte tidligere). Hold styr på hvor mange varsler du har, hvor mange prosent av dem som krever ledsagende intervensjon, hvor mange av dem som vekker folk, og jobb deretter for å skape en kultur som oppmuntrer folk til å gjøre ting bedre. Hvis du har et stort team, kan det være fristende, så snart klokken slutter, å kaste opp hendene og si "det er et fremtidig vaktmesterproblem" i stedet for å grave seg inn for å fikse noe - hvem vil bruke mer innsats på vakt enn fra dem som kreves? Det er her en empatikultur kan utgjøre en stor forskjell, fordi du ikke bare ser etter ditt velvære på vakt, men også for kollegene dine.

Alt handler om empati

Empati er en viktig del av det som gjør at vi kan drive ytelse som forbedrer vaktopplevelsen. Som leder eller medlem kan du positivt evaluere eller til og med belønne folk for oppførsel som gjør skiftet bedre. Driftsstøtte er et av de områdene der ingeniører ofte føler at folk bare tar hensyn til dem når noe går galt: folk vil være der for å kjefte på dem når et nettsted krasjer, men de lærer sjelden om innsatsen bak kulissene som operasjoner ingeniører satset på å holde nettstedet i gang resten av tiden. Å gjenkjenne arbeid kan gå langt, enten det er å takke noen i et møte eller i en generell e-post for å forbedre et spesifikt varsel, et teknisk aspekt ved å være på vakt, eller gi noen tid til å dekke en annen ingeniør på skift en stund.

Oppmuntre folk til å bruke tid og krefter på å forbedre sin vaktsituasjon på lang sikt. Hvis teamet ditt har vakthold, bør du planlegge og prioritere dette arbeidet på samme måte som du ville gjort med alt annet arbeid på veikartet ditt. Tilkalling er 90 % entropi, og med mindre du aktivt jobber for å forbedre dem, vil de bli verre og verre over tid. Arbeid med teamet ditt for å finne ut hva som best motiverer og belønner folk, og bruk det deretter til å oppmuntre folk til å redusere varselstøy, skrive løpebøker og lage verktøy som løser vaktproblemer. Uansett hva du gjør, ikke nøye deg med forferdelig plikt som en permanent del av tingenes tilstand.

Kilde: www.habr.com

Legg til en kommentar