Na co myslet při zavádění směn

Autor efektivního DevOps Ryn Daniels sdílí strategie, které může kdokoli použít k vytvoření lepších, méně frustrujících a udržitelnějších Oncall rotací.

Na co myslet při zavádění směn

S příchodem Devopsu dnes mnoho inženýrů organizuje směny tak či onak, za což dříve odpovídali výhradně systémoví správci nebo provozní inženýři. Být ve službě, zejména v mimopracovní době, není úkol, který by většinu lidí bavil. Pohotovostní služba může narušit náš spánek, zasahovat do běžné práce, kterou se snažíme během dne vykonávat, a zasahovat do našich životů obecně. Jak se vigilií účastní stále více týmů, kladli jsme si otázku: „Co můžeme jako jednotlivci, týmy a organizace udělat pro to, aby byly vigilie humánnější a udržitelnější?

Ušetřete si spánek

Často první věc, na kterou lidé myslí, když přemýšlí o službě, je, že to negativně ovlivní jejich spánek; nikdo nechce upozornění, které by je probudilo uprostřed noci. Pokud je vaše organizace nebo tým dostatečně velký, můžete použít střídání „po slunci“, kdy se týmy ve více časových pásmech účastní stejné rotace, s kratšími směnami služby. Každé časové pásmo tak bude mít službu pouze během svého podnikání. (nebo alespoň vstávat) hodiny. Zavedení takové rotace může udělat zázraky, pokud jde o snížení nočního pracovního vytížení, které obsluhující na sebe bere.

Pokud nemáte dostatek inženýrů a geografické rozložení na podporu rotace za sluncem, stále existují věci, které můžete udělat, abyste snížili pravděpodobnost, že se lidé budou zbytečně probouzet uprostřed noci. Koneckonců jedna věc je vstát z postele ve 4 hodiny ráno, abyste vyřešili naléhavý problém se zákazníkem; Něco jiného je probudit se a zjistit, že máte co do činění s falešným poplachem. Může vám pomoci zkontrolovat všechna upozornění, která jste nastavili, a zeptat se svého týmu, která z nich jsou skutečně potřebná k tomu, aby se někdo po pracovní době probudil, a zda mohou tato upozornění počkat až do rána. Může být obtížné přimět lidi, aby souhlasili s vypnutím některých nefunkčních upozornění, zvláště pokud zmeškané problémy způsobily problémy v minulosti, ale je důležité si uvědomit, že inženýr s nedostatkem spánku není tím nejefektivnějším inženýrem. Nastavte si tato upozornění během pracovní doby, kdy na nich opravdu záleží. Většina nástrojů pro upozornění v dnešní době umožňuje nastavit různá pravidla pro upozornění mimo pracovní dobu, ať už jde o období upozornění Nagios nebo nastavení různých plánů v PagerDuty.

Spánek, povinnost a týmová kultura

Jiná řešení narušení spánku zahrnují větší kulturní změny. Jedním ze způsobů, jak tento problém vyřešit, je monitorovat výstrahy a věnovat zvláštní pozornost tomu, kdy přijdou a zda jsou proveditelná. Opsweekly je nástroj vytvořený a publikovaný společností Etsy, který umožňuje týmům sledovat a kategorizovat upozornění, která obdrží. Dokáže generovat grafy ukazující, kolik upozornění lidi probudilo (s využitím údajů o spánku z fitness trackerů), a také kolik upozornění skutečně vyžadovalo lidskou akci. Pomocí těchto technologií můžete sledovat efektivitu rotace během hovoru a její dopad na spánek v průběhu času.

Tým může hrát roli při zajišťování toho, aby si každá osoba ve službě dostatečně odpočinula. Vytvořte kulturu, která povzbudí lidi, aby se o sebe postarali: pokud ztrácíte spánek, protože jste byli v noci vyzváni, můžete ráno spát o něco déle, abyste se pokusili dohnat ztracený čas spánku. Členové týmu na sebe mohou dávat pozor: Když týmy mezi sebou sdílejí svá data o spánku prostřednictvím něčeho, jako je Opsweekly, mohou jít za svými kolegy ve službě a říct: „Hele, vypadá to, že jsi minulou noc měl s PagerDuty drsnou noc.“ "Chtěl bys, abych tě dnes večer přikryl, aby sis mohl odpočinout?" Povzbuzujte lidi, aby se tímto způsobem vzájemně podporovali, a odrazujte od „kultury hrdinů“, kde se lidé budou tlačit až na hranici svých možností a nebudou žádat o pomoc.

Snížení dopadu pracovní povinnosti

Když jsou inženýři unavení, protože byli ve službě probuzeni, očividně nebudou celý den pracovat na 100 %, ale i bez započtení nedostatku spánku může mít služba další dopady na práci. Jedna z nejvýznamnějších ztrát během služby je způsobena faktorem přerušení, změnou kontextu: jediné přerušení může mít za následek ztrátu nejméně 20 minut kvůli ztrátě pozornosti a přepnutí kontextu. Je pravděpodobné, že vaše týmy budou mít jiné zdroje přerušení, jako jsou vstupenky generované jinými týmy, požadavky nebo otázky přicházející prostřednictvím chatu a/nebo e-mailu. V závislosti na objemu těchto dalších přerušení můžete zvážit jejich přidání do stávající rotace ve službě nebo nastavení druhé rotace jen pro vyřízení těchto dalších požadavků.

Je důležité to vzít v úvahu, když plánujete práci, kterou bude tým dělat, a to jak z dlouhodobého, tak i krátkodobého hlediska. Pokud váš tým má tendenci mít poměrně intenzivní pracovní směny, je třeba tuto skutečnost vzít v úvahu při dlouhodobém plánování, protože můžete narazit na situaci, kdy je celý personál efektivně ve službě v kteroukoli danou dobu, spíše než dělat jinou práci. Při krátkodobém plánování se můžete setkat s tím, že osoba na zavolání není schopna dodržet termíny kvůli svým povinnostem na zavolání – to by se mělo očekávat a zbytek týmu by měl být ochoten vyjít vstříc a pomoci zajistit, aby hotovo a zavolání je podporováno při plnění pracovních úkolů. Bez ohledu na to, zda je volaná osoba povolána, ovlivní tato směna schopnost volané osoby vykonávat jinou práci – neočekávejte, že zavolaná osoba bude pracovat v noci, aby dokončila naplánované projekty kromě toho, že ve službě po pracovní době.

Týmy budou muset najít způsob, jak se vyrovnat s nadbytečnou prací vznikající ve službě. Tato práce by mohla být skutečnou prací na řešení skutečných problémů zjištěných monitorovacími a výstražnými systémy, nebo by to mohla být práce na opravě sledování a výstrah za účelem snížení počtu falešně pozitivních výstrah. Ať už je povaha vytvářeného díla jakákoli, je důležité tuto práci rozdělit spravedlivě a udržitelně napříč týmem. Ne všechny pracovní směny jsou si rovny a některé jsou složitější než jiné, takže prohlášení, že osoba, která obdrží výstrahu, je osobou odpovědnou za řešení všech důsledků této výstrahy, může vést k nerovnoměrnému rozdělení práce. Pro osobu ve službě může být smysluplnější, aby byla odpovědná za plánování nebo distribuci práce s očekáváním, že zbytek týmu bude ochoten pomoci dokončit vytvořenou práci.

Vytváření a udržování rovnováhy mezi pracovním a soukromým životem

Zamyslete se nad tím, jaký dopad má služba na váš život mimo práci. Když jste ve službě, pravděpodobně se budete cítit svázáni se svým mobilním telefonem a notebookem, to znamená, že s sebou vždy nosíte notebook a mobilní router (usb modem) nebo jednoduše neopustíte svůj domov/kancelář. Být v pohotovosti obvykle znamená vzdát se věcí, jako je setkání s přáteli nebo rodinou během vaší směny. To znamená, že délka každé směny závisí na počtu lidí ve vašem týmu a frekvence směn může lidi nepřiměřeně zatěžovat. Možná budete muset experimentovat s délkou a načasováním směn, abyste našli rozvrh, který bude vyhovovat alespoň většině zúčastněných lidí, protože různé týmy a lidé budou mít různé priority a preference.

Je důležité si uvědomit, jaký dopad bude mít služba na životy lidí, a to jak na úrovni řízení, tak na úrovni jednotlivce. Je třeba poznamenat, že dopad nepoměrně pocítí lidé s menšími privilegii. Pokud například musíte trávit čas péčí o děti nebo jiné členy rodiny nebo pokud zjistíte, že většina domácích prací leží na vašich bedrech, máte již méně času a energie než někdo, kdo je nemá. Tento typ práce „druhé směny“ nebo „třetí směny“ má tendenci neúměrně ovlivňovat lidi, a pokud zavedete střídání na zavolání s rozvrhem nebo intenzitou, která předpokládá, že účastníci nemají žádný osobní život mimo kancelář, omezujete lidi, kteří může být součástí vašeho týmu.

Povzbuďte lidi, aby se snažili více dodržovat svůj pravidelný rozvrh. Měli byste zvážit poskytnutí mobilních směrovačů (usb modemů) týmu, aby lidé mohli odejít z domu se svým notebookem a stále měli nějaké zdání života. Povzbuďte lidi, aby si v případě potřeby na krátkou dobu vzájemně vyměnili pracovní pohotovost, aby lidé mohli ve službě chodit do posilovny nebo k lékaři. Nevytvářejte kulturu, kde být v pohotovosti znamená, že inženýři doslova nedělají nic jiného, ​​než že jsou v pohotovosti. Rovnováha mezi pracovním a soukromým životem je důležitou součástí každé práce, ale zvláště když vezmete v úvahu hodiny mimo službu, starší členové vašeho týmu by měli jít ostatním příkladem, pokud jde o rovnováhu mezi pracovním a soukromým životem, pokud možno ve službě.

Na individuální úrovni nezapomeňte vysvětlit, co znamená být ve službě svým přátelům, rodině, partnerům, domácím mazlíčkům atd. (vašim kočkám to bude pravděpodobně jedno, protože jsou vzhůru už ve 4 hodiny ráno, když dostanete upozornění , i když vám to v žádném případě nebudou chtít pomoci vyřešit). Ujistěte se, že jste po skončení směny dohnali ztracený čas, ať už jde o setkání s přáteli, rodinou nebo například spát. Pokud můžete, zvažte nastavení tichého budíku (například chytrých hodinek), který vás může probudit bzučením vašeho zápěstí, abyste nevzbudili nikoho ve vašem okolí. Najděte způsoby, jak se o sebe postarat, když jste uprostřed pracovní směny a když je po ní. Možná budete chtít sestavit „sada pro přežití na zavolání“, která vám pomůže relaxovat: poslouchejte seznam skladeb vaší oblíbené hudby, čtěte svou oblíbenou knihu nebo si udělejte čas na hraní se svým mazlíčkem. Manažeři by měli podporovat péči o sebe tím, že dají lidem po týdnu ve službě den volna a zajistí, aby lidé požádali (a dostali) pomoc, když ji potřebují.

Zlepšení pracovní zkušenosti

Celkově vzato, být ve službě by nemělo být vnímáno jen jako hrozná práce: jako osoba ve službě máte příležitost a odpovědnost aktivně pracovat na tom, aby to bylo lepší pro lidi, kteří budou ve službě v budoucnu, což znamená, že budou dostávat méně zpráv a budou přesnější. Opět platí, že sledování hodnoty vašich upozornění pomocí něčeho, jako je Opsweekly, vám může pomoci zjistit, co vám znepříjemňuje vaši telefonát, a napravit to. U neaktivních upozornění se zeptejte sami sebe, zda existují způsoby, jak se těchto upozornění zbavit – možná to znamená, že se budou spouštět pouze během pracovní doby, protože na některé věci prostě nemusíte reagovat uprostřed noci. Nebojte se smazat upozornění, změnit je nebo změnit způsob odesílání z „odeslat na telefon a e-mail“ na „pouze e-mailem“. Experimentování a iterace jsou klíčem ke zlepšení služeb v průběhu času.

U výstrah, které jsou skutečně použitelné, byste měli zvážit, jak snadné je pro technika provést potřebnou akci. Každé spuštěné upozornění by mělo mít runbook, který k němu patří – zvažte použití nástroje, jako je nagios-herald, abyste k upozorněním přidali odkazy na runbook. Pokud je upozornění natolik jednoduché, že nepotřebuje runbook, je pravděpodobně dostatečně jednoduché na to, abyste mohli automatizovat odezvu pomocí něčeho jako obslužné programy událostí Nagios, což lidem ušetří nutnost vstávat nebo vyrušovat kvůli snadno automatizovaným úkolům. Runbooky i nagios-herald vám mohou pomoci přidat cenný kontext k vašim upozorněním, což lidem pomůže na ně efektivněji reagovat. Zjistěte, zda dokážete odpovědět na běžné otázky, jako například: Kdy bylo toto upozornění naposledy spuštěno? Kdo na to odpověděl minule a jaké kroky nakonec podnikl (pokud vůbec nějaké)? Jaká další upozornění se zobrazují současně s tímto a souvisejí? Tento typ kontextových informací často končí pouze v lidských mozcích, takže podpora kultury dokumentování a sdílení kontextových informací může snížit režijní náklady potřebné k reakci na výstrahy.

Velká část únavy, která pochází z pohotovostí, spočívá v tom, že nikdy neskončí – pokud má váš tým pohotovostní služby, je nepravděpodobné, že by kdykoli v dohledné době skončily. Směny nikdy nekončí a můžeme mít pocit, že budou vždy hrozné. Tento nedostatek naděje je velkým duševním problémem, který může přispívat ke stresu a vyčerpání, takže řešení vnímání (kromě reality), že povinnost bude vždy hrozná, je dobrým místem, kde začít přemýšlet o své povinnosti z dlouhodobého hlediska.

Aby lidé měli naději, že se situace ve službě někdy zlepší, je nutné mít sledovatelnost systému (stejné sledování a kategorizace služeb, o kterých jsem se zmínil dříve). Sledujte, kolik upozornění máte, jaké procento z nich vyžaduje zásah obsluhy, kolik z nich probudí lidi, a pak pracujte na vytvoření kultury, která lidi povzbudí k lepším věcem. Pokud máte velký tým, může být lákavé, jakmile se vaše hodinky chýlí ke konci, rozhodit rukama a říct „to je problém budoucího důstojníka“, než se vrtat a něco opravit – kdo chce utrácet víc úsilí ve službě, než je od nich požadováno? Právě zde může mít kultura empatie velký význam, protože se nestaráte jen o své blaho ve službě, ale také o své kolegy.

Všechno je to o empatii

Empatie je důležitou součástí toho, co nám umožňuje řídit výkon, který zlepšuje zážitek z hovoru. Jako manažer nebo člen můžete pozitivně hodnotit nebo dokonce odměňovat lidi za chování, díky kterému je směna lepší. Provozní podpora je jednou z těch oblastí, kde mají inženýři často pocit, že jim lidé věnují pozornost pouze tehdy, když se něco pokazí: lidé na ně budou křičet, když se stránka zhroutí, ale málokdy se dozvědí o zákulisních snahách provozu. inženýři se postarali o to, aby web po zbytek času běžel. Rozpoznání práce může jít daleko, ať už jde o poděkování někomu na schůzce nebo v obecném e-mailu za zlepšení konkrétní výstrahy, technického aspektu služby nebo poskytnutí času někomu, aby na chvíli kryl jiného inženýra ve směně.

Povzbuzujte lidi, aby věnovali čas a úsilí zlepšení své pohotovostní situace v dlouhodobém horizontu. Pokud má váš tým pohotovost, měli byste si tuto práci naplánovat a upřednostnit stejným způsobem, jakým byste pracovali na své cestovní mapě. On-call má 90% entropii, a pokud nebudete aktivně pracovat na jejich zlepšení, budou se časem zhoršovat a zhoršovat. Spolupracujte se svým týmem a zjistěte, co lidi nejlépe motivuje a odměňuje, a pak to použijte k povzbuzení lidí, aby snižovali výstražný hluk, psali runbooky a vytvářeli nástroje, které řeší jejich problémy na zavolání. Ať děláte cokoli, nespokojte se s hroznou povinností jako trvalou součástí stavu věcí.

Zdroj: www.habr.com

Přidat komentář