Пра што варта задумацца пры ўкараненні дзяжурстваў

Аўтар артыкула "Effective DevOps" Райн Дэніелс (Ryn Daniels) дзеліцца стратэгіямі, якія кожны можа выкарыстоўваць для стварэння больш якасных, не раздражняльных і ўстойлівых ратацый дзяжурных Oncall.

Пра што варта задумацца пры ўкараненні дзяжурстваў

Са з'яўленнем Devops, шматлікія інжынеры ў нашы дні так ці інакш арганізуюць дзяжурствы, што калісьці было выключна абавязкам сісадмінаў ці інжынераў па эксплуатацыі. Дзяжурства, якое асабліва праходзіць у непрацоўныя гадзіны, не з'яўляецца задачай, якая падабаецца большасці людзей. Дзяжурства Oncall можа парушаць наш сон, перашкаджаць звычайнай працы, якую мы спрабуем зрабіць на працягу дня і перашкаджаць нашым жыцці ў цэлым. Паколькі ўсё больш і больш каманд удзельнічаюць у дзяжурствах, мы задаліся пытаннем - "Што мы як асобныя людзі, каманды і арганізацыі, можам зрабіць для таго, каб дзяжурствы сталі больш чалавечнымі і стабільнымі?".

Захоўваем сон

Часта першае, пра што думаюць людзі, калі ўспамінаюць пра дзяжурства, гэта тое, што яно негатыўна паўплывае на іх сон; ніхто не жадае, каб алерт разбудзіў іх пасярод ночы. Калі ваша арганізацыя або каманда стане дастаткова вялікай, вы можаце выкарыстоўваць ратацыю «услед за сонцам (follow-the-sun)», калі каманды, якія знаходзяцца ў некалькіх гадзінных паясах, удзельнічаюць у адной і той жа ратацыі, пры гэтым дзяжурныя змены будуць карацей, так што кожны гадзінны пояс будзе дзяжурыць толькі падчас сваіх працоўных (ці, прынамсі, прачынацца) гадзін. Устаноўка такой ратацыі можа цудоўна дапамагчы са зніжэннем начной нагрузкі, якую бярэ на сябе дзяжурны.

Калі ў вас бракуе інжынераў і іх геаграфічнага размеркавання для забеспячэння ратацыі "услед за сонцам (follow-the-sun)", усё яшчэ ёсць тое, што можна зрабіць, каб паменшыць верагоднасць таго, што людзей будуць будзіць пасярод ночы без неабходнасці. У рэшце рэшт, адна справа - устаць з ложка ў 4 гадзіны раніцы, каб вырашыць актуальную, звернутую да кліента праблему; зусім іншае - прачнуцца толькі для таго, каб выявіць, што маеш справу з ілжывай трывогай. Гэта можа дапамагчы праверыць усе абвесткі, якія вы наладзілі, і спытаць вашу каманду, якія з іх сапраўды патрэбныя, каб абудзіць кагосьці ў непрацоўны час, і ці могуць гэтыя абвесткі пачакаць да раніцы. Можа быць цяжка прымусіць людзей пагадзіцца адключыць некаторыя непрацоўныя абвесткі, асабліва калі прапушчаныя праблемы выклікалі праблемы ў мінулым, але важна памятаць, што інжынер, пазбаўлены сну, не зяўляецца самым эфектыўным інжынерам. Усталюйце гэтыя абвесткі на працоўны час, калі яны сапраўды важныя. Большасць інструментаў абвестак у нашы дні дазваляюць наладжваць розныя правілы для апавяшчэнняў у непрацоўны час, няхай гэта будзе перыяды апавяшчэнняў Nagios або настройка розных раскладаў у PagerDuty.

Сон, дзяжурства і камандная культура

Іншыя спосабы вырашэння праблемы парушэння сну звязаны з значнейшымі культурнымі зменамі. Адзін са спосабаў вырашэння гэтай праблемы заключаецца ў удасканаленьні алертаў, надаючы асаблівую ўвагу таму, калі яны паступаюць і ці з'яўляюцца яны дзейснымі. Opsweekly - Гэта інструмент, створаны і апублікаваны кампаніяй Etsy, які дазваляе камандам адсочваць і класіфікаваць атрыманыя папярэджання. Ён можа генераваць графікі, якія паказваюць колькі папярэджанняў разбудзілі людзей (з дапамогай дадзеных "Аб сне" ад фітнес-трэкераў), а таксама колькі папярэджанняў на самой справе мелі патрэбу ў дзеяннях з боку чалавека. Выкарыстоўваючы гэтыя тэхналогіі, вы можаце адсочваць эфектыўнасць вашай ратацыі дзяжурных і яе ўплыў на сон з цягам часу.

Каманда можа іграць пэўную ролю ў забеспячэнні дастатковага адпачынку кожнага дзяжурнага. Стварыце культуру, якая заахвочвае людзей клапаціцца пра сябе: калі вы губляеце сон з-за таго, што вас выклікалі ноччу, вы можаце паспаць крыху даўжэй з раніцы, каб паспрабаваць нагнаць упушчаны час сну. Чальцы каманды могуць даглядаць адна за адной: калі каманды дзеляцца сябар з сябрам дадзенымі аб сваім сне праз нешта накшталт Opsweekly, яны могуць пайсці да сваіх калег па дзяжурстве і сказаць: «Гэй, падобна, у цябе была цяжкая ноч з PagerDuty мінулай ноччу — хочаш, каб я прыкрыў цябе сёння ўвечары, каб ты мог крыху адпачыць»? Заклікайце людзей падтрымліваць адзін аднаго такім чынам і не ўхваляйце «культуру герояў», дзе людзі будуць дацягваць да мяжы, пазбягаючы просьбаў аб дапамозе.

Скарачэнне ўплыву дзяжурстваў на працы

Калі інжынеры стаміліся, таму што іх разбудзілі падчас дзяжурства, яны, відавочна, не будуць працаваць са 100% сілай на працягу дня, але нават без уліку недосыпа, дзяжурства можа таксама мець іншыя наступствы для працы. Адна з найзначнейшых страт падчас дзяжурства злучана з фактарам перапынення, зменай кантэксту: адно перапыненне можа прывесці да страты не меней 20 хвілін з-за страты фокусу і пераключэнні кантэксту. Цалкам верагодна, што ў вашых каманд будуць іншыя крыніцы перапыненняў, такія як цікеты, якія генерыруюцца іншымі камандамі, запыты ці пытанні, якія паступаюць праз чат і/ці па электроннай пошце. У залежнасці ад аб'ёму гэтых іншых перапыненняў, вы можаце разгледзець магчымасць дадання іх да існуючай ратацыі падчас дзяжурства або наладкі другой ратацыі толькі для апрацоўкі гэтых іншых запытаў.

Важна прымаць гэта да ўвагі, калі вы плануеце працу, якую будзе выконваць каманда як на доўгатэрміновай, так і на кароткатэрміновай аснове. Калі ў вашай камандзе ёсць тэндэнцыя да даволі інтэнсіўных дзяжурных змен, гэты факт неабходна ўлічваць пры доўгатэрміновым планаванні, бо ў вас, магчымая сітуацыя, калі ўвесь персанал, эфектыўна займаецца дзяжурствам у любы момант часу, а не іншай працай. У кароткатэрміновым планаванні вы можаце выявіць, што дзяжурны не ў стане ўкласціся ва ўстаноўленыя тэрміны з-за яго абавязкаў па дзяжурстве - гэтага варта чакаць, а астатнія члены каманды павінны быць гатовы прыстасавацца і дапамагчы, каб пераканацца, што праца будзе выканана і дзяжурны атрымае падтрымку у сваіх працоўных задачах. У незалежнасці ад таго ці будзе дзяжурны выкліканы, дзяжурная змена паўплывае на яго здольнасць выконваць іншую працу - не чакайце, што дзяжурны будзе працаваць па начах, каб завяршыць запланаваныя праекты ў дадатак да дзяжурства ў непрацоўны час.

Каманды павінны будуць знайсці спосаб справіцца з дадатковай працай, якая генеруецца на дзяжурствах. Гэтая праца можа быць рэальнай працай па выпраўленні рэальных праблем, выяўленых з дапамогай сістэм маніторынгу і абвесткі, ці гэта можа быць праца па выпраўленні маніторынгу і папярэджанняў, каб паменшыць колькасць ілжывастаноўчых абвестак. Якім бы ні быў характар ​​ствараемай работы, важна справядліва і ўстойліва размеркаваць гэтую работу па камандзе. Не ўсе дзяжурныя змены раўназначныя, некаторыя складанейшыя за іншыя, таму сцвярджэнне аб тым, што чалавек, які атрымаў алерт, з'яўляецца асобай, адказнай за ўстараненне ўсіх наступстваў гэтай абвесткі, можа прывесці да нераўнамернага размеркавання працы. Магчыма, для дзяжурнага больш разумна быць адказным за планаванне ці размеркаванне працы, чакаючы, што астатняя частка каманды будзе гатова дапамагчы з завяршэннем створанай працы.

Стварэнне і падтрыманне балансу паміж працай і асабістым жыццём (work-life balance)

Падумайце аб уплыве, якое аказваецца дзяжурствам на жыццё па-за працай. Калі вы на дзяжурстве, верагодна, вы будзеце адчуваць сябе прывязаным да вашага мабільнага тэлефона і ноўтбука, гэта значыць, што вы заўсёды носіце з сабой ноўтбук і мабільны роўтэр (usb мадэм) ці проста не выходзіце з дому/офіса. Быць дзяжурным звычайна азначае адмовіцца ад такіх рэчаў, як сустрэчы з сябрамі ці сям'ёй падчас вашай змены. Гэта азначае, што працягласць кожнай змены залежыць ад колькасці людзей у вашай камандзе, і частата змен можа стаць празмерным цяжарам для людзей. Магчыма, вам давядзецца паэксперыментаваць з працягласцю і графікам вашых змен, каб знайсці расклад, прыдатны як мінімум для большасці ўцягнутых людзей, паколькі розныя каманды і людзі будуць мець розныя прыярытэты і перавагі.

Вельмі важна ўсведамляць уплыў, які дзяжурства акажа на жыццё людзей, як на ўзроўні кіравання, так і на індывідуальным узроўні. Варта адзначыць, што ўздзеянне будзе адчувацца пераважна людзьмі з меншымі прывілеямі. Напрыклад, калі вам даводзіцца марнаваць час на догляд за дзецьмі ці іншымі членамі сям'і ці калі вы выявіце, што большая частка працы па хаце кладзецца на вашыя плечы, у вас ужо ёсць менш часу і энергіі, чым у кагосьці, у каго няма гэтых абавязкаў. Такая праца "другой змены" ці "трэцяй змены" мае тэндэнцыю непрапарцыйна ўплываць на людзей, і калі вы ўсталюеце ратацыю па дзяжурстве з графікам або інтэнсіўнасцю, якая мяркуе, што ва ўдзельнікаў няма асабістага жыцця за межамі офіса, вы абмяжоўваеце людзей, якія змогуць удзельнічаць у вашай камандзе.

Заахвочвайце людзей у спробах захаваць большую частку свайго звычайнага графіка. Вы павінны падумаць аб тым, каб падаць камандзе мабільныя роўтэры (usb мадэмы), каб людзі маглі пакінуць хату са сваім наўтбукам і пры гэтым мець некаторае падабенства жыцця. Заахвочвайце людзей абменьвацца гадзінамі дзяжурства сябар з сябрам, калі гэта неабходна, на працягу кароткіх перыядаў часу, каб людзі маглі хадзіць у спартзалу ці наведваць лекара падчас дзяжурства. Не стварайце культуру, дзе дзяжурства павінна азначаць, што інжынеры ў літаральным сэнсе нічога не робяць, акрамя як дзяжураць. Баланс паміж працай і асабістым жыццём з'яўляецца важнай часткай любой працы, але асабліва, калі ўлічыць непрацоўны час, больш старэйшыя члены вашай каманды павінны паказваць прыклад астатнім у плане балансу працы і асабістым жыцці, настолькі, наколькі гэта магчыма падчас дзяжурства.

На індывідуальным узроўні не забудзьцеся растлумачыць што азначае дзяжурства сваім сябрам, чальцам сям'і, партнёрам, хатнім жывёлам і т. д. (вашым коткам, хутчэй за ўсё, будзе ўсё роўна, бо яны і так устаюць у 4 раніцы, калі вам прыходзіць алерт, хоць яны ні ў якім разе не захочуць дапамагаць вам з яго рашэннем). Пераканайцеся, што вы нагналі выпушчаны час пасля таго, як ваша змена скончылася, няхай гэта будзе сустрэчы з сябрамі, роднымі ці напрыклад, сон. Калі можаце, падумайце аб наладзе бясшумнага будзільніка (напрыклад, разумных гадзін), якія могуць абудзіць вас, гудзенне ў вас запясце, каб не абудзіць нікога вакол вас. Знайдзіце спосабы паклапаціцца пра сябе, калі вы знаходзіцеся ў разгар дзяжурнай змены і калі яна скончана. Магчыма, вы захочаце сабраць «набор для выжывання на дзяжурстве», які дапаможа вам паслабіцца: паслухаць плэйліст каханай музыкі, пачытаць каханую кнігу ці вылучыць час, каб пагуляць з хатняй жывёлай. Мэнэджары павінны заахвочваць клопат пра сябе, даючы людзям выходны дзень пасля тыдня дзяжурства і сочачы за тым, каб людзі прасілі (і атрымлівалі) дапамогу, калі яна ім патрэбна.

Паляпшэнне досведу дзяжурства

У цэлым, знаходжанне на дзяжурстве не павінна ўспрымацца толькі як жахлівая праца: у вас ёсць магчымасць і адказнасць як чалавека, які ўдзельнічае ў дзяжурствах для таго, каб актыўна працаваць з мэтай зрабіць іх лепш для людзей, якія будуць дзяжурыць у будучыні, а гэта азначае, што людзі будуць атрымліваць менш паведамленняў і яны будуць больш дакладнымі. Зноў жа, адсочванне каштоўнасці вашых абвестак, выкарыстоўваючы нешта накшталт Opsweekly, можа садзейнічаць высвятленню таго, што робіць ваша дзяжурства раздражняльным і выправіць гэта. Для неактыўных абвестак спытаеце сябе, ці ёсць спосабы пазбавіцца ад гэтых абвестак - магчыма, гэта азначае, што яны будуць спрацоўваць толькі ў працоўны час, таму што ёсць некаторыя рэчы, на якія вам проста не трэба рэагаваць пасярод ночы. Не бойцеся выдаляць абвесткі, змяняць іх ці змяняць спосаб адпраўкі з "дасылаць на тэлефон і на электронную пошту" на "толькі на электронную пошту". Эксперыментаванне і ітэрацыя з'яўляюцца ключом да паляпшэння дзяжурстваў з цягам часу.

Для абвестак, якія на самой справе з'яўляюцца дзейнымі, вы павінны падумаць аб тым, наколькі проста для інжынера выканаць неабходныя дзеянні. Кожнае працавальнае апавяшчэнне, павінна мець runbook, які ідзе разам з ім - разгледзьце магчымасць выкарыстання такой прылады, як nagios-herald, каб дадаць спасылкі на Runbook да вашых абвестак. Калі апавяшчэнне настолькі простае, што яму не патрэбен модуль Runbook, яно, верагодна, і досыць простае, каб вы маглі аўтаматызаваць адказ, выкарыстоўваючы нешта накшталт апрацоўшчыкаў падзей Nagios, што пазбаўляе людзей ад неабходнасці прачынацца ці перарывацца для лёгка аўтаматызуемых задач. І runbooks, і nagios-herald могуць дапамагчы вам дадаць каштоўны кантэкст у вашыя абвесткі, што дапаможа людзям больш эфектыўна рэагаваць на іх. Паглядзіце, ці зможаце вы адказаць на такія распаўсюджаныя пытанні, як: Калі апошні раз спрацоўваў гэты алерт? Хто адказаў на яго ў мінулы раз, і якія дзеянні яны ў канчатковым выніку распачалі (калі такія маюцца)? Якія іншыя абвесткі з'яўляюцца адначасова з гэтым і ці злучаны яны? Гэты від кантэкснай інфармацыі часта аказваецца толькі ў мазгах людзей, таму заахвочванне культуры дакументавання і абмену кантэкснай інфармацыяй можа скараціць аб'ём накладных расходаў, неабходных для рэагавання на папярэджанні.

Істотная частка стомленасці, якая ўзнікае з-за дзяжурстваў, заключаецца ў тым, што яны ніколі не заканчваюцца - калі ў вашай камандзе ёсць дзяжурствы, малаверагодна, што яны скончацца калі заўгодна ў агляднай будучыні. Дзяжурствы ніколі не канчаюцца, і мы можам адчуваць пачуццё, што яны заўсёды будуць жудаснымі. Гэтая адсутнасць надзеі з'яўляецца вялікай ментальнай праблемай, якая можа спрыяць стрэсу і знясіленню, таму зварот да ўспрымання (у дадатак да рэальнасці) таго, што дзяжурствы заўсёды будуць жудасныя - гэта добры старт, каб пачаць думаць пра свае дзяжурствы ў доўгатэрміновай перспектыве.

Для таго, каб даць людзям надзею на тое, што сітуацыя на дзяжурствах калі-небудзь палепшыцца, неабходна мець назіральнасць сістэмы (тое самае адсочванне і катэгарызацыя дзяжурстваў, пра якую я згадваў раней). Сачыце за тым, колькі папярэджанняў у вас ёсць, які працэнт з іх патрабуюць умяшання дзяжурнага, колькі з іх будзяць людзей, а затым працуйце над стварэннем культуры, якая падахвочвае людзей рабіць рэчы лепш. Калі ў вас вялікая каманда, можа быць павабна, як толькі ваша дзяжурства падыходзіць да канца, апусціць рукі і сказаць "гэта праблема будучыні дзяжурнага", а не капацца, каб нешта выправіць - хто хоча выдаткаваць больш намаганняў на дзяжурствы, чым ад іх патрабуецца? Вось дзе культура эмпатыі можа мець вялікае значэнне, таму што вы клапоціцеся не толькі аб сваім дабрабыце на дзяжурстве, але і аб сваіх калегах.

Гэта ўсё аб эмпатыі

Эмпатыя - важная частка таго, што дазваляе нам стымуляваць працу, якая паляпшае вопыт дзяжурстваў. Будучы мэнэджэрам або ўдзельнікам, вы можаце станоўча ацаніць ці нават узнагародзіць людзей за іх паводзіны, якое робіць дзяжурства лепш. Падтрымка сістэм (operations) - гэта адна з тых абласцей, дзе інжынеры часта адчуваюць, што людзі звяртаюць на іх увагу толькі тады, калі нешта ідзе не так: людзі будуць побач, каб крычаць на іх, калі сайт падае, але яны рэдка даведаюцца аб тых "закадравых" намаганнях, якія інжынеры-аператары ўкладваюць у тое, каб сайт працаваў на працягу ўсяго астатняга часу. Прызнанне працы можа мець вялікае значэнне, няхай гэта будзе падзяка каму-небудзь на сходзе або ў агульнай электроннай пошце за паляпшэнне канкрэтнага алерта, тэхнічнага аспекту дзяжурства, або прадастаўленне камусьці часу для падмены іншага інжынера на змене на некаторы час.

Заахвочвайце людзей марнаваць час і намаганні на тое, каб палепшыць сітуацыю на дзяжурствах у доўгатэрміновай перспектыве. Калі ў вашай камандзе ёсць дзяжурствы, вы павінны планаваць і расстаўляць прыярытэты для гэтай працы гэтак жа, як і для любой іншай працы ў вашай дарожнай карце (roadmap). Дзяжурствы - гэта на 90% энтрапія, і калі вы не будзеце актыўна працаваць над іх паляпшэннем, з часам яны будуць станавіцца ўсё горш і горш. Папрацуйце з вашай камандай, каб высветліць, што лепш матывуе і заахвочвае людзей, а затым выкарыстоўвайце гэта, каб заахвоціць людзей паменшыць шум абвестак, напісаць runbooks і стварыць інструменты, якія вырашаць іх праблемы на дзяжурствах. Што б вы ні рабілі, не згаджайцеся на жудасныя дзяжурствы, як на нязменную частку стану спраў.

Крыніца: habr.com

Дадаць каментар