CASE әдісі: гуманистік мониторинг

CASE әдісі: гуманистік мониторинг
Дзиииин! Сағат түнгі 3 болды, сіз керемет түс көріп жатырсыз, кенеттен қоңырау соғылды. Сіз осы аптада кезекшіліктесіз, бірдеңе болған сияқты. Автоматтандырылған жүйе ненің дұрыс емес екенін анықтауға шақырады. Бұл заманауи компьютерлік жүйелерді басқарудың маңызды аспектісі, бірақ хабарландыруларды адамдар үшін қалай жақсырақ ету керектігін қарастырайық.

Мониторинг философиясымен таныс болыңыз, ол менің бірнеше ондаған жылдар бойы әртүрлі мониторингтік командалардағы міндеттерімнен туындады. Оған негізінен Роб Еващуктың шынайы Библиясы әсер етті Менің ескерту туралы философиям (My Notification Philosophy) кітабына енгізілген Google SRE, және Джон Алспау кітабы Ескерту дизайнын қарастыру (Ескертулерді орнату туралы ескертпелер).

Келли Данн, Ариджит Мухери и Максим Петаццони — постты өңдеуге көмектескеніңіз үшін рахмет.

CASE дегеніміз не?

сияқты әдемі аббревиатураны ойлап таптым Брендан Греггтің USE әдісі немесе Том Уилкидің ҚЫЗЫЛ әдісі. Мен оны атаймын CASE әдісі. Ол автоматты бақылаумен жұмыс істеу кезінде назар аудару керек төрт тармақты сипаттайды:

Егер сіз CASE қолдансаңыз, сіз хабарландыруларға салауаттылықпен қарайсыз және түнде адамдарды оятпайсыз. Мониторингтің пайдалылығы мен тиімділігіне үнемі баға беру керек. Адам хабарландыруды алған кезде, олардың психикалық үлгілері жақсырақ болады және сенімділік артады.

Есте сақтауды жеңілдету үшін сізге CASE қажет деп елестетіңіз [яғни, жағдай, себеп - аудармашының жазбасы] әрбір ескертуді негіздеу үшін. :күн көзілдірігі:

Ал мұның бәрі неліктен?

Кезекшілікте болу ауыртпалық болуы мүмкін. Көптеген себептер бойынша. Ал CASE олардың барлығын жоймайды. Бірақ оның көмегімен сіз жақсы хабарландырулар үшін түнде оянасыз. Бұл әдіс әртүрлі ұйымдастырушылық процестерді қамтиды, олар да осы мәселеде көмектеседі.

ҚЫЗЫЛ және USE әдістерінің сұлулығы сол, олардың көмегімен біз қалай жұмыс істеу керектігін біліп қана қоймай, бір-бірімізбен бір тілде сөйлесеміз. Менің үмітім CASE әдісі біздің жүйелерімізді қорғайтын, бірақ әріптестерімізді бос ұстайтын хабарландыруларды талқылауды жеңілдетеді.

Мәселе мынада: сіздің ұйымыңызда хабарландыруларға салауатты немқұрайлылықпен қарайтын мәдениетті қалыптастыру керек. Хабарландырулар белгілі бір мақсат үшін жасалуы мүмкін, бірақ кейінірек олардың құндылығын жоғалтпайтыны шындық емес. Бұл хабарландыруды не үшін орнаттық? Оның критерийлері қанша уақыт бұрын қайта қаралды? CASE көмегімен бұл сұрақтарға жауап беруге болады.

Context-Heavy - контекстпен байланыстыру

Таңертеңгі сағат 3-те көптеген ақылды сөздерді қамтитын хабарламаларды оқудың ең жақсы уақыты емес. Тиімді жауап беру үшін сізге ақпарат қажет. Ең дұрысы, бұл мәтінмән бірден түсінікті болатын нақты мәселе туралы ақпарат болуы керек және хабарландырулар бұл мүмкін болатындай конфигурациялануы керек. Бұл «бақылау» және «бағдарлау». OODA циклі. Бұл орнатуға уақыт бөлу ұят емес, өйткені адамды үнемі алаңдату одан да қымбатырақ. Бір-бірімізді сыйлайық.

CASE әдісі: гуманистік мониторинг
Мәселелердің көптеген көздері бар. Әсіресе елестер.

Кезекшіге қалай көмектесе аламын? Кезекшінің бірінші көретіні – хабарлама, сондықтан ол барлық гипотезаларды соның негізінде құрастырады. Содан кейін ол нұсқаулар мен бақылау тақталарына қарайды, бірақ тек жалпы ақпарат емес, белгілі бір хабарламада әрқашан деректер бар ма? Alspaugh «хабарландыруды қалай түсіндіруге немесе оған жауап беруге болатынын ойлауға» кеңес береді (слайд 29)1. Жақсы хабарландыру тек шекпен конфигурацияланған емес, кезекшіге бағытталған.

Сонымен, хабарландыру контекстін жақсарту туралы кейбір идеялар:

  • Пайдаланушыға қарапайым нұсқауларды немесе бақылау тақтасын емес, пайдалы және арнайы жасалған нәрсені көрсетіңіз. Бұрын жігіттер мен мен арнайы хабарландырулар үшін конфигурацияланған тергеу бақылау тақталарын пайдаландық. Бұл мәселе белгілі болса көмектеседі, бірақ басқаларды шатастырады. Біз осы жерде тепе-теңдікті табуымыз керек.
  • Хабарландырудың тарихы туралы айтып беріңізші: бұл жаңа ма? Ол жиі жұмыс істей ме? Бұл маусымдық па?
  • Жүйе күйіне соңғы өзгерістерді көрсету. Жақында бірдеңе өзгерді ме? (Мысалы, қолдану немесе функционалдылықты қосу/өшіру.)
  • Қарым-қатынастарды көрсетіңіз және психикалық модель үшін ақпарат беріңіз: жүйелік тәуелділіктер анық көрінуі керек, жақсырақ функционалдық көрсеткіші бар.
  • Пайдаланушыны командамен жылдам байланыстырыңыз: олар болып жатқан оқиғаларды көре ала ма немесе компанияда тағы кім хабарлама алғанын біле ала ма? Бағдарлама оқиғаларды басқару белсендірілді?

Ең дұрысы, оқыс оқиғаларды басқару бағдарламасы инциденттерді тергеудің хабарландыру контекстін жақсарту туралы кеңес береді. Әрқашан жұмыс істейтін нәрсе бар!

Әрекет етуші – практикалық құндылық

Хабарламаға жауап ретінде кезекші бірдеңе істеу керек пе? Егер сізге ештеңе істеудің қажеті болмаса немесе не істеу керек екені белгісіз болса, оны неге ояттыңыз? Кезекшілерді ренжітетін және әрекетті қажет етпейтін хабарландырулардан аулақ болу керек.

imgur.com қарау кейінгі

Не істеуім керек? Саған не керек?

Бұрын, жүйелер қарапайым және командалар шағын болған кезде, біз бақылауды жай ғана бақылап отыру үшін орнаттық. Үймедегі жүктеменің артқаны туралы хабарландыру, егер қызмет кейіннен дұрыс жұмыс істемесе, бізге контекст береді. Кең ауқымда мұндай хабарландырулар тек шатасушылық туғызады, өйткені біздің жүйелер әрқашан әртүрлі ауырлықтағы тозу күйінде жұмыс істейді. Бұл тез әкеледі хабарландырулардан шаршау және, әрине, сезімталдықты жоғалту. Сондықтан кезекші мұндай хабарламаларды елемейді, тіпті сүзгіден өткізеді және қажет болған жағдайда оларға жауап бермейді. Бұл тұзаққа түспеңіз! Барлық хабарландыруларды қатарынан орнатпаңыз, содан кейін оларды электрондық пошта арқылы құдайдың ұмытылған қалтасына жіберіңіз.

Практикалық мәні бар хабарламаның көрінісі мынада:

  • Хабарландыру тек жаңалықтарды хабарлаудың орнына әрекетті қажет етеді.
  • Бұл әрекетті автоматтандыру қиын немесе қауіпті. Егер әрекетті автоматтандыруға болатын болса, онда оны автоматтандырыңыз, адамдарды ренжітуді доғарыңыз!
  • Хабарлама нысанда шұғыл ұсыныстарды қамтиды қызмет көрсету деңгейіндегі келісімдер (SLA) немесе қалпына келтіру уақытының мақсаты (RTO). Содан кейін кезекші ұйымның оқиғаларды басқару бағдарламасын іске қоса алады.

Мен түсіндіргім келеді: хабарландырулар API үшін ең маңызды SLO (қызмет деңгейіндегі мақсаттар) үшін ғана келуі керек деп айтпаймын. SLO мониторингі үнемі фрагменттелген және бөлінген және барлық қызметтерге бірдей көзқарасты талап етеді. Сізге төлейтін клиенттер үшін ең маңызды SLO-ларды қадағалайтыныңыз анық. Бірақ дерекқорлар сияқты инфрақұрылымдық SLO-ларды да бақылау қажет. Жақында ішкі тұтынушылармен жұмыс істеуге және оларға қолдау көрсетуге тура келеді. Және т.б. ad infinitum.

Симптомға негізделген – белгілерге екпін беру

Сізге ұнайды ма, жоқ па, сіз бөлінген жүйеде жұмыс істейсіз (Каваж)2. Нәтижесінде сіз қызметтерді оқшаулау және оларды сәтсіздіктен қорғау үшін әртүрлі тактикаларды қолданасыз (Trainor және т.б.)3. Кешіктірілген қоқыс жинау немесе тоқтап қалған дерекқор сұрауы ақауларды көрсетсе де, пайдаланушылардың жақын арада проблемалары болмаса, оларды түзетуге асығудың қажеті жоқ.

Бұл маңызды сигналдар және практикалық мәнге ие болуы мүмкін, бірақ олар пайдаланушыларды алаңдатпаса, онда кезекшінің назарын аудару үшін шұғыл емес. Себеп-негізделген хабарландырулар жүйенің сәтсіздігі туралы ақыл-ой үлгілерінің суреті болып табылады. Сәтсіздіктің барлық ықтимал себептерін тізімдеуге тырысқаннан гөрі маңызды белгілерді бақылаған дұрыс.

Хабарландыруларды мағыналы ету үшін назар аударыңыз өнімділік көрсеткіштері, пайдаланушылар үшін маңызды. Еващук мұны «пайдаланушыларды бақылау» деп атайды. Есіңізде болсын, бұл философия бүкіл ұйымда қолданылуы керек. Егер қызметте инфрақұрылымның терең жерінде шұғыл мәселелер болса, тиісті топ олармен айналысады. Жүйелерді мұндай сәтсіздіктерден қорғау мүлдем бөлек мәселе (Тренер және т.б., маңызды тәуелділіктерді азайту стратегиялары бөлімі)3.

Симптомдар соншалықты айнымалы емес

Ричард Кук күрделі жүйелердің кемшіліктерге, кемшіліктерге және проблемаларға толы екенін еске салады4. Барлық мүмкін себептерді тізімдеуге тырысу - бұл сисифтік тапсырма. Сіз проблемаларды сипаттауға тырысасыз, бірақ олар әрқашан өзгереді. Синди Шридхаран «жүйелер секунд сайын мінсіз күйде болуы міндетті емес» деп санайды және адами көзқарасты қолданған дұрыс («Таратылған жүйелердің бақылау мүмкіндігі» («Таратылған жүйелерді бақылау»), 7)5.

Оқиғадан кейін хабарландырулардан аулақ болыңыз

Әдетте себептер туралы хабарландырулар оқиғаларды түзету үшін конфигурацияланады. Оқиға фактісі туралы бұл шектеулі хабарландырулар жалған қауіпсіздік сезімін тудырады, өйткені жүйе әр уақытта бұзудың жаңа әдістерін ойлап табады.

Себептер туралы ескертулерге алданып қалмаңыз. Жақсырақ ойлаңыз:

  • Неліктен симптомға негізделген хабарландыру мәселені байқамады?
  • Пайдаланушы үшін контекстті жақсарту пайдалы ма?
  • Не болғаны туралы хабарландыруларды жинақтаудан гөрі, диагнозды тезірек қою үшін бақылау құралдарын қалай жақсартуға болады?

Диагностикаға арналған бақылау құралдары, егер сіз оларды симптомнан шешімге көшу әдісі ретінде қарастырсаңыз ғана көмектеседі. Бұл кері байланыссыз сіз жай ғана кеш хабарландырулармен және өткен сәтсіздіктер туралы диаграммалармен бомбаланатын боласыз, болашақтағылар туралы бір сөз де емес. Бұл ұйымның қорғаныстан шабуылға өтуіне тамаша мүмкіндік. Ал әзірлеушілер мен өнім менеджерлерінің үміттері мен айқын мақсаттары бірдей болады. Іс - CASE (:wink:) - әрбір хабарландыру үшін түсінікті.

Себептерге негізделген хабарландырулар модерацияда қабылданады

Кейде жүйе бізге себепке негізделген хабарландырулар тұрғысынан аз таңдау қалдырады. Кейде кезекшілер симптомның міндетті түрде сәтсіздікке әкелетінін жақсы түсінеді, сондықтан оның практикалық мәні бар. Мүмкін сіз не болып жатқанын білмейсіз және хабарландыруларды қауіпсіз жақта болу үшін орнатып жатырсыз. Өнімділік мәселесін шешу үшін жүйені өзгерткенше бұл әрекет уақытша болады деп үміттенеміз.
Осы жағдайлармен айналысқанда CASE басқа құрамдастарын есте сақтаңыз. Бұл уақытша болғандықтан, сіз басыңызбен ойлауды тоқтата аласыз дегенді білдірмейді.

Бағаланған – бағалау

Жүйедегі кез келген өзгерістер (жаңа код, жаңа инфрақұрылым, жаңа нәрсе) сәтсіздіктер ауқымын кеңейтеді (Кук, 3).4 Бұл хабарландыру күткендей жұмыс істей ме? Кейбір қолдау хабарландыруларына жауап беретін жүйелер мен тәжірибенің анық және ағымдағы психикалық үлгілері алдын алу тәсілі - бұл негізгі ерекшеліктер оқытуға бағытталған ұйым. Жүйелердегі ақаулар үнемі дамып отырады және біз олармен бірге жүруіміз керек.

Әрбір хабарландырудың күткендей жұмыс істейтініне көз жеткізу үшін оның сапасын үнемі бағалау қажет. Құрметті басшылар! Бұл процесті орнатуға көмектессеңіз, командаларыңызға оңайырақ болады! Міне, кейбір бағалау идеялары:

  • Пайдаланыңыз хаос инженериясы, ойын күндері немесе хабарландыруды тексерудің басқа әдістері. Команда мұны ауыр оқиғаларды басқару жүйесіне сенбей-ақ жасай алады!
  • Оқиғаға қатысты барлық хабарландырулар жинағын оқиғаны басқару бағдарламасына қосыңыз. Пайдалы, зиянды, орынсыз, түсініксіз және т.б. белгілеңіз. Оларды кері байланыс ретінде пайдаланыңыз.
  • Дұрыс хабарландырулар сирек іске қосылады және мұқият тексеріледі. Барлық сілтемелер жұмыс істейтініне, дұрыс контекстке нұсқайтынына және т.б.
  • Егер хабарландыру ешқашан қосылмаса немесе тым жиі қосылса, онда бірдеңе дұрыс емес. Оны түзетіңіз немесе алып тастаңыз. Шамадан тыс пассивтіліктен немесе белсенділіктен сақ болыңыз!
  • Жарамдылық мерзімі бар хабарландыру уақыт белгілерін орнатыңыз. Егер жарамдылық мерзімі өтіп кетсе, CASE әдісі арқылы хабарландыруды бағалаңыз және уақыт белгісін жаңартыңыз. Тамақ сияқты, жарамдылық мерзімін үнемі тексеріңіз.
  • Хабарландыруларды жақсарту процесін жеңілдетіңіз. Бақылауды код ретінде пайдаланыңыз және хабарландыруларды Git репозиторийінде сақтаңыз. Тарту сұраулары топты тартуға көмектеседі және өткен хабарландырулар тарихын береді. Енді сіз хабарландыруларды өзгертуден немесе оларға жауапты адамдардан рұқсат сұраудан қорықпайсыз.
  • Қарапайым болса да, хабарландырулар үшін кері байланыс орнатыңыз Google пішіні, сондықтан кезекшілер хабарламаларды пайдасыз немесе интрузивті деп белгілейді. Сілтемені немесе әрекетке шақыруды хабарландырудың өзіне енгізіп, пікіріңізді жүйелі түрде қарап шығыңыз.
  • Ұжымда тәртіп орнатыңыз - жұмыс аз болған кезде кезекшілікті жеңілдету үшін кезекшілер жұмыс істесін. Сізден кейін бәрі бұрынғыдан сәл жақсырақ болсын.

қорытынды

CASE әдісі әзірлеушілер мен ұйымдарға автоматтандырылған хабарландыруларды орнату және жіберу мәселелерін талқылауға көмектеседі деп ойлаймын. Бір әзірлеуші ​​CASE әдісі арқылы хабарландыруларды бағалауды бастай алады, содан кейін хабарландыруларды жақсы күйде ұстау үшін бүкіл ұйым басқа әзірлеушілермен, басқарумен және оқиғаларды басқару бағдарламаларымен қосылады. Бұл арнайы құралдарды немесе күрделі процестерді қажет етпейді.

Бүкіл сала тұтынушыларға жоғары сапалы қызмет көрсетуден бас тартпай, кезекшілік кезінде адам факторы туралы ойлауы керек. Барлық осы құралдар мен тәжірибелерді жақсартуға болады және қажет. Бұған CASE әдісі көмектеседі деп үміттенемін.

Жақсартылған хабарландырулардан рахат алыңыз!
CASE әдісі: гуманистік мониторинг

Ақпарат көзі: www.habr.com

пікір қалдыру