Праћење у дата центру: како смо стари БМС заменили новим. Део 3

Настављамо причу о томе како смо променили БМС систем у нашим дата центрима (Део КСНУМКС, Део КСНУМКС). У исто време, нисмо једноставно заменили решење једног добављача за другог, већ смо развили систем од нуле да би одговарао нашим захтевима. На крају наше приче делимо резултате обављеног посла и занимљива решења која би вам могла бити од користи.

Нови интерфејс

Овде је, како кажу, боље једном видети.

Праћење у дата центру: како смо стари БМС заменили новим. Део 3Рацкс.

Хајде да погледамо разлике.

  • Прво, то је красиво згодно. Обратите пажњу на то како је постало лако пратити оптерећења на ПДУ модулима („Банке“ или једноставно „Банке“) и збир паралелних оптерећења упарених модула. На рацк моделу из новог БМС-а, одмах видимо да су доњи упарени ПДУ модули преоптерећени (укупна струја је већа од дозвољених 16А - „плаво“ обавештење), а горњи су подоптерећени. Ако је један од улаза искључен, целокупно оптерећење ће се пренети на други, а доњи модул који остаје под напоном ће се искључити због преоптерећења. Да се ​​то не би догодило, служба подршке дата центра ће унапред упозорити клијента и послати препоруку како да прерасподели оптерећење.
  • Лако додавање опреме. У новом БМС-у, виртуелни сензори за збир струја модула и снаге рек-а су већ додати стандардним шаблонима река и креирају се аутоматски након додавања ПДУ-а у рацк. У старом БМС-у, морали су да се креирају ручно, а затим повуку на мапу, што је повећало вероватноћу грешке због „људског фактора“.
  • Неограничен простор за креативност. Сада немамо ограничења при креирању виртуелних сензора. Можете изградити апсолутно било који математички модел било које променљиве. То значи да имамо могућност да креирамо сложене виртуелне сензоре (раније смо могли само да додајемо вредности) и боље анализирамо статистику и трендове у перформансама инжењерских система. Ово побољшава квалитет одлука донетих у вези са конфигурацијом система, заменом опреме и управљањем ресурсима. 
  • Интуитивни интерфејс. У новом интерфејсу нема гужве са иконама, вентилатори се окрећу, прекидачи „кликну“. А најпогоднија ствар је могућност означавања статуса ПДУ линије А/Б унутар регала. Покушали смо да урадимо нешто слично у старом БМС-у, али нас је број спојених икона по квадратном центиметру мапе натерао да то напустимо.

Сада је лепо погледати:

Праћење у дата центру: како смо стари БМС заменили новим. Део 3
Сервер.

Праћење у дата центру: како смо стари БМС заменили новим. Део 3
Фрагмент главне централе.

Праћење у дата центру: како смо стари БМС заменили новим. Део 3
Контролна табла за вентилацију.

А нови БМС се може украсити за Нову годину :)
Праћење у дата центру: како смо стари БМС заменили новим. Део 3

Једна страница – међусобно разумевање без речи и без техничких спецификација

Дуго смо желели да имплементирамо још један „трик“ у БМС: да саставимо главне параметре дата центра на једној страници, тако да би један поглед на екран био довољан за процену статуса главних система. Међутим, нисмо у потпуности разумели како би то требало да изгледа.

И пре него што је почео развој новог БМС-а, посетили смо десетак дата центара у Холандији на екскурзијама. Један од циљева је био да се виде примери имплементације такве странице.

И ниједан дата центар нам то није показао – у некима га није било, у другима се „тренутно развија“, у трећима је то била „велика пословна тајна“. Дакле, у нашем задатку за креирање новог БМС-а није било прецизног описа ове за нас веома важне странице.

Као резултат тога, дошли смо до њега буквално „у ходу“. Управо у том тренутку морао сам на даљину да консултујем колеге у дата центру. Било је веома незгодно скроловати по страницама БМС-а на телефону у потрази за разбацаним подацима, а заправо је прва верзија скицирана на салвети Једна страна. Програмери су га имплементирали на основу фотографије. 

По угледу на наше опрезне холандске колеге, нећемо демонстрирати коначну верзију наше главне странице, поготово што је сваки центар података јединствен и нема смисла да га копирамо. Али хајде да опишемо два главна принципа његовог формирања:

  1. Ово је табела дизајнирана да одговара формату вертикалног екрана паметног телефона (или монитора, али има вертикални распоред), са свим важним информацијама приказаним на једном екрану. Изнад табеле је „резиме“ активних инцидената, тако да је било најпогодније да их поставите заједно у вертикални формат. 
  2. Распоред ћелија у табели прати архитектуру дата центра (физичку или логичку). Напустили смо распоред система по азбучном реду, како би на први поглед било пожељно. Ова секвенца одражава визуелне асоцијације особља центра података - као да физички надгледају све просторије и системе. Ово олакшава проналажење информација.

Наиме, сада су апсолутно све кључне карактеристике дата центра груписане и представљене на једном екрану паметног телефона/монитора одговорног инжењера и менаџера, док је имплементирано повезивање са физичком и логичком топографијом дата центра. 

Ево фотографије тог првог нацрта, мада је, наравно, онда ова верзија поново осмишљена и финализована.

Праћење у дата центру: како смо стари БМС заменили новим. Део 3

Признање и сажетак инцидента

Хајде да причамо о још једном новом концепту за нас, који је настао као резултат пројекта ажурирања система за праћење.

Руковање је прилично редак термин који је предложио програмер новог БМС-а. То значи потврду да је оператер видео инцидент, да га је признао и да је прихватио одговорност да га реши.  

Реч се задржала и сада „признајемо“ инциденте.

Алгоритам укључен у основну верзију новог БМС-а нам није одговарао. У ствари, то су били коментари на дневник догађаја, односно решени инциденти нису нестали из дневника, а прихваћени („потврђени“) нису сортирани из нових.

Као резултат, развијен је прозор под називом „резиме“, у којем:

  1. Приказују се само активни инциденти и уређаји у сервисном режиму (без комерцијалних плавих обавештења).
  2. Постоји јасна разлика између НОВИХ и ПРИХВАТЉЕНИХ инцидената.
  3. Указује се ко је прихватио инцидент.

Алгоритам рада дежурних у новом БМС је следећи:

  1. Нови инциденти су укључени у извештај и чекају на потврду. На овој деоници не могу да остану дуже време, дежурни за опрему мора одмах да преузме одговорност за инцидент.
  2. Запослени преузима одговорност за инцидент кликом на квачицу са десне стране. Пошто су сви запослени под јединственим налозима, аутоматски се приказује ко је прихватио инцидент. Ако је потребно, оставите коментар.
  3. Инцидент се премешта у одељак „Прихваћено“, остали дежурни и руководилац разумеју да инцидентом руководи одговорни запослени.

Праћење у дата центру: како смо стари БМС заменили новим. Део 3
Пример прозора са резимеом са новом и већ потврђеном поруком.

Повезивањем прозора резимеа са табелом Оне паге, добили смо пуну Главни екран БМС систем, где се одмах види: 

  • стање система главних дата центара;
  • присуство нових необрађених инцидената;
  • присуство прихваћених инцидената и информације о томе ко их конкретно елиминише.

Приступ прегледачу и искачућа упозорења на телефону

Веб интерфејс, доступан са било ког уређаја са било ког места у свету, је очигледан контраст у односу на „дебео“ клијент, који је потпуно затворен за спољне кориснике. 

Стари приступ је подразумевао низ непријатности, од проблема у организовању рада на даљину за надзор запослених у служби до потребе за инсталирањем „дебелих” клијената из дистрибутивних комплета на радне станице особља у дата центру.

Сада свака страница у БМС-у има јединствену адресу, која вам омогућава да делите не само директну адресу странице или уређаја, већ и везе до јединствених графикона/извештаја. 

Приступ систему се сада врши путем ЛДАП аутентификације преко Ацтиве Дирецтори-а, што повећава његов ниво сигурности. 

Мобилност је данас кључни фактор у квалитетном раду дежурних инжењера. Поред праћења праћења у дежурној просторији, инжењери обилазе, обављају рутинске послове ван „дежурне собе“ и, захваљујући главном екрану БМС оптимизованом за екране мобилних уређаја, не губе контролу над оним што се дешава чак ни у турбинским просторијама. за секунду. 

Квалитет контроле је такође побољшан захваљујући функционалности радних разговора. Они убрзавају радне процесе тако што омогућавају да се кореспонденција дежурних инжењера „повеже“ са БМС-ом. На пример, користимо апликацију Теамс, која вам омогућава да водите интерну кореспонденцију и примате све поруке са БМС-а на свој телефон у облику искачућих Пусх обавештења, што елиминише потребу да дежурни стално гледа у телефон екран.

Праћење у дата центру: како смо стари БМС заменили новим. Део 3
 Пусх обавештење на екрану паметног телефона.

Праћење у дата центру: како смо стари БМС заменили новим. Део 3
Овако изгледају обавештења у апликацији Теамс.

У исто време, искачућа обавештења су конфигурисана само за поруке о настанку инцидената, чиме се минимизира фактор ометања; особље зна: ако се на екрану паметног телефона појави Теамс Пусх обавештење, онда треба да оде на страницу БМС и прихвати инцидент. Поруке о решавању инцидената се прате на страници БМС.

Праћење у дата центру: како смо стари БМС заменили новим. Део 3
Фотографија приказује БМС интерфејс у ​​паметном телефону.

Резиме

Док је цена ажурирања БМС-а нашег старог добављача била упоредива са развојем новог система од нуле (око 100 долара), разлика у функционалности производа се показала колосалном. Добили смо флексибилан систем оптимизован за наше пословне задатке и процесе. Такође смо постигли значајне уштеде у текућим трошковима подршке и надоградње система. 

Али, наравно, било је потешкоћа. 

  • Прво, потценили смо количину промена које је требало да се изврши у основној верзији новог БМС-а и нисмо испунили унапред договорене рокове. За нас то није био критичан проблем, јер смо до последњег тренутка били осигурани и радили по старом систему, а процес је био креативан, сложен и због тога је понекад ишао спорије него што се очекивало. Поред тога, увек смо видели да наш програмер улаже све напоре да постигне најбољи резултат. Али у ствари, испоставило се да је прича веома дуга, а наши кључни стручњаци су на то потрошили много више труда и времена него што су планирали. 
  • Друго, било нам је потребно неколико фаза тестирања да бисмо отклонили грешке у алгоритму за резервисање виртуелних машина и комуникационих канала. У почетку је било кварова како на страни БМС система, тако и на страни подешавања виртуелних машина и мреже. Ово отклањање грешака такође је трајало. На срећу, извођачу је обезбеђена тест платформа у виду клауд сервиса, где су сва подешавања и иновације првобитно тестиране.
  • Треће, показало се да је резултујући систем тежи за уређивање од стране крајњег корисника. Ако се раније мапа састојала од позадине (графичке датотеке) и икона које је било лако мењати или померати, сада је то сложен графички интерфејс са анимацијом који захтева одређене вештине уређивања.

Радикално ажурирање нашег БМС система већ се може назвати најважнијим пројектом у протеклој години, који ће у будућности озбиљно утицати на квалитет оперативног управљања нашим сајтовима. 

Ми, наравно, нисмо избацили стари гвоздени сервер, већ смо га „олакшали“: очистили смо га од хиљада „комерцијалних“ виртуелних сензора и ПДУ-ова и оставили у њему само неколико десетина најкритичнијих уређаја, као што је дизел генераторски сетови, УПС, клима уређаји, пумпе, сензори цурења и температуре У овом режиму, његова бивша брзина се вратила и он може бити „резервна резерва“. Иначе, након уклањања ПДУ-а из старог БМС-а ослободили смо око 1000 сада непотребних лиценци, да ли случајно знате шта да радите са њима?

Извор: ввв.хабр.цом

Додај коментар