Monitoring v datovém centru: jak jsme změnili starý BMS na nový. Část 3

Pokračujeme v našem příběhu o tom, jak jsme změnili systém BMS v našich datových centrech (Část 1, Část 2). Přitom jsme nevyměnili řešení jednoho dodavatele za jiného, ​​ale vyvinuli jsme systém od začátku, aby vyhovoval našim požadavkům. Na konci našeho příběhu sdílíme výsledky odvedené práce a zajímavá řešení, která se vám mohou hodit.

Nové rozhraní

Tady, jak se říká, je lepší jednou vidět.

Monitoring v datovém centru: jak jsme změnili starý BMS na nový. Část 3Regály.

Podívejme se na rozdíly.

  • Za prvé, je to красиво удобно Všimněte si, jak snadné se stalo sledovat zatížení modulů PDU („Banky“ nebo jednoduše „Banky“) a součet paralelních zatížení spárovaných modulů. Na modelu racku z nového BMS okamžitě vidíme, že spodní spárované moduly PDU jsou přetížené (celkový proud je vyšší než přípustných 16A - „modré“ upozornění) a horní jsou nedostatečně zatíženy. Pokud je jeden ze vstupů odpojen, celá zátěž se přenese na druhý a spodní modul, který zůstane pod napětím, se vypne kvůli přetížení. Aby k tomu nedošlo, služba podpory datového centra klienta předem upozorní a zašle doporučení, jak přerozdělit zátěž.
  • Snadné doplnění vybavení. V novém BMS jsou virtuální senzory pro součty modulových proudů a výkonu racku již přidány do standardních šablon racku a jsou vytvářeny automaticky po přidání PDU do racku. Ve starém BMS se musely vytvářet ručně a poté přetáhnout na mapu, což zvyšovalo pravděpodobnost chyby v důsledku „lidského faktoru“.
  • Neomezený prostor pro kreativitu. Nyní nemáme žádná omezení při vytváření virtuálních senzorů. Můžete sestavit absolutně jakékoli matematické modely jakýchkoli proměnných. To znamená, že máme možnost vytvářet komplexní virtuální senzory (dříve jsme mohli pouze přidávat hodnoty) a lépe analyzovat statistiky a trendy ve výkonnosti inženýrských systémů. To zlepšuje kvalitu rozhodnutí týkajících se konfigurace systému, výměny zařízení a správy zdrojů. 
  • Intuitivní rozhraní. V novém rozhraní není žádná změť ikon, ventilátory se točí, spínače „cvakají“. A nejpohodlnější věcí je možnost indikovat stav PDU Line A/B uvnitř stojanů. Zkoušeli jsme něco podobného udělat ve starém BMS, ale počet sloučených ikon na centimetr čtvereční mapy nás donutil opustit.

Teď je hezké se podívat na:

Monitoring v datovém centru: jak jsme změnili starý BMS na nový. Část 3
Server.

Monitoring v datovém centru: jak jsme změnili starý BMS na nový. Část 3
Fragment hlavního rozvaděče.

Monitoring v datovém centru: jak jsme změnili starý BMS na nový. Část 3
Ovládací panel ventilace.

A nový BMS může být ozdoben na Nový rok :)
Monitoring v datovém centru: jak jsme změnili starý BMS na nový. Část 3

Jedna stránka – vzájemné porozumění beze slova a bez technických specifikací

Velmi dlouho jsme chtěli v BMS implementovat další „trik“: sestavit hlavní parametry datového centra na jednu stránku tak, aby k posouzení stavu hlavních systémů stačil jeden pohled na obrazovku. Úplně jsme však nepochopili, jak by to mělo vypadat.

Ještě před zahájením vývoje nového BMS jsme na exkurzích navštívili tucet datových center v Nizozemsku. Jedním z cílů bylo vidět příklady implementace takové stránky.

A ani jedno datové centrum nám to neukázalo – v některých to nebylo, v jiných se to „právě vyvíjelo“, v jiných to bylo „velké obchodní tajemství“. Proto v našich zadáních pro tvorbu nového BMS nebyl přesný popis této pro nás velmi důležité stránky.

Výsledkem bylo, že jsme to vymysleli doslova „za běhu“. Právě v tu chvíli jsem musel na dálku konzultovat kolegy v datovém centru. Bylo velmi nepohodlné procházet stránky BMS na telefonu při hledání rozptýlených dat a ve skutečnosti byla první verze načrtnuta na ubrousek Jedna stránka. Implementovali jej vývojáři na základě fotografie. 

Po vzoru našich opatrných holandských kolegů nebudeme demonstrovat finální verzi naší hlavní stránky, zejména proto, že každé datové centrum je jedinečné a nemá smysl je kopírovat. Pojďme si ale popsat dva hlavní principy jeho vzniku:

  1. Jedná se o tabulku navrženou tak, aby se vešla do formátu vertikální obrazovky smartphonu (nebo monitoru, ale se zachováním vertikálního rozložení), se všemi důležitými informacemi zobrazenými na jedné obrazovce. Nad tabulkou je „souhrn“ aktivních incidentů, takže bylo nejvhodnější je umístit dohromady ve vertikálním formátu. 
  2. Uspořádání buněk v tabulce odpovídá architektuře datového centra (fyzické nebo logické). Upustili jsme od řazení soustav v abecedním pořadí, jak by bylo na první pohled žádoucí. Sekvence odráží vizuální asociace pracovníků datového centra – jako by fyzicky monitorovali všechny místnosti a systémy. To usnadňuje vyhledávání informací.

Ve skutečnosti jsou nyní naprosto všechny klíčové charakteristiky datového centra seskupeny a prezentovány na jedné obrazovce chytrého telefonu/monitoru odpovědného inženýra a manažera, přičemž je implementováno propojení s fyzickou a logickou topografií datového centra. 

Zde je fotografie toho úplně prvního návrhu, i když samozřejmě byla tato verze přehodnocena a dokončena.

Monitoring v datovém centru: jak jsme změnili starý BMS na nový. Část 3

Potvrzení a shrnutí incidentu

Pojďme se bavit o dalším pro nás novém konceptu, který vznikl jako výsledek projektu aktualizace monitorovacího systému.

Handshake je poměrně vzácný termín, který navrhl vývojář nového BMS. Znamená potvrzení, že operátor incident viděl, uznal jej a přijal odpovědnost za jeho vyřešení.  

Slovo utkvělo a nyní „přiznáváme“ incidenty.

Algoritmus obsažený v základní verzi nového BMS nám nevyhovoval. Ve skutečnosti se jednalo o komentáře k protokolu událostí, to znamená, že vyřešené incidenty z protokolu nezmizely a přijaté („potvrzené“) nebyly seřazeny od nových.

V důsledku toho bylo vyvinuto okno s názvem „souhrn“, ve kterém:

  1. Zobrazují se pouze aktivní incidenty a zařízení v servisním režimu (žádná komerční modrá upozornění).
  2. Existuje jasný rozdíl mezi NOVÝMI a PŘIJATÉ incidenty.
  3. Je uvedeno, kdo incident přijal.

Algoritmus práce pro důstojníky v novém BMS je následující:

  1. Nové incidenty jsou zahrnuty do zprávy a čekají na potvrzení. Nemohou se v tomto úseku zdržovat dlouho, osoba ve službě u techniky musí incident okamžitě převzít.
  2. Zaměstnanec přebírá odpovědnost za incident kliknutím na zaškrtnutí vpravo. Protože všichni zaměstnanci jsou pod jedinečnými účty, automaticky se zobrazí, kdo incident přijal. V případě potřeby zanechte komentář.
  3. Incident se přesune do sekce „Acknowledged“, zbytek ve službě a manažer chápou, že incident řeší odpovědný zaměstnanec.

Monitoring v datovém centru: jak jsme změnili starý BMS na nový. Část 3
Příklad souhrnného okna s novou a již potvrzenou zprávou.

Propojením souhrnného okna s tabulkou jedné stránky jsme získali plný úvodní obrazovka BMS systém, kde můžete okamžitě vidět: 

  • stav systémů hlavních datových center;
  • přítomnost nových nezpracovaných incidentů;
  • přítomnost přijatých incidentů a informace o tom, kdo je konkrétně odstraňuje.

Přístup do prohlížeče a vyskakovací upozornění telefonu

Webové rozhraní dostupné z jakéhokoli zařízení odkudkoli na světě je v ostrém kontrastu s „tlustým“ klientem, který je externím uživatelům zcela uzavřen. 

Starý přístup znamenal řadu nepříjemností, od problémů s organizací vzdálené práce pro zaměstnance monitorovacích služeb až po nutnost instalovat „tlusté“ klienty z distribučních sad na pracovní stanice zaměstnanců v datovém centru.

Nyní má každá stránka v BMS unikátní adresu, která umožňuje sdílet nejen přímou adresu stránky nebo zařízení, ale také odkazy na unikátní grafy/přehledy. 

Přístup do systému je nyní prováděn prostřednictvím ověřování LDAP prostřednictvím Active Directory, což zvyšuje jeho úroveň zabezpečení. 

Mobilita je dnes klíčovým faktorem pro kvalitní práci techniků ve službě. Kromě monitorování monitorování ve směnárně provádějí inženýři obchůzky, provádějí rutinní práce mimo „pracovní místnost“ a díky hlavní obrazovce BMS optimalizované pro mobilní obrazovky neztrácejí kontrolu nad tím, co se děje v místnostech s turbínami. na vteřinu. 

Kvalita ovládání se zlepšuje také díky funkčnosti pracovních chatů. Urychlují pracovní procesy tím, že umožňují „propojení“ korespondence techniků ve službě s BMS. Využíváme například aplikaci Teams, která vám umožňuje vést interní korespondenci a přijímat všechny zprávy z BMS na vašem telefonu ve formě vyskakovacích upozornění Push, což eliminuje nutnost neustálého koukání na telefon. obrazovka.

Monitoring v datovém centru: jak jsme změnili starý BMS na nový. Část 3
 Oznámení push na obrazovce smartphonu.

Monitoring v datovém centru: jak jsme změnili starý BMS na nový. Část 3
Takto vypadají oznámení v aplikaci Teams.

Současně jsou vyskakovací oznámení nakonfigurována pouze pro zprávy o výskytu incidentů, čímž se minimalizuje faktor rozptylování; zaměstnanci vědí: pokud se na obrazovce smartphonu objeví oznámení Teams Push Notification, musí přejít na stránku BMS a přijmout incident. Zprávy o řešení incidentů jsou sledovány na stránce BMS.

Monitoring v datovém centru: jak jsme změnili starý BMS na nový. Část 3
Na obrázku je rozhraní BMS ve smartphonu.

Sčítání

Zatímco náklady na aktualizaci BMS od našeho starého dodavatele byly srovnatelné s vývojem nového systému od nuly (asi 100 000 USD), rozdíl ve funkčnosti produktů se ukázal být kolosální. Získali jsme flexibilní systém optimalizovaný pro naše obchodní úkoly a procesy. Dosáhli jsme také významných úspor nákladů na průběžnou podporu systému a upgrade. 

Ale samozřejmě byly potíže. 

  • Nejprve jsme podcenili množství změn, které bylo potřeba provést v základní verzi nového BMS, a nedodrželi jsme předem dohodnuté termíny. Pro nás to nebyl kritický problém, protože jsme byli do poslední chvíle pojištěni a pracovali na starém systému a proces byl kreativní, složitý, a proto někdy šel pomaleji, než se očekávalo. Navíc jsme vždy viděli, že náš vývojář vynakládá veškeré úsilí, aby dosáhl co nejlepšího výsledku. Ale ve skutečnosti se příběh ukázal jako velmi dlouhý a naši klíčoví specialisté tomu věnovali mnohem více úsilí a času, než plánovali. 
  • Za druhé jsme potřebovali několik fází testování, abychom odladili algoritmus pro rezervaci virtuálních strojů a komunikačních kanálů. Zpočátku docházelo k výpadkům jak na straně systému BMS, tak na straně nastavení virtuálních strojů a sítě. Toto ladění také zabralo čas. Naštěstí byla dodavateli poskytnuta testovací platforma v podobě cloudové služby, kde se zpočátku testovala všechna nastavení a novinky.
  • Za třetí, výsledný systém se ukázal jako obtížnější na úpravu pro koncového uživatele. Jestliže se dříve mapa skládala z pozadí (grafického souboru) a ikon, které bylo snadné měnit nebo přesouvat, nyní se jedná o komplexní grafické rozhraní s animací, které vyžaduje určité editační schopnosti.

Radikální aktualizaci našeho BMS systému lze již nyní nazvat nejvýznamnějším projektem uplynulého roku, který do budoucna vážně ovlivní kvalitu provozního řízení našich provozoven. 

Starý železný server jsme samozřejmě nevyhodili, ale „odlehčili“: vyčistili jsme ho od tisíců „komerčních“ virtuálních senzorů a PDU a nechali v něm jen několik desítek nejkritičtějších zařízení, jako je diesel generátorová soustrojí, UPS, klimatizace, čerpadla, čidla úniku a teploty V tomto režimu se jeho dřívější rychlost vrátila a může být „rezervní rezervou“. Mimochodem, po odebrání PDU ze starého BMS jsme uvolnili asi 1000 nyní nepotřebných licencí, nevíte náhodou co s nimi?

Zdroj: www.habr.com

Přidat komentář