Monitoring in het datacenter: hoe we het oude GBS hebben vervangen door een nieuw exemplaar. Deel 3

We vervolgen ons verhaal over hoe we het BMS-systeem in onze datacenters hebben veranderd (Deel 1, Deel 2). Tegelijkertijd hebben we niet simpelweg de oplossing van de ene leverancier ingeruild voor de andere, maar hebben we een systeem vanaf nul ontwikkeld dat aan onze eisen voldoet. Aan het einde van ons verhaal delen we de resultaten van het uitgevoerde werk en interessante oplossingen die voor u nuttig kunnen zijn.

Nieuwe interface

Hier is het, zoals ze zeggen, beter om het een keer te zien.

Monitoring in het datacenter: hoe we het oude GBS hebben vervangen door een nieuw exemplaar. Deel 3Rekken.

Laten we eens kijken naar de verschillen.

  • Eerst is красиво gemakshalve. Merk op hoe gemakkelijk het is geworden om de belastingen op PDU-modules (“Banken” of eenvoudigweg “Banken”) en de som van parallelle belastingen van gepaarde modules te volgen. Op het rackmodel van het nieuwe BMS zien we meteen dat de onderste gekoppelde PDU-modules overbelast zijn (de totale stroom is hoger dan de toegestane 16A - "blauwe" melding) en de bovenste onderbelast zijn. Als een van de ingangen wordt losgekoppeld, wordt de volledige belasting overgedragen naar de tweede en wordt de onderste module die bekrachtigd blijft, uitgeschakeld vanwege overbelasting. Om dit te voorkomen, zal de ondersteuningsdienst van het datacenter de klant vooraf waarschuwen en een aanbeveling sturen over hoe de belasting opnieuw kan worden verdeeld.
  • Gemakkelijk toevoegen van apparatuur. In het nieuwe BMS zijn virtuele sensoren voor de som van modulestromen en rackvermogen al toegevoegd aan standaard racksjablonen en worden deze automatisch aangemaakt na het toevoegen van een PDU aan het rack. In het oude GBS moesten ze handmatig worden aangemaakt en vervolgens naar de kaart worden gesleept, waardoor de kans op fouten vanwege de ‘menselijke factor’ groter werd.
  • Onbeperkte mogelijkheden voor creativiteit. Nu hebben we geen beperkingen bij het maken van virtuele sensoren. U kunt absoluut elk wiskundig model van elke variabele bouwen. Dit betekent dat we de mogelijkheid hebben om complexe virtuele sensoren te creëren (voorheen konden we alleen waarden toevoegen) en statistieken en trends in de prestaties van technische systemen beter kunnen analyseren. Dit verbetert de kwaliteit van de beslissingen die worden genomen met betrekking tot systeemconfiguratie, vervanging van apparatuur en resourcebeheer. 
  • Duidelijke interface. In de nieuwe interface is er geen wirwar aan pictogrammen, ventilatoren draaien, schakelaars ‘klikken’. En het handigste is de mogelijkheid om de status van PDU Line A/B in de racks aan te geven. We probeerden iets soortgelijks te doen in het oude BMS, maar het aantal samengevoegde pictogrammen per vierkante centimeter van de kaart dwong ons hiervan af te zien.

Nu is het leuk om naar te kijken:

Monitoring in het datacenter: hoe we het oude GBS hebben vervangen door een nieuw exemplaar. Deel 3
Server.

Monitoring in het datacenter: hoe we het oude GBS hebben vervangen door een nieuw exemplaar. Deel 3
Fragment van het hoofdschakelbord.

Monitoring in het datacenter: hoe we het oude GBS hebben vervangen door een nieuw exemplaar. Deel 3
Ventilatie bedieningspaneel.

En het nieuwe BMS kan versierd worden voor het nieuwe jaar :)
Monitoring in het datacenter: hoe we het oude GBS hebben vervangen door een nieuw exemplaar. Deel 3

Eén pagina – wederzijds begrip zonder een woord en zonder technische specificaties

We wilden heel lang nog een ‘truc’ in BMS implementeren: de belangrijkste parameters van het datacenter op één pagina samenbrengen, zodat één blik op het scherm voldoende zou zijn om de status van de belangrijkste systemen te beoordelen. We begrepen echter nog niet helemaal hoe het eruit moest zien.

Nog voordat de ontwikkeling van het nieuwe BMS begon, bezochten we op excursie een tiental datacenters in Nederland. Eén van de doelen was om voorbeelden te zien van de implementatie van zo'n pagina.

En geen enkel datacenter heeft het ons laten zien - in sommige gevallen was het er niet, in andere werd het “op dit moment ontwikkeld”, in andere was het een “groot bedrijfsgeheim”. Daarom was er in onze taakomschrijving voor het maken van een nieuw BMS geen nauwkeurige beschrijving van deze zeer belangrijke pagina voor ons.

Het resultaat was dat we het letterlijk ‘on the fly’ bedachten. Juist op dat moment moest ik op afstand overleggen met collega’s in het datacenter. Het was erg lastig om aan de telefoon door de pagina's van BMS te bladeren op zoek naar verspreide gegevens, en in feite was de eerste versie op een servet geschetst Eén pagina. Het werd door de ontwikkelaars geïmplementeerd op basis van de foto. 

In navolging van onze voorzichtige Nederlandse collega's zullen we niet de definitieve versie van onze hoofdpagina demonstreren, vooral omdat elk datacenter uniek is en het geen zin heeft om deze te kopiëren. Maar laten we twee hoofdprincipes van de vorming ervan beschrijven:

  1. Dit is een tafel die is ontworpen om te passen in het formaat van een verticaal smartphonescherm (of een monitor, maar met behoud van een verticale lay-out), waarbij alle belangrijke informatie op één scherm wordt weergegeven. Boven de tabel staat een ‘samenvatting’ van actieve incidenten, dus het was het handigst om ze samen in een verticaal formaat te plaatsen. 
  2. De rangschikking van cellen in de tabel volgt de architectuur van het datacenter (fysiek of logisch). We hebben de indeling van systemen in alfabetische volgorde opgegeven, zoals op het eerste gezicht wenselijk zou zijn. De volgorde weerspiegelt de visuele associaties van datacenterpersoneel, alsof ze alle kamers en systemen fysiek in de gaten houden. Dit maakt het gemakkelijker om informatie te vinden.

In feite zijn nu absoluut alle belangrijke kenmerken van het datacenter gegroepeerd en gepresenteerd op één scherm van de smartphone/monitor van de verantwoordelijke ingenieur en manager, terwijl de koppeling met de fysieke en logische topografie van het datacenter is geïmplementeerd. 

Hier is een foto van die allereerste versie, hoewel deze versie daarna uiteraard opnieuw werd bedacht en voltooid.

Monitoring in het datacenter: hoe we het oude GBS hebben vervangen door een nieuw exemplaar. Deel 3

Erkenning en samenvatting van het incident

Laten we het hebben over een ander nieuw concept voor ons, dat naar voren kwam als resultaat van het project om het monitoringsysteem te updaten.

Handshake is een vrij zeldzame term die werd voorgesteld door de ontwikkelaar van het nieuwe BMS. Het betekent de bevestiging dat de operator het incident heeft gezien, erkend en verantwoordelijkheden aanvaard om het op te lossen.  

Het woord is blijven hangen en nu “erkennen” we incidenten.

Het algoritme dat in de basisversie van het nieuwe BMS zat, beviel ons niet. In feite waren dit opmerkingen over het gebeurtenislogboek, dat wil zeggen dat opgeloste incidenten niet uit het logboek verdwenen en geaccepteerde ("erkende") incidenten niet van nieuwe werden gescheiden.

Als gevolg hiervan werd een venster met de naam “samenvatting” ontwikkeld, waarin:

  1. Alleen actieve incidenten en apparaten in servicemodus worden weergegeven (geen commerciële blauwe meldingen).
  2. Er is een duidelijk onderscheid tussen NIEUWE en GEACCEPTEERDE incidenten.
  3. Er wordt aangegeven wie het incident heeft geaccepteerd.

Het werkalgoritme voor dienstdoende officieren in het nieuwe BMS is als volgt:

  1. Nieuwe incidenten worden in het rapport opgenomen en wachten op bevestiging. Ze kunnen niet lang in deze sectie blijven; de persoon die dienst doet voor het materieel moet onmiddellijk de leiding over het incident overnemen.
  2. De medewerker neemt de verantwoordelijkheid voor het incident op zich door op het vinkje rechts te klikken. Omdat alle medewerkers onder unieke accounts staan, wordt automatisch weergegeven wie het incident heeft geaccepteerd. Laat indien nodig een reactie achter.
  3. Het incident wordt verplaatst naar de sectie ‘Erkend’. De rest van de dienstdoende functionarissen en de manager begrijpen dat het incident wordt afgehandeld door de verantwoordelijke medewerker.

Monitoring in het datacenter: hoe we het oude GBS hebben vervangen door een nieuw exemplaar. Deel 3
Voorbeeld van een overzichtsvenster met een nieuw en reeds bevestigd bericht.

Door het overzichtsvenster te verbinden met de tabel van één pagina, kregen we een volledige hoofdscherm GBS-systeem, waar u direct kunt zien: 

  • staat van de belangrijkste datacentersystemen;
  • aanwezigheid van nieuwe onverwerkte incidenten;
  • de aanwezigheid van geaccepteerde incidenten en informatie over wie deze specifiek elimineert.

Browsertoegang en telefoon-pop-upwaarschuwingen

De webinterface, toegankelijk vanaf elk apparaat en waar ook ter wereld, staat in schril contrast met de ‘dikke’ client, die volledig gesloten is voor externe gebruikers. 

De oude aanpak bracht een reeks ongemakken met zich mee, van problemen bij het organiseren van werken op afstand voor het monitoren van servicemedewerkers tot de noodzaak om ‘thick’ clients uit distributiekits te installeren op de werkstations van het personeel in het datacenter.

Nu heeft elke pagina in BMS een uniek adres, waarmee u niet alleen het directe adres van de pagina of het apparaat kunt delen, maar ook links naar unieke grafieken/rapporten. 

Toegang tot het systeem wordt nu uitgevoerd via LDAP-authenticatie via Active Directory, wat het beveiligingsniveau verhoogt. 

Mobiliteit is tegenwoordig een sleutelfactor in het kwaliteitswerk van dienstdoende ingenieurs. Naast de monitoring in de ploegendienst, maken ingenieurs rondes, voeren ze routinewerk uit buiten de dienstruimte en verliezen ze, dankzij het voor mobiele schermen geoptimaliseerde BMS-hoofdscherm, zelfs de controle niet over wat er in de turbinekamers gebeurt. voor een seconde. 

De kwaliteit van de controle wordt ook verbeterd dankzij de functionaliteit van werkchats. Ze versnellen de werkprocessen doordat de correspondentie van dienstdoende monteurs kan worden “gekoppeld” aan het GBS. Wij maken bijvoorbeeld gebruik van de Teams-applicatie, waarmee u interne correspondentie kunt voeren en alle berichten van het BMS op uw telefoon kunt ontvangen in de vorm van pop-up Push-meldingen, waardoor de dienstdoende officier niet voortdurend naar de telefoon hoeft te kijken scherm.

Monitoring in het datacenter: hoe we het oude GBS hebben vervangen door een nieuw exemplaar. Deel 3
 Pushmelding op het smartphonescherm.

Monitoring in het datacenter: hoe we het oude GBS hebben vervangen door een nieuw exemplaar. Deel 3
Zo zien meldingen er uit in de Teams-app.

Tegelijkertijd zijn pop-upmeldingen alleen geconfigureerd voor berichten over het optreden van incidenten, waardoor de afleidingsfactor wordt geminimaliseerd; het personeel weet: als er een Teams Push Notification op het smartphonescherm verschijnt, moeten ze naar de BMS-pagina gaan en accepteer het incident. Berichten over het oplossen van incidenten worden bijgehouden op de BMS-pagina.

Monitoring in het datacenter: hoe we het oude GBS hebben vervangen door een nieuw exemplaar. Deel 3
De foto toont de BMS-interface in een smartphone.

Samengevat

Hoewel de kosten voor het updaten van een BMS van onze oude leverancier vergelijkbaar waren met het helemaal opnieuw ontwikkelen van een nieuw systeem (ongeveer $ 100), bleek het verschil in functionaliteit van de producten enorm. We kregen een flexibel systeem dat geoptimaliseerd was voor onze zakelijke taken en processen. We hebben ook aanzienlijke besparingen gerealiseerd op de doorlopende systeemondersteuning en upgradekosten. 

Maar er waren natuurlijk moeilijkheden. 

  • Ten eerste hebben we het aantal wijzigingen onderschat dat moest worden aangebracht aan de basisversie van het nieuwe BMS en hebben we de vooraf afgesproken deadlines niet gehaald. Voor ons was dit geen kritisch probleem, aangezien we tot het laatste moment verzekerd waren en op het oude systeem werkten, en het proces creatief en complex was en daardoor soms langzamer verliep dan verwacht. Daarnaast hebben wij altijd gezien dat onze ontwikkelaar er alles aan doet om het beste resultaat te behalen. Maar in feite bleek het verhaal erg lang te zijn, en onze belangrijkste specialisten hebben er veel meer moeite en tijd aan besteed dan ze hadden gepland. 
  • Ten tweede hadden we verschillende testfasen nodig om het algoritme voor het reserveren van virtuele machines en communicatiekanalen te debuggen. In eerste instantie waren er storingen zowel aan de kant van het BMS-systeem als aan de kant van het opzetten van virtuele machines en het netwerk. Ook dit debuggen kostte tijd. Gelukkig kreeg de opdrachtnemer de beschikking over een testplatform in de vorm van een clouddienst, waar in eerste instantie alle instellingen en innovaties werden getest.
  • Ten derde bleek het resulterende systeem lastiger te bewerken voor de eindgebruiker. Bestond een kaart voorheen uit een achtergrond (grafisch bestand) en pictogrammen die gemakkelijk te wijzigen of te verplaatsen waren, nu is het een complexe grafische interface met animatie die bepaalde bewerkingsvaardigheden vereist.

De ingrijpende update van ons BMS-systeem mag nu al het belangrijkste project van het afgelopen jaar worden genoemd, dat de kwaliteit van de bedrijfsvoering van onze locaties in de toekomst ernstig zal aantasten. 

We hebben de oude ijzeren server natuurlijk niet weggegooid, maar ‘verlicht’: we hebben hem ontdaan van duizenden ‘commerciële’ virtuele sensoren en PDU’s en hebben er slechts enkele tientallen van de meest kritische apparaten in gelaten, zoals diesel generatorsets, UPS, airconditioners, pompen, lekkagesensoren en temperaturen In deze modus is zijn vroegere snelheid teruggekeerd en kan hij een “reservereserve” zijn. Trouwens, na het verwijderen van de PDU uit het oude BMS hebben we ongeveer 1000 nu onnodige licenties vrijgemaakt. Weet jij toevallig wat je ermee moet doen?

Bron: www.habr.com

Voeg een reactie