Überwachung im Rechenzentrum: Wie wir das alte BMS auf das neue umgestellt haben. Teil 3

Wir setzen unsere Geschichte darüber fort, wie wir das BMS-System in unseren Rechenzentren geändert haben (Teil 1, Teil 2). Dabei haben wir nicht einfach die Lösung eines Anbieters gegen einen anderen ausgetauscht, sondern ein System von Grund auf entwickelt, das unseren Anforderungen entspricht. Am Ende unserer Geschichte teilen wir die Ergebnisse der geleisteten Arbeit und interessante Lösungen, die für Sie nützlich sein könnten.

Neue Schnittstelle

Hier ist es, wie man sagt, besser, einmal zu sehen.

Überwachung im Rechenzentrum: Wie wir das alte BMS auf das neue umgestellt haben. Teil 3Gestelle.

Schauen wir uns die Unterschiede an.

  • Erstens ist es красиво komfortabel. Beachten Sie, wie einfach es geworden ist, die Lasten auf PDU-Modulen („Banks“ oder einfach „Banks“) und die Summe der parallelen Lasten gepaarter Module zu verfolgen. Beim Rack-Modell des neuen BMS sehen wir sofort, dass die unteren gepaarten PDU-Module überlastet sind (der Gesamtstrom ist höher als die zulässigen 16A – „blaue“ Meldung) und die oberen unterlastet sind. Wenn einer der Eingänge getrennt wird, wird die gesamte Last auf den zweiten übertragen und das untere Modul, das weiterhin unter Spannung steht, wird aufgrund von Überlastung abgeschaltet. Um dies zu verhindern, warnt der Rechenzentrumssupport den Kunden vorab und sendet eine Empfehlung zur Umverteilung der Last.
  • Einfaches Hinzufügen von Geräten. Im neuen BMS sind virtuelle Sensoren für Summen von Modulströmen und Rack-Leistung bereits zu Standard-Rack-Vorlagen hinzugefügt und werden nach dem Hinzufügen einer PDU zum Rack automatisch erstellt. Im alten BMS mussten sie manuell erstellt und dann auf die Karte gezogen werden, was aufgrund des „menschlichen Faktors“ die Fehlerwahrscheinlichkeit erhöhte.
  • Unbegrenzter Spielraum für Kreativität. Jetzt haben wir keine Einschränkungen bei der Erstellung virtueller Sensoren. Sie können absolut beliebige mathematische Modelle beliebiger Variablen erstellen. Dies bedeutet, dass wir in der Lage sind, komplexe virtuelle Sensoren zu erstellen (bisher konnten wir nur Werte hinzufügen) und Statistiken und Trends in der Leistung technischer Systeme besser analysieren. Dies verbessert die Qualität der Entscheidungen hinsichtlich Systemkonfiguration, Geräteaustausch und Ressourcenmanagement. 
  • Klare Oberfläche. In der neuen Benutzeroberfläche gibt es kein Durcheinander von Symbolen, Lüfter drehen sich und Schalter „klicken“. Und das Praktischste ist die Möglichkeit, den Status der PDU-Linie A/B innerhalb der Racks anzuzeigen. Wir haben versucht, im alten BMS etwas Ähnliches zu tun, aber die Anzahl der zusammengeführten Symbole pro Quadratzentimeter der Karte zwang uns, darauf zu verzichten.

Jetzt ist es schön anzuschauen:

Überwachung im Rechenzentrum: Wie wir das alte BMS auf das neue umgestellt haben. Teil 3
Server.

Überwachung im Rechenzentrum: Wie wir das alte BMS auf das neue umgestellt haben. Teil 3
Fragment der Hauptschalttafel.

Überwachung im Rechenzentrum: Wie wir das alte BMS auf das neue umgestellt haben. Teil 3
Lüftungsbedienfeld.

Und das neue BMS kann für das neue Jahr dekoriert werden :)
Überwachung im Rechenzentrum: Wie wir das alte BMS auf das neue umgestellt haben. Teil 3

Eine Seite – gegenseitiges Verständnis ohne ein Wort und ohne technische Vorgaben

Wir wollten schon sehr lange einen weiteren „Trick“ in BMS umsetzen: die wichtigsten Parameter des Rechenzentrums auf einer Seite zusammenzustellen, sodass ein Blick auf den Bildschirm ausreicht, um den Status der Hauptsysteme zu beurteilen. Allerdings haben wir nicht ganz verstanden, wie es aussehen sollte.

Noch bevor die Entwicklung des neuen BMS begann, besuchten wir auf Exkursionen ein Dutzend Rechenzentren in den Niederlanden. Eines der Ziele war es, Beispiele für die Umsetzung einer solchen Seite zu sehen.

Und kein einziges Rechenzentrum hat es uns gezeigt – in manchen war es nicht da, in anderen wurde es „gerade entwickelt“, in anderen war es ein „großes Geschäftsgeheimnis“. Daher gab es in unserer Leistungsbeschreibung für die Erstellung eines neuen BMS keine genaue Beschreibung dieser für uns sehr wichtigen Seite.

Infolgedessen haben wir es buchstäblich „on the fly“ entwickelt. Gerade in diesem Moment musste ich Kollegen im Rechenzentrum aus der Ferne konsultieren. Es war sehr umständlich, auf dem Telefon durch die Seiten von BMS zu scrollen, um nach verstreuten Daten zu suchen, und tatsächlich war die erste Version auf einer Serviette skizziert Eine Seite. Es wurde von den Entwicklern anhand des Fotos umgesetzt. 

Dem Beispiel unserer vorsichtigen niederländischen Kollegen folgend, werden wir die endgültige Version unserer Hauptseite nicht zeigen, zumal jedes Rechenzentrum einzigartig ist und es keinen Sinn macht, es zu kopieren. Aber lassen Sie uns zwei Hauptprinzipien seiner Entstehung beschreiben:

  1. Hierbei handelt es sich um eine Tabelle, die so gestaltet ist, dass sie dem Format eines vertikalen Smartphone-Bildschirms (oder eines Monitors, aber unter Beibehaltung des vertikalen Layouts) entspricht und alle wichtigen Informationen auf einem Bildschirm anzeigt. Über der Tabelle befindet sich eine „Zusammenfassung“ der aktiven Vorfälle, daher war es am praktischsten, sie in einem vertikalen Format zusammenzustellen. 
  2. Die Anordnung der Zellen in der Tabelle folgt der Architektur des Rechenzentrums (physisch oder logisch). Auf die alphabetische Anordnung der Systeme haben wir verzichtet, wie es auf den ersten Blick wünschenswert wäre. Die Sequenz spiegelt die visuellen Assoziationen des Rechenzentrumspersonals wider – als ob es alle Räume und Systeme physisch überwachen würde. Dies erleichtert das Auffinden von Informationen.

Tatsächlich werden jetzt absolut alle wichtigen Merkmale des Rechenzentrums gruppiert und auf einem Bildschirm des Smartphones/Monitors des verantwortlichen Ingenieurs und Managers dargestellt, während gleichzeitig eine Verknüpfung mit der physischen und logischen Topographie des Rechenzentrums implementiert wird. 

Hier ist ein Foto dieses allerersten Entwurfs, obwohl diese Version dann natürlich noch einmal überdacht und finalisiert wurde.

Überwachung im Rechenzentrum: Wie wir das alte BMS auf das neue umgestellt haben. Teil 3

Bestätigung und Zusammenfassung des Vorfalls

Lassen Sie uns über ein weiteres neues Konzept für uns sprechen, das als Ergebnis des Projekts zur Aktualisierung des Überwachungssystems entstanden ist.

Handshake ist ein eher seltener Begriff, der vom Entwickler des neuen BMS vorgeschlagen wurde. Dies bedeutet eine Bestätigung, dass der Betreiber den Vorfall gesehen, erkannt und die Verantwortung für die Lösung des Vorfalls übernommen hat.  

Das Wort ist hängen geblieben, und jetzt „erkennen“ wir Vorfälle an.

Der in der Basisversion des neuen BMS enthaltene Algorithmus gefiel uns nicht. Tatsächlich handelte es sich hierbei um Kommentare zum Ereignisprotokoll, d. h. gelöste Vorfälle verschwanden nicht aus dem Protokoll und akzeptierte („bestätigte“) Vorfälle wurden nicht von neuen sortiert.

Als Ergebnis wurde ein Fenster namens „Zusammenfassung“ entwickelt, in dem:

  1. Es werden nur aktive Vorfälle und Geräte im Servicemodus angezeigt (keine kommerziellen blauen Hinweise).
  2. Es gibt eine klare Unterscheidung zwischen NEUEN und AKZEPTIERTEN Vorfällen.
  3. Es wird angegeben, wer den Vorfall akzeptiert hat.

Der Arbeitsalgorithmus für diensthabende Beamte im neuen BMS ist wie folgt:

  1. Neue Vorfälle werden in den Bericht aufgenommen und warten auf ihre Bestätigung. Sie dürfen sich nicht längere Zeit in diesem Abschnitt aufhalten; die Person, die für die Ausrüstung zuständig ist, muss sich umgehend um den Vorfall kümmern.
  2. Der Mitarbeiter übernimmt die Verantwortung für den Vorfall, indem er auf das Häkchen rechts klickt. Da alle Mitarbeiter über eindeutige Konten verfügen, wird automatisch angezeigt, wer den Vorfall akzeptiert hat. Hinterlassen Sie bei Bedarf einen Kommentar.
  3. Der Vorfall wird in den Abschnitt „Bestätigt“ verschoben, die übrigen diensthabenden Beamten und der Vorgesetzte verstehen, dass der Vorfall vom verantwortlichen Mitarbeiter bearbeitet wird.

Überwachung im Rechenzentrum: Wie wir das alte BMS auf das neue umgestellt haben. Teil 3
Beispiel für ein Zusammenfassungsfenster mit einer neuen und bereits bestätigten Meldung.

Durch die Verbindung des Zusammenfassungsfensters mit der einseitigen Tabelle erhielten wir eine vollständige Übersicht Hauptbildschirm BMS-System, wo Sie sofort sehen können: 

  • Zustand der wichtigsten Rechenzentrumssysteme;
  • Vorhandensein neuer unverarbeiteter Vorfälle;
  • das Vorhandensein akzeptierter Vorfälle und Informationen darüber, wer sie konkret beseitigt.

Browserzugriff und Telefon-Popup-Benachrichtigungen

Das Web-Interface, auf das von jedem Gerät aus überall auf der Welt zugegriffen werden kann, steht im krassen Gegensatz zum „Thick“-Client, der für externe Benutzer völlig verschlossen ist. 

Der alte Ansatz brachte eine Reihe von Unannehmlichkeiten mit sich, von Problemen bei der Organisation der Remote-Arbeit zur Überwachung von Servicemitarbeitern bis hin zur Notwendigkeit, „dicke“ Clients aus Verteilungskits auf Personalarbeitsplätzen im Rechenzentrum zu installieren.

Jetzt verfügt jede Seite in BMS über eine eindeutige Adresse, sodass Sie nicht nur die direkte Adresse der Seite oder des Geräts, sondern auch Links zu eindeutigen Grafiken/Berichten teilen können. 

Der Zugriff auf das System erfolgt nun über die LDAP-Authentifizierung über Active Directory, was das Sicherheitsniveau erhöht. 

Mobilität ist heute ein Schlüsselfaktor für die Qualitätsarbeit diensthabender Ingenieure. Zusätzlich zur Überwachungsüberwachung im Dienstschichtraum machen Ingenieure Rundgang, erledigen Routinearbeiten außerhalb des „Dienstraums“ und verlieren dank des für mobile Bildschirme optimierten BMS-Hauptbildschirms auch in den Turbinenräumen nicht die Kontrolle über das Geschehen für eine Sekunde. 

Auch die Qualität der Kontrolle wird durch die Funktionalität von Arbeitschats verbessert. Sie beschleunigen Arbeitsabläufe, indem sie die „Verknüpfung“ der Korrespondenz der diensthabenden Ingenieure mit dem BMS ermöglichen. Wir verwenden beispielsweise die Teams-Anwendung, mit der Sie interne Korrespondenz führen und alle Nachrichten vom BMS in Form von Popup-Push-Benachrichtigungen auf Ihrem Telefon erhalten können, sodass der diensthabende Beamte nicht ständig auf das Telefon schauen muss Bildschirm.

Überwachung im Rechenzentrum: Wie wir das alte BMS auf das neue umgestellt haben. Teil 3
 Push-Benachrichtigung auf dem Smartphone-Bildschirm.

Überwachung im Rechenzentrum: Wie wir das alte BMS auf das neue umgestellt haben. Teil 3
So sehen Benachrichtigungen in der Teams-App aus.

Gleichzeitig sind Popup-Benachrichtigungen nur für Meldungen über das Auftreten von Vorfällen konfiguriert, wodurch der Ablenkungsfaktor minimiert wird; die Mitarbeiter wissen: Wenn eine Teams-Push-Benachrichtigung auf dem Smartphone-Bildschirm erscheint, müssen sie auf die BMS-Seite gehen und akzeptiere den Vorfall. Meldungen zur Lösung von Vorfällen werden auf der BMS-Seite verfolgt.

Überwachung im Rechenzentrum: Wie wir das alte BMS auf das neue umgestellt haben. Teil 3
Das Foto zeigt die BMS-Schnittstelle in einem Smartphone.

Zusammenfassend

Während die Kosten für die Aktualisierung eines BMS unseres alten Anbieters mit der Entwicklung eines neuen Systems von Grund auf vergleichbar waren (ca. 100 US-Dollar), erwies sich der Unterschied in der Funktionalität der Produkte als enorm. Wir haben ein flexibles System erhalten, das für unsere Geschäftsaufgaben und -prozesse optimiert ist. Wir haben auch erhebliche Einsparungen bei den laufenden Systemsupport- und Upgrade-Kosten erzielt. 

Aber natürlich gab es Schwierigkeiten. 

  • Erstens haben wir den Umfang der Änderungen, die an der Basisversion des neuen BMS vorgenommen werden mussten, unterschätzt und die im Voraus vereinbarten Fristen nicht eingehalten. Für uns stellte dies kein kritisches Problem dar, da wir bis zur letzten Minute versichert waren und am alten System gearbeitet haben und der Prozess kreativ, komplex und daher manchmal langsamer verlief als erwartet. Darüber hinaus haben wir immer gesehen, dass unser Entwickler alles daran setzt, das beste Ergebnis zu erzielen. Tatsächlich erwies sich die Geschichte jedoch als sehr lang und unsere wichtigsten Spezialisten haben viel mehr Mühe und Zeit darauf verwendet, als geplant. 
  • Zweitens benötigten wir mehrere Testphasen, um den Algorithmus zur Reservierung virtueller Maschinen und Kommunikationskanäle zu debuggen. Zunächst kam es sowohl auf Seiten des BMS-Systems als auch auf Seiten der Einrichtung virtueller Maschinen und des Netzwerks zu Ausfällen. Auch dieses Debuggen nahm Zeit in Anspruch. Glücklicherweise wurde dem Auftragnehmer eine Testplattform in Form eines Cloud-Dienstes zur Verfügung gestellt, auf der zunächst alle Einstellungen und Neuerungen getestet wurden.
  • Drittens stellte sich heraus, dass das resultierende System für den Endbenutzer schwieriger zu bearbeiten war. Bestand eine Karte früher aus einem Hintergrund (Grafikdatei) und leicht zu ändernden oder zu verschiebenden Symbolen, handelt es sich heute um eine komplexe grafische Oberfläche mit Animation, die bestimmte Bearbeitungsfähigkeiten erfordert.

Die radikale Aktualisierung unseres BMS-Systems kann bereits als das wichtigste Projekt des vergangenen Jahres bezeichnet werden, das die Qualität der Betriebsführung unserer Standorte in der Zukunft erheblich beeinträchtigen wird. 

Wir haben den alten Eisenserver natürlich nicht weggeworfen, sondern „leichter gemacht“: Wir haben ihn von Tausenden „kommerziellen“ virtuellen Sensoren und PDUs befreit und nur ein paar Dutzend der kritischsten Geräte, wie zum Beispiel Diesel, darin gelassen Stromaggregate, USV, Klimaanlagen, Pumpen, Leckagesensoren und Temperaturen In diesem Modus ist seine alte Geschwindigkeit zurückgekehrt und er kann eine „Reservereserve“ sein. Übrigens, nachdem wir die PDU aus dem alten BMS entfernt haben, haben wir etwa 1000 jetzt unnötige Lizenzen frei gemacht. Wissen Sie zufällig, was Sie damit machen sollen?

Source: habr.com

Kommentar hinzufügen