Network-as-a-Service für ein großes Unternehmen: ein Sonderfall

Network-as-a-Service für ein großes Unternehmen: ein Sonderfall
So aktualisieren Sie die Netzwerkausrüstung in einem großen Unternehmen, ohne die Produktion anzuhalten? Er spricht von einem Großprojekt im Modus „Operation am offenen Herzen“. Projektmanagementleiter von Linxdatacenter Oleg Fedorov. 

In den letzten Jahren konnten wir eine erhöhte Kundennachfrage nach Dienstleistungen rund um die Netzwerkkomponente der IT-Infrastruktur feststellen. Der Bedarf an Konnektivität von IT-Systemen, Diensten, Anwendungen, Überwachung und operativen Unternehmensführungsaufgaben in nahezu allen Bereichen zwingt Unternehmen heute dazu, Netzwerken verstärkt Aufmerksamkeit zu schenken.  

Das Spektrum der Anforderungen reicht von der Gewährleistung der Fehlertoleranz des Netzwerks bis hin zur Erstellung und Verwaltung eines autonomen Client-Systems mit dem Kauf eines Blocks von IP-Adressen, der Einrichtung von Routing-Protokollen und der Verwaltung des Datenverkehrs gemäß den Unternehmensrichtlinien.

Es besteht auch eine wachsende Nachfrage nach umfassenden Lösungen für den Aufbau und die Wartung von Netzwerkinfrastrukturen, vor allem von Kunden, deren Netzwerkinfrastruktur von Grund auf neu erstellt wird oder veraltet ist und erhebliche Änderungen erfordert. 

Dieser Trend fiel mit der Zeit der Entwicklung und Komplexität der eigenen Netzwerkinfrastruktur von Linxdatacenter zusammen. Wir haben die geografische Präsenz unserer Präsenz in Europa durch die Anbindung entfernter Standorte erweitert, was wiederum eine Verbesserung der Netzwerkinfrastruktur erforderte. 

Das Unternehmen hat einen neuen Service für Kunden eingeführt: Network-as-a-Service: Wir kümmern uns um alle Netzwerkprobleme unserer Kunden, sodass sie sich auf ihr Kerngeschäft konzentrieren können.

Im Sommer 2020 wurde das erste große Projekt in dieser Richtung abgeschlossen, über das ich gerne sprechen möchte. 

Zu Beginn 

Ein großer Industriekomplex wandte sich an uns, um den Netzwerkteil der Infrastruktur in einem seiner Unternehmen zu modernisieren. Es war notwendig, alte Geräte durch neue Geräte zu ersetzen, einschließlich des Netzwerkkerns.

Die letzte Modernisierung der Anlagen im Unternehmen fand vor etwa 10 Jahren statt. Das neue Management des Unternehmens beschloss, die Konnektivität zu verbessern, beginnend mit der Aktualisierung der Infrastruktur auf der grundlegendsten, physischen Ebene. 

Das Projekt gliederte sich in zwei Teile: Modernisierung des Serverparks und der Netzwerkausrüstung. Für den zweiten Teil waren wir verantwortlich. 

Zu den Grundvoraussetzungen für die Arbeiten gehörte die Minimierung der Ausfallzeiten der Produktionslinien des Unternehmens während der Ausführung der Arbeiten (und in einigen Bereichen die vollständige Eliminierung von Ausfallzeiten). Jede Unterbrechung bedeutet für den Kunden unmittelbare finanzielle Verluste, die unter keinen Umständen hätten passieren dürfen. Aufgrund des Betriebsmodus der Einrichtung 24x7x365 und unter Berücksichtigung des völligen Fehlens geplanter Ausfallzeiten in der Praxis des Unternehmens wurde uns die Aufgabe übertragen, grundsätzlich Operationen am offenen Herzen durchzuführen. Dies wurde zum Hauptunterscheidungsmerkmal des Projekts.

Lass uns gehen

Die Arbeit wurde nach dem Prinzip der Bewegung von vom Kern entfernten Netzwerkknoten zu näheren Netzwerkknoten sowie von solchen, die die Arbeit der Produktionslinien weniger beeinflussen, zu solchen, die diese Arbeit direkt beeinflussen, geplant. 

Nehmen wir beispielsweise einen Netzwerkknoten in der Vertriebsabteilung, dann hat eine Kommunikationsunterbrechung aufgrund der Arbeit in dieser Abteilung keinerlei Auswirkungen auf die Produktion. Gleichzeitig hilft uns ein solcher Vorfall als Auftragnehmer, die Richtigkeit des gewählten Ansatzes für die Arbeit an solchen Einheiten zu überprüfen und nach Anpassung der Maßnahmen an den nächsten Phasen des Projekts zu arbeiten. 

Es ist nicht nur notwendig, Knoten und Leitungen im Netzwerk auszutauschen, sondern auch alle Komponenten richtig zu konfigurieren, damit die Lösung als Ganzes ordnungsgemäß funktioniert. Es waren die Konfigurationen, die auf diese Weise getestet wurden: Indem wir die Arbeit abseits des Kerns begannen, schienen wir uns das „Recht zu geben, Fehler zu machen“, ohne Bereiche zu gefährden, die für den Betrieb des Unternehmens von entscheidender Bedeutung sind. 

Wir haben Bereiche identifiziert, die den Produktionsprozess nicht beeinträchtigen, sowie kritische Bereiche – Werkstätten, Be- und Entladeeinheiten, Lager usw. In Schlüsselbereichen wurde mit dem Kunden die akzeptable Ausfallzeit für jeden Netzwerkknoten separat vereinbart: von 1 bis 15 Minuten. Es war unmöglich, die Trennung einzelner Netzwerkknoten vollständig zu vermeiden, da das Kabel physisch von alten Geräten auf neue umgestellt werden muss und während des Umschaltvorgangs auch der „Bart“ von Drähten entwirrt werden muss, der sich über mehrere Jahre hinweg ohne ordnungsgemäßen Betrieb gebildet hat Sorgfalt (eine der Folgen der Auslagerung von Arbeiten zur Installation von Kabeltrassen).

Die Arbeit war in mehrere Phasen unterteilt.

Stufe 1 – Prüfung. Vorbereitung und Koordination des Ansatzes zur Arbeitsplanung und Bewertung der Bereitschaft der Teams: des Kunden, des Installationsunternehmers und unseres Teams.

Stufe 2 – Entwicklung eines Formats für die Durchführung der Arbeiten mit detaillierter Analyse und Planung. Wir haben uns für ein Checklistenformat mit genauer Angabe der Reihenfolge und Abfolge der Aktionen entschieden, bis hin zur Reihenfolge des Patchkabelwechsels pro Port.

Stufe 3 – Durchführung von Arbeiten in Schränken, die die Produktion nicht beeinträchtigen. Abschätzung und Anpassung der Ausfallzeit für nachfolgende Arbeitsschritte.

Stufe 4 – Durchführung von Arbeiten in Schränken, die einen direkten Einfluss auf die Produktion haben. Schätzung und Anpassung der Ausfallzeit für die letzte Arbeitsphase.

Stufe 5 – Durchführung von Arbeiten im Serverraum zur Umstellung der restlichen Ausrüstung. Beim Routing auf dem neuen Kernel starten.

Stufe 6 – Konsekutive Umstellung des Systemkerns von alten auf neue Netzwerkkonfigurationen für einen reibungslosen Übergang des gesamten Systemkomplexes (VLAN, Routing etc.). In dieser Phase haben wir alle Benutzer verbunden und alle Dienste auf die neue Hardware übertragen, überprüft, ob die Verbindung korrekt war, haben sichergestellt, dass keiner der Unternehmensdienste gestoppt wurde, und sichergestellt, dass sie bei Auftreten von Problemen direkt mit dem Kernel verbunden werden. Dies erleichterte die Behebung möglicher Probleme und die endgültige Einrichtung. 

Drahtbartfrisur

Das Projekt erwies sich auch aufgrund der schwierigen Ausgangsbedingungen als schwierig. 

Erstens gibt es eine große Anzahl von Knoten und Abschnitten des Netzwerks mit einer komplizierten Topologie und Klassifizierung der Leitungen entsprechend ihrem Zweck. Solche „Bärte“ mussten aus den Schränken genommen und sorgfältig „gekämmt“ werden, um herauszufinden, welcher Draht woher kam und wohin er führte. 

Es sah ungefähr so ​​aus:

Network-as-a-Service für ein großes Unternehmen: ein Sonderfall
wie folgt:

Network-as-a-Service für ein großes Unternehmen: ein Sonderfall
oder so: 

Network-as-a-Service für ein großes Unternehmen: ein Sonderfall
Zweitens musste für jede dieser Aufgaben eine Datei mit einer Beschreibung des Prozesses erstellt werden. „Wir nehmen Kabel X von Port 1 des alten Geräts und stecken es in Port 18 des neuen Geräts.“ Es klingt einfach, aber wenn Sie 48 vollständig verstopfte Ports in Ihren Quelldaten haben und keine Ausfallzeitoption besteht (wir erinnern uns an etwa 24x7x365), besteht der einzige Ausweg darin, in Blöcken zu arbeiten. Je mehr Kabel Sie auf einmal aus alten Geräten herausziehen können, desto schneller können Sie sie durchkämmen und in neue Netzwerkhardware einführen, wodurch Ausfälle und Ausfallzeiten im Netzwerk vermieden werden. 

Daher haben wir in der Vorbereitungsphase das Netzwerk in Blöcke unterteilt – jeder von ihnen gehörte zu einem bestimmten VLAN. Jeder Port (oder eine Teilmenge davon) auf alten Geräten ist eines der VLANs in der neuen Netzwerktopologie. Wir haben sie wie folgt gruppiert: Die ersten Ports des Switches beherbergten Benutzernetzwerke, die mittleren – Produktionsnetzwerke und die letzten – Zugangspunkte und Uplinks. 

Dieser Ansatz ermöglichte es, nicht nur einen Draht, sondern 1–10 Drähte auf einmal aus alten Geräten herauszuziehen und zu kämmen. Dies beschleunigte den Arbeitsprozess um ein Vielfaches.  

So sehen die Drähte in den Schränken übrigens nach dem Kämmen aus: 

Network-as-a-Service für ein großes Unternehmen: ein Sonderfall
oder zum Beispiel so: 

Network-as-a-Service für ein großes Unternehmen: ein Sonderfall
Nach Abschluss der 2. Phase machten wir eine Pause, um Fehler und Projektdynamik zu analysieren. Beispielsweise traten aufgrund von Ungenauigkeiten in den uns zur Verfügung gestellten Netzwerkdiagrammen sofort kleinere Mängel auf (ein falscher Stecker im Diagramm bedeutet, dass das Patchkabel falsch gekauft wurde und ersetzt werden muss). 

Die Pause war notwendig, da bei der serverseitigen Arbeit selbst ein kleiner Fehler im Prozess nicht akzeptabel war. Wenn das Ziel darin bestand, eine Ausfallzeit auf einem Netzwerkabschnitt von nicht mehr als 5 Minuten sicherzustellen, durfte diese nicht überschritten werden. Eventuelle Abweichungen vom Zeitplan mussten mit dem Auftraggeber abgestimmt werden. 

Durch die Vorplanung und die Aufteilung des Projekts in Blöcke war es jedoch möglich, die geplante Ausfallzeit in allen Bereichen einzuhalten und in den meisten Fällen sogar ganz zu vermeiden. 

Herausforderung der Zeit – ein Projekt unter COVID 

Es verlief jedoch nicht ohne zusätzliche Schwierigkeiten. Natürlich war das Coronavirus eines der Hindernisse. 

Die Arbeit wurde dadurch erschwert, dass die Pandemie begann und es unmöglich war, dass alle am Prozess beteiligten Spezialisten während der Arbeiten beim Kunden vor Ort anwesend sein konnten. Nur Mitarbeiter der Installationsorganisation durften das Gelände betreten, die Steuerung erfolgte über einen Zoom-Raum – darin befanden sich ein Netzwerktechniker von Linxdatacenter, ich als Projektleiter, ein für die Arbeiten verantwortlicher Netzwerktechniker des Kunden und ein Team, das Installationsarbeiten durchführt.

Während der Arbeiten traten unerklärliche Probleme auf und es mussten kurzfristig Anpassungen vorgenommen werden. Auf diese Weise konnte der Einfluss des menschlichen Faktors (Fehler in der Schaltung, Fehler bei der Statusermittlung der Schnittstellenaktivität usw.) schnell verhindert werden.

Obwohl das Remote-Arbeitsformat zu Beginn des Projekts ungewöhnlich schien, haben wir uns schnell an die neuen Bedingungen angepasst und die Endphase der Arbeit erreicht. 

Wir haben eine temporäre Konfiguration der Netzwerkeinstellungen eingeführt, um den parallelen Betrieb zweier Netzwerkkerne – alt und neu – zu ermöglichen, um einen reibungslosen Übergang zu erreichen. Es stellte sich jedoch heraus, dass eine zusätzliche Zeile nicht aus der Konfigurationsdatei des neuen Kernels entfernt wurde und der Übergang nicht stattfand. Dies zwang uns dazu, einige Zeit mit der Suche nach dem Problem zu verbringen. 

Es stellte sich heraus, dass der Hauptverkehr korrekt übertragen wurde und der Kontrollverkehr den Knoten nicht über den neuen Kern erreichte. Durch die klare Einteilung des Projekts in Etappen war es möglich, den Netzabschnitt, in dem das Problem auftrat, schnell zu identifizieren, das Problem zu identifizieren und zu beheben. 

Und als Ergebnis

Technische Ergebnisse des Projekts 

Zunächst wurde ein neuer Kern des neuen Unternehmensnetzwerks geschaffen, für den wir physische/logische Ringe aufgebaut haben. Dies geschieht so, dass jeder Switch im Netzwerk einen „zweiten Arm“ hat. Im alten Netzwerk waren viele Switches entlang einer Route, einem Arm (Uplink), mit dem Kern verbunden. Wenn es kaputt ging, war der Schalter völlig unzugänglich. Und wenn mehrere Switches über einen Uplink verbunden wären, würde der Unfall eine ganze Abteilung oder Produktionslinie im Unternehmen lahmlegen. 

In einem neuen Netzwerk kann selbst ein relativ schwerwiegender Netzwerkvorfall in keinem Szenario dazu führen, dass das gesamte Netzwerk oder ein wesentlicher Teil davon lahmgelegt wird. 

90 % aller Netzwerkgeräte wurden aktualisiert, Medienkonverter (Signalausbreitungs-Medienkonverter) wurden außer Betrieb genommen und die Notwendigkeit dedizierter Stromleitungen für die Stromversorgung von Geräten wurde durch den Anschluss an PoE-Switches beseitigt, bei denen die Stromversorgung über Ethernet-Kabel erfolgt. 

Außerdem sind alle optischen Verbindungen im Serverraum und in Feldschränken gekennzeichnet – an allen wichtigen Kommunikationsknoten. Dadurch war es möglich, ein topologisches Diagramm der Geräte und Verbindungen im Netzwerk zu erstellen, das den aktuellen Zustand widerspiegelt. 

Netzwerkdiagramm
Network-as-a-Service für ein großes Unternehmen: ein Sonderfall
Das wichtigste Ergebnis aus technischer Sicht: Größere Infrastrukturarbeiten wurden zügig und ohne Beeinträchtigung der Arbeit des Unternehmens und nahezu unbemerkt von den Mitarbeitern durchgeführt. 

Geschäftsergebnisse des Projekts

Meiner Meinung nach ist dieses Projekt vor allem nicht aus technischer, sondern aus organisatorischer Sicht interessant. Die Schwierigkeit lag vor allem darin, die Schritte zur Umsetzung der Projektaufgaben zu planen und zu durchdenken. 

Der Erfolg des Projekts lässt uns sagen, dass unsere Initiative zur Entwicklung des Netzwerkbereichs innerhalb des Linxdatacenter-Dienstleistungsportfolios die richtige Wahl für den Entwicklungsvektor des Unternehmens ist. Ein verantwortungsvoller Ansatz beim Projektmanagement, eine kompetente Strategie und eine klare Planung ermöglichten es uns, die Arbeiten auf dem richtigen Niveau abzuschließen. 

Die Bestätigung der Qualität der Arbeit ist eine Aufforderung des Kunden, weiterhin Dienstleistungen zur Netzwerkmodernisierung an seinen verbleibenden Standorten in Russland zu erbringen.

Source: habr.com

Kommentar hinzufügen