Network-as-a-Service pour une grande entreprise : un cas atypique

Network-as-a-Service pour une grande entreprise : un cas atypique
Comment mettre à jour l'équipement réseau d'une grande entreprise sans arrêter la production? A propos d'un projet à grande échelle dans le mode de "chirurgie à cœur ouvert" raconte Oleg Fedorov, responsable de la gestion du projet Linxdatacenter. 

Au cours des dernières années, nous avons constaté une augmentation de la demande des clients pour des services liés à la composante réseau de l'infrastructure informatique. Le besoin de connectivité des systèmes informatiques, des services, des applications, les tâches de surveillance et de gestion opérationnelle de l'entreprise dans presque tous les domaines obligent aujourd'hui les entreprises à accorder une attention accrue aux réseaux.  

Les demandes vont de la fourniture d'une tolérance aux pannes du réseau à la création et à la gestion d'un système client autonome avec l'acquisition d'un bloc d'adresses IP, la configuration des protocoles de routage et la gestion du trafic conformément aux politiques des organisations.

Il existe également une demande croissante de solutions intégrées pour la construction et la maintenance d'infrastructures de réseau, principalement de la part de clients dont l'infrastructure de réseau est créée de toutes pièces ou est obsolète, nécessitant d'importantes modifications. 

Cette tendance a coïncidé dans le temps avec la période de développement et de complication de la propre infrastructure réseau de Linxdatacenter. Nous avons élargi la géographie de notre présence en Europe en nous connectant à des sites distants, ce qui a nécessité à son tour l'amélioration de l'infrastructure du réseau. 

La société a lancé un nouveau service pour les clients, Network-as-a-Service : nous prenons en charge toutes les tâches de réseau pour les clients, leur permettant de se concentrer sur leur cœur de métier.

À l'été 2020, le premier grand projet dans ce sens a été achevé, dont je voudrais parler. 

Au début 

Un grand complexe industriel s'est adressé à nous pour la modernisation de la partie réseau de l'infrastructure d'une de ses entreprises. Il a fallu remplacer l'ancien équipement par du neuf, y compris le cœur du réseau.

La dernière modernisation de l'équipement de l'entreprise a eu lieu il y a environ 10 ans. La nouvelle direction de l'entreprise a décidé d'améliorer la connectivité, en commençant par des mises à niveau de l'infrastructure au niveau physique le plus élémentaire. 

Le projet a été divisé en deux parties : mise à niveau du parc de serveurs et des équipements réseau. Nous étions responsables de la deuxième partie. 

Les exigences de base pour le travail comprenaient la minimisation des temps d'arrêt des lignes de production de l'entreprise pendant l'exécution des travaux (et dans certains domaines, l'élimination complète des temps d'arrêt). Tout arrêt est une perte monétaire directe du client, qui n'aurait dû se produire en aucune circonstance. En relation avec le mode de fonctionnement de l'installation 24x7x365, ainsi que compte tenu de l'absence totale de périodes d'arrêt planifiées dans la pratique de l'entreprise, on nous a en fait confié la tâche d'effectuer une chirurgie à cœur ouvert. Cela est devenu la principale caractéristique distinctive du projet.

Allons

Les travaux ont été planifiés selon le principe du déplacement des nœuds du réseau éloignés du cœur vers les plus proches, ainsi que des lignes de production qui ont moins d'impact sur le travail vers celles qui affectent directement ce travail. 

Par exemple, si vous prenez un nœud de réseau dans le service des ventes, une panne de communication résultant du travail dans ce service n'affectera en rien la production. Dans le même temps, un tel incident nous aidera, en tant qu'entrepreneur, à vérifier l'exactitude de l'approche choisie pour travailler sur ces nœuds et, après avoir corrigé les actions, à travailler aux prochaines étapes du projet. 

Il est nécessaire non seulement de remplacer les nœuds et les fils du réseau, mais également de configurer correctement tous les composants pour le bon fonctionnement de la solution dans son ensemble. Ce sont les configurations qui ont ainsi été vérifiées : en partant travailler loin du cœur, on s'est en quelque sorte donné le « droit à l'erreur », sans exposer à risque les zones critiques pour le fonctionnement de l'entreprise. 

Nous avons identifié les zones qui n'affectent pas le processus de production, ainsi que les zones critiques - ateliers, unité de chargement et de déchargement, entrepôts, etc. Dans les zones clés, nous avons convenu avec le client du temps d'arrêt autorisé pour chaque nœud du réseau séparément : de 1 à 15 min. Il était impossible d'éviter complètement de déconnecter des nœuds de réseau individuels, car le câble doit être physiquement commuté de l'ancien équipement au nouveau, et lors du processus de commutation, il est également nécessaire de démêler la «barbe» de fils, qui s'est formée pendant plusieurs années de fonctionnement sans soins appropriés (l'une des conséquences de l'externalisation des travaux d'installation des lignes de câbles).

Le travail a été divisé en plusieurs étapes.

Étape 1 - Audit. Préparation et coordination de l'approche de planification des travaux et évaluation de l'état de préparation des équipes : le client, l'entrepreneur réalisant l'installation et notre équipe.

Étape 2 – Élaboration d'un format d'exécution des travaux, avec une analyse et une planification approfondies et détaillées. Nous avons choisi un format de check-list avec une indication précise de l'ordre et de la séquence des actions, jusqu'à la séquence de commutation des cordons de brassage par port.

Étape 3 – Réaliser des travaux dans des armoires qui n'affectent pas la production. Estimation et ajustement des temps d'arrêt pour les étapes ultérieures des travaux.

Étape 4 – Réaliser des travaux dans des armoires qui affectent directement la production. Estimation et ajustement des temps d'arrêt pour la phase finale des travaux.

Étape 5 – Réaliser des travaux dans la salle des serveurs pour basculer les équipements restants. Exécution sur routage sur un nouveau noyau.

Étape 6 – Basculement séquentiel du cœur du système des anciennes configurations réseau vers les nouvelles pour une transition en douceur de l'ensemble du complexe système (VLAN, routage, etc.). À ce stade, nous avons connecté tous les utilisateurs et transféré tous les services vers un nouveau matériel, vérifié la connexion correcte, nous sommes assurés qu'aucun des services d'entreprise ne s'arrêtait, garanti qu'en cas de problème, ils seraient connectés directement au noyau, ce qui l'a rendu plus facile d'éliminer le dépannage possible et la configuration finale. 

Coiffure barbe fil

Le projet s'est avéré difficile également en raison des conditions initiales difficiles. 

Premièrement, il s'agit d'un grand nombre de nœuds et de sections du réseau, avec une topologie complexe et une classification des fils en fonction de leur objectif. De telles "barbes" ont dû être retirées des armoires et soigneusement "peignées", en déterminant de quel fil il s'agit et où il mène. 

Cela ressemblait à quelque chose comme ceci:

Network-as-a-Service pour une grande entreprise : un cas atypique
comme suit:

Network-as-a-Service pour une grande entreprise : un cas atypique
Ou alors: 

Network-as-a-Service pour une grande entreprise : un cas atypique
Deuxièmement, pour chacune de ces tâches, il était nécessaire de préparer un dossier avec une description du processus. "On prend le fil X du port 1 de l'ancien équipement, on le branche sur le port 18 du nouvel équipement." Cela semble simple, mais lorsque vous avez 48 ports complètement obstrués dans les données initiales et qu'il n'y a pas d'option d'inactivité (nous nous souvenons d'environ 24x7x365), la seule issue est de travailler par blocs. Plus vous pouvez retirer de fils d'anciens équipements en même temps, plus vite vous pouvez les brosser et les brancher sur un nouveau matériel réseau, évitant ainsi les pannes de réseau et les temps d'arrêt. 

Par conséquent, au stade préparatoire, nous avons divisé le réseau en blocs - chacun d'eux appartenait à un VLAN spécifique. Chaque port (ou un sous-ensemble de ports) de l'ancien équipement est l'un des VLAN de la nouvelle topologie de réseau. Nous les avons regroupés comme suit: les premiers ports du commutateur hébergeaient les réseaux d'utilisateurs, au milieu - les réseaux de production, et dans les derniers - les points d'accès et les liaisons montantes. 

Cette approche a permis de retirer et de peigner l'ancien équipement non pas 1 fil, mais 10-15 à la fois. Cela a accéléré le flux de travail plusieurs fois.  

Au fait, voici à quoi ressemblent les fils dans les armoires après le peignage: 

Network-as-a-Service pour une grande entreprise : un cas atypique
ou, par exemple, comme ceci: 

Network-as-a-Service pour une grande entreprise : un cas atypique
Après l'achèvement de la 2e étape, nous avons fait une pause pour analyser les erreurs et la dynamique du projet. Par exemple, des défauts mineurs sont immédiatement apparus en raison d'inexactitudes dans les schémas de réseau qui nous ont été fournis (le mauvais connecteur sur le schéma est le mauvais cordon de brassage acheté et la nécessité de le remplacer). 

La pause était nécessaire, car lorsque vous travailliez avec des droits de serveur, même un petit échec dans le processus était inacceptable. Si l'objectif était d'assurer un temps d'arrêt sur la section de réseau de pas plus de 5 minutes, alors il ne pouvait pas être dépassé. Tout écart éventuel par rapport au calendrier devait être convenu avec le client. 

Cependant, la planification et le blocage anticipés du projet ont permis de faire face aux arrêts programmés sur tous les sites, et dans la plupart des cas, de s'en passer du tout. 

Défi du temps - un projet sous COVID 

Cependant, cela ne s'est pas fait sans difficultés supplémentaires. Bien sûr, le coronavirus était l'un des obstacles. 

Le travail a été compliqué par le début d'une pandémie et il était impossible d'être présent lors des travaux chez le client pour tous les spécialistes impliqués dans le processus. Seul l'installateur était autorisé à entrer sur le site, et le contrôle s'effectuait via une salle Zoom qui comprenait un ingénieur réseau du côté Linxdatacenter, moi-même en tant que chef de projet, un ingénieur réseau du côté client chargé du travail et l'équipe effectuant le travaux d'installation.

Au cours des travaux, des problèmes inexpliqués sont survenus et des ajustements ont dû être apportés à la volée. Ainsi, il a été possible d'éviter rapidement l'influence du facteur humain (erreurs dans le schéma, erreurs dans la détermination de l'état de l'activité d'interface, etc.).

Bien que le format de travail à distance paraisse inhabituel au début du projet, nous nous sommes rapidement adaptés aux nouvelles conditions et sommes entrés dans la phase finale des travaux. 

Nous avons exécuté une configuration temporaire des paramètres réseau pour exécuter deux cœurs de réseau, l'ancien et le nouveau, en parallèle afin de réaliser une transition en douceur. Cependant, il s'est avéré qu'une ligne supplémentaire n'a pas été supprimée du fichier de configuration du nouveau noyau et la transition ne s'est pas produite. Cela nous a obligés à passer du temps à chercher le problème. 

Il s'est avéré que le trafic principal était correctement transmis et que le trafic de contrôle n'atteignait pas le nœud via le nouveau cœur. En raison de la division claire du projet en étapes, il a été possible d'identifier rapidement la section du réseau où la difficulté est survenue, d'identifier le problème et de l'éliminer. 

Et comme résultat

Résultats techniques du projet 

Tout d'abord, un nouveau cœur du nouveau réseau d'entreprise a été créé, pour lequel nous avons construit des anneaux physiques/logiques. Ceci est fait de manière à ce que chaque commutateur du réseau ait un "second épaulement". Dans l'ancien réseau, de nombreux commutateurs étaient connectés au cœur le long d'une route, une épaule (liaison montante). S'il était déchiré, l'interrupteur devenait complètement inaccessible. Et si plusieurs commutateurs étaient connectés via une liaison montante, l'accident a désactivé l'ensemble du département ou de la chaîne de production de l'entreprise. 

Dans le nouveau réseau, même un incident réseau assez grave ne pourra en aucun cas "mettre à terre" l'ensemble du réseau ou sa partie significative. 

90 % de tous les équipements réseau ont été mis à jour, les convertisseurs de média (convertisseurs du support de propagation du signal) ont été mis hors service et le besoin de lignes électriques dédiées pour alimenter l'équipement en se connectant à des commutateurs PoE, où l'alimentation est fournie via des câbles Ethernet, a été éliminé. 

De plus, toutes les connexions optiques dans la salle des serveurs et dans les armoires de terrain sont marquées - à tous les nœuds de communication clés. Cela a permis de dresser un schéma topologique des équipements et connexions du réseau, reflétant son état réel aujourd'hui. 

Schéma de réseau
Network-as-a-Service pour une grande entreprise : un cas atypique
Le résultat le plus important sur le plan technique : des travaux d'infrastructure assez importants ont été réalisés rapidement, sans créer aucune interférence dans le travail de l'entreprise et de manière presque imperceptible pour son personnel. 

Résultats commerciaux du projet

À mon avis, ce projet est intéressant principalement non pas du côté technique, mais du côté organisationnel. La difficulté résidait principalement dans la planification et la réflexion sur les étapes de mise en œuvre des tâches du projet. 

Le succès du projet nous permet de dire que notre initiative de développer la direction réseau au sein du portefeuille de services Linxdatacenter est le bon choix pour le vecteur de développement de l'entreprise. Une approche responsable de la gestion de projet, une stratégie compétente et une planification claire nous ont permis d'effectuer le travail au bon niveau. 

Confirmation de la qualité du travail - une demande du client de poursuivre la fourniture de services pour la modernisation du réseau sur ses autres sites en Russie.

Source: habr.com

Ajouter un commentaire