L'histoire d'un interrupteur

L'histoire d'un interrupteur
Dans notre agrégation de réseau local, nous avions six paires de commutateurs Arista DCS-7050CX3-32S et une paire de commutateurs Brocade VDX 6940-36Q. Ce n'est pas que nous soyons trop sollicités par les commutateurs Brocade de ce réseau, ils fonctionnent et remplissent leurs fonctions, mais nous préparions une automatisation complète de certaines actions, et nous n'avions pas ces capacités sur ces commutateurs. Je souhaitais aussi passer des interfaces 40GE à la possibilité d'utiliser du 100GE afin de faire une réserve pour les 2-3 prochaines années. Nous avons donc décidé de remplacer Brocade par Arista.

Ces commutateurs sont des commutateurs d'agrégation LAN pour chaque centre de données. Ils sont directement connectés aux commutateurs de distribution (le deuxième niveau d'agrégation), qui assemblent déjà les commutateurs de réseau local Top-of-Rack dans des racks avec des serveurs.

L'histoire d'un interrupteur
Chaque serveur est connecté à un ou deux commutateurs d'accès. Les commutateurs d'accès sont connectés à une paire de commutateurs de distribution (deux commutateurs de distribution et deux liaisons physiques du commutateur d'accès à différents commutateurs de distribution sont utilisés pour la redondance).

Chaque serveur peut être utilisé par son propre client, le client se voit donc attribuer un VLAN distinct. Le même VLAN est ensuite enregistré sur un autre serveur de ce client dans n'importe quel rack. Le centre de données se compose de plusieurs rangées de ce type (POD), chaque rangée de racks possède ses propres commutateurs de distribution. Ensuite, ces commutateurs de distribution sont connectés à des commutateurs d'agrégation.

L'histoire d'un interrupteur
Les clients peuvent commander un serveur dans n'importe quelle rangée ; il est impossible de prédire à l'avance que le serveur sera alloué ou installé dans une rangée spécifique dans un rack spécifique, c'est pourquoi il existe environ 2500 XNUMX VLAN sur des commutateurs d'agrégation dans chaque centre de données.

L'équipement pour DCI (Data-Center Interconnect) est connecté à des commutateurs d'agrégation. Il peut être destiné à une connectivité L2 (une paire de commutateurs formant un tunnel VXLAN vers un autre data center) ou à une connectivité L3 (deux routeurs MPLS).

L'histoire d'un interrupteur
Comme je l'ai déjà écrit, pour unifier les processus d'automatisation de la configuration des services sur les équipements d'un même centre de données, il était nécessaire de remplacer les commutateurs d'agrégation centraux. Nous avons installé de nouveaux commutateurs à côté de ceux existants, les avons combinés en une paire MLAG et avons commencé à préparer le travail. Ils ont été immédiatement connectés aux commutateurs d'agrégation existants, de sorte qu'ils disposaient d'un domaine L2 commun sur tous les VLAN clients.

Détails du circuit

Pour plus de détails, nommons les anciens commutateurs d'agrégation A1 и A2, nouveau - N1 и N2. Imaginons que dans COSSE 1 и COSSE 4 les serveurs d'un client sont hébergés S1,Le VLAN client est indiqué en bleu. Ce client utilise le service de connectivité L2 avec un autre centre de données, son VLAN est donc transmis à une paire de commutateurs VXLAN.

Client S2 héberge des serveurs dans COSSE 2 и COSSE 3,Le VLAN client est indiqué en vert foncé. Ce client utilise également un service de connectivité avec un autre centre de données, mais L3, donc son VLAN est transmis à une paire de routeurs L3VPN.

L'histoire d'un interrupteur
Nous avons besoin des VLAN clients pour comprendre à quelles étapes du remplacement se produit ce qui se passe, où se produit l'interruption de communication et quelle peut être sa durée. Le protocole STP n'est pas utilisé dans ce schéma, car la largeur de l'arborescence dans ce cas est grande et la convergence du protocole augmente de façon exponentielle avec le nombre de périphériques et de liens entre eux.

Tous les appareils connectés par des liaisons doubles forment une pile, une paire MLAG ou une structure Ethernet VCS. Pour une paire de routeurs L3VPN, de telles technologies ne sont pas utilisées, car il n'y a pas besoin de redondance L2 ; il suffit qu'ils disposent d'une connectivité L2 entre eux via des commutateurs d'agrégation.

Options de mise en œuvre

En analysant les options pour d'autres événements, nous avons réalisé qu'il existe plusieurs manières de mener à bien ce travail. D'une pause globale sur l'ensemble du réseau local à de petites pauses littéralement de 1 à 2 secondes dans certaines parties du réseau.

Réseau, arrêtez ! Interrupteurs, remplacez-les !

Le plus simple est bien entendu de déclarer une rupture de communication globale sur tous les POD et tous les services DCI et de commuter toutes les liaisons depuis les switchs. А aux commutateurs N.

L'histoire d'un interrupteur
En dehors de l'interruption, dont nous ne pouvons pas prédire de manière fiable (oui, nous connaissons le nombre de liaisons, mais nous ne savons pas combien de fois quelque chose se passera mal - d'un cordon de brassage cassé ou d'un connecteur endommagé à un port ou un émetteur-récepteur défectueux ), on ne peut pas encore prédire à l'avance si la longueur des cordons de brassage, DAC, AOC connectés aux anciens commutateurs A est suffisante pour les atteindre jusqu'aux nouveaux commutateurs N, bien que se trouvant à proximité, mais toujours un peu à l'écart, et si les mêmes émetteurs-récepteurs fonctionneront /DAC/AOC des commutateurs Brocade aux commutateurs Arista.

Et tout cela dans des conditions de forte pression de la part des clients et du support technique (« Natasha, lève-toi ! Natasha, tout ne marche pas là ! Natasha, nous avons déjà écrit au support technique, honnêtement ! Natasha, ils ont déjà tout abandonné ! Natasha, combien d'autres n'ont pas réussi ? Natasha, quand est-ce que ça marchera ?!"). Même malgré la pause annoncée et la notification aux clients, un afflux de demandes à ce moment-là est garanti.

Arrêtez, 1-2-3-4 !

Et si nous ne déclarions pas de rupture globale, mais annoncions plutôt une série de petites interruptions de communication pour les services POD et DCI. Lors de la première pause, passez aux interrupteurs N seulement COSSE 1, dans le second - dans quelques jours - COSSE 2, puis encore quelques jours COSSE 3Plus POD 4…[N], puis les commutateurs VXLAN et enfin les routeurs L3VPN.

L'histoire d'un interrupteur
Grâce à cette organisation du travail en alternance, nous réduisons la complexité du travail ponctuel et augmentons notre temps pour résoudre les problèmes en cas de problème soudain. Le POD 1 reste connecté aux autres POD et DCI après la commutation. Mais le travail lui-même s'éternise : lors de ces travaux dans le centre de données, un ingénieur est nécessaire pour effectuer physiquement la commutation, et pendant les travaux (et ces travaux sont généralement effectués la nuit, du 2 à 5 heures du matin), la présence d'un ingénieur réseau en ligne est requise à un niveau de qualification assez élevé. Mais nous obtenons ensuite de courtes interruptions de communication : en règle générale, le travail peut être effectué dans un intervalle d'une demi-heure avec une pause pouvant aller jusqu'à 2 minutes (en pratique, souvent 20 à 30 secondes avec le comportement attendu de l'équipement).

Dans l'exemple client S1 ou client S2 vous devrez avertir des travaux avec interruption de communication au moins trois fois - la première fois pour effectuer des travaux sur un POD, dans lequel se trouve l'un de ses serveurs, la deuxième fois - la deuxième et la troisième fois - lorsque équipement de commutation pour les services DCI.

Changer de canal de communication agrégé

Pourquoi parlons-nous du comportement attendu des équipements et de la manière dont les canaux agrégés peuvent être commutés tout en minimisant les interruptions de communication ? Imaginons l'image suivante :

L'histoire d'un interrupteur
D'un côté du lien se trouvent des commutateurs de distribution POD - D1 и D2, ils forment entre eux une paire MLAG (pile, usine VCS, paire vPC), par contre il y a deux liens - Lien 1 и Lien 2 - inclus dans la paire MLAG d'anciens commutateurs d'agrégation А. Du côté de l'interrupteur D une interface agrégée avec le nom Canal de port A, du côté des commutateurs d'agrégation А — interface agrégée avec le nom Canal de port D.

Les interfaces agrégées utilisent LACP dans leur fonctionnement, c'est-à-dire que les commutateurs des deux côtés échangent régulièrement des paquets LACPDU sur les deux liaisons pour s'assurer que les liaisons :

  • ouvriers;
  • inclus dans une paire d’appareils du côté distant.

Lors de l'échange de paquets, le paquet porte la valeur identifiant-système, indiquant l'appareil sur lequel ces liens sont inclus. Pour une paire MLAG (pile, usine, etc.), la valeur de l'ID système pour les appareils qui forment l'interface agrégée est la même. Changer D1 envoie à Lien 1 значение identifiant système D, et changez D2 envoie à Lien 2 значение identifiant système D.

Commutateurs A1 и A2 analysez les paquets LACPDU reçus sur une interface Po D et vérifiez si l'ID système qu'ils contiennent correspond. Si l'identifiant système reçu via un lien diffère soudainement de la valeur d'exploitation actuelle, puis ce lien est supprimé de l'interface agrégée jusqu'à ce que la situation soit corrigée. Maintenant du côté de notre commutateur D valeur actuelle de l'ID système du partenaire LACP - A, et du côté de l'interrupteur А — valeur actuelle de l'ID système du partenaire LACP — D.

Si nous devons changer d’interface agrégée, nous pouvons le faire de deux manières différentes :

Méthode 1 - Simple
Désactivez les deux liens des commutateurs A. Dans ce cas, le canal agrégé ne fonctionne pas.

L'histoire d'un interrupteur
Connectez les deux liens un par un aux commutateurs N, alors les paramètres de fonctionnement du LACP seront à nouveau négociés et l'interface sera formée Cosse sur les interrupteurs N et transmission de valeurs sur des liens identifiant du système N.

L'histoire d'un interrupteur

Méthode 2 - Minimiser les interruptions
Déconnectez le lien 2 du commutateur A2. Dans le même temps, le trafic entre А и D continueront à être transmis simplement sur l'un des liens, qui resteront partie intégrante de l'interface agrégée.

L'histoire d'un interrupteur
Connectez le lien 2 au commutateur N2. Sur l'interrupteur N l'interface agrégée est déjà configurée Po DN, et changez N2 commencera à transmettre vers LACPDU identifiant du système N. A ce stade on peut déjà vérifier que le switch N2 fonctionne correctement avec l'émetteur-récepteur utilisé pour Lien 2, que le port de connexion est entré dans l'état Up, et qu'aucune erreur ne se produit sur le port de connexion lors de la transmission des LACPDU.

L'histoire d'un interrupteur
Mais le fait que le commutateur D2 pour interface agrégée PoA par Le lien 2 reçoit une valeur d'ID système N différente de la valeur A d'ID système d'exploitation actuelle., n'autorise pas les commutateurs D présenter Lien 2 partie de l'interface agrégée PoA. Changer N je ne peux pas entrer Lien 2 en service, car il ne reçoit pas de confirmation de fonctionnement du partenaire LACP du commutateur D2. Le trafic qui en résulte est Lien 2 ne pas passer.

Et maintenant, nous désactivons le lien 1 du commutateur A1, privant ainsi les commutateurs А и D interface globale de travail. Donc du côté du switch D la valeur actuelle de l'ID du système de travail pour l'interface disparaît PoA.

L'histoire d'un interrupteur
Cela permet des commutateurs D и N accepter d'échanger l'identifiant du système UN sur les interfaces PoA и Po DN, de sorte que le trafic commence à être transmis le long de la liaison Lien 2. La pause dans ce cas est, en pratique, jusqu'à 2 secondes.

L'histoire d'un interrupteur
Et maintenant, nous pouvons facilement basculer le Link 1 vers le switch N1., rétablissant la capacité et le niveau de redondance des interfaces PoA и Po DN. Puisque lorsque ce lien est connecté, la valeur actuelle de l'ID système ne change pas d'un côté ou de l'autre, il n'y a pas d'interruption.

L'histoire d'un interrupteur

Liens supplémentaires

Mais la commutation peut être effectuée sans la présence d'un ingénieur au moment de la commutation. Pour ce faire, nous devrons au préalable établir des liens supplémentaires entre les commutateurs de distribution D et de nouveaux commutateurs d'agrégation N.

L'histoire d'un interrupteur
Nous établissons de nouveaux liens entre les commutateurs d'agrégation N et des commutateurs de distribution pour tous les POD. Cela nécessite de commander et de poser des cordons de brassage supplémentaires, ainsi que d'installer des émetteurs-récepteurs supplémentaires comme dans Net D. Nous pouvons le faire parce que dans nos commutateurs D Chaque POD dispose de ports libres (ou nous les pré-libérons). De ce fait, chaque POD est physiquement connecté par deux liaisons aux anciens commutateurs A et aux nouveaux commutateurs N.

L'histoire d'un interrupteur
Sur l'interrupteur D deux interfaces agrégées ont été formées - PoA avec des liens Lien 1 и Lien 2Et Po N - avec des liens Lien N1 и Lien N2. A ce stade, on vérifie la bonne connexion des interfaces et des liens, les niveaux de signaux optiques aux deux extrémités des liens (via les informations DDM des commutateurs), on peut même vérifier les performances du lien en charge ou surveiller les états de signaux optiques et températures de l'émetteur-récepteur pendant quelques jours.

Le trafic est toujours envoyé via l'interface PoA, et l'interface Po N ne coûte aucun trafic. Les paramètres sur les interfaces ressemblent à ceci :

Interface Port-channel A
Switchport mode trunk
Switchport allowed vlan C1, C2

Interface Port-channel N
Switchport mode trunk
Switchport allowed vlan none

En règle générale, les commutateurs D prennent en charge la reconfiguration de session ; des modèles de commutateurs dotés de cette fonctionnalité sont utilisés. Nous pouvons donc modifier les paramètres des interfaces Po A et Po N en une seule étape :

Configure session
Interface Port-channel A
Switchport allowed vlan none
Interface Port-channel N
Switchport allowed vlan C1, C2
Commit

Le changement de configuration se fera alors assez rapidement, et la pause ne durera en pratique pas plus de 5 secondes.

Cette méthode permet de réaliser à l'avance tous les travaux préparatoires, d'effectuer toutes les vérifications nécessaires, de coordonner le travail avec les participants au processus, de prévoir en détail les actions pour la réalisation de l'œuvre, sans envolées de créativité lorsque « tout s'est mal passé ». " et ayez à portée de main un plan pour revenir à la configuration précédente. Les travaux selon ce plan sont effectués par un ingénieur réseau sans la présence sur place d'un ingénieur du data center qui effectue physiquement la commutation.

Ce qui est également important avec cette méthode de commutation, c'est que tous les nouveaux liens sont déjà surveillés à l'avance. Erreurs, inclusion de liens dans l'unité, chargement de liens - toutes les informations nécessaires sont déjà dans le système de surveillance, et cela est déjà dessiné sur les cartes.

D-Day

POD

Nous avons choisi le chemin de changement le moins pénible pour les clients et le moins sujet aux scénarios « quelque chose s'est mal passé » avec des liens supplémentaires. Nous avons donc basculé tous les POD vers de nouveaux commutateurs d'agrégation en quelques nuits.

L'histoire d'un interrupteur
Mais il ne reste plus qu'à changer l'équipement qui fournit les services DCI.

L2

Dans le cas des équipements offrant une connectivité L2, nous n'avons pas pu réaliser un travail similaire avec des liaisons supplémentaires. Il y a à cela au moins deux raisons :

  • Manque de ports libres de la vitesse requise sur les commutateurs VXLAN.
  • Manque de fonctionnalité de changement de configuration de session sur les commutateurs VXLAN.

Nous n'avons pas commuté les liens « un à la fois » avec une rupture uniquement en nous mettant d'accord sur une nouvelle paire d'identifiants système, car nous n'avions pas confiance à 100 % que la procédure se déroulerait correctement, et un test en laboratoire a montré que dans Dans le cas où « quelque chose ne va pas », nous obtenons toujours une interruption de connexion, et le pire ne concerne pas seulement les clients qui disposent d'une connectivité L2 avec d'autres centres de données, mais généralement tous les clients de ce centre de données.

Nous avons effectué un travail de propagande en amont sur la transition des canaux L2, de sorte que le nombre de clients concernés par les travaux sur les commutateurs VXLAN était déjà plusieurs fois inférieur à celui d'il y a un an. En conséquence, nous avons décidé d'interrompre la communication via le service de connexion L2, à condition de maintenir le fonctionnement normal des services du réseau local dans un centre de données. De plus, le SLA de ce service prévoit la possibilité d'effectuer des travaux programmés avec interruptions.

L3

Pourquoi avons-nous recommandé à tout le monde de passer à L3VPN lors de l'organisation des services DCI ? L'une des raisons est la possibilité d'effectuer des travaux sur l'un des routeurs qui fournissent ce service, en réduisant simplement le niveau de redondance à N+0, sans interrompre la communication.

Examinons de plus près le système de prestation de services. Dans ce service, le segment L2 va des serveurs clients uniquement aux routeurs L3VPN Selectel. Le réseau client se termine sur les routeurs.

Chaque serveur client, par ex. S2 и S3 dans le diagramme ci-dessus, ont leurs propres adresses IP privées - 10.0.0.2/24 sur le serveur S2 и 10.0.0.3/24 sur le serveur S3. Adresses 10.0.0.252/24 и 10.0.0.253/24 attribué par Selectel aux routeurs L3VPN-1 и L3VPN-2, respectivement. adresse IP 10.0.0.254/24 est une adresse VIP VRRP sur les routeurs Selectel.

Vous pouvez en savoir plus sur le service L3VPN lire le dans notre blog.

Avant le changement, tout ressemblait à peu près au schéma :

L'histoire d'un interrupteur
Deux routeurs L3VPN-1 и L3VPN-2 étaient connectés à l’ancien commutateur d’agrégation А. Le maître de l'adresse VIP VRRP 10.0.0.254 est le routeur L3VPN-1. Il a une priorité plus élevée pour cette adresse que le routeur L3VPN-2.

unit 1006 {
    description C2;
    vlan-id 1006;
    family inet {       
        address 10.0.0.252/24 {
            vrrp-group 1 {
                priority 200;
                virtual-address 10.100.0.254;
                preempt {
                    hold-time 120;
                }
                accept-data;
            }
        }
    }
}

Le serveur S2 utilise la passerelle 10.0.0.254 pour communiquer avec des serveurs situés à d'autres emplacements. Ainsi, déconnecter le routeur L3VPN-2 du réseau (bien entendu, s’il est d’abord déconnecté du domaine MPLS) n’affecte pas la connectivité des serveurs du client. À ce stade, le niveau de redondance du circuit est simplement réduit.

L'histoire d'un interrupteur
Après cela, nous pouvons reconnecter le routeur en toute sécurité L3VPN-2 à une paire d'interrupteurs N. Posez des liens, changez d'émetteur-récepteur. Les interfaces logiques du routeur, dont dépend le fonctionnement des services clients, sont désactivées jusqu'à ce qu'il soit confirmé que tout fonctionne comme il se doit.

Après avoir vérifié les liaisons, les émetteurs-récepteurs, les niveaux de signal et les niveaux d'erreur sur les interfaces, le routeur est mis en service, mais déjà connecté à une nouvelle paire de commutateurs.

L'histoire d'un interrupteur
Ensuite, nous réduisons la priorité VRRP du routeur L3VPN-1 et l'adresse VIP 10.0.0.254 est déplacée vers le routeur L3VPN-2. Ces travaux sont également réalisés sans interruption de communication.

L'histoire d'un interrupteur
Transfert de l'adresse VIP 10.0.0.254 vers le routeur L3VPN-2 vous permet de désactiver le routeur L3VPN-1 sans interruption de communication pour le client et connectez-le à une nouvelle paire de commutateurs d'agrégation N.

L'histoire d'un interrupteur
La question de savoir s'il faut ou non renvoyer VRRP VIP au routeur L3VPN-1 est une autre question, et même s'il est renvoyé, cela se fait sans interrompre la connexion.

En tout

Après toutes ces étapes, nous avons effectivement remplacé les commutateurs d'agrégation dans l'un de nos centres de données, tout en minimisant les perturbations pour nos clients.

L'histoire d'un interrupteur
Il ne reste plus qu'à démonter. Démontage des anciens commutateurs, démontage des anciennes liaisons entre les commutateurs A et D, démontage des émetteurs-récepteurs de ces liaisons, correction du monitoring, correction des schémas de réseau en documentation et monitoring.

Nous pouvons utiliser des commutateurs, des émetteurs-récepteurs, des cordons de brassage, des AOC, des DAC laissés après la commutation dans d'autres projets ou pour d'autres commutations similaires.

"Natasha, nous avons tout changé!"

Source: habr.com

Ajouter un commentaire