La història d'un interruptor

La història d'un interruptor
A la nostra agregació de xarxa local teníem sis parells d'interruptors Arista DCS-7050CX3-32S i un parell d'interruptors Brocade VDX 6940-36Q. No és que estiguéssim massa esforçats pels interruptors Brocade d'aquesta xarxa, funcionen i fan les seves funcions, però estàvem preparant l'automatització total d'algunes accions i no teníem aquestes capacitats en aquests interruptors. També volia canviar d'interfícies 40GE a la possibilitat d'utilitzar 100GE per fer una reserva per als propers 2-3 anys. Així que vam decidir canviar Brocade per Arista.

Aquests commutadors són commutadors d'agregació de LAN per a cada centre de dades. Els commutadors de distribució (el segon nivell d'agregació) s'hi connecten directament, que ja munten commutadors de xarxa local Top-of-Rack en bastidors amb servidors.

La història d'un interruptor
Cada servidor està connectat a un o dos commutadors d'accés. Els commutadors d'accés estan connectats a un parell d'interruptors de distribució (s'utilitzen dos interruptors de distribució i dos enllaços físics des de l'interruptor d'accés a diferents commutadors de distribució per a la redundància).

Cada servidor pot ser utilitzat pel seu propi client, de manera que al client se li assigna una VLAN independent. Aleshores, la mateixa VLAN es registra en un altre servidor d'aquest client en qualsevol bastidor. El centre de dades consta de diverses files d'aquest tipus (POD), cada fila de bastidors té els seus propis interruptors de distribució. Aleshores, aquests interruptors de distribució es connecten a commutadors d'agregació.

La història d'un interruptor
Els clients poden demanar un servidor en qualsevol fila; és impossible predir per endavant que el servidor s'assignarà o s'instal·larà en una fila específica en un bastidor específic, per això hi ha unes 2500 VLAN en commutadors d'agregació a cada centre de dades.

L'equip per a DCI (Data-Center Interconnect) està connectat a commutadors d'agregació. Pot estar pensat per a la connectivitat L2 (un parell d'interruptors que formen un túnel VXLAN a un altre centre de dades) o per a la connectivitat L3 (dos encaminadors MPLS).

La història d'un interruptor
Com ja he escrit, per unificar els processos d'automatització de la configuració dels serveis en equips en un centre de dades, calia substituir els commutadors centrals d'agregació. Vam instal·lar nous interruptors al costat dels existents, els vam combinar en un parell MLAG i vam començar a preparar-nos per treballar. Es van connectar immediatament als commutadors d'agregació existents, de manera que tenien un domini L2 comú a totes les VLAN de client.

Detalls del circuit

Per a més informació, posem un nom als antics interruptors d'agregació A1 и A2, nou - N1 и N2. Imaginem-ho en POD 1 и POD 4 els servidors d'un client estan allotjats С1,La VLAN del client s'indica en blau. Aquest client està utilitzant el servei de connectivitat L2 amb un altre centre de dades, de manera que la seva VLAN s'alimenta a un parell de commutadors VXLAN.

Client С2 allotja servidors a POD 2 и POD 3,La VLAN del client s'indica en verd fosc. Aquest client també utilitza un servei de connectivitat amb un altre centre de dades, però L3, de manera que la seva VLAN s'alimenta a un parell d'encaminadors L3VPN.

La història d'un interruptor
Necessitem que les VLAN de client entenguin en quines etapes del treball de substitució què passa, on es produeix la interrupció de la comunicació i quina pot ser la seva durada. El protocol STP no s'utilitza en aquest esquema, ja que l'amplada de l'arbre en aquest cas és gran i la convergència del protocol creix exponencialment amb el nombre de dispositius i enllaços entre ells.

Tots els dispositius connectats mitjançant enllaços dobles formen una pila, un parell MLAG o un teixit Ethernet VCS. Per a un parell d'encaminadors L3VPN, aquestes tecnologies no s'utilitzen, ja que no hi ha necessitat de redundància L2; n'hi ha prou que tinguin connectivitat L2 entre si mitjançant commutadors d'agregació.

Opcions d'implementació

Quan vam analitzar les opcions per a més esdeveniments, ens vam adonar que hi ha diverses maneres de dur a terme aquest treball. Des d'una interrupció global a tota la xarxa local fins a petites pauses literalment d'1 a 2 segons en parts de la xarxa.

Xarxa, para! Interruptors, substituïu-los!

La manera més senzilla és, per descomptat, declarar una interrupció de comunicació global a tots els POD i tots els serveis DCI i canviar tots els enllaços dels commutadors. А als interruptors N.

La història d'un interruptor
A part de la interrupció, el temps de la qual no podem predir de manera fiable (sí, sabem el nombre d'enllaços, però no sabem quantes vegades alguna cosa sortirà malament, des d'un cable de connexió trencat o connector danyat fins a un port o transceptor defectuós). ), encara no podem predir per endavant si la longitud dels cables de connexió, DAC, AOC, connectats als antics interruptors A, serà suficient per arribar als nous interruptors N, tot i que estiguin al costat, però encara una mica per el costat i si els mateixos transceptors funcionaran /DAC/AOC des dels interruptors Brocade als interruptors Arista.

I tot això en condicions de forta pressió dels clients i de l'assistència tècnica (“Natasha, aixeca't! Natasha, allà no funciona tot! Natasha, ja hem escrit al suport tècnic, sincerament! Natasha, ja ho han deixat tot. ! Natasha, quants més en tenim no funcionarà? Natasha, quan funcionarà?!"). Fins i tot malgrat el descans i la notificació prèviament anunciats als clients, es garanteix una afluència de peticions en aquest moment.

Pare, 1-2-3-4!

Què passa si no anunciem una ruptura global, sinó una sèrie de petites interrupcions de comunicació per als serveis POD i DCI. Durant el primer descans, canvieu als interruptors N només POD 1, en el segon -en un parell de dies- POD 2, després un parell de dies més POD 3Addicional POD 4…[N], després commutadors VXLAN i després encaminadors L3VPN.

La història d'un interruptor
Amb aquesta organització del treball de canvi, reduïm la complexitat del treball puntual i augmentem el nostre temps per resoldre problemes si alguna cosa va malament de sobte. El POD 1 roman connectat a altres POD i DCI després de canviar. Però el treball en si s'allarga durant molt de temps; durant aquest treball al centre de dades, cal que un enginyer realitzi físicament la commutació i durant el treball (i aquest treball es realitza, per regla general, a la nit, a partir de 2 a les 5 del matí), es requereix la presència d'un enginyer de xarxes en línia amb una qualificació de nivell força elevat. Però llavors tenim breus interrupcions de comunicació; per regla general, el treball es pot dur a terme en un interval de mitja hora amb una pausa de fins a 2 minuts (a la pràctica, sovint de 20 a 30 segons amb el comportament esperat de l'equip).

A l'exemple client С1 o client С2 haureu d'avisar sobre el treball amb una interrupció de la comunicació almenys tres vegades: la primera vegada per realitzar treballs en un POD, en el qual es troba un dels seus servidors, la segona vegada, la segona i la tercera, quan equips de commutació per a serveis DCI.

Canvi de canals de comunicació agregats

Per què estem parlant del comportament esperat dels equips i de com es poden canviar els canals agregats alhora que es minimitzen la interrupció de la comunicació? Imaginem la següent imatge:

La història d'un interruptor
A un costat de l'enllaç hi ha interruptors de distribució POD: D1 и D2, formen un parell MLAG entre ells (pila, fàbrica VCS, parell vPC), d'altra banda hi ha dos enllaços: Enllaç 1 и Enllaç 2 - inclòs al parell d'interruptors d'agregació antics MLAG А. Al costat de l'interruptor D una interfície agregada amb el nom Port-canal A, al costat dels interruptors d'agregació А - interfície agregada amb el nom Port-canal D.

Les interfícies agregades utilitzen LACP en el seu funcionament, és a dir, els interruptors d'ambdós costats intercanvien regularment paquets LACPDU als dos enllaços per assegurar-se que els enllaços:

  • treballadors;
  • inclòs en un parell de dispositius al costat remot.

Quan s'intercanvien paquets, el paquet porta el valor identificador del sistema, indicant el dispositiu on s'inclouen aquests enllaços. Per a un parell MLAG (pila, fàbrica, etc.), el valor d'identificador del sistema per als dispositius que formen la interfície agregada és el mateix. Interruptor D1 envia a Enllaç 1 значение identificador del sistema D, i canvia D2 envia a Enllaç 2 значение identificador del sistema D.

Interruptors A1 и A2 analitzeu els paquets LACPDU rebuts a través d'una interfície Po D i comproveu si l'identificador del sistema coincideix. Si l'identificador del sistema rebut a través d'algun enllaç és diferent de sobte del valor de funcionament actual, llavors aquest enllaç s'elimina de la interfície agregada fins que es corregeixi la situació. Ara al nostre costat de canvi D valor actual de l'identificador del sistema del soci LACP - A, i al costat de l'interruptor А — valor actual de l'identificador del sistema del soci LACP — D.

Si necessitem canviar la interfície agregada, ho podem fer de dues maneres diferents:

Mètode 1 - Simple
Desactiveu els dos enllaços dels interruptors A. En aquest cas, el canal agregat no funciona.

La història d'un interruptor
Connecteu els dos enllaços un per un als interruptors N, aleshores es tornaran a negociar els paràmetres de funcionament del LACP i es formarà la interfície PoD als interruptors N i transmissió de valors en enllaços identificador del sistema N.

La història d'un interruptor

Mètode 2 - Minimitzar la interrupció
Desconnecteu l'enllaç 2 de l'interruptor A2. Al mateix temps, el trànsit entre А и D es continuarà transmetent simplement a través d'un dels enllaços, que seguirà formant part de la interfície agregada.

La història d'un interruptor
Connecteu l'enllaç 2 al commutador N2. A l'interruptor N la interfície agregada ja està configurada Po DN, i canvia N2 començarà a transmetre a LACPDU identificador del sistema N. En aquesta fase ja podem comprovar que l'interruptor N2 funciona correctament amb el transceptor utilitzat Enllaç 2, que el port de connexió ha entrat a l'estat Up, i que no es produeixin errors al port de connexió quan es transmeten LACPDU.

La història d'un interruptor
Però el fet que l'interruptor D2 per a la interfície agregada Po A des del costat L'enllaç 2 rep un valor d'identificador del sistema N diferent del valor A de l'identificador del sistema operatiu actual, no permet interruptors D introduir Enllaç 2 part de la interfície agregada Po A. Interruptor N no pot entrar Enllaç 2 en funcionament, ja que no rep la confirmació d'operabilitat del soci LACP de l'interruptor D2. El trànsit resultant és Enllaç 2 no passar.

I ara desactivem l'enllaç 1 de l'interruptor A1, privant així els interruptors А и D interfície agregada de treball. Així que al costat de l'interruptor D el valor d'identificació del sistema de treball actual per a la interfície desapareix Po A.

La història d'un interruptor
Això permet interruptors D и N accepteu intercanviar l'identificador del sistema AN a les interfícies Po A и Po DN, de manera que el trànsit es comenci a transmetre per l'enllaç Enllaç 2. El descans en aquest cas és, a la pràctica, de fins a 2 segons.

La història d'un interruptor
I ara podem canviar fàcilment l'enllaç 1 per canviar l'N1, restaurant la capacitat i el nivell de redundància de la interfície Po A и Po DN. Com que quan aquest enllaç està connectat, el valor actual de l'identificador del sistema no canvia a cap dels dos costats, no hi ha interrupció.

La història d'un interruptor

Enllaços addicionals

Però el canvi es pot realitzar sense la presència d'un enginyer en el moment del canvi. Per fer-ho, haurem d'establir enllaços addicionals entre commutadors de distribució per endavant D i nous interruptors d'agregació N.

La història d'un interruptor
Estem establint nous enllaços entre commutadors d'agregació N i interruptors de distribució per a tots els POD. Això requereix ordenar i col·locar cables de connexió addicionals i instal·lar transceptors addicionals com en N, i a D. Ho podem fer perquè en els nostres interruptors D Cada POD té ports lliures (o els alliberem prèviament). Com a resultat, cada POD està connectat físicament per dos enllaços als antics interruptors A i als nous interruptors N.

La història d'un interruptor
A l'interruptor D s'han format dues interfícies agregades - Po A amb enllaços Enllaç 1 и Enllaç 2I Po N - amb enllaços Enllaç N1 и Enllaç N2. En aquesta etapa, comprovem la connexió correcta d'interfícies i enllaços, els nivells de senyals òptics als dos extrems dels enllaços (mitjançant la informació DDM dels interruptors), fins i tot podem comprovar el rendiment de l'enllaç sota càrrega o controlar els estats de senyals òptics i temperatures del transceptor durant un parell de dies.

El trànsit encara s'envia a través de la interfície Po A, i la interfície Po N no costa trànsit. La configuració de les interfícies és una cosa així:

Interface Port-channel A
Switchport mode trunk
Switchport allowed vlan C1, C2

Interface Port-channel N
Switchport mode trunk
Switchport allowed vlan none

Els commutadors D, per regla general, admeten canvis de configuració basats en sessió; s'utilitzen models de commutadors que tenen aquesta funcionalitat. Així, podem canviar la configuració de les interfícies Po A i Po N en un sol pas:

Configure session
Interface Port-channel A
Switchport allowed vlan none
Interface Port-channel N
Switchport allowed vlan C1, C2
Commit

Aleshores, el canvi de configuració es produirà amb prou rapidesa i, a la pràctica, la pausa no serà superior a 5 segons.

Aquest mètode ens permet completar tots els treballs preparatoris amb antelació, realitzar totes les comprovacions necessàries, coordinar el treball amb els participants en el procés, predir amb detall les accions per a la producció del treball, sense volar la creativitat quan "tot va sortir malament". ,” i tenir a mà un pla per tornar a la configuració anterior. El treball d'acord amb aquest pla el realitza un enginyer de xarxa sense la presència d'un enginyer de centre de dades al lloc que realitzi físicament la commutació.

El que també és important amb aquest mètode de canvi és que tots els enllaços nous ja es controlen per endavant. Errors, inclusió d'enllaços a la unitat, càrrega d'enllaços: tota la informació necessària ja es troba al sistema de seguiment, i aquesta ja està dibuixada als mapes.

dia D

POD

Vam triar el camí de canvi menys dolorós per als clients i el menys propens a escenaris de "alguna cosa va malament" amb enllaços addicionals. Així que vam canviar tots els POD a nous interruptors d'agregació en un parell de nits.

La història d'un interruptor
Però només queda canviar l'equip que ofereix serveis DCI.

L2

En el cas dels equips que proporcionen connectivitat L2, no hem pogut realitzar un treball similar amb enllaços addicionals. Hi ha almenys dues raons per això:

  • Manca de ports lliures de la velocitat requerida als commutadors VXLAN.
  • Falta de funcionalitat de canvi de configuració de sessió als commutadors VXLAN.

No vam canviar els enllaços "un a la vegada" només amb una interrupció mentre acordàvem un nou parell d'identificació del sistema, ja que no teníem confiança al 100% que el procediment anava correctament i una prova al laboratori va demostrar que en el En cas que "alguna cosa va malament", encara tenim una interrupció de la connexió, i el pitjor no és només per als clients que tenen connectivitat L2 amb altres centres de dades, sinó en general per a tots els clients d'aquest centre de dades.

Hem realitzat treballs de propaganda amb antelació sobre la transició dels canals L2, de manera que el nombre de clients afectats pel treball als commutadors VXLAN ja era diverses vegades inferior al de fa un any. Com a resultat, vam decidir interrompre la comunicació mitjançant el servei de connexió L2, sempre que mantinguem el funcionament normal dels serveis de xarxa local en un centre de dades. A més, el SLA d'aquest servei preveu la possibilitat de realitzar treballs programats amb interrupcions.

L3

Per què recomanem que tothom canviï a L3VPN quan organitzeu serveis DCI? Un dels motius és la possibilitat de realitzar treballs en un dels encaminadors que ofereixen aquest servei, simplement reduint el nivell de redundància a N+0, sense interrompre la comunicació.

Fem una ullada més de prop a l'esquema de prestació de serveis. En aquest servei, el segment L2 passa dels servidors de client només als encaminadors Selectel L3VPN. La xarxa del client s'acaba als encaminadors.

Cada servidor client, p. S2 и S3 al diagrama anterior, tenen les seves pròpies adreces IP privades: 10.0.0.2/24 al servidor S2 и 10.0.0.3/24 al servidor S3. Adreces 10.0.0.252/24 и 10.0.0.253/24 assignat per Selectel als encaminadors L3VPN-1 и L3VPN-2, respectivament. adreça IP 10.0.0.254/24 és una adreça VIP VRRP als encaminadors Selectel.

Podeu obtenir més informació sobre el servei L3VPN llegir al nostre blog.

Abans del canvi, tot semblava aproximadament com al diagrama:

La història d'un interruptor
Dos encaminadors L3VPN-1 и L3VPN-2 estaven connectats a l'antic interruptor d'agregació А. El mestre de l'adreça VIP VRRP 10.0.0.254 és l'encaminador L3VPN-1. Té una prioritat més alta per a aquesta adreça que l'encaminador L3VPN-2.

unit 1006 {
    description C2;
    vlan-id 1006;
    family inet {       
        address 10.0.0.252/24 {
            vrrp-group 1 {
                priority 200;
                virtual-address 10.100.0.254;
                preempt {
                    hold-time 120;
                }
                accept-data;
            }
        }
    }
}

El servidor S2 utilitza la passarel·la 10.0.0.254 per comunicar-se amb servidors d'altres ubicacions. Així, desconnectar l'encaminador L3VPN-2 de la xarxa (per descomptat, si primer es desconnecta del domini MPLS) no afecta la connectivitat dels servidors del client. En aquest punt, el nivell de redundància del circuit simplement es redueix.

La història d'un interruptor
Després d'això, podem tornar a connectar l'encaminador amb seguretat L3VPN-2 a un parell d'interruptors N. Establir enllaços, canviar els transceptors. Les interfícies lògiques de l'encaminador, de les quals depèn el funcionament dels serveis del client, es desactiven fins que es confirmi que tot funciona com cal.

Després de comprovar els enllaços, els transceptors, els nivells de senyal i els nivells d'error de les interfícies, l'encaminador es posa en funcionament, però ja està connectat a un nou parell d'interruptors.

La història d'un interruptor
A continuació, baixem la prioritat VRRP de l'encaminador L3VPN-1 i l'adreça VIP 10.0.0.254 es trasllada a l'encaminador L3VPN-2. Aquests treballs també es realitzen sense interrupció de la comunicació.

La història d'un interruptor
Transferència de l'adreça VIP 10.0.0.254 a l'encaminador L3VPN-2 permet desactivar l'encaminador L3VPN-1 sense interrupció de la comunicació per al client i connectar-lo a un nou parell d'interruptors d'agregació N.

La història d'un interruptor
Si es torna o no VRRP VIP a l'encaminador L3VPN-1 és una altra qüestió, i fins i tot si es retorna, es fa sense interrompre la connexió.

En total

Després de tots aquests passos, vam substituir els interruptors d'agregació en un dels nostres centres de dades, alhora que vam minimitzar les interrupcions per als nostres clients.

La història d'un interruptor
Només queda el desmantellament. Desmantellament d'interruptors antics, desmuntatge d'enllaços antics entre interruptors A i D, desmuntatge de transceptors d'aquests enllaços, correcció de monitorització, correcció d'esquemes de xarxa en documentació i monitoratge.

Podem utilitzar interruptors, transceptors, cables de connexió, AOC, DAC que queden després de canviar en altres projectes o per a altres canvis similars.

"Natasha, ho hem canviat tot!"

Font: www.habr.com

Afegeix comentari