La historia de un interruptor

La historia de un interruptor
En nuestra agregación de red local teníamos seis pares de conmutadores Arista DCS-7050CX3-32S y un par de conmutadores Brocade VDX 6940-36Q. No es que estuviéramos demasiado presionados por los conmutadores Brocade en esta red, funcionan y realizan sus funciones, pero estábamos preparando la automatización completa de algunas acciones y no teníamos estas capacidades en estos conmutadores. También quería pasar de interfaces de 40GE a la posibilidad de usar 100GE para tener una reserva para los próximos 2 o 3 años. Entonces decidimos cambiar Brocade por Arista.

Estos conmutadores son conmutadores de agregación LAN para cada centro de datos. A ellos están directamente conectados los conmutadores de distribución (el segundo nivel de agregación), que ya ensamblan conmutadores de red local Top-of-Rack en bastidores con servidores.

La historia de un interruptor
Cada servidor está conectado a uno o dos conmutadores de acceso. Los conmutadores de acceso están conectados a un par de conmutadores de distribución (para redundancia se utilizan dos conmutadores de distribución y dos enlaces físicos desde el conmutador de acceso a diferentes conmutadores de distribución).

Cada servidor puede ser utilizado por su propio cliente, por lo que al cliente se le asigna una VLAN separada. Luego, la misma VLAN se registra en otro servidor de este cliente en cualquier rack. El centro de datos consta de varias filas de este tipo (POD), cada fila de bastidores tiene sus propios conmutadores de distribución. Luego, estos conmutadores de distribución se conectan a conmutadores de agregación.

La historia de un interruptor
Los clientes pueden solicitar un servidor en cualquier fila; es imposible predecir de antemano qué servidor se asignará o instalará en una fila específica en un rack específico, razón por la cual hay alrededor de 2500 VLAN en conmutadores de agregación en cada centro de datos.

Los equipos para DCI (Interconexión de centros de datos) están conectados a conmutadores de agregación. Puede estar destinado a conectividad L2 (un par de conmutadores que forman un túnel VXLAN hacia otro centro de datos) o a conectividad L3 (dos enrutadores MPLS).

La historia de un interruptor
Como ya escribí, para unificar los procesos de automatización de la configuración de servicios en equipos en un centro de datos, fue necesario reemplazar los conmutadores de agregación centrales. Instalamos nuevos conmutadores junto a los existentes, los combinamos en un par MLAG y comenzamos a prepararnos para el trabajo. Se conectaron inmediatamente a conmutadores de agregación existentes, de modo que tuvieran un dominio L2 común en todas las VLAN del cliente.

Detalles del esquema

Para detalles específicos, nombremos los antiguos conmutadores de agregación. A1 и A2, nuevo - N1 и N2. Imaginemos que en VAINA 1 и VAINA 4 Los servidores de un cliente están alojados. S1,La VLAN del cliente se indica en azul. Este cliente está utilizando el servicio de conectividad L2 con otro centro de datos, por lo que su VLAN se alimenta a un par de conmutadores VXLAN.

Cliente S2 aloja servidores en VAINA 2 и VAINA 3,La VLAN del cliente se indica en verde oscuro. Este cliente también utiliza un servicio de conectividad con otro centro de datos, pero L3, por lo que su VLAN se alimenta a un par de enrutadores L3VPN.

La historia de un interruptor
Necesitamos VLAN de cliente para comprender en qué etapas del trabajo de reemplazo sucede, dónde ocurre la interrupción de la comunicación y cuál puede ser su duración. El protocolo STP no se utiliza en este esquema, ya que el ancho del árbol en este caso es grande y la convergencia del protocolo crece exponencialmente con la cantidad de dispositivos y enlaces entre ellos.

Todos los dispositivos conectados mediante enlaces dobles forman una pila, un par MLAG o una estructura Ethernet VCS. Para un par de enrutadores L3VPN, tales tecnologías no se utilizan, ya que no hay necesidad de redundancia L2, basta con que tengan conectividad L2 entre sí a través de conmutadores de agregación.

Opciones de implementación

Al analizar opciones para futuros eventos, nos dimos cuenta de que hay varias formas de realizar este trabajo. Desde una interrupción global en toda la red local hasta pequeñas interrupciones, literalmente de 1 a 2 segundos, en partes de la red.

Red, ¡para! ¡Interruptores, reemplácelos!

La forma más sencilla es, por supuesto, declarar una interrupción de comunicación global en todos los POD y todos los servicios DCI y cambiar todos los enlaces desde los conmutadores. А a interruptores N.

La historia de un interruptor
Aparte de la interrupción, cuyo tiempo no podemos predecir de manera confiable (sí, conocemos la cantidad de enlaces, pero no sabemos cuántas veces algo saldrá mal, desde un cable de conexión roto o un conector dañado hasta un puerto o transceptor defectuoso). ), todavía no podemos predecir de antemano si la longitud de los cables de conexión, DAC, AOC, conectados a los interruptores antiguos A, será suficiente para llegar a los nuevos interruptores N, aunque están al lado de ellos, pero todavía un poco para del lado y si los mismos transceptores funcionarán /DAC/AOC desde los conmutadores Brocade a los conmutadores Arista.

Y todo esto bajo condiciones de fuerte presión por parte de los clientes y el soporte técnico (“¡Natasha, levántate! ¡Natasha, ahí no funciona todo! ¡Natasha, ya escribimos al soporte técnico, de verdad! Natasha, ya lo dejaron todo). ! Natasha, ¿cuántos más tenemos y no funcionará? Natasha, ¿cuándo funcionará?!"). Incluso a pesar de la pausa anunciada previamente y de la notificación a los clientes, se garantiza una afluencia de solicitudes en ese momento.

¡Para, 1-2-3-4!

¿Qué pasa si no anunciamos una interrupción global, sino más bien una serie de pequeñas interrupciones en la comunicación para los servicios POD y DCI? Durante el primer descanso, cambie a interruptores. N sólo VAINA 1, en el segundo - en un par de días - VAINA 2, luego un par de días más VAINA 3Adicional POD 4…[N], luego los conmutadores VXLAN y luego los enrutadores L3VPN.

La historia de un interruptor
Con esta organización del trabajo por turnos, reducimos la complejidad del trabajo único y aumentamos nuestro tiempo para resolver problemas si algo sale mal de repente. El POD 1 permanece conectado a otros POD y DCI después del cambio. Pero el trabajo en sí se prolonga durante mucho tiempo; durante este trabajo en el centro de datos, se requiere que un ingeniero realice físicamente la conmutación, y durante el trabajo (y dicho trabajo se realiza, por regla general, por la noche, a partir de las 2 a 5 am), se requiere la presencia de un ingeniero de redes en línea con calificaciones de nivel bastante alto. Pero luego tenemos breves interrupciones en la comunicación; por regla general, el trabajo se puede realizar en media hora con un descanso de hasta 2 minutos (en la práctica, a menudo de 20 a 30 segundos con el comportamiento esperado del equipo).

En el cliente de ejemplo S1 o cliente S2 Tendrá que advertir sobre el trabajo con una interrupción de la comunicación al menos tres veces: la primera vez para realizar el trabajo en un POD, en el que se encuentra uno de sus servidores, la segunda vez, en la segunda, y la tercera vez, cuando Equipos de conmutación para servicios DCI.

Cambiar canales de comunicación agregados

¿Por qué hablamos del comportamiento esperado de los equipos y de cómo se pueden cambiar los canales agregados minimizando al mismo tiempo la interrupción de la comunicación? Imaginemos la siguiente imagen:

La historia de un interruptor
A un lado del enlace hay interruptores de distribución POD. D1 и D2, forman un par MLAG entre sí (pila, fábrica VCS, par vPC), por otro lado, hay dos enlaces: Enlace 1 и Enlace 2 - incluido en el par MLAG de conmutadores de agregación antiguos А. En el lado del interruptor D una interfaz agregada con el nombre Canal de puerto A, del lado de los conmutadores de agregación А - interfaz agregada con el nombre Canal de puerto D.

Las interfaces agregadas utilizan LACP en su funcionamiento, es decir, los conmutadores de ambos lados intercambian periódicamente paquetes LACPDU en ambos enlaces para garantizar que los enlaces:

  • trabajadores
  • incluido en un par de dispositivos en el lado remoto.

Al intercambiar paquetes, el paquete lleva el valor. identificación del sistema, indicando el dispositivo donde se incluyen estos enlaces. Para un par MLAG (pila, fábrica, etc.), el valor de ID del sistema para los dispositivos que forman la interfaz agregada es el mismo. Cambiar D1 envía a Enlace 1 значение ID del sistema Dy cambiar D2 envía a Enlace 2 значение ID del sistema D.

Interruptores A1 и A2 analice los paquetes LACPDU recibidos a través de una interfaz Po D y verifique si la identificación del sistema en ellos coincide. Si la identificación del sistema recibida a través de algún enlace difiere repentinamente del valor operativo actual, entonces este enlace se elimina de la interfaz agregada hasta que se corrija la situación. Ahora en nuestro lado del interruptor D valor actual de identificación del sistema del socio LACP - A, y en el lado del interruptor А — valor actual de identificación del sistema del socio LACP — D.

Si necesitamos cambiar la interfaz agregada, podemos hacerlo de dos maneras diferentes:

Método 1: sencillo
Deshabilite ambos enlaces desde los interruptores A. En este caso, el canal agregado no funciona.

La historia de un interruptor
Conecte ambos enlaces uno por uno a los interruptores. N, luego los parámetros operativos de LACP se negociarán nuevamente y se formará la interfaz Vaina en interruptores N y transmisión de valores en enlaces ID del sistema sustantivo, masculino—.

La historia de un interruptor

Método 2: Minimizar las interrupciones
Desconecte el enlace 2 del interruptor A2. Al mismo tiempo, el tráfico entre А и D continuará transmitiéndose simplemente a través de uno de los enlaces, que seguirá siendo parte de la interfaz agregada.

La historia de un interruptor
Conecte el enlace 2 para cambiar N2. en el interruptor N la interfaz agregada ya está configurada PO DNy cambiar N2 comenzará a transmitir a LACPDU ID del sistema sustantivo, masculino—. En esta etapa ya podemos comprobar que el interruptor N2 funciona correctamente con el transceptor utilizado para Enlace 2, que el puerto de conexión ha entrado en el estado Up, y que no se produzcan errores en el puerto de conexión al transmitir LACPDU.

La historia de un interruptor
Pero el hecho de que el interruptor D2 para interfaz agregada Po A por El enlace 2 recibe un valor de ID del sistema N diferente del valor actual del ID del sistema operativo A., no permite interruptores D presentar Enlace 2 parte de la interfaz agregada Po A. Cambiar N no puedo entrar Enlace 2 en operación, ya que no recibe confirmación de operatividad del socio LACP del switch D2. El tráfico resultante es Enlace 2 no logrando pasar.

Y ahora apagamos el Enlace 1 desde el interruptor A1., privando así a los interruptores А и D interfaz agregada de trabajo. Así que en el lado del interruptor D el valor actual de ID del sistema en funcionamiento para la interfaz desaparece Po A.

La historia de un interruptor
Esto permite cambiar D и N aceptar intercambiar ID del sistema UN en interfaces Po A и PO DN, para que el tráfico comience a transmitirse a lo largo del enlace Enlace 2. La pausa en este caso es, en la práctica, de hasta 2 segundos.

La historia de un interruptor
Y ahora podemos cambiar fácilmente el Enlace 1 para cambiar N1, restaurando la capacidad y el nivel de redundancia de la interfaz Po A и PO DN. Dado que cuando se conecta este enlace, el valor actual de identificación del sistema no cambia en ningún lado, no hay interrupción.

La historia de un interruptor

Enlaces adicionales

Pero el cambio se puede realizar sin la presencia de un ingeniero en el momento del cambio. Para hacer esto, necesitaremos establecer enlaces adicionales entre los interruptores de distribución de antemano. D y nuevos conmutadores de agregación N.

La historia de un interruptor
Estamos estableciendo nuevos vínculos entre conmutadores de agregación N e interruptores de distribución para todos los POD. Esto requiere ordenar y colocar cables de conexión adicionales e instalar transceptores adicionales como en Ny en D. Podemos hacer esto porque en nuestros interruptores D Cada POD tiene puertos libres (o los liberamos previamente). Como resultado, cada POD está conectado físicamente mediante dos enlaces a los conmutadores antiguos A y a los nuevos conmutadores N.

La historia de un interruptor
en el interruptor D Se han formado dos interfaces agregadas: Po A con enlaces Enlace 1 и Enlace 2Y PoN - con enlaces Enlace N1 и Enlace N2. En esta etapa verificamos la correcta conexión de interfaces y enlaces, los niveles de señales ópticas en ambos extremos de los enlaces (a través de información DDM de los switch), incluso podemos verificar el desempeño del enlace bajo carga o monitorear los estados de señales ópticas y temperaturas del transceptor durante un par de días.

El tráfico todavía se envía a través de la interfaz. Po Ay la interfaz PoN No cuesta tráfico. La configuración de las interfaces es algo como esto:

Interface Port-channel A
Switchport mode trunk
Switchport allowed vlan C1, C2

Interface Port-channel N
Switchport mode trunk
Switchport allowed vlan none

Los conmutadores D, por regla general, admiten cambios de configuración basados ​​en sesiones; se utilizan modelos de conmutadores que tienen esta funcionalidad. Entonces podemos cambiar la configuración de las interfaces Po A y Po N en un solo paso:

Configure session
Interface Port-channel A
Switchport allowed vlan none
Interface Port-channel N
Switchport allowed vlan C1, C2
Commit

Entonces el cambio de configuración se producirá con bastante rapidez y, en la práctica, la pausa no durará más de 5 segundos.

Este método nos permite completar todo el trabajo preparatorio con anticipación, realizar todas las comprobaciones necesarias, coordinar el trabajo con los participantes en el proceso, predecir en detalle las acciones para la producción del trabajo, sin vuelos de creatividad cuando “todo salió mal”. ”, y tenga a mano un plan para volver a la configuración anterior. El trabajo según este plan lo realiza un ingeniero de redes sin la presencia de un ingeniero del centro de datos en el sitio que realice físicamente la conmutación.

Lo que también es importante en este método de conmutación es que todos los enlaces nuevos ya se controlan de antemano. Errores, inclusión de enlaces en la unidad, carga de enlaces: toda la información necesaria ya está en el sistema de seguimiento y ya está dibujada en los mapas.

Día D

POD

Elegimos la ruta de cambio menos dolorosa para los clientes y la menos propensa a escenarios de "algo salió mal" con enlaces adicionales. Así que cambiamos todos los POD a nuevos conmutadores de agregación en un par de noches.

La historia de un interruptor
Pero solo queda cambiar el equipo que brinda servicios DCI.

L2

En el caso de los equipos que brindan conectividad L2, no pudimos realizar un trabajo similar con enlaces adicionales. Hay al menos dos razones para esto:

  • Falta de puertos libres de la velocidad requerida en los conmutadores VXLAN.
  • Falta de funcionalidad de cambio de configuración de sesión en conmutadores VXLAN.

No cambiamos los enlaces "uno a la vez" con una pausa solo mientras acordábamos un nuevo par de identificación del sistema, ya que no teníamos un 100% de confianza en que el procedimiento se realizaría correctamente, y una prueba en el laboratorio mostró que en el En el caso de que “algo salga mal”, todavía tenemos una interrupción de la conexión, y lo peor no es solo para los clientes que tienen conectividad L2 con otros centros de datos, sino en general para todos los clientes de este centro de datos.

Realizamos un trabajo de propaganda con anticipación sobre la transición de los canales L2, por lo que el número de clientes afectados por el trabajo en los conmutadores VXLAN ya era varias veces menor que hace un año. Como resultado, decidimos interrumpir la comunicación a través del servicio de conexión L2, siempre que mantengamos el funcionamiento normal de los servicios de la red local en un centro de datos. Además, el SLA de este servicio prevé la posibilidad de realizar trabajos programados con interrupciones.

L3

¿Por qué recomendamos que todos cambien a L3VPN al organizar los servicios DCI? Una de las razones es la posibilidad de realizar trabajos en uno de los routers que prestan este servicio, simplemente reduciendo el nivel de redundancia a N+0, sin interrumpir la comunicación.

Echemos un vistazo más de cerca al esquema de prestación de servicios. En este servicio, el segmento L2 va desde los servidores del cliente únicamente hasta los enrutadores L3VPN Selectel. La red del cliente termina en enrutadores.

Cada servidor cliente, p.e. S2 и S3 en el diagrama anterior, tienen sus propias direcciones IP privadas - 10.0.0.2/24 en el servidor S2 и 10.0.0.3/24 en el servidor S3. Direcciones 10.0.0.252/24 и 10.0.0.253/24 asignado por Selectel a los enrutadores L3VPN-1 и L3VPN-2, respectivamente. dirección IP 10.0.0.254/24 es una dirección VIP VRRP en enrutadores Selectel.

Puedes conocer más sobre el servicio L3VPN leer en nuestro blog.

Antes del cambio, todo se veía aproximadamente como en el diagrama:

La historia de un interruptor
Dos enrutadores L3VPN-1 и L3VPN-2 estaban conectados al antiguo conmutador de agregación А. El maestro para la dirección VIP VRRP 10.0.0.254 es el enrutador L3VPN-1. Tiene una prioridad más alta para esta dirección que el enrutador. L3VPN-2.

unit 1006 {
    description C2;
    vlan-id 1006;
    family inet {       
        address 10.0.0.252/24 {
            vrrp-group 1 {
                priority 200;
                virtual-address 10.100.0.254;
                preempt {
                    hold-time 120;
                }
                accept-data;
            }
        }
    }
}

El servidor S2 utiliza la puerta de enlace 10.0.0.254 para comunicarse con servidores en otras ubicaciones. Por lo tanto, desconectar el enrutador L3VPN-2 de la red (por supuesto, si primero se desconecta del dominio MPLS) no afecta la conectividad de los servidores del cliente. En este punto, el nivel de redundancia del circuito simplemente se reduce.

La historia de un interruptor
Después de esto ya podremos volver a conectar el router de forma segura L3VPN-2 a un par de interruptores N. Colocar enlaces, cambiar transceptores. Las interfaces lógicas del router, de las que depende el funcionamiento de los servicios del cliente, quedan deshabilitadas hasta que se confirma que todo funciona como debería.

Después de verificar los enlaces, transceptores, niveles de señal y niveles de error en las interfaces, el enrutador se pone en funcionamiento, pero ya está conectado a un nuevo par de conmutadores.

La historia de un interruptor
A continuación, reducimos la prioridad VRRP del enrutador L3VPN-1 y la dirección VIP 10.0.0.254 se mueve al enrutador L3VPN-2. Estos trabajos también se realizan sin interrupción de la comunicación.

La historia de un interruptor
Transferir la dirección VIP 10.0.0.254 al enrutador L3VPN-2 le permite desactivar el enrutador L3VPN-1 sin interrupción de la comunicación para el cliente y conectarlo a un nuevo par de conmutadores de agregación N.

La historia de un interruptor
Devolver o no VRRP VIP al enrutador L3VPN-1 es otra cuestión, e incluso si se devuelve, se hace sin interrumpir la conexión.

En total

Después de todos estos pasos, reemplazamos los conmutadores de agregación en uno de nuestros centros de datos, minimizando al mismo tiempo las interrupciones para nuestros clientes.

La historia de un interruptor
Lo único que queda es el desmantelamiento. Desmontaje de conmutadores antiguos, desmantelamiento de enlaces antiguos entre conmutadores A y D, desmontaje de transceptores de estos enlaces, corrección de seguimiento, corrección de diagramas de red en documentación y seguimiento.

Podemos utilizar interruptores, transceptores, latiguillos, AOC, DAC que quedan después de realizar la conmutación en otros proyectos o para otras conmutaciones similares.

"¡Natasha, cambiamos todo!"

Fuente: habr.com

Añadir un comentario