Red como servicio para una gran empresa: un caso no estándar

Red como servicio para una gran empresa: un caso no estándar
Cómo actualizar equipos de red en una gran empresa sin detener la producción? Acerca de un proyecto a gran escala en el modo de "cirugía a corazón abierto" dice El gerente de gestión de proyectos de Linxdatacenter, Oleg Fedorov. 

En los últimos años, hemos visto una mayor demanda de los clientes de servicios relacionados con el componente de red de la infraestructura de TI. La necesidad de conectividad de los sistemas TI, servicios, aplicaciones, las tareas de monitorización y gestión empresarial operativa en casi cualquier ámbito están obligando a las empresas hoy en día a prestar mayor atención a las redes.  

Las solicitudes van desde brindar tolerancia a fallas en la red hasta crear y administrar un sistema autónomo de cliente con la adquisición de un bloque de direcciones IP, configurar protocolos de enrutamiento y administrar el tráfico de acuerdo con las políticas de las organizaciones.

También existe una demanda creciente de soluciones integradas para la construcción y el mantenimiento de la infraestructura de red, principalmente de clientes cuya infraestructura de red se crea desde cero o es obsoleta y requiere modificaciones importantes. 

Esta tendencia coincidió en el tiempo con el período de desarrollo y complicación de la propia infraestructura de red de Linxdatacenter. Ampliamos la geografía de nuestra presencia en Europa conectándonos a sitios remotos, lo que a su vez requería la mejora de la infraestructura de red. 

La compañía ha lanzado un nuevo servicio para clientes, Network-as-a-Service: nos encargamos de todas las tareas de red para los clientes, permitiéndoles concentrarse en su negocio principal.

En el verano de 2020, se completó el primer gran proyecto en esta dirección, del que me gustaría hablar. 

Al comienzo 

Un gran complejo industrial recurrió a nosotros para la modernización de la parte de red de la infraestructura en una de sus empresas. Fue necesario reemplazar el equipo antiguo por uno nuevo, incluido el núcleo de la red.

La última modernización de los equipos de la empresa tuvo lugar hace unos 10 años. La nueva administración de la empresa decidió mejorar la conectividad, comenzando con actualizaciones de infraestructura en el nivel físico más básico. 

El proyecto se dividió en dos partes: actualización del parque de servidores y equipamiento de red. Nosotros fuimos los responsables de la segunda parte. 

Los requisitos básicos para el trabajo incluyeron minimizar el tiempo de inactividad de las líneas de producción de la empresa durante la ejecución del trabajo (y en algunas áreas, la eliminación completa del tiempo de inactividad). Cualquier parada es una pérdida monetaria directa del cliente, que no debería haber ocurrido bajo ninguna circunstancia. En relación con el modo de operación de la instalación 24x7x365, además de tener en cuenta la ausencia total de períodos de inactividad planificados en la práctica de la empresa, se nos dio la tarea, de hecho, de realizar una cirugía a corazón abierto. Esta se convirtió en la principal característica distintiva del proyecto.

Vamos

Los trabajos se planificaron según el principio de movimiento desde los nodos de la red alejados del núcleo hacia los más cercanos, así como desde las líneas de producción que tienen un menor impacto en el trabajo hacia aquellas que afectan directamente a este trabajo. 

Por ejemplo, si toma un nodo de red en el departamento de ventas, una falla de comunicación como resultado del trabajo en este departamento no afectará la producción de ninguna manera. Al mismo tiempo, tal incidente nos ayudará, como contratista, a verificar la corrección del enfoque elegido para trabajar en dichos nodos y, una vez corregidas las acciones, trabajar en las siguientes etapas del proyecto. 

Es necesario no solo reemplazar los nodos y los cables de la red, sino también configurar correctamente todos los componentes para el correcto funcionamiento de la solución en su conjunto. Fueron las configuraciones las que se verificaron de esta manera: al comenzar a trabajar lejos del núcleo, nos dimos el "derecho a cometer un error", sin exponer a áreas críticas para el funcionamiento de la empresa al riesgo. 

Hemos identificado áreas que no afectan el proceso de producción, así como áreas críticas - talleres, unidad de carga y descarga, almacenes, etc. En áreas clave, acordamos con el cliente el tiempo de inactividad permitido para cada nodo de la red por separado: de 1 a 15 minutos Era imposible evitar por completo la desconexión de los nodos de red individuales, ya que el cable debe cambiarse físicamente del equipo antiguo al nuevo, y en el proceso de conmutación también es necesario desenredar la "barba" de cables que se ha formado durante varios años de funcionamiento sin el debido cuidado (una de las consecuencias de la externalización de trabajos de instalación de líneas de cable).

El trabajo se dividió en varias etapas.

etapa 1 - Auditoría. Elaboración y coordinación del planteamiento de la planificación del trabajo y evaluación de la preparación de los equipos: el cliente, el contratista que realiza la instalación y nuestro equipo.

etapa 2 – Desarrollo de un formato para la realización del trabajo, con un profundo análisis y planificación detallada. Elegimos un formato de lista de verificación con una indicación exacta del orden y secuencia de acciones, hasta la secuencia de cambio de latiguillos por puertos.

etapa 3 – Realización de trabajos en armarios que no afecten a la producción. Estimación y ajuste de tiempos muertos para posteriores etapas de obra.

etapa 4 – Realización de trabajos en armarios que afecten directamente a la producción. Estimación y ajuste de tiempos muertos para la etapa final de obra.

etapa 5 – Realización de trabajos en la sala de servidores para cambiar el resto de equipos. Ejecutándose en enrutamiento en un nuevo kernel.

etapa 6 – Conmutación secuencial del núcleo del sistema de las configuraciones de red antiguas a las nuevas para una transición fluida de todo el complejo del sistema (VLAN, enrutamiento, etc.). En esta etapa, conectamos a todos los usuarios y transferimos todos los servicios al nuevo hardware, verificamos la conexión correcta, nos aseguramos de que ninguno de los servicios de la empresa se detuviera, garantizamos que en caso de problemas se conectarían directamente al kernel, lo que hizo que más fácil eliminar la posible resolución de problemas y la configuración final. 

Peinado de barba de alambre

El proyecto resultó ser difícil también debido a las difíciles condiciones iniciales. 

En primer lugar, se trata de una gran cantidad de nodos y secciones de la red, con una topología compleja y clasificación de cables según su propósito. Tales "barbas" tuvieron que sacarse de los gabinetes y "peinarse" minuciosamente, averiguando qué cable de dónde y dónde conduce. 

Se parecía a esto:

Red como servicio para una gran empresa: un caso no estándar
como sigue:

Red como servicio para una gran empresa: un caso no estándar
más o menos: 

Red como servicio para una gran empresa: un caso no estándar
En segundo lugar, para cada tarea de este tipo, era necesario preparar un archivo con una descripción del proceso. "Tomamos el cable X del puerto 1 del equipo antiguo, lo conectamos al puerto 18 del equipo nuevo". Suena simple, pero cuando tienes 48 puertos completamente obstruidos en los datos iniciales, y no hay opción de inactividad (recordamos sobre 24x7x365), la única salida es trabajar en bloques. Cuantos más cables pueda sacar de un equipo viejo a la vez, más rápido podrá limpiarlos y conectarlos al nuevo hardware de red, evitando fallas en la red y tiempo de inactividad. 

Por lo tanto, en la etapa preparatoria, dividimos la red en bloques, cada uno de ellos pertenecía a una VLAN específica. Cada puerto (o un subconjunto de ellos) en el equipo antiguo es una de las VLAN en la nueva topología de red. Los agrupamos de la siguiente manera: los primeros puertos del conmutador albergaban redes de usuarios, en el medio, redes de producción, y en los últimos, puntos de acceso y enlaces ascendentes. 

Este enfoque hizo posible sacar y peinar del equipo antiguo no 1 cable, sino 10-15 a la vez. Esto aceleró el flujo de trabajo varias veces.  

Por cierto, así quedan los cables de los armarios después de peinarlos: 

Red como servicio para una gran empresa: un caso no estándar
o, por ejemplo, así: 

Red como servicio para una gran empresa: un caso no estándar
Después de la finalización de la 2ª etapa, tomamos un descanso para analizar los errores y la dinámica del proyecto. Por ejemplo, surgieron fallas menores de inmediato debido a imprecisiones en los diagramas de red que se nos proporcionaron (el conector incorrecto en el diagrama es el cable de conexión comprado incorrecto y la necesidad de reemplazarlo). 

La pausa era necesaria, porque al trabajar con derechos de servidor, incluso una pequeña falla en el proceso era inaceptable. Si el objetivo era garantizar un tiempo de inactividad en la sección de red de no más de 5 minutos, entonces no se podría exceder. Cualquier posible desviación del cronograma debía ser acordada con el cliente. 

Sin embargo, la planificación anticipada y el bloqueo del proyecto permitieron cumplir con el tiempo de inactividad planificado en todos los sitios y, en la mayoría de los casos, prescindir de él. 

Desafío del tiempo - un proyecto bajo COVID 

Sin embargo, no estuvo exenta de dificultades adicionales. Por supuesto, el coronavirus fue uno de los obstáculos. 

El trabajo se complicó por el hecho de que comenzó una pandemia, y fue imposible estar presente durante el trabajo en el sitio del cliente para todos los especialistas involucrados en el proceso. Solo el instalador podía ingresar al sitio, y el control se realizaba a través de una sala Zoom que incluía un ingeniero de redes del lado del centro de datos de Linx, yo como gerente del proyecto, un ingeniero de redes del lado del cliente a cargo del trabajo y el equipo que hacía el trabajo de instalación.

En el curso del trabajo, surgieron problemas no explicados y hubo que hacer ajustes sobre la marcha. Así fue posible prevenir rápidamente la influencia del factor humano (errores en el esquema, errores en la determinación del estado de la actividad de la interfaz, etc.).

Aunque el formato de trabajo remoto parecía inusual al comienzo del proyecto, rápidamente nos adaptamos a las nuevas condiciones y entramos en la etapa final de trabajo. 

Hemos ejecutado una configuración de configuración de red temporal para ejecutar dos núcleos de red, el antiguo y el nuevo, en paralelo para lograr una transición sin problemas. Sin embargo, resultó que no se eliminó una línea adicional del archivo de configuración del nuevo kernel y la transición no ocurrió. Esto nos obligó a pasar algún tiempo buscando el problema. 

Resultó que el tráfico principal se transmitió correctamente y el tráfico de control no llegó al nodo a través del nuevo núcleo. Debido a la clara división del proyecto en etapas, fue posible identificar rápidamente la sección de la red donde surgió la dificultad, identificar el problema y eliminarlo. 

Y como un resultado

Resultados técnicos del proyecto. 

En primer lugar, se creó un nuevo núcleo de la nueva red empresarial, para lo cual construimos anillos físicos/lógicos. Esto se hace de tal manera que cada conmutador de la red tenga un "segundo hombro". En la red anterior, muchos conmutadores estaban conectados al núcleo a lo largo de una ruta, un hombro (enlace ascendente). Si se rompía, el interruptor se volvía completamente inaccesible. Y si se conectaron varios conmutadores a través de un enlace ascendente, el accidente deshabilitó todo el departamento o la línea de producción de la empresa. 

En la nueva red, incluso un incidente de red bastante grave, bajo ninguna circunstancia podrá "apagar" toda la red o su parte significativa. 

Se ha actualizado el 90 % de todos los equipos de red, se han dado de baja los convertidores de medios (convertidores del medio de propagación de la señal) y se ha eliminado la necesidad de líneas de alimentación dedicadas para alimentar los equipos mediante la conexión a conmutadores PoE, donde la alimentación se suministra a través de cables Ethernet. eliminado 

Además, todas las conexiones ópticas en la sala de servidores y en los gabinetes de campo están marcadas, en todos los nodos de comunicación clave. Esto permitió elaborar un diagrama topológico de los equipos y conexiones de la red, reflejando su estado actual. 

Diagrama de Red
Red como servicio para una gran empresa: un caso no estándar
El resultado más importante en términos técnicos: el trabajo de infraestructura a gran escala se llevó a cabo rápidamente, sin crear ninguna interferencia en el trabajo de la empresa y casi imperceptiblemente para su personal. 

Resultados comerciales del proyecto.

En mi opinión, este proyecto es interesante principalmente no desde el punto de vista técnico, sino desde el punto de vista organizativo. La dificultad radicaba principalmente en la planificación y el análisis de los pasos para implementar las tareas del proyecto. 

El éxito del proyecto nos permite decir que nuestra iniciativa de desarrollar la dirección de red dentro de la cartera de servicios de Linxdatacenter es la elección correcta para el vector de desarrollo de la empresa. Un enfoque responsable de la gestión de proyectos, una estrategia competente y una planificación clara nos permitieron realizar el trabajo al nivel adecuado. 

Confirmación de la calidad del trabajo: una solicitud del cliente para continuar con la prestación de servicios para la modernización de la red en sus otros sitios en Rusia.

Fuente: habr.com

Añadir un comentario