Rede como servizo para unha gran empresa: un caso non estándar

Rede como servizo para unha gran empresa: un caso non estándar
Como actualizar os equipos de rede nunha gran empresa sen parar a produción? Fala dun proxecto a gran escala na modalidade de "cirurxía a corazón aberto". O xefe de xestión de proxectos de Linxdatacenter, Oleg Fedorov. 

Nos últimos anos, observamos un aumento da demanda dos clientes de servizos relacionados co compoñente de rede da infraestrutura de TI. A necesidade de conectividade dos sistemas informáticos, servizos, aplicacións, seguimento e tarefas de xestión empresarial operativa en case calquera área está obrigando ás empresas a prestar unha maior atención ás redes.  

O abano de solicitudes abarca desde garantir a tolerancia a fallos da rede ata a creación e xestión dun sistema autónomo do cliente coa compra dun bloque de enderezos IP, a configuración de protocolos de enrutamento e a xestión do tráfico de acordo coas políticas organizativas.

Tamén hai unha demanda crecente de solucións integrais para construír e manter a infraestrutura de rede, principalmente de clientes cuxa infraestrutura de rede se está a crear desde cero ou está obsoleta, que requiren unha modificación seria. 

Esta tendencia coincidiu co período de desenvolvemento e complexidade da propia infraestrutura de rede de Linxdatacenter. Ampliamos a xeografía da nosa presenza en Europa conectándonos a sitios remotos, o que á súa vez requiriu mellorar a infraestrutura da rede. 

A compañía lanzou un novo servizo para os clientes, Network-as-a-Service: encargámonos dos problemas de rede de todos os clientes, permitíndolles centrarse no seu negocio principal.

No verán de 2020 rematou o primeiro gran proxecto nesta dirección, do que me gustaría falar. 

No comezo 

Un gran complexo industrial recorreu a nós para modernizar a parte da rede da infraestrutura dunha das súas empresas. Foi necesario substituír equipos antigos por equipos novos, incluído o núcleo da rede.

A última modernización de equipos na empresa tivo lugar hai uns 10 anos. A nova dirección da empresa decidiu mellorar a conectividade, comezando pola actualización da infraestrutura ao nivel físico máis básico. 

O proxecto dividiuse en dúas partes: actualización do parque de servidores e equipos de rede. Nós fomos os responsables da segunda parte. 

Os requisitos básicos para o traballo incluíron minimizar o tempo de inactividade das liñas de produción da empresa durante a execución do traballo (e nalgunhas áreas, eliminar completamente o tempo de inactividade). Calquera interrupción supón para o cliente perdas económicas directas, que non deberían ocorrer baixo ningún concepto. Debido ao modo operativo 24x7x365 da instalación, ademais de ter en conta a completa ausencia de períodos de inactividade planificados na práctica da empresa, encargáronnos esencialmente a cirurxía a corazón aberto. Este converteuse na principal característica distintiva do proxecto.

Vaia

O traballo planificouse segundo o principio de desprazamento desde os nodos de rede afastados do núcleo a outros máis próximos, así como desde os que menos inflúen no traballo das liñas de produción ata os que inflúen directamente neste traballo. 

Por exemplo, se tomamos un nodo de rede no departamento de vendas, a interrupción da comunicación como resultado do traballo neste departamento non afectará a produción de ningún xeito. Ao mesmo tempo, tal incidente axudaranos, como contratista, a comprobar a corrección do enfoque elixido para traballar nesas unidades e, despois de axustar as actuacións, a traballar nas seguintes fases do proxecto. 

É necesario non só substituír os nodos e fíos da rede, senón tamén configurar correctamente todos os compoñentes para o correcto funcionamento da solución no seu conxunto. Foron as configuracións as que se probaron deste xeito: comezando a traballar lonxe do núcleo, parecíamos darnos o "dereito a equivocarnos" sen poñer en risco áreas críticas para o funcionamento da empresa. 

Identificáronse áreas que non afectan ao proceso de produción, así como áreas críticas: talleres, unidade de carga e descarga, almacéns, etc. En áreas clave, acordouse co cliente o tempo de inactividade aceptable para cada nodo da rede por separado: de 1 a 15 minutos. Era imposible evitar por completo desconectar os nodos individuais da rede, xa que o cable debe cambiarse fisicamente de equipos antigos a novos, e durante o proceso de conmutación tamén é necesario desenredar a "barba" de fíos que se formaron durante varios anos de funcionamento sen necesidade adecuada. coidados (unha das consecuencias dos traballos de subcontratación para a instalación de liñas de cable).

O traballo dividiuse en varias etapas.

Etapa 1 – Auditoría. Elaboración e coordinación do enfoque da planificación do traballo e valoración da preparación dos equipos: o cliente, o contratista da instalación e o noso equipo.

Etapa 2 – Desenvolvemento dun formato para a realización do traballo, con análise e planificación profunda e detallada. Escollemos un formato de lista de verificación cunha indicación precisa da orde e secuencia de accións, ata a secuencia de conmutación de cables de conexión por porto.

Etapa 3 – Realización de traballos en armarios que non afecten á produción. Estimación e axuste do tempo de inactividade para as seguintes fases de obra.

Etapa 4 – Realización de traballos en armarios que afecten directamente á produción. Estimación e axuste do tempo de inactividade para a fase final de obra.

Etapa 5 – Realización de traballos na sala de servidores para cambiar o resto de equipos. Iniciar ao enrutamento no novo núcleo.

Etapa 6 – Cambio consecutivo do núcleo do sistema de configuracións de rede antigas a outras novas para unha transición suave de todo o complexo do sistema (VLAN, enrutamento, etc.). Nesta fase, conectamos todos os usuarios e transferimos todos os servizos ao novo hardware, verificamos que a conexión era correcta, asegurámonos de que ningún dos servizos empresariais se detivese, asegurámonos de que se se producía algún problema estarían conectados directamente ao núcleo. o que facilitou a resolución de posibles problemas e a configuración final. 

Peiteado de barba de arame

O proxecto resultou difícil tamén polas difíciles condicións iniciais. 

En primeiro lugar, hai un gran número de nodos e seccións da rede, cunha topoloxía complexa e clasificación de cables segundo o seu propósito. Tales "barbas" tiñan que ser sacadas dos armarios e coidadosamente "peiteadas", descubrindo que fío viña de onde e onde conducía. 

Parecía algo así:

Rede como servizo para unha gran empresa: un caso non estándar
así:

Rede como servizo para unha gran empresa: un caso non estándar
máis ou menos: 

Rede como servizo para unha gran empresa: un caso non estándar
En segundo lugar, para cada unha destas tarefas era necesario elaborar un ficheiro no que se describía o proceso. "Collemos o cable X do porto 1 do equipo antigo, conéctalo ao porto 18 do novo equipo". Parece sinxelo, pero cando tes 48 portos completamente obstruídos nos teus datos de orixe e non hai opción de tempo de inactividade (lembramos sobre 24x7x365), a única saída é traballar en bloques. Cantos máis fíos poidas sacar de equipos antigos á vez, máis rápido poderás peitelos e inserilos no novo hardware de rede, evitando fallos e tempo de inactividade na rede. 

Polo tanto, na fase preparatoria, dividimos a rede en bloques: cada un deles pertencía a unha VLAN específica. Cada porto (ou un subconxunto deles) do equipo antigo é unha das VLAN da nova topoloxía de rede. Agrupámolos así: os primeiros portos do switch albergaban redes de usuarios, os medios - redes de produción e os últimos - puntos de acceso e enlaces ascendentes. 

Este enfoque permitiu sacar e peitear do equipo antigo non só 1 fío, senón 10-15 dunha soa vez. Isto acelerou o proceso de traballo varias veces.  

Por certo, este é o aspecto dos fíos dos armarios despois de peitear: 

Rede como servizo para unha gran empresa: un caso non estándar
ou, por exemplo, así: 

Rede como servizo para unha gran empresa: un caso non estándar
Rematada a 2a etapa, fixemos un descanso para analizar erros e dinámicas do proxecto. Por exemplo, inmediatamente xurdiron pequenos defectos debido a inexactitudes nos diagramas de rede que nos proporcionaron (un conector incorrecto no diagrama significa un cable de conexión comprado incorrecto e a necesidade de substituílo). 

A pausa era necesaria, xa que cando se traballaba desde o lado do servidor, ata un pequeno fallo no proceso era inaceptable. Se o obxectivo era garantir un tempo de inactividade nunha sección de rede de non máis de 5 minutos, entón non se podería superar. Calquera posible desviación do horario debía ser acordada co cliente. 

Non obstante, a planificación previa e a división do proxecto en bloques permitiu cumprir o tempo de inactividade previsto en todas as áreas e, na maioría dos casos, evitalo por completo. 

Desafío dos tempos - un proxecto baixo o COVID 

Non obstante, non estivo exento de dificultades adicionais. Por suposto, o coronavirus foi un dos obstáculos. 

O traballo foi complicado polo feito de que comezou a pandemia e foi imposible que todos os especialistas implicados no proceso estivesen presentes durante o traballo no lugar do cliente. Só os empregados da organización de instalación podían entrar no sitio e o control realizouse a través dunha sala Zoom: nela había un enxeñeiro de rede de Linxdatacenter, eu como xestor de proxecto, un enxeñeiro de rede do cliente responsable do traballo e un equipo que realiza traballos de instalación.

Durante os traballos xurdiron problemas sen contabilizar e houbo que facer axustes sobre a marcha. Deste xeito, foi posible evitar rapidamente a influencia do factor humano (erros no circuíto, erros na determinación do estado da actividade da interface, etc.).

Aínda que o formato de traballo remoto parecía pouco habitual ao comezo do proxecto, axiña nos adaptamos ás novas condicións e chegamos á fase final do traballo. 

Lanzamos unha configuración temporal da configuración de rede para permitir que dous núcleos de rede, antigo e novo, funcionen en paralelo para conseguir unha transición suave. Non obstante, resultou que non se eliminou unha liña extra do ficheiro de configuración do novo núcleo e a transición non se produciu. Isto obrigounos a dedicar un tempo á procura do problema. 

Resultou que o tráfico principal se transmitiu correctamente e o tráfico de control non chegou ao nodo a través do novo núcleo. Grazas á clara división do proxecto en etapas, foi posible identificar rapidamente a sección da rede onde xurdiu o problema, identificar o problema e solucionalo. 

E como resultado

Resultados técnicos do proxecto 

En primeiro lugar, creouse un novo núcleo da nova rede empresarial, para o que construímos aneis físicos/lóxicos. Isto faise de tal xeito que cada interruptor da rede teña un "segundo brazo". Na rede antiga, moitos interruptores estaban conectados ao núcleo ao longo dunha ruta, un brazo (enlace ascendente). Se rompía, o interruptor facíase completamente inaccesible. E se se conectasen varios interruptores a través dunha ligazón ascendente, o accidente desactivaría todo un departamento ou liña de produción da empresa. 

Nunha rede nova, mesmo un incidente de rede bastante grave non poderá, en ningún caso, derrubar a rede enteira ou unha parte importante dela. 

Actualizouse o 90% de todos os equipos de rede, desactiváronse os conversores de medios (conversores de medios de propagación de sinal) e eliminouse a necesidade de liñas eléctricas dedicadas para alimentar os equipos mediante a conexión a conmutadores PoE, onde a alimentación se subministra a través de cables Ethernet. 

Ademais, todas as conexións ópticas na sala de servidores e nos armarios de campo están marcadas, en todos os nodos de comunicación clave. Isto permitiu elaborar un diagrama topolóxico dos equipamentos e conexións da rede, reflectindo o seu estado real na actualidade. 

Diagrama de rede
Rede como servizo para unha gran empresa: un caso non estándar
O resultado máis importante en termos técnicos: un traballo de infraestrutura a gran escala realizouse rapidamente, sen crear ningunha interferencia no traballo da empresa e case desapercibido para o seu persoal. 

Resultados empresariais do proxecto

Na miña opinión, este proxecto é interesante principalmente non desde o punto de vista técnico, senón desde o punto de vista organizativo. A dificultade radicaba principalmente na planificación e na reflexión sobre os pasos para implementar as tarefas do proxecto. 

O éxito do proxecto permítenos dicir que a nosa iniciativa de desenvolver a área de rede dentro da carteira de servizos de Linxdatacenter é a opción correcta para o vector de desenvolvemento da empresa. Un enfoque responsable da xestión de proxectos, unha estratexia competente e unha planificación clara permitíronnos completar o traballo ao nivel adecuado. 

A confirmación da calidade do traballo é unha solicitude do cliente para seguir prestando servizos para a modernización da rede nos seus restantes sitios en Rusia.

Fonte: www.habr.com

Engadir un comentario