Network-as-a-Service para uma grande empresa: um caso fora do padrão

Network-as-a-Service para uma grande empresa: um caso fora do padrão
Como atualizar equipamentos de rede em uma grande empresa sem interromper a produção? Sobre um projeto de grande escala no modo de "cirurgia de coração aberto" conta Linxdatacenter gerente de gerenciamento de projetos Oleg Fedorov. 

Nos últimos anos, vimos uma demanda crescente de clientes por serviços relacionados ao componente de rede da infraestrutura de TI. A necessidade de conectividade de sistemas de TI, serviços, aplicativos, tarefas de monitoramento e gerenciamento operacional de negócios em quase todas as áreas estão forçando as empresas hoje a prestar mais atenção às redes.  

As solicitações vão desde o fornecimento de tolerância a falhas de rede até a criação e gerenciamento de um sistema autônomo do cliente com a aquisição de um bloco de endereços IP, configuração de protocolos de roteamento e gerenciamento de tráfego de acordo com as políticas das organizações.

Há também uma demanda crescente por soluções integradas para a construção e manutenção de infraestrutura de rede, principalmente de clientes cuja infraestrutura de rede é criada do zero ou está obsoleta, exigindo sérias modificações. 

Essa tendência coincidiu com o período de desenvolvimento e complicação da própria infraestrutura de rede do Linxdatacenter. Ampliamos a geografia de nossa presença na Europa conectando-nos a locais remotos, o que por sua vez exigiu a melhoria da infraestrutura de rede. 

A empresa lançou um novo serviço para clientes, Network-as-a-Service: cuidamos de todas as tarefas de rede para os clientes, permitindo que eles se concentrem em seus negócios principais.

No verão de 2020, foi concluído o primeiro grande projeto nessa direção, sobre o qual gostaria de falar. 

No começo 

Um grande complexo industrial nos procurou para a modernização da parte de rede da infraestrutura de um de seus empreendimentos. Foi necessária a substituição dos equipamentos antigos por novos, incluindo o core da rede.

A última modernização dos equipamentos do empreendimento ocorreu há cerca de 10 anos. A nova gestão da empresa decidiu melhorar a conectividade, começando com atualizações de infraestrutura no nível físico mais básico. 

O projeto foi dividido em duas partes: atualização do parque de servidores e equipamentos de rede. Nós fomos responsáveis ​​pela segunda parte. 

Os requisitos básicos para o trabalho incluíram a minimização do tempo de inatividade das linhas de produção da empresa durante a execução do trabalho (e em algumas áreas, a eliminação total do tempo de inatividade). Qualquer parada é uma perda monetária direta do cliente, o que não deveria ter acontecido em hipótese alguma. Em conexão com o modo de funcionamento da instalação 24x7x365, bem como tendo em conta a total ausência de períodos de paragem planeada na prática da empresa, foi-nos dada a tarefa, de facto, de realizar uma cirurgia de coração aberto. Isso se tornou o principal diferencial do projeto.

Vamos lá

As obras foram planejadas de acordo com o princípio de movimentação dos nós da rede distantes do núcleo para os mais próximos, bem como das linhas de produção que têm menor impacto na obra para aquelas que afetam diretamente esta obra. 

Por exemplo, se você pegar um nó de rede no departamento de vendas, uma falha de comunicação como resultado do trabalho neste departamento não afetará a produção de forma alguma. Ao mesmo tempo, tal incidente nos ajudará, como contratante, a verificar a correção da abordagem escolhida para trabalhar em tais nós e, com as ações corrigidas, trabalhar nas próximas etapas do projeto. 

É necessário não apenas substituir os nós e fios da rede, mas também configurar corretamente todos os componentes para o correto funcionamento da solução como um todo. Foram as configurações que foram verificadas desta forma: começando o trabalho longe do núcleo, meio que nos demos o “direito de errar”, sem expor ao risco áreas críticas para o funcionamento do empreendimento. 

Identificamos áreas que não afetam o processo de produção, bem como áreas críticas - oficinas, unidade de carga e descarga, armazéns, etc. 1 minutos . Era impossível evitar completamente a desconexão de nós individuais da rede, pois o cabo deve ser fisicamente trocado do equipamento antigo para o novo, e no processo de troca também é necessário desfazer a “barba” dos fios, que se formou durante vários anos de operação sem os devidos cuidados (uma das consequências da terceirização do trabalho de instalação de linhas de cabos).

O trabalho foi dividido em várias etapas.

estágio 1 - Auditoria. Elaboração e coordenação da abordagem ao planeamento da obra e avaliação da prontidão das equipas: o cliente, o empreiteiro que executa a instalação e a nossa equipa.

estágio 2 – Desenvolvimento de um formato para a realização do trabalho, com análise e planejamento detalhados e profundos. Escolhemos um formato de checklist com indicação exata da ordem e sequência das ações, até a sequência de comutação de patch cords por portas.

estágio 3 – Realização de trabalhos em gabinetes que não afetem a produção. Estimativa e ajuste de paradas para etapas subsequentes de trabalho.

estágio 4 – Realização de trabalhos em gabinetes que afetam diretamente a produção. Estimativa e ajuste de paradas para a etapa final da obra.

estágio 5 – Realização de trabalhos na sala do servidor para troca dos restantes equipamentos. Executando em roteamento em um novo kernel.

estágio 6 – Comutação sequencial do núcleo do sistema de configurações de rede antigas para novas para uma transição suave de todo o complexo do sistema (VLAN, roteamento, etc.). Nesta etapa, conectamos todos os usuários e transferimos todos os serviços para um novo hardware, verificamos a conexão correta, garantimos que nenhum dos serviços da empresa parasse, garantimos que em caso de problemas eles seriam conectados diretamente ao kernel, o que tornou mais fácil de eliminar possíveis soluções de problemas e configuração final. 

Penteado de barba de arame

O projeto acabou sendo difícil também por causa das difíceis condições iniciais. 

Em primeiro lugar, trata-se de um grande número de nós e seções da rede, com uma intrincada topologia e classificação dos fios de acordo com sua finalidade. Essas "barbas" tiveram que ser retiradas dos armários e meticulosamente "penteadas", descobrindo qual fio de onde e para onde leva. 

Parecia algo assim:

Network-as-a-Service para uma grande empresa: um caso fora do padrão
como se segue:

Network-as-a-Service para uma grande empresa: um caso fora do padrão
ou assim: 

Network-as-a-Service para uma grande empresa: um caso fora do padrão
Em segundo lugar, para cada uma dessas tarefas, era necessário preparar um arquivo com a descrição do processo. "Pegamos o fio X da porta 1 do equipamento antigo, conectamos na porta 18 do novo equipamento." Parece simples, mas quando você tem 48 portas completamente entupidas nos dados iniciais e não há opção ociosa (lembramos de 24x7x365), a única saída é trabalhar em blocos. Quanto mais fios você puder retirar do equipamento antigo de uma só vez, mais rápido poderá escová-los e conectá-los ao novo hardware de rede, evitando falhas de rede e tempo de inatividade. 

Portanto, na fase preparatória, dividimos a rede em blocos - cada um deles pertencia a uma VLAN específica. Cada porta (ou um subconjunto delas) no equipamento antigo é uma das VLANs na nova topologia de rede. Nós os agrupamos da seguinte forma: as primeiras portas do switch abrigam redes de usuários, no meio - redes de produção e nas últimas - pontos de acesso e uplinks. 

Essa abordagem possibilitou retirar e pentear do equipamento antigo não 1 fio, mas 10-15 de uma vez. Isso acelerou o fluxo de trabalho várias vezes.  

A propósito, é assim que os fios dos armários ficam depois de pentear: 

Network-as-a-Service para uma grande empresa: um caso fora do padrão
ou, por exemplo, assim: 

Network-as-a-Service para uma grande empresa: um caso fora do padrão
Após a conclusão da 2ª etapa, fizemos uma pausa para analisar os erros e a dinâmica do projeto. Por exemplo, pequenas falhas surgiram imediatamente devido a imprecisões nos diagramas de rede fornecidos a nós (o conector errado no diagrama é o patch cord comprado errado e a necessidade de substituí-lo). 

A pausa foi necessária, pois ao trabalhar com direitos de servidor, mesmo uma pequena falha no processo era inaceitável. Se o objetivo era garantir um tempo de inatividade na seção de rede de não mais que 5 minutos, ele não poderia ser excedido. Qualquer possível desvio do cronograma tinha que ser acordado com o cliente. 

No entanto, o planejamento antecipado e o bloqueio do projeto permitiram cumprir o tempo de inatividade planejado em todos os sites e, na maioria dos casos, prescindir dele. 

Desafio do tempo - um projeto sob COVID 

No entanto, não foi sem dificuldades adicionais. Claro, o coronavírus foi um dos obstáculos. 

O trabalho foi complicado pelo facto de ter começado uma pandemia, sendo impossível estar presente durante o trabalho no local do cliente todos os especialistas envolvidos no processo. A entrada no local era apenas do instalador, e o controle era feito por meio de uma sala Zoom que incluía um engenheiro de rede do lado Linxdatacenter, eu como gerente de projeto, um engenheiro de rede do lado do cliente encarregado do trabalho e a equipe que fazia o trabalho de instalação.

No decorrer do trabalho, surgiram problemas inexplicáveis ​​e ajustes tiveram que ser feitos na hora. Assim, foi possível prevenir rapidamente a influência do fator humano (erros no esquema, erros na determinação do status da atividade da interface, etc.).

Embora o formato remoto de trabalho parecesse incomum no início do projeto, rapidamente nos adaptamos às novas condições e entramos na fase final de trabalho. 

Executamos uma configuração temporária de configurações de rede para executar dois núcleos de rede, o antigo e o novo, em paralelo para obter uma transição suave. No entanto, descobriu-se que uma linha extra não foi removida do arquivo de configuração do novo kernel e a transição não ocorreu. Isso nos obrigou a gastar algum tempo procurando o problema. 

Descobriu-se que o tráfego principal foi transmitido corretamente e o tráfego de controle não atingiu o nó por meio do novo núcleo. Devido à divisão clara do projeto em etapas, foi possível identificar rapidamente o trecho de rede onde surgiu a dificuldade, identificar o problema e eliminá-lo. 

E como resultado

Resultados técnicos do projeto 

Em primeiro lugar, foi criado um novo núcleo da nova rede empresarial, para o qual construímos anéis físicos/lógicos. Isso é feito de forma que cada switch na rede tenha um "segundo ombro". Na rede antiga, muitos switches eram conectados ao núcleo ao longo de uma rota, um ombro (uplink). Se fosse rasgado, o interruptor ficava completamente inacessível. E se vários switches estivessem conectados por meio de um uplink, o acidente desativava todo o departamento ou linha de produção da empresa. 

Na nova rede, mesmo um incidente de rede bastante sério em nenhuma circunstância será capaz de "desligar" toda a rede ou sua seção significativa. 

90% de todos os equipamentos de rede foram atualizados, os conversores de mídia (conversores do meio de propagação do sinal) foram desativados e a necessidade de linhas de energia dedicadas para alimentar equipamentos conectando-se a switches PoE, onde a energia é fornecida por cabos Ethernet, foi eliminado. 

Além disso, todas as conexões ópticas na sala do servidor e nos gabinetes de campo são marcadas - em todos os principais nós de comunicação. Isso possibilitou a elaboração de um diagrama topológico dos equipamentos e conexões da rede, refletindo seu estado atual. 

Diagrama de rede
Network-as-a-Service para uma grande empresa: um caso fora do padrão
O resultado mais importante em termos técnicos: obras de infraestrutura de grande porte foram executadas rapidamente, sem interferir no trabalho da empresa e quase imperceptivelmente para seu pessoal. 

Resultados comerciais do projeto

Na minha opinião, este projeto é interessante principalmente não do lado técnico, mas do lado organizacional. A dificuldade estava principalmente em planejar e pensar nas etapas para implementar as tarefas do projeto. 

O sucesso do projeto permite dizer que nossa iniciativa de desenvolver a direção de rede dentro do portfólio de serviços Linxdatacenter é a escolha certa para o vetor de desenvolvimento da empresa. Uma abordagem responsável ao gerenciamento de projetos, uma estratégia competente e um planejamento claro nos permitiram realizar o trabalho no nível adequado. 

Confirmação da qualidade do trabalho - solicitação do cliente para continuar a prestação de serviços para modernização da rede em seus outros sites na Rússia.

Fonte: habr.com

Adicionar um comentário