Network-as-a-Service per una grande impresa: un caso non standard

Network-as-a-Service per una grande impresa: un caso non standard
Come aggiornare le apparecchiature di rete in una grande azienda senza interrompere la produzione? A proposito di un progetto su larga scala nella modalità di "chirurgia a cuore aperto" racconta Responsabile della gestione del progetto Linxdatacenter Oleg Fedorov. 

Negli ultimi anni abbiamo assistito a un aumento della domanda da parte dei clienti di servizi legati alla componente di rete dell'infrastruttura IT. La necessità di connettività di sistemi IT, servizi, applicazioni, i compiti di monitoraggio e gestione aziendale operativa in quasi tutti i settori stanno costringendo le aziende oggi a prestare maggiore attenzione alle reti.  

Le richieste vanno dalla fornitura di tolleranza ai guasti di rete alla creazione e gestione di un sistema client autonomo con l'acquisizione di un blocco di indirizzi IP, la configurazione dei protocolli di routing e la gestione del traffico secondo le politiche delle organizzazioni.

C'è anche una crescente domanda di soluzioni integrate per la costruzione e la manutenzione dell'infrastruttura di rete, principalmente da parte dei clienti la cui infrastruttura di rete è stata creata da zero o è obsoleta, richiedendo modifiche significative. 

Questa tendenza ha coinciso nel tempo con il periodo di sviluppo e complicazione dell'infrastruttura di rete di Linxdatacenter. Abbiamo ampliato la geografia della nostra presenza in Europa collegandoci a siti remoti, che a loro volta hanno richiesto il miglioramento dell'infrastruttura di rete. 

L'azienda ha lanciato un nuovo servizio per i clienti, Network-as-a-Service: ci occupiamo di tutte le attività di rete per i clienti, consentendo loro di concentrarsi sul loro core business.

Nell'estate del 2020 è stato completato il primo grande progetto in questa direzione, di cui vorrei parlare. 

All'inizio 

Un grande complesso industriale si è rivolto a noi per l'ammodernamento della parte di rete dell'infrastruttura presso una delle sue imprese. Era necessario sostituire le vecchie apparecchiature con quelle nuove, compreso il nucleo della rete.

L'ultimo ammodernamento delle attrezzature dell'azienda è avvenuto circa 10 anni fa. La nuova gestione dell'azienda ha deciso di migliorare la connettività, a partire dagli aggiornamenti dell'infrastruttura al livello fisico più elementare. 

Il progetto è stato suddiviso in due parti: potenziamento del parco server e apparati di rete. Siamo stati responsabili della seconda parte. 

I requisiti di base per il lavoro includevano la riduzione al minimo dei tempi di inattività delle linee di produzione dell'impresa durante l'esecuzione del lavoro (e in alcune aree, la completa eliminazione dei tempi di inattività). Qualsiasi arresto è una perdita monetaria diretta del cliente, che non avrebbe dovuto verificarsi in nessuna circostanza. In connessione con la modalità operativa della struttura 24x7x365, oltre a tener conto della totale assenza di periodi di fermo programmato nella pratica dell'impresa, ci è stato affidato il compito, appunto, di eseguire un intervento chirurgico a cuore aperto. Questa è diventata la principale caratteristica distintiva del progetto.

Andiamo

Le opere sono state progettate secondo il principio del movimento dai nodi di rete lontani dal nucleo a quelli più vicini, nonché dalle linee di produzione che hanno un minore impatto sull'opera a quelle che incidono direttamente su quest'ultima. 

Ad esempio, se prendi un nodo di rete nel reparto vendite, un errore di comunicazione a seguito del lavoro in questo reparto non influirà in alcun modo sulla produzione. Allo stesso tempo, un tale incidente ci aiuterà, in qualità di appaltatore, a verificare la correttezza dell'approccio scelto per lavorare su tali nodi e, dopo aver corretto le azioni, a lavorare nelle fasi successive del progetto. 

È necessario non solo sostituire nodi e fili nella rete, ma anche configurare correttamente tutti i componenti per il corretto funzionamento della soluzione nel suo insieme. Sono state le configurazioni ad essere verificate in questo modo: iniziando a lavorare lontano dal nucleo, ci siamo quasi dati il ​​“diritto di sbagliare”, senza mettere a rischio aree critiche per il funzionamento dell'impresa. 

Abbiamo identificato le aree che non influenzano il processo produttivo, nonché le aree critiche - officine, unità di carico e scarico, magazzini, ecc. Nelle aree chiave, abbiamo concordato con il cliente i tempi di inattività consentiti per ciascun nodo di rete separatamente: da 1 a 15 minuti. Era impossibile evitare completamente la disconnessione dei singoli nodi di rete, poiché il cavo deve essere fisicamente trasferito dalla vecchia apparecchiatura a quella nuova, e nel processo di commutazione è anche necessario sbrogliare la "barba" di fili che si è formata durante diversi anni di funzionamento senza cure adeguate (una delle conseguenze dell'esternalizzazione dei lavori di installazione delle linee in cavo).

Il lavoro è stato suddiviso in più fasi.

fase 1 - Verifica. Preparazione e coordinamento dell'approccio alla pianificazione del lavoro e valutazione della prontezza dei team: il cliente, l'appaltatore che esegue l'installazione e il nostro team.

fase 2 – Sviluppo di un formato per lo svolgimento del lavoro, con analisi e pianificazione dettagliate e approfondite. Abbiamo scelto un formato di checklist con un'indicazione esatta dell'ordine e della sequenza delle azioni, fino alla sequenza di commutazione dei cavi patch per porta.

fase 3 – Esecuzione di lavori in armadi che non influiscono sulla produzione. Stima e adeguamento dei tempi di inattività per le successive fasi di lavoro.

fase 4 – Esecuzione di lavori in armadi che incidono direttamente sulla produzione. Stima e adeguamento dei tempi di inattività per la fase finale del lavoro.

fase 5 – Esecuzione di lavori nella sala server per cambiare l'attrezzatura rimanente. In esecuzione sul routing su un nuovo kernel.

fase 6 – Passaggio sequenziale del core del sistema dalle vecchie configurazioni di rete a quelle nuove per una transizione graduale dell'intero complesso del sistema (VLAN, routing, ecc.). A questo punto, abbiamo connesso tutti gli utenti e trasferito tutti i servizi su nuovo hardware, verificato la connessione corretta, assicurato che nessuno dei servizi aziendali si interrompesse, garantito che in caso di problemi sarebbero stati collegati direttamente al kernel, il che ha reso più facile eliminare la possibile risoluzione dei problemi e la configurazione finale. 

Acconciatura barba di filo

Il progetto si è rivelato difficile anche a causa delle difficili condizioni iniziali. 

In primo luogo, si tratta di un numero enorme di nodi e sezioni della rete, con una topologia intricata e una classificazione dei fili in base al loro scopo. Tali "barbe" dovevano essere tolte dagli armadietti e minuziosamente "pettinate", capendo quale filo da dove e dove conduce. 

Sembrava qualcosa del genere:

Network-as-a-Service per una grande impresa: un caso non standard
come segue:

Network-as-a-Service per una grande impresa: un caso non standard
o così: 

Network-as-a-Service per una grande impresa: un caso non standard
In secondo luogo, per ciascuna di tali attività è stato necessario preparare un file con una descrizione del processo. "Prendiamo il filo X dalla porta 1 della vecchia apparecchiatura, lo inseriamo nella porta 18 della nuova apparecchiatura." Sembra semplice, ma quando hai 48 porte completamente intasate nei dati iniziali e non ci sono opzioni inattive (ricordiamo circa 24x7x365), l'unica via d'uscita è lavorare a blocchi. Maggiore è il numero di cavi che riesci a estrarre contemporaneamente dalle vecchie apparecchiature, più velocemente puoi rispolverarli e collegarli a un nuovo hardware di rete, evitando guasti di rete e tempi di inattività. 

Pertanto, nella fase preparatoria, abbiamo suddiviso la rete in blocchi, ognuno dei quali apparteneva a una specifica VLAN. Ogni porta (o un sottoinsieme di esse) sulla vecchia apparecchiatura è una delle VLAN nella nuova topologia di rete. Li abbiamo raggruppati come segue: le prime porte dello switch ospitavano reti utente, nel mezzo - reti di produzione e negli ultimi - punti di accesso e uplink. 

Questo approccio ha permesso di estrarre e pettinare dalla vecchia attrezzatura non 1 filo, ma 10-15 alla volta. Ciò ha accelerato il flusso di lavoro più volte.  

A proposito, ecco come si prendono cura dei fili negli armadietti dopo la pettinatura: 

Network-as-a-Service per una grande impresa: un caso non standard
o, per esempio, così: 

Network-as-a-Service per una grande impresa: un caso non standard
Dopo il completamento della seconda fase, ci siamo presi una pausa per analizzare gli errori e le dinamiche del progetto. Ad esempio, sono subito emersi piccoli difetti a causa di imprecisioni negli schemi di rete che ci sono stati forniti (il connettore sbagliato sullo schema è il cavo patch acquistato sbagliato e la necessità di sostituirlo). 

La pausa era necessaria, perché quando si lavorava con i diritti del server, anche un piccolo errore nel processo era inaccettabile. Se l'obiettivo era garantire un tempo di inattività sulla sezione di rete non superiore a 5 minuti, non poteva essere superato. Ogni possibile deviazione dal programma doveva essere concordata con il cliente. 

Tuttavia, la pianificazione anticipata e il blocco del progetto hanno permesso di rispettare i tempi di inattività previsti in tutti i siti e, nella maggior parte dei casi, di farne a meno. 

Sfida del tempo - un progetto sotto COVID 

Tuttavia, non è stato privo di ulteriori difficoltà. Certo, il coronavirus è stato uno degli ostacoli. 

Il lavoro è stato complicato dal fatto che è iniziata una pandemia ed è stato impossibile essere presenti durante i lavori presso la sede del cliente per tutti gli specialisti coinvolti nel processo. Solo l'installatore era autorizzato a entrare nel sito e il controllo avveniva attraverso una stanza Zoom che includeva un ingegnere di rete dal lato Linxdatacenter, io come project manager, un ingegnere di rete dal lato del cliente responsabile del lavoro e il team che si occupava del lavoro lavori di installazione.

Nel corso del lavoro sono sorti problemi non spiegati e gli aggiustamenti dovevano essere apportati al volo. In questo modo è stato possibile prevenire rapidamente l'influenza del fattore umano (errori nello schema, errori nella determinazione dello stato dell'attività dell'interfaccia, ecc.).

Sebbene il formato remoto del lavoro sembrasse insolito all'inizio del progetto, ci siamo rapidamente adattati alle nuove condizioni e siamo entrati nella fase finale del lavoro. 

Abbiamo eseguito una configurazione temporanea delle impostazioni di rete per eseguire due core di rete, il vecchio e il nuovo, in parallelo al fine di ottenere una transizione graduale. Tuttavia, si è scoperto che una riga in più non è stata rimossa dal file di configurazione del nuovo kernel e la transizione non è avvenuta. Questo ci ha costretti a dedicare un po' di tempo alla ricerca del problema. 

Si è scoperto che il traffico principale è stato trasmesso correttamente e il traffico di controllo non ha raggiunto il nodo attraverso il nuovo core. Grazie alla netta suddivisione del progetto in fasi, è stato possibile individuare rapidamente il tratto di rete in cui è emersa la difficoltà, individuare il problema ed eliminarlo. 

E come risultato

Risultati tecnici del progetto 

Innanzitutto è stato creato un nuovo nucleo della nuova rete aziendale, per il quale abbiamo costruito anelli fisico/logici. Questo viene fatto in modo tale che ogni switch nella rete abbia una "seconda spalla". Nella vecchia rete, molti switch erano collegati al core lungo un percorso, una spalla (uplink). Se era strappato, l'interruttore diventava completamente inaccessibile. E se più switch sono stati collegati tramite un uplink, l'incidente ha disabilitato l'intero reparto o la linea di produzione dell'azienda. 

Nella nuova rete, anche un incidente di rete abbastanza grave in nessun caso sarà in grado di "abbattere" l'intera rete o la sua sezione significativa. 

Il 90% di tutte le apparecchiature di rete è stato aggiornato, i media converter (convertitori del mezzo di propagazione del segnale) sono stati disattivati ​​e la necessità di linee elettriche dedicate per alimentare le apparecchiature collegandosi agli switch PoE, dove l'alimentazione è fornita tramite cavi Ethernet, è stata ridotta eliminato. 

Inoltre, tutte le connessioni ottiche nella sala server e negli armadi da campo sono contrassegnate, in tutti i principali nodi di comunicazione. Ciò ha permesso di preparare uno schema topologico delle apparecchiature e delle connessioni nella rete, che riflette il suo stato attuale. 

Diagramma di rete
Network-as-a-Service per una grande impresa: un caso non standard
Il risultato più importante in termini tecnici: i lavori infrastrutturali su larga scala sono stati eseguiti rapidamente, senza creare alcuna interferenza nel lavoro dell'impresa e quasi impercettibilmente per il suo personale. 

Risultati commerciali del progetto

Secondo me questo progetto è interessante principalmente non dal lato tecnico, ma dal lato organizzativo. La difficoltà consisteva principalmente nel pianificare e pensare attraverso i passaggi per implementare le attività del progetto. 

Il successo del progetto ci consente di affermare che la nostra iniziativa per sviluppare la direzione della rete all'interno del portafoglio di servizi Linxdatacenter è la scelta giusta per il vettore di sviluppo dell'azienda. Un approccio responsabile alla gestione del progetto, una strategia competente e una pianificazione chiara ci hanno permesso di svolgere il lavoro al livello adeguato. 

Conferma della qualità del lavoro: richiesta del cliente di continuare la fornitura di servizi per l'ammodernamento della rete negli altri suoi siti in Russia.

Fonte: habr.com

Aggiungi un commento