Come abbiamo progettato e implementato una nuova rete su Huawei nell'ufficio di Mosca, parte 1

Come abbiamo progettato e implementato una nuova rete su Huawei nell'ufficio di Mosca, parte 1

Oggi vi racconto come è nata e si è concretizzata l’idea di creare una nuova rete interna per la nostra azienda. La posizione della direzione è che devi realizzare lo stesso progetto a tutti gli effetti per te stesso e per il cliente. Se lo facciamo bene per noi stessi, possiamo invitare il cliente e mostrare quanto bene ciò che gli offriamo funziona e funziona. Pertanto, abbiamo affrontato lo sviluppo del concetto di una nuova rete per l'ufficio di Mosca in modo molto approfondito, utilizzando l'intero ciclo di produzione: analisi delle esigenze del dipartimento → selezione di una soluzione tecnica → progettazione → implementazione → test. Quindi cominciamo.

Selezione di una soluzione tecnica: Mutant Sanctuary

La procedura per lavorare su un sistema automatizzato complesso è attualmente meglio descritta in GOST 34.601-90 “Sistemi automatizzati. Fasi della Creazione”, quindi abbiamo lavorato in base ad esso. E già nelle fasi di formazione dei requisiti e di sviluppo del concetto, abbiamo riscontrato le prime difficoltà. Organizzazioni di vari profili - banche, compagnie assicurative, sviluppatori di software, ecc. - per i loro compiti e standard necessitano di determinati tipi di reti, le cui specificità sono chiare e standardizzate. Tuttavia, questo non funzionerà con noi.

Perché?

Jet Infosystems è una grande azienda IT diversificata. Allo stesso tempo, il nostro dipartimento di supporto interno è piccolo (ma orgoglioso), garantisce la funzionalità dei servizi e dei sistemi di base. L'azienda contiene molte divisioni che svolgono funzioni diverse: si tratta di diversi potenti team di outsourcing, sviluppatori interni di sistemi aziendali, sicurezza delle informazioni e architetti di sistemi informatici, in generale, chiunque essi siano. Di conseguenza, anche i loro compiti, sistemi e politiche di sicurezza sono diversi. Il che, come previsto, ha creato difficoltà nel processo di analisi dei bisogni e di standardizzazione.

Ecco, ad esempio, il reparto di sviluppo: i suoi dipendenti scrivono e testano codice per un gran numero di clienti. Spesso è necessario organizzare rapidamente gli ambienti di test e, francamente, non è sempre possibile formulare requisiti per ciascun progetto, richiedere risorse e costruire un ambiente di test separato in conformità con tutte le normative interne. Da qui nascono situazioni curiose: un giorno il tuo umile servitore ha guardato nella stanza degli sviluppatori e ha trovato sotto il tavolo un cluster Hadoop di 20 desktop correttamente funzionanti, che erano inspiegabilmente collegati a una rete comune. Non credo valga la pena chiarire che il reparto IT dell’azienda non era a conoscenza della sua esistenza. Questa circostanza, come molte altre, è stata responsabile del fatto che durante lo sviluppo del progetto è nato il termine "riserva mutante", che descrive lo stato dell'infrastruttura degli uffici a lungo sofferente.

Oppure ecco un altro esempio. Periodicamente all'interno di un reparto viene allestito un banco prova. Questo è stato il caso di Jira e Confluence, che sono stati utilizzati in misura limitata dal Software Development Center in alcuni progetti. Dopo un po’ di tempo, altri dipartimenti vennero a conoscenza di queste utili risorse, le valutarono e alla fine del 2018 Jira e Confluence passarono dallo status di “giocattolo dei programmatori locali” allo status di “risorse aziendali”. Ora a questi sistemi deve essere assegnato un proprietario, devono essere definiti SLA, policy di accesso/sicurezza delle informazioni, policy di backup, monitoraggio, regole per l'instradamento delle richieste per la risoluzione dei problemi - in generale, devono essere presenti tutti gli attributi di un sistema informativo a tutti gli effetti .
Ciascuna delle nostre divisioni è anche un incubatore che coltiva i propri prodotti. Alcuni di essi muoiono in fase di sviluppo, alcuni li utilizziamo mentre lavoriamo ai progetti, mentre altri mettono radici e diventano soluzioni replicate che iniziamo a utilizzare noi stessi e a vendere ai clienti. Per ciascuno di questi sistemi è auspicabile avere un proprio ambiente di rete, dove si svilupperà senza interferire con altri sistemi e ad un certo punto potrà essere integrato nell'infrastruttura dell'azienda.

Oltre allo sviluppo, abbiamo un'area molto ampia Centro assistenza con più di 500 dipendenti, formati in squadre per ogni cliente. Sono coinvolti nella manutenzione delle reti e di altri sistemi, nel monitoraggio remoto, nella risoluzione dei sinistri e così via. Cioè, l'infrastruttura della SC è, in effetti, l'infrastruttura del cliente con cui stanno attualmente lavorando. La particolarità di lavorare con questa sezione della rete è che le loro postazioni di lavoro per la nostra azienda sono in parte esterne e in parte interne. Pertanto, per SC abbiamo implementato il seguente approccio: l'azienda fornisce al dipartimento corrispondente la rete e altre risorse, considerando le postazioni di lavoro di questi dipartimenti come collegamenti esterni (per analogia con filiali e utenti remoti).

Progettazione autostradale: gli operatori siamo noi (a sorpresa)

Dopo aver valutato tutte le insidie, ci siamo resi conto che stavamo ottenendo la rete di un operatore di telecomunicazioni in un unico ufficio e abbiamo iniziato ad agire di conseguenza.

Abbiamo creato una rete centrale con l'aiuto della quale a qualsiasi consumatore interno, e in futuro anche esterno, viene fornito il servizio richiesto: VPN L2, VPN L3 o routing L3 regolare. Alcuni dipartimenti necessitano di un accesso a Internet sicuro, mentre altri necessitano di un accesso pulito senza firewall, ma che allo stesso tempo protegga le nostre risorse aziendali e la rete centrale dal loro traffico.

Abbiamo informalmente “concluso uno SLA” con ciascuna divisione. In conformità con esso, tutti gli incidenti che si verificano devono essere eliminati entro un certo periodo di tempo prestabilito. I requisiti dell'azienda per la sua rete si sono rivelati severi. Il tempo massimo di risposta a un incidente in caso di guasti telefonici ed e-mail è stato di 5 minuti. Il tempo necessario per ripristinare la funzionalità della rete durante i guasti tipici non è superiore a un minuto.

Poiché disponiamo di una rete di livello carrier, puoi connetterti ad essa solo nel rigoroso rispetto delle regole. Le unità di servizio stabiliscono le politiche e forniscono servizi. Non hanno nemmeno bisogno di informazioni sulle connessioni di server, macchine virtuali e workstation specifici. Ma allo stesso tempo sono necessari meccanismi di protezione, perché nessuna connessione dovrebbe disabilitare la rete. Se accidentalmente si crea un loop, gli altri utenti non dovrebbero notarlo, ovvero è necessaria una risposta adeguata da parte della rete. Qualsiasi operatore di telecomunicazioni risolve costantemente problemi simili apparentemente complessi all'interno della sua rete principale. Fornisce servizi a molti clienti con esigenze e traffico diversi. Allo stesso tempo, abbonati diversi non dovrebbero provare inconvenienti dovuti al traffico degli altri.
A casa abbiamo risolto questo problema nel modo seguente: abbiamo costruito una rete backbone L3 con ridondanza completa, utilizzando il protocollo IS-IS. Una rete overlay è stata costruita sopra il core basato sulla tecnologia VPN/VXLAN, utilizzando un protocollo di routing MP-BGP. Per accelerare la convergenza dei protocolli di routing è stata utilizzata la tecnologia BFD.

Come abbiamo progettato e implementato una nuova rete su Huawei nell'ufficio di Mosca, parte 1
Struttura della rete

Nei test, questo schema si è dimostrato eccellente: quando qualsiasi canale o switch è disconnesso, il tempo di convergenza non è superiore a 0.1-0.2 s, viene perso un minimo di pacchetti (spesso nessuno), le sessioni TCP non vengono interrotte, le conversazioni telefoniche non vengono interrotti.

Come abbiamo progettato e implementato una nuova rete su Huawei nell'ufficio di Mosca, parte 1
Livello sottostante - Instradamento

Come abbiamo progettato e implementato una nuova rete su Huawei nell'ufficio di Mosca, parte 1
Livello di sovrapposizione - Instradamento

Come switch di distribuzione sono stati utilizzati gli switch Huawei CE6870 con licenze VXLAN. Questo dispositivo ha un rapporto qualità/prezzo ottimale, consentendo di connettere gli abbonati ad una velocità di 10 Gbit/s e di connettersi alla dorsale ad una velocità di 40–100 Gbit/s, a seconda dei ricetrasmettitori utilizzati.

Come abbiamo progettato e implementato una nuova rete su Huawei nell'ufficio di Mosca, parte 1
Interruttori Huawei CE6870

Gli switch Huawei CE8850 sono stati utilizzati come switch principali. L’obiettivo è trasmettere il traffico in modo rapido e affidabile. A loro non è collegato nessun dispositivo tranne gli switch di distribuzione, non sanno nulla di VXLAN, quindi è stato scelto un modello con 32 porte 40/100 Gbps, con licenza base che prevede routing L3 e supporto per IS-IS e MP-BGP protocolli.

Come abbiamo progettato e implementato una nuova rete su Huawei nell'ufficio di Mosca, parte 1
Quello in basso è l'interruttore principale Huawei CE8850

Nella fase di progettazione, all'interno del team è scoppiata una discussione sulle tecnologie che potrebbero essere utilizzate per implementare una connessione tollerante ai guasti ai nodi principali della rete. Il nostro ufficio di Mosca si trova in tre edifici, abbiamo 7 sale di distribuzione, in ognuna delle quali sono stati installati due switch di distribuzione Huawei CE6870 (in diverse sale di distribuzione sono stati installati solo switch di accesso). Nello sviluppo del concetto di rete sono state prese in considerazione due opzioni di ridondanza:

  • Il consolidamento della distribuzione passa in uno stack tollerante ai guasti in ogni sala di connessione incrociata. Pro: semplicità e facilità di configurazione. Svantaggi: la probabilità di guasto dell'intero stack è maggiore quando si verificano errori nel firmware dei dispositivi di rete ("perdite di memoria" e simili).
  • Applica le tecnologie gateway M-LAG e Anycast per connettere i dispositivi agli switch di distribuzione.

Alla fine abbiamo optato per la seconda opzione. È un po' più difficile da configurare, ma nella pratica ha dimostrato le sue prestazioni e l'elevata affidabilità.
Consideriamo innanzitutto il collegamento dei dispositivi finali agli switch di distribuzione:
Come abbiamo progettato e implementato una nuova rete su Huawei nell'ufficio di Mosca, parte 1
Attraverso

Uno switch di accesso, un server o qualsiasi altro dispositivo che richiede una connessione con tolleranza agli errori è incluso in due switch di distribuzione. La tecnologia M-LAG fornisce ridondanza a livello di collegamento dati. Si presuppone che due interruttori di distribuzione vengano visualizzati dall'apparecchiatura collegata come un unico dispositivo. La ridondanza e il bilanciamento del carico vengono eseguiti utilizzando il protocollo LACP.

La tecnologia gateway Anycast fornisce ridondanza a livello di rete. Su ciascuno degli switch di distribuzione è configurato un numero abbastanza elevato di VRF (ciascun VRF è destinato ai propri scopi - separatamente per utenti "normali", separatamente per telefonia, separatamente per vari ambienti di test e sviluppo, ecc.), e in ciascuno VRF ha diverse VLAN configurate. Nella nostra rete, gli switch di distribuzione sono i gateway predefiniti per tutti i dispositivi ad essi collegati. Gli indirizzi IP corrispondenti alle interfacce VLAN sono gli stessi per entrambi gli switch di distribuzione. Il traffico viene instradato attraverso lo scambio più vicino.

Ora diamo un'occhiata alla connessione degli switch di distribuzione al kernel:
La tolleranza agli errori viene fornita a livello di rete utilizzando il protocollo IS-IS. Si prega di notare che tra gli switch è fornita una linea di comunicazione L3 separata, a una velocità di 100G. Fisicamente, questa linea di comunicazione è un cavo ad accesso diretto; può essere visto a destra nella foto degli switch Huawei CE6870.

Un'alternativa potrebbe essere quella di organizzare una topologia a doppia stella "onesta" completamente connessa, ma, come accennato in precedenza, disponiamo di 7 camere comunicanti in tre edifici. Di conseguenza, se avessimo scelto la topologia “doppia stella”, avremmo avuto bisogno esattamente del doppio dei ricetrasmettitori 40G “a lungo raggio”. Il risparmio qui è molto significativo.

È necessario spendere qualche parola su come le tecnologie gateway VXLAN e Anycast lavorano insieme. VXLAN, senza entrare nei dettagli, è un tunnel per il trasporto di frame Ethernet all'interno di pacchetti UDP. Le interfacce di loopback degli switch di distribuzione vengono utilizzate come indirizzo IP di destinazione del tunnel VXLAN. Ciascun crossover ha due switch con gli stessi indirizzi dell'interfaccia di loopback, quindi un pacchetto può arrivare a uno qualsiasi di essi e da esso può essere estratto un frame Ethernet.

Se lo switch conosce l'indirizzo MAC di destinazione del frame recuperato, il frame verrà consegnato correttamente alla sua destinazione. Per garantire che entrambi gli switch di distribuzione installati nello stesso crossconnect abbiano informazioni aggiornate su tutti gli indirizzi MAC “in arrivo” dagli switch di accesso, il meccanismo M-LAG è responsabile della sincronizzazione delle tabelle degli indirizzi MAC (così come degli ARP tabelle) su entrambe le coppie di switch M-LAG.

Il bilanciamento del traffico è ottenuto grazie alla presenza nella rete sottostante di diversi percorsi verso le interfacce di loopback degli switch di distribuzione.

Invece di una conclusione

Come accennato in precedenza, durante i test e il funzionamento la rete ha mostrato un'elevata affidabilità (il tempo di ripristino per guasti tipici non supera le centinaia di millisecondi) e buone prestazioni: ogni connessione incrociata è collegata al core tramite due canali da 40 Gbit/s. Gli switch di accesso nella nostra rete sono impilati e collegati agli switch di distribuzione tramite LACP/M-LAG con due canali da 10 Gbit/s. Uno stack contiene solitamente 5 switch con 48 porte ciascuno e fino a 10 stack di accesso sono collegati alla distribuzione in ciascuna connessione incrociata. Pertanto, il backbone fornisce circa 30 Mbit/s per utente anche al massimo carico teorico, che al momento in cui scriviamo è sufficiente per tutte le nostre applicazioni pratiche.

La rete consente di organizzare senza problemi l'accoppiamento di qualsiasi dispositivo connesso arbitrario tramite L2 e L3, fornendo un completo isolamento del traffico (che piace al servizio di sicurezza delle informazioni) e dei domini di errore (che piace al team operativo).

Nella parte successiva ti racconteremo come siamo migrati sulla nuova rete. Rimani sintonizzato!

Maxim Klochkov
Consulente senior del gruppo audit di rete e progetti complessi
Centro soluzioni di rete
"Sistemi informativi dei jet"


Fonte: habr.com

Aggiungi un commento