Com hem dissenyat i implementat una nova xarxa a Huawei a l'oficina de Moscou, part 1

Com hem dissenyat i implementat una nova xarxa a Huawei a l'oficina de Moscou, part 1

Avui us explicaré com va sorgir i es va implementar la idea de crear una nova xarxa interna per a la nostra empresa. La posició de la direcció és que heu de fer el mateix projecte complet per a vosaltres mateixos que per al client. Si ho fem bé per nosaltres mateixos, podem convidar el client i mostrar com funciona i funciona allò que li oferim. Per tant, vam abordar molt a fons el desenvolupament del concepte d'una nova xarxa per a l'oficina de Moscou, utilitzant tot el cicle de producció: anàlisi de les necessitats departamentals → selecció d'una solució tècnica → disseny → implementació → proves. Així que comencem.

Selecció d'una solució tècnica: Santuari Mutant

Actualment, el procediment per treballar en un sistema automatitzat complex es descriu millor a GOST 34.601-90 "Sistemes automatitzats. Etapes de la Creació”, així que vam treballar d'acord amb ella. I ja en les etapes de formació de requisits i desenvolupament del concepte, ens vam trobar amb les primeres dificultats. Organitzacions de diferents perfils -bancs, companyies d'assegurances, desenvolupadors de programari, etc.- per a les seves tasques i estàndards necessiten determinats tipus de xarxes, les especificitats de les quals són clares i estandarditzades. Tanmateix, això no funcionarà amb nosaltres.

Per què?

Jet Infosystems és una gran empresa de TI diversificada. Al mateix temps, el nostre departament de suport intern és petit (però orgullós), assegura la funcionalitat dels serveis i sistemes bàsics. L'empresa conté moltes divisions que realitzen diferents funcions: es tracta de diversos equips d'externalització potents, desenvolupadors interns de sistemes empresarials i seguretat de la informació, i arquitectes de sistemes informàtics, en general, sigui qui sigui. En conseqüència, les seves tasques, sistemes i polítiques de seguretat també són diferents. La qual cosa, com era d'esperar, va crear dificultats en el procés d'anàlisi de necessitats i estandardització.

Aquí, per exemple, hi ha el departament de desenvolupament: els seus empleats escriuen i proveen codi per a un gran nombre de clients. Sovint és necessari organitzar ràpidament els entorns de prova i, francament, no sempre és possible formular requisits per a cada projecte, sol·licitar recursos i crear un entorn de prova independent d'acord amb totes les normatives internes. Això dóna lloc a situacions curioses: un dia el vostre humil servent va mirar a la sala de desenvolupadors i va trobar sota la taula un clúster Hadoop de 20 ordinadors de sobretaula que funcionava correctament, connectat inexplicablement a una xarxa comuna. No crec que valgui la pena aclarir que el departament d'informàtica de l'empresa desconeixia la seva existència. Aquesta circumstància, com moltes altres, va ser la responsable del fet que durant el desenvolupament del projecte va néixer el terme "reserva mutant", que descriu l'estat de la infraestructura d'oficines de llarga durada.

O aquí hi ha un altre exemple. Periòdicament, s'instal·la un banc de proves dins d'un departament. Aquest va ser el cas de Jira i Confluence, que van ser utilitzats de manera limitada pel Centre de Desenvolupament de Programari en alguns projectes. Després d'un temps, altres departaments van conèixer aquests recursos útils, els van avaluar i, a finals de 2018, Jira i Confluence van passar de l'estatus de "joguina de programadors locals" a l'estatus de "recursos de l'empresa". Ara s'ha d'assignar un propietari a aquests sistemes, SLA, polítiques d'accés/seguretat de la informació, polítiques de còpia de seguretat, supervisió, regles per a les sol·licituds d'encaminament per solucionar problemes; en general, han d'estar presents tots els atributs d'un sistema d'informació complet. .
Cadascuna de les nostres divisions és també una incubadora que cultiva els seus propis productes. Alguns moren en l'etapa de desenvolupament, alguns els fem servir mentre treballem en projectes, mentre que altres arrelen i es converteixen en solucions replicades que comencem a utilitzar nosaltres mateixos i vendre als clients. Per a cadascun d'aquests sistemes, és desitjable tenir el seu propi entorn de xarxa, on es desenvolupi sense interferir amb altres sistemes i, en algun moment, es pugui integrar a la infraestructura de l'empresa.

A més de desenvolupament, tenim un molt gran Centre de serveis amb més de 500 empleats, formats en equips per a cada client. Estan implicats en el manteniment de xarxes i altres sistemes, la supervisió remota, la resolució de reclamacions, etc. És a dir, la infraestructura de la SC és, de fet, la infraestructura del client amb qui està treballant actualment. La particularitat de treballar amb aquesta secció de la xarxa és que les seves estacions de treball per a la nostra empresa són en part externes, i en part internes. Per tant, per al SC hem implementat el següent enfocament: l'empresa proporciona xarxa i altres recursos al departament corresponent, considerant les estacions de treball d'aquests departaments com a connexions externes (per analogia amb sucursals i usuaris remots).

Disseny d'autopistes: som l'operador (sorpresa)

Després d'avaluar tots els inconvenients, ens vam adonar que teníem una xarxa d'operadors de telecomunicacions dins d'una oficina i vam començar a actuar en conseqüència.

Hem creat una xarxa bàsica amb l'ajuda de la qual qualsevol consumidor intern, i en el futur també extern, disposa del servei requerit: VPN L2, VPN L3 o enrutament L3 normal. Alguns departaments necessiten un accés segur a Internet, mentre que d'altres necessiten un accés net sense tallafocs, però al mateix temps protegint els nostres recursos corporatius i la xarxa bàsica del seu trànsit.

De manera informal, vam "concloure un SLA" amb cada divisió. D'acord amb això, totes les incidències que es produeixin s'han d'eliminar en un període de temps determinat i acordat. Els requisits de la companyia per a la seva xarxa van resultar ser estrictes. El temps màxim de resposta a una incidència en cas de fallades telefòniques i de correu electrònic va ser de 5 minuts. El temps per restaurar la funcionalitat de la xarxa durant els errors típics no és superior a un minut.

Com que tenim una xarxa de qualitat d'operador, només us podeu connectar d'acord amb les normes. Les unitats de servei estableixen polítiques i proporcionen serveis. Ni tan sols necessiten informació sobre les connexions de servidors, màquines virtuals i estacions de treball concretes. Però al mateix temps, calen mecanismes de protecció, perquè ni una sola connexió hauria de desactivar la xarxa. Si es crea accidentalment un bucle, els altres usuaris no ho haurien de notar, és a dir, cal una resposta adequada de la xarxa. Qualsevol operador de telecomunicacions soluciona constantment problemes similars aparentment complexos dins de la seva xarxa central. Ofereix servei a molts clients amb diferents necessitats i trànsit. Al mateix temps, els diferents subscriptors no haurien de patir inconvenients pel trànsit dels altres.
A casa, vam resoldre aquest problema de la següent manera: vam construir una xarxa troncal L3 amb total redundància, utilitzant el protocol IS-IS. Es va crear una xarxa superposada a la part superior del nucli basada en la tecnologia EVPN/VXLAN, utilitzant un protocol d'encaminament MP-BGP. Per accelerar la convergència dels protocols d'encaminament, es va utilitzar la tecnologia BFD.

Com hem dissenyat i implementat una nova xarxa a Huawei a l'oficina de Moscou, part 1
Estructura de la xarxa

A les proves, aquest esquema es va mostrar excel·lent: quan es desconnecta qualsevol canal o commutador, el temps de convergència no és superior a 0.1-0.2 s, es perden un mínim de paquets (sovint cap), les sessions TCP no es trenquen, les converses telefòniques no s'interrompen.

Com hem dissenyat i implementat una nova xarxa a Huawei a l'oficina de Moscou, part 1
Capa de subposició - Encaminament

Com hem dissenyat i implementat una nova xarxa a Huawei a l'oficina de Moscou, part 1
Capa de superposició - Enrutament

Els commutadors Huawei CE6870 amb llicències VXLAN es van utilitzar com a commutadors de distribució. Aquest dispositiu té una relació qualitat/preu òptima, que us permet connectar els subscriptors a una velocitat de 10 Gbit/s i connectar-vos a la columna vertebral a velocitats de 40 a 100 Gbit/s, depenent dels transceptors utilitzats.

Com hem dissenyat i implementat una nova xarxa a Huawei a l'oficina de Moscou, part 1
Commutadors Huawei CE6870

Els interruptors Huawei CE8850 es van utilitzar com a interruptors bàsics. L'objectiu és transmetre el trànsit de manera ràpida i fiable. No hi ha dispositius connectats excepte commutadors de distribució, no saben res de VXLAN, per la qual cosa es va triar un model amb 32 ports 40/100 Gbps, amb una llicència bàsica que proporciona enrutament L3 i suport per a IS-IS i MP-BGP. protocols.

Com hem dissenyat i implementat una nova xarxa a Huawei a l'oficina de Moscou, part 1
La part inferior és l'interruptor central Huawei CE8850

En l'etapa de disseny, es va iniciar una discussió dins de l'equip sobre tecnologies que es podrien utilitzar per implementar una connexió tolerant a errors als nodes de la xarxa bàsica. La nostra oficina de Moscou es troba en tres edificis, disposem de 7 sales de distribució, en cadascuna de les quals es van instal·lar dos interruptors de distribució Huawei CE6870 (només es van instal·lar interruptors d'accés a diverses sales de distribució). En desenvolupar el concepte de xarxa, es van considerar dues opcions de redundància:

  • Consolidació dels interruptors de distribució en una pila tolerant a fallades a cada sala de connexió creuada. Avantatges: senzillesa i facilitat de configuració. Desavantatges: hi ha una major probabilitat de fallada de tota la pila quan es produeixen errors en el firmware dels dispositius de xarxa ("fuites de memòria" i similars).
  • Apliqueu les tecnologies de passarel·la M-LAG i Anycast per connectar dispositius als commutadors de distribució.

Al final, ens hem decidit per la segona opció. És una mica més difícil de configurar, però ha demostrat a la pràctica el seu rendiment i alta fiabilitat.
Considerem primer la connexió de dispositius finals als interruptors de distribució:
Com hem dissenyat i implementat una nova xarxa a Huawei a l'oficina de Moscou, part 1
Creu

Dos commutadors de distribució inclouen un commutador d'accés, un servidor o qualsevol altre dispositiu que requereixi una connexió tolerant a errors. La tecnologia M-LAG proporciona redundància a nivell d'enllaç de dades. Se suposa que dos interruptors de distribució apareixen a l'equip connectat com un sol dispositiu. La redundància i l'equilibri de càrrega es realitzen mitjançant el protocol LACP.

La tecnologia de passarel·la Anycast proporciona redundància a nivell de xarxa. Es configura un nombre bastant gran de VRF a cadascun dels commutadors de distribució (cada VRF està pensat per als seus propis propòsits: per separat per als usuaris "normals", per separat per a la telefonia, per separat per a diversos entorns de prova i desenvolupament, etc.) i en cada un. VRF té configurades diverses VLAN. A la nostra xarxa, els commutadors de distribució són les passarel·les predeterminades per a tots els dispositius connectats a ells. Les adreces IP corresponents a les interfícies VLAN són les mateixes per als dos commutadors de distribució. El trànsit s'encamina a través de l'interruptor més proper.

Ara mirem com connectar els interruptors de distribució al nucli:
La tolerància a errors es proporciona a nivell de xarxa mitjançant el protocol IS-IS. Tingueu en compte que s'ofereix una línia de comunicació L3 separada entre els commutadors, a una velocitat de 100G. Físicament, aquesta línia de comunicació és un cable d'accés directe que es pot veure a la dreta a la foto dels interruptors Huawei CE6870.

Una alternativa seria organitzar una topologia d'estrella doble "honesta" totalment connectada, però, com s'ha esmentat anteriorment, disposem de 7 sales de connexió creuada en tres edificis. En conseqüència, si haguéssim escollit una topologia de "doble estrella", hauríem necessitat exactament el doble de transceptors 40G de "llarg abast". Els estalvis aquí són molt importants.

Cal dir algunes paraules sobre com funcionen conjuntament les tecnologies de passarel·la VXLAN i Anycast. VXLAN, sense entrar en detalls, és un túnel per transportar trames Ethernet dins de paquets UDP. Les interfícies de loopback dels commutadors de distribució s'utilitzen com a adreça IP de destinació del túnel VXLAN. Cada connexió creuada té dos commutadors amb les mateixes adreces d'interfície de loopback, de manera que un paquet pot arribar a qualsevol d'ells i se'n pot extreure una trama Ethernet.

Si el commutador coneix l'adreça MAC de destinació de la trama recuperada, la trama es lliurarà correctament a la seva destinació. Per garantir que els dos commutadors de distribució instal·lats a la mateixa connexió creuada tinguin informació actualitzada sobre totes les adreces MAC que "arriben" dels commutadors d'accés, el mecanisme M-LAG és responsable de sincronitzar les taules d'adreces MAC (així com ARP). taules) als dos interruptors parells M-LAG.

L'equilibri del trànsit s'aconsegueix a causa de la presència a la xarxa subjacent de diverses rutes cap a les interfícies de loopback dels commutadors de distribució.

En lloc d'una conclusió

Com s'ha esmentat anteriorment, durant les proves i el funcionament la xarxa va mostrar una gran fiabilitat (el temps de recuperació per a fallades típiques no supera els centenars de mil·lisegons) i un bon rendiment: cada connexió creuada està connectada al nucli per dos canals de 40 Gbit/s. Els commutadors d'accés a la nostra xarxa estan apilats i connectats als commutadors de distribució mitjançant LACP/M-LAG amb dos canals de 10 Gbit/s. Una pila normalment conté 5 commutadors amb 48 ports cadascun, i es connecten fins a 10 piles d'accés a la distribució a cada connexió creuada. Així, la columna vertebral proporciona uns 30 Mbit/s per usuari fins i tot a la càrrega teòrica màxima, que en el moment d'escriure és suficient per a totes les nostres aplicacions pràctiques.

La xarxa us permet organitzar perfectament l'aparellament de qualsevol dispositiu connectat arbitrari tant mitjançant L2 com L3, proporcionant un aïllament complet del trànsit (que agrada al servei de seguretat de la informació) i dominis d'error (que agrada a l'equip d'operacions).

A la següent part us explicarem com hem migrat a la nova xarxa. Estigueu atents!

Màxim Klochkov
Consultor sènior del grup d'auditoria de xarxes i projectes complexos
Centre de Solucions de Xarxa
"Jet Infosystems"


Font: www.habr.com

Afegeix comentari