Xarxa com a servei per a una gran empresa: un cas no estàndard

Xarxa com a servei per a una gran empresa: un cas no estàndard
Com actualitzar equips de xarxa en una gran empresa sense aturar la producció? Parla d'un projecte a gran escala en la modalitat de "cirurgia a cor obert". Oleg Fedorov, director de gestió de projectes de Linxdatacenter. 

Durant els últims anys, hem observat un augment de la demanda dels clients de serveis relacionats amb el component de xarxa de la infraestructura de TI. La necessitat de connectivitat dels sistemes informàtics, els serveis, les aplicacions, la supervisió i les tasques de gestió empresarial operativa en gairebé qualsevol àrea obliguen les empreses a prestar una atenció més gran a les xarxes.  

El ventall de sol·licituds va des de garantir la tolerància a errors de la xarxa fins a la creació i gestió d'un sistema autònom del client passant per la compra d'un bloc d'adreces IP, la configuració de protocols d'encaminament i la gestió del trànsit d'acord amb les polítiques organitzatives.

També hi ha una demanda creixent de solucions integrals per construir i mantenir la infraestructura de xarxa, principalment dels clients la infraestructura de xarxa dels quals s'està creant des de zero o està obsoleta, que requereixen modificacions serioses. 

Aquesta tendència va coincidir amb el període de desenvolupament i complexitat de la pròpia infraestructura de xarxa de Linxdatacenter. Hem ampliat la geografia de la nostra presència a Europa connectant-nos a llocs remots, que al seu torn requeria millorar la infraestructura de la xarxa. 

L'empresa ha llançat un nou servei per als clients, Network-as-a-Service: ens ocupem dels problemes de xarxa de tots els clients, permetent-los centrar-se en el seu negoci principal.

L'estiu del 2020 es va enllestir el primer gran projecte en aquesta direcció, del qual m'agradaria parlar. 

Al començament 

Un gran complex industrial va recórrer a nosaltres per modernitzar la part de xarxa de la infraestructura d'una de les seves empreses. Va ser necessari substituir equips antics per equips nous, inclòs el nucli de xarxa.

L'última modernització d'equips a l'empresa va tenir lloc fa uns 10 anys. La nova direcció de l'empresa va decidir millorar la connectivitat, començant per l'actualització de la infraestructura al nivell físic més bàsic. 

El projecte es va dividir en dues parts: actualització del parc de servidors i equips de xarxa. Vam ser els responsables de la segona part. 

Els requisits bàsics per al treball inclouen minimitzar el temps d'inactivitat de les línies de producció de l'empresa durant l'execució del treball (i en algunes àrees, eliminar completament el temps d'inactivitat). Qualsevol aturada suposa una pèrdua monetària directa per al client, que no hauria d'haver-se produït sota cap circumstància. A causa del mode de funcionament de la instal·lació 24x7x365, a més de tenir en compte l'absència total de períodes d'inactivitat planificada en la pràctica de l'empresa, se'ns va encarregar bàsicament la realització de cirurgia a cor obert. Aquesta es va convertir en la principal característica distintiva del projecte.

Vaja

El treball es va planificar segons el principi de moviment des de nodes de xarxa allunyats del nucli cap als més propers, així com des dels que menys influeixen en el treball de les línies de producció fins als que influeixen directament en aquest treball. 

Per exemple, si prenem un node de xarxa al departament de vendes, una interrupció de la comunicació com a resultat del treball en aquest departament no afectarà la producció de cap manera. Al mateix temps, aquest incident ens ajudarà, com a contractista, a comprovar la correcció de l'enfocament escollit per treballar en aquestes unitats i, després d'ajustar les accions, treballar en les següents etapes del projecte. 

Cal no només substituir nodes i cables a la xarxa, sinó també configurar correctament tots els components per al correcte funcionament de la solució en conjunt. Van ser les configuracions les que es van provar d'aquesta manera: començant el treball fora del nucli, semblava que ens donàvem el "dret a equivocar-nos" sense posar en risc àrees crítiques per al funcionament de l'empresa. 

Hem identificat àrees que no afecten el procés de producció, així com àrees crítiques: tallers, unitat de càrrega i descàrrega, magatzems, etc. En àrees clau, es va acordar amb el client el temps d'inactivitat acceptable per a cada node de xarxa per separat: d'1 a 15 minuts . Va ser impossible evitar completament la desconnexió dels nodes de xarxa individuals, ja que el cable s'havia de canviar físicament d'equips antics a nous, i durant el procés de commutació també cal desenredar la "barba" de cables que es van formar durant diversos anys d'operació sense el correcte funcionament. cura (una de les conseqüències de la subcontractació de treballs per a la instal·lació de línies de cable).

El treball es va dividir en diverses etapes.

Etapa 1 – Auditoria. Preparar i coordinar el plantejament de la planificació del treball i valorar la preparació dels equips: el client, el contractista de la instal·lació i el nostre equip.

Etapa 2 – Desenvolupament d'un format per a la realització del treball, amb anàlisi i planificació detallada i profunda. Vam triar un format de llista de verificació amb una indicació precisa de l'ordre i la seqüència d'accions, fins a la seqüència de canvi de cables de connexió per port.

Etapa 3 – Realització de treballs en armaris que no afectin la producció. Estimació i ajust de temps morts per a les fases posteriors de l'obra.

Etapa 4 – Realització de treballs en armaris que afectin directament la producció. Estimació i ajust de temps d'inactivitat per a la fase final de l'obra.

Etapa 5 – Realització de treballs a la sala de servidors per canviar la resta d'equips. Inicieu l'encaminament al nou nucli.

Etapa 6 – Canvi consecutiu del nucli del sistema de configuracions de xarxa antigues a noves per a una transició suau de tot el complex del sistema (VLAN, enrutament, etc.). En aquesta etapa, vam connectar tots els usuaris i vam transferir tots els serveis al nou maquinari, vam verificar que la connexió era correcta, ens vam assegurar que no s'aturava cap dels serveis de l'empresa, vam assegurar-nos que si es produïa algun problema es connectaria directament al nucli, que va facilitar la resolució de possibles problemes i la configuració final. 

Pentinat de barba de filferro

El projecte va resultar difícil també per les difícils condicions inicials. 

En primer lloc, hi ha un gran nombre de nodes i seccions de la xarxa, amb una topologia complexa i una classificació de cables segons la seva finalitat. Aquestes "barbes" s'havien de treure dels armaris i "pentinar" minuciosament, esbrinant quin cable venia d'on i on portava. 

Semblava una cosa així:

Xarxa com a servei per a una gran empresa: un cas no estàndard
així que:

Xarxa com a servei per a una gran empresa: un cas no estàndard
més o menys: 

Xarxa com a servei per a una gran empresa: un cas no estàndard
En segon lloc, per a cadascuna d'aquestes tasques calia preparar un fitxer que descrigués el procés. "Agafem el cable X del port 1 de l'equip antic, el connectem al port 18 del nou equip". Sembla senzill, però quan teniu 48 ports completament obstruïts a les vostres dades d'origen i no hi ha cap opció de temps d'inactivitat (recordem uns 24x7x365), l'única sortida és treballar en blocs. Com més cables pugueu treure d'equips antics alhora, més ràpidament podreu pentinar-los i inserir-los al nou maquinari de xarxa, evitant fallades i temps d'inactivitat a la xarxa. 

Per tant, en l'etapa preparatòria, vam dividir la xarxa en blocs: cadascun d'ells pertanyia a una VLAN específica. Cada port (o un subconjunt d'ells) d'equips antics és una de les VLAN de la nova topologia de xarxa. Els vam agrupar així: els primers ports de l'interruptor allotjaven xarxes d'usuaris, els mitjans de producció, i els últims, punts d'accés i enllaços ascendents. 

Aquest enfocament va permetre treure i pentinar d'equips antics no només 1 cable, sinó 10-15, d'una vegada. Això va accelerar el procés de treball diverses vegades.  

Per cert, així són els cables dels armaris després de pentinar: 

Xarxa com a servei per a una gran empresa: un cas no estàndard
o, per exemple, així: 

Xarxa com a servei per a una gran empresa: un cas no estàndard
Acabada la 2a etapa, vam fer una pausa per analitzar els errors i la dinàmica del projecte. Per exemple, de seguida van sorgir defectes menors a causa d'incorreccions en els diagrames de xarxa que ens van proporcionar (un connector incorrecte al diagrama significa un cable de connexió comprat incorrecte i la necessitat de substituir-lo). 

La pausa era necessària, ja que quan es treballava des del servidor, fins i tot un petit error en el procés era inacceptable. Si l'objectiu era assegurar un temps d'inactivitat en una secció de xarxa de no més de 5 minuts, no es podria superar. Qualsevol possible desviació de l'horari s'havia d'acordar amb el client. 

Tanmateix, la planificació prèvia i la divisió del projecte en blocs va permetre complir amb el temps d'inactivitat previst en totes les àrees i, en la majoria dels casos, evitar-ho del tot. 

El repte dels temps - un projecte sota COVID 

No obstant això, no va estar exempt de dificultats addicionals. Per descomptat, el coronavirus va ser un dels obstacles. 

La feina es va complicar pel fet que va començar la pandèmia i va ser impossible que tots els especialistes implicats en el procés estiguessin presents durant el treball al lloc del client. Només els empleats de l'organització d'instal·lació podien accedir al lloc i el control es va dur a terme a través d'una sala Zoom: hi havia un enginyer de xarxa de Linxdatacenter, jo com a gestor de projectes, un enginyer de xarxa del client responsable del treball i un equip que realitza els treballs d'instal·lació.

Durant l'obra van sorgir problemes no explicats i es van haver de fer ajustos sobre la marxa. D'aquesta manera, es va poder prevenir ràpidament la influència del factor humà (errors en el circuit, errors en la determinació de l'estat de l'activitat de la interfície, etc.).

Tot i que el format de treball a distància semblava inusual a l'inici del projecte, ràpidament ens vam adaptar a les noves condicions i vam arribar a la fase final del treball. 

Hem llançat una configuració temporal de la configuració de xarxa per permetre que dos nuclis de xarxa, antic i nou, funcionin en paral·lel per aconseguir una transició suau. Tanmateix, va resultar que no es va eliminar una línia addicional del fitxer de configuració del nou nucli i la transició no es va produir. Això ens va obligar a passar una estona buscant el problema. 

Va resultar que el trànsit principal es transmetia correctament i el trànsit de control no arribava al node a través del nou nucli. Gràcies a la clara divisió del projecte en etapes, va ser possible identificar ràpidament la secció de la xarxa on va sorgir el problema, identificar el problema i solucionar-lo. 

I com a resultat

Resultats tècnics del projecte 

En primer lloc, es va crear un nou nucli de la nova xarxa empresarial, per al qual vam construir anells físics/lògics. Això es fa de manera que cada commutador de la xarxa tingui un "segon braç". A la xarxa antiga, molts commutadors estaven connectats al nucli al llarg d'una ruta, un braç (enllaç ascendent). Si es trencava, l'interruptor es tornava completament inaccessible. I si es connectessin diversos commutadors mitjançant un enllaç ascendent, l'accident desactivaria tot un departament o línia de producció de l'empresa. 

En una xarxa nova, fins i tot un incident de xarxa bastant greu no podrà, sota cap escenari, enderrocar tota la xarxa o una part significativa d'ella. 

El 90% de tots els equips de xarxa s'han actualitzat, els convertidors de mitjans (convertidors de mitjans de propagació de senyal) s'han donat de baixa i s'ha eliminat la necessitat de línies elèctriques dedicades per alimentar equips connectant-se a commutadors PoE, on l'alimentació es subministra mitjançant cables Ethernet. 

A més, totes les connexions òptiques a la sala de servidors i als armaris de camp estan marcades, a tots els nodes de comunicació clau. Això va permetre elaborar un diagrama topològic dels equips i connexions de la xarxa, reflectint el seu estat actual actual. 

Diagrama de xarxa
Xarxa com a servei per a una gran empresa: un cas no estàndard
El resultat més important en termes tècnics: el treball d'infraestructura a gran escala es va dur a terme ràpidament, sense crear cap interferència en el treball de l'empresa i gairebé desapercebut pel seu personal. 

Resultats empresarials del projecte

Al meu entendre, aquest projecte és interessant sobretot no des del punt tècnic, sinó des de l'organització. La dificultat rau principalment en la planificació i el pensament a través dels passos per implementar les tasques del projecte. 

L'èxit del projecte ens permet dir que la nostra iniciativa de desenvolupar l'àrea de networking dins de la cartera de serveis de Linxdatacenter és l'opció correcta per al vector de desenvolupament de l'empresa. Un enfocament responsable de la gestió de projectes, una estratègia competent i una planificació clara ens van permetre completar el treball al nivell adequat. 

La confirmació de la qualitat del treball és una sol·licitud del client per continuar prestant serveis per a la modernització de la xarxa a les seves instal·lacions restants a Rússia.

Font: www.habr.com

Afegeix comentari