Network-as-a-Service til en stor virksomhed: en ikke-standard sag

Network-as-a-Service til en stor virksomhed: en ikke-standard sag
Sådan opdaterer du netværksudstyr i en stor virksomhed uden at stoppe produktionen? Om et storstilet projekt i form af "åben hjertekirurgi" fortæller Linxdatacenter projektledelse leder Oleg Fedorov. 

I løbet af de seneste år har vi set en øget efterspørgsel fra kunderne efter tjenester relateret til netværkskomponenten i IT-infrastrukturen. Behovet for tilslutning af it-systemer, tjenester, applikationer, opgaverne med overvågning og operationel virksomhedsledelse på næsten ethvert område tvinger virksomheder i dag til at være mere opmærksomme på netværk.  

Anmodninger spænder fra levering af netværksfejltolerance til oprettelse og styring af et autonomt klientsystem med anskaffelse af en blok af IP-adresser, konfiguration af routingprotokoller og styring af trafik i henhold til organisationers politikker.

Der er også en stigende efterspørgsel efter integrerede løsninger til opbygning og vedligeholdelse af netværksinfrastruktur, primært fra kunder, hvis netværksinfrastruktur er skabt fra bunden eller er forældet, som kræver seriøse ændringer. 

Denne tendens faldt i tid sammen med udviklings- og komplikationsperioden for Linxdatacenters egen netværksinfrastruktur. Vi udvidede geografien af ​​vores tilstedeværelse i Europa ved at oprette forbindelse til fjerntliggende steder, hvilket igen krævede en forbedring af netværksinfrastrukturen. 

Virksomheden har lanceret en ny service til kunderne, Network-as-a-Service: Vi tager os af alle netværksopgaver for kunderne, så de kan fokusere på deres kerneforretning.

I sommeren 2020 blev det første store projekt i denne retning afsluttet, som jeg gerne vil fortælle om. 

Ved begyndelsen 

Et stort industrikompleks henvendte sig til os for at modernisere netværksdelen af ​​infrastrukturen i en af ​​dens virksomheder. Det var påkrævet at udskifte det gamle udstyr med nyt, inklusive kernen af ​​netværket.

Den sidste modernisering af udstyret på virksomheden fandt sted for omkring 10 år siden. Den nye ledelse af virksomheden besluttede at forbedre forbindelsen, begyndende med infrastrukturopgraderinger på det mest grundlæggende fysiske niveau. 

Projektet var opdelt i to dele: opgradering af serverparken og netværksudstyr. Vi stod for anden del. 

De grundlæggende krav til arbejdet omfattede minimering af nedetid for virksomhedens produktionslinjer under udførelsen af ​​arbejdet (og i nogle områder fuldstændig eliminering af nedetid). Ethvert stop er et direkte pengetab for klienten, hvilket under ingen omstændigheder burde være sket. I forbindelse med driften af ​​anlægget 24x7x365, såvel som under hensyntagen til det fuldstændige fravær af perioder med planlagt nedetid i virksomhedens praksis, fik vi faktisk til opgave at udføre åben hjertekirurgi. Dette blev det vigtigste kendetegn ved projektet.

Arbejdet blev planlagt efter princippet om bevægelse fra netværksknuderne fjernt fra kernen til tættere, såvel som fra produktionslinjer, der har mindre indflydelse på arbejdet, til dem, der direkte påvirker dette arbejde. 

Hvis du for eksempel tager en netværksknude i salgsafdelingen, så vil en kommunikationsfejl som følge af arbejde i denne afdeling ikke påvirke produktionen på nogen måde. Samtidig vil en sådan hændelse hjælpe os som entreprenør med at verificere rigtigheden af ​​den valgte tilgang til arbejde på sådanne knudepunkter og, efter at have rettet handlinger, arbejde i de næste faser af projektet. 

Det er nødvendigt ikke kun at udskifte noderne og ledningerne i netværket, men også at konfigurere alle komponenter korrekt til den korrekte drift af løsningen som helhed. Det var konfigurationerne, der blev kontrolleret på denne måde: Når vi startede arbejdet væk fra kernen, gav vi os på en måde "retten til at lave en fejl", uden at udsætte kritiske områder for virksomhedens drift for risici. 

Vi har identificeret områder, der ikke påvirker produktionsprocessen, samt kritiske områder - værksteder, læsse- og losseenhed, lagre osv. På nøgleområder aftalte vi med kunden den tilladte nedetid for hver netværksknude separat: fra 1 til 15 minutter. Det var umuligt helt at undgå at afbryde individuelle netværksknuder, da kablet fysisk skal skiftes fra det gamle udstyr til det nye, og i processen med at skifte er det også nødvendigt at optrevle "skægget" af ledninger, som blev dannet under flere års drift uden ordentlig pleje (en af ​​konsekvenserne ved at outsource arbejde installation af kabelledninger).

Arbejdet var opdelt i flere faser.

Trin 1 - Revision. Udarbejdelse og koordinering af tilgangen til arbejdsplanlægning og vurdering af teamenes parathed: bygherren, entreprenøren, der udfører installationen, og vores team.

Trin 2 – Udvikling af et format til udførelse af arbejde med dyb detaljeret analyse og planlægning. Vi valgte et tjeklisteformat med en nøjagtig indikation af rækkefølgen og rækkefølgen af ​​handlinger, op til rækkefølgen af ​​skift af patch-kabler efter porte.

Trin 3 – Udførelse af arbejde i skabe, der ikke påvirker produktionen. Estimering og justering af nedetid for efterfølgende arbejdsfaser.

Trin 4 – Udførelse af arbejde i skabe, der direkte påvirker produktionen. Estimering og justering af nedetid for den afsluttende fase af arbejdet.

Trin 5 – Udførelse af arbejde i serverrummet for at skifte det resterende udstyr. Kører på routing på en ny kerne.

Trin 6 – Sekventiel skift af systemkernen fra gamle netværkskonfigurationer til nye for en glidende overgang af hele systemkomplekset (VLAN, routing osv.). På dette tidspunkt tilsluttede vi alle brugere og overførte alle tjenester til ny hardware, kontrollerede den korrekte forbindelse, sørgede for, at ingen af ​​virksomhedstjenesterne stoppede, garanterede, at de i tilfælde af problemer ville blive forbundet direkte til kernen, hvilket gjorde det lettere at eliminere mulig fejlfinding og endelig opsætning. 

Trådskægfrisure

Projektet viste sig også at være svært på grund af de vanskelige startforhold. 

For det første er dette et stort antal knudepunkter og sektioner af netværket med en indviklet topologi og klassificering af ledninger i henhold til deres formål. Sådanne "skæg" skulle tages ud af skabene og møjsommeligt "kæmmes", for at finde ud af hvilken ledning hvorfra og hvor den fører hen. 

Det lignede sådan noget:

Network-as-a-Service til en stor virksomhed: en ikke-standard sag
som dette:

Network-as-a-Service til en stor virksomhed: en ikke-standard sag
eller sådan her: 

Network-as-a-Service til en stor virksomhed: en ikke-standard sag
For det andet var det for hver sådan opgave nødvendigt at udarbejde en fil med en beskrivelse af processen. "Vi tager ledning X fra port 1 på det gamle udstyr, vi sætter det i port 18 på det nye udstyr." Det lyder enkelt, men når du har 48 fuldstændig tilstoppede porte i de indledende data, og der ikke er nogen ledig mulighed (vi husker ca. 24x7x365), er den eneste udvej at arbejde i blokke. Jo flere ledninger du kan trække ud af gammelt udstyr på én gang, jo hurtigere kan du børste dem op og tilslutte dem til ny netværkshardware, så du undgår netværksfejl og nedetid. 

Derfor opdelte vi på det forberedende stadium netværket i blokke - hver af dem tilhørte et specifikt VLAN. Hver port (eller en delmængde af dem) på det gamle udstyr er et af VLAN'erne i den nye netværkstopologi. Vi grupperede dem som følger: Switchens første porte husede brugernetværk, i midten - produktionsnetværk, og i de sidste - adgangspunkter og uplinks. 

Denne tilgang gjorde det muligt at trække ud og kamme ud af det gamle udstyr ikke 1 ledning, men 10-15 på én gang. Dette fremskyndede arbejdsgangen flere gange.  

Sådan ser ledningerne i skabene i øvrigt ud efter kæmning: 

Network-as-a-Service til en stor virksomhed: en ikke-standard sag
eller for eksempel sådan her: 

Network-as-a-Service til en stor virksomhed: en ikke-standard sag
Efter afslutningen af ​​2. etape holdt vi en pause for at analysere fejl og dynamikker i projektet. For eksempel kom der straks mindre fejl på grund af unøjagtigheder i netværksdiagrammerne, der blev leveret til os (det forkerte stik på diagrammet er den forkerte købte patch-ledning og behovet for at udskifte den). 

Pausen var nødvendig, for når man arbejdede med serverrettigheder, var selv en lille fejl i processen uacceptabel. Hvis målet var at sikre nedetid på netværksafsnittet på højst 5 minutter, så kunne den ikke overskrides. En eventuel afvigelse fra tidsplanen skulle aftales med bygherren. 

Men den forudgående planlægning og blokering af projektet gjorde det muligt at overholde den planlagte nedetid på alle steder, og i de fleste tilfælde overhovedet at undvære den. 

Tidens udfordring - et projekt under COVID 

Det var dog ikke uden yderligere komplikationer. Selvfølgelig var coronavirus en af ​​forhindringerne. 

Arbejdet kompliceredes af, at en pandemi begyndte, og det var umuligt at være til stede under arbejdet på kundens byggeplads for alle de specialister, der var involveret i processen. Kun installatøren fik lov til at komme ind på stedet, og kontrollen foregik gennem et Zoom-rum, der omfattede en netværksingeniør fra Linxdatacenter-siden, mig selv som projektleder, en netværksingeniør fra kundens side med ansvar for arbejdet, og teamet, der udfører arbejdet. installationsarbejde.

I løbet af arbejdet opstod der uforklarlige problemer, og der måtte foretages justeringer i farten. Så det var muligt hurtigt at forhindre påvirkningen af ​​den menneskelige faktor (fejl i skemaet, fejl i at bestemme status for grænsefladeaktiviteten osv.).

Selvom det fjerntliggende arbejdsformat virkede usædvanligt i begyndelsen af ​​projektet, tilpassede vi os hurtigt de nye forhold og gik ind i den sidste fase af arbejdet. 

Vi har kørt en midlertidig netværksindstillingskonfiguration for at køre to netværkskerner, den gamle og den nye, parallelt for at opnå en glidende overgang. Det viste sig dog, at en ekstra linje ikke blev fjernet fra konfigurationsfilen for den nye kerne, og overgangen skete ikke. Dette tvang os til at bruge lidt tid på at lede efter problemet. 

Det viste sig, at hovedtrafikken blev transmitteret korrekt, og kontroltrafikken nåede ikke frem til knudepunktet gennem den nye kerne. Grundet den klare opdeling af projektet i etaper, var det muligt hurtigt at identificere netværksdelen, hvor vanskeligheden opstod, identificere problemet og eliminere det. 

Og som et resultat

Tekniske resultater af projektet 

Først og fremmest blev der skabt en ny kerne i det nye virksomhedsnetværk, som vi byggede fysiske/logiske ringe til. Dette gøres på den måde, at hver switch i netværket har en "anden skulder". I det gamle netværk var mange switches forbundet til kernen langs én rute, én skulder (uplink). Hvis den blev revet i stykker, blev kontakten fuldstændig utilgængelig. Og hvis flere switche var forbundet via én uplink, så deaktiverede ulykken hele afdelingen eller produktionslinjen på virksomheden. 

I det nye netværk vil selv en ret alvorlig netværkshændelse under ingen omstændigheder kunne "lægge ned" hele netværket eller dets væsentlige sektion. 

90 % af alt netværksudstyr er blevet opdateret, mediekonvertere (konvertere af signaludbredelsesmediet) er taget ud af drift, og behovet for dedikerede strømledninger til strømforsyning af udstyr ved tilslutning til PoE-switche, hvor strøm forsynes via Ethernet-ledninger, er blevet elimineret. 

Desuden er alle optiske forbindelser i serverrummet og i feltskabe markeret - ved alle centrale kommunikationsknuder. Dette gjorde det muligt at udarbejde et topologisk diagram over udstyr og forbindelser i netværket, der afspejler dets aktuelle tilstand i dag. 

Netværksdiagram
Network-as-a-Service til en stor virksomhed: en ikke-standard sag
Det vigtigste resultat i tekniske termer: ret storstilet infrastrukturarbejde blev udført hurtigt uden at skabe nogen indblanding i virksomhedens arbejde og næsten umærkeligt for dets personale. 

Forretningsmæssige resultater af projektet

Efter min mening er dette projekt primært interessant ikke fra den tekniske side, men fra den organisatoriske side. Vanskeligheden lå primært i at planlægge og gennemtænke trinene for at gennemføre projektopgaverne. 

Projektets succes giver os mulighed for at sige, at vores initiativ til at udvikle netværksretningen inden for Linxdatacenters serviceportefølje er det rigtige valg for virksomhedens udviklingsvektor. En ansvarlig tilgang til projektledelse, en kompetent strategi og klar planlægning gjorde, at vi kunne udføre arbejdet på det rette niveau. 

Bekræftelse af kvaliteten af ​​arbejdet - en anmodning fra klienten om at fortsætte leveringen af ​​tjenester til modernisering af netværket på dets andre steder i Rusland.

Kilde: www.habr.com

Tilføj en kommentar