Nätverk-som-en-tjänst för ett stort företag: ett icke-standardiserat fall

Nätverk-som-en-tjänst för ett stort företag: ett icke-standardiserat fall
Hur man uppdaterar nätverksutrustning i ett stort företag utan att stoppa produktionen? Han berättar om ett storskaligt projekt i läget "öppen hjärtkirurgi". Linxdatacenter projektledningschef Oleg Fedorov. 

Under de senaste åren har vi noterat en ökad efterfrågan från kunder på tjänster relaterade till nätverkskomponenten i IT-infrastrukturen. Behovet av uppkoppling av IT-system, tjänster, applikationer, övervakning och operativa företagsledningsuppgifter inom nästan alla områden tvingar företag idag att ägna ökad uppmärksamhet åt nätverk.  

Utbudet av förfrågningar sträcker sig från att säkerställa nätverksfeltolerans till att skapa och hantera ett autonomt klientsystem med inköp av ett block med IP-adresser, inrättande av routingprotokoll och hantering av trafik i enlighet med organisationens policyer.

Det finns också en växande efterfrågan på heltäckande lösningar för att bygga och underhålla nätverksinfrastruktur, främst från kunder vars nätverksinfrastruktur skapas från grunden eller är föråldrad, som kräver allvarliga modifieringar. 

Denna trend sammanföll med utvecklingsperioden och komplexiteten för Linxdatacenters egen nätverksinfrastruktur. Vi utökade geografin för vår närvaro i Europa genom att ansluta till avlägsna platser, vilket i sin tur krävde att förbättra nätverksinfrastrukturen. 

Företaget har lanserat en ny tjänst för kunder, Network-as-a-Service: vi tar hand om alla kunders nätverksproblem, så att de kan fokusera på sin kärnverksamhet.

Sommaren 2020 avslutades det första stora projektet i denna riktning som jag skulle vilja prata om. 

I början 

Ett stort industrikomplex vände sig till oss för att modernisera nätverksdelen av infrastrukturen vid ett av dess företag. Det var nödvändigt att ersätta gammal utrustning med ny utrustning, inklusive nätverkskärnan.

Den senaste utrustningsmoderniseringen på företaget ägde rum för cirka 10 år sedan. Den nya ledningen för företaget bestämde sig för att förbättra anslutningen, och började med att uppdatera infrastrukturen på den mest grundläggande, fysiska nivån. 

Projektet var uppdelat i två delar: uppgradering av serverparken och nätverksutrustning. Vi var ansvariga för den andra delen. 

Grundläggande krav för arbetet inkluderade att minimera stilleståndstiden för företagets produktionslinjer under utförandet av arbetet (och i vissa områden helt eliminera stillestånd). Ett eventuellt stopp innebär direkta ekonomiska förluster för klienten, vilket inte under några omständigheter borde ha inträffat. På grund av anläggningens driftläge 24x7x365, samt att ta hänsyn till den fullständiga frånvaron av perioder med planerade driftstopp i verksamheten, fick vi i uppgift att i huvudsak utföra öppen hjärtkirurgi. Detta blev projektets främsta utmärkande drag.

Arbetet planerades enligt principen om förflyttning från nätverksnoder på avstånd från kärnan till närmare sådana, såväl som från de som har mindre inflytande på produktionslinjernas arbete till de som direkt påverkar detta arbete. 

Om vi ​​till exempel tar en nätverksnod i försäljningsavdelningen, kommer ett kommunikationsavbrott till följd av arbete på denna avdelning inte att påverka produktionen på något sätt. Samtidigt kommer en sådan incident att hjälpa oss, som entreprenör, att kontrollera riktigheten av det valda tillvägagångssättet för att arbeta på sådana enheter och, efter att ha justerat åtgärderna, arbeta med nästa steg i projektet. 

Det är nödvändigt att inte bara ersätta noder och ledningar i nätverket, utan också att korrekt konfigurera alla komponenter för korrekt drift av lösningen som helhet. Det var konfigurationerna som testades på det här sättet: när vi började arbeta bort från kärnan, verkade vi ge oss själva "rätten att göra misstag" utan att riskera områden som är avgörande för verksamhetens drift. 

Vi identifierade områden som inte påverkar produktionsprocessen, såväl som kritiska områden - verkstäder, lastnings- och lossningsenhet, lager, etc. I nyckelområden avtalades den acceptabla stilleståndstiden för varje nätverksnod separat med kunden: från 1 till 15 minuter. Det var omöjligt att helt undvika att koppla bort enskilda nätverksnoder, eftersom kabeln fysiskt måste bytas från gammal utrustning till ny, och under växlingsprocessen är det också nödvändigt att reda ut "skägget" av ledningar som bildades under flera års drift utan ordentlig skötsel (en av konsekvenserna av att lägga ut arbete för installation av kabelledningar).

Arbetet var uppdelat i flera etapper.

Steg 1 – Revision. Förberedelse och samordning av tillvägagångssättet för arbetsplanering och bedömning av teamens beredskap: beställaren, installationsentreprenören och vårt team.

Steg 2 – Utveckling av ett format för att utföra arbete, med djupgående detaljanalys och planering. Vi valde ett checklistaformat med en exakt indikation på ordningen och sekvensen av åtgärder, ända ner till sekvensen för att byta patch-kablar efter port.

Steg 3 – Utföra arbeten i skåp som inte påverkar produktionen. Uppskattning och justering av stillestånd för efterföljande arbetsmoment.

Steg 4 – Utföra arbeten i skåp som direkt påverkar produktionen. Uppskattning och justering av stillestånd för slutskedet av arbetet.

Steg 5 – Utföra arbeten i serverrummet för att byta resterande utrustning. Starta om routing på den nya kärnan.

Steg 6 – Konsekutiv byte av systemkärnan från gamla nätverkskonfigurationer till nya för en smidig övergång av hela systemkomplexet (VLAN, routing, etc.). I det här skedet kopplade vi alla användare och överförde alla tjänster till den nya hårdvaran, verifierade att anslutningen var korrekt, såg till att ingen av företagstjänsterna stoppades, säkerställde att om några problem uppstod skulle de kopplas direkt till kärnan, vilket gjorde det lättare att felsöka eventuella problem och slutlig installation. 

Trådskäggfrisyr

Projektet visade sig vara svårt även på grund av de svåra initiala förutsättningarna. 

För det första finns det ett stort antal noder och sektioner av nätverket, med en intrikat topologi och klassificering av ledningar enligt deras syfte. Sådana "skägg" måste tas ut ur skåpen och mödosamt "kammas", för att ta reda på vilken tråd som kom varifrån och var den ledde. 

Det såg ut ungefär så här:

Nätverk-som-en-tjänst för ett stort företag: ett icke-standardiserat fall
så här:

Nätverk-som-en-tjänst för ett stort företag: ett icke-standardiserat fall
eller så här: 

Nätverk-som-en-tjänst för ett stort företag: ett icke-standardiserat fall
För det andra, för varje sådan uppgift var det nödvändigt att förbereda en fil som beskrev processen. "Vi tar kabel X från port 1 på den gamla utrustningen, anslut den till port 18 på den nya utrustningen." Det låter enkelt, men när du har 48 helt igensatta portar i din källdata och det inte finns något stilleståndsalternativ (vi minns ungefär 24x7x365), är den enda utvägen att arbeta i block. Ju fler kablar du kan dra ut ur gammal utrustning på en gång, desto snabbare kan du kamma dem och sätta in dem i ny nätverkshårdvara, vilket undviker fel och stillestånd i nätverket. 

På det förberedande skedet delade vi därför nätverket i block - var och en av dem tillhörde ett specifikt VLAN. Varje port (eller en delmängd av dem) på gammal utrustning är ett av VLAN:erna i den nya nätverkstopologin. Vi grupperade dem så här: de första portarna i switchen inhyste användarnätverk, den mittersta – produktionsnätverk och den sista – åtkomstpunkter och upplänkar. 

Detta tillvägagångssätt gjorde det möjligt att dra ut och kamma från gammal utrustning inte bara 1 tråd, utan 10-15, på en gång. Detta påskyndade arbetsprocessen flera gånger.  

Så här ser ledningarna i skåpen ut efter kamning: 

Nätverk-som-en-tjänst för ett stort företag: ett icke-standardiserat fall
eller till exempel så här: 

Nätverk-som-en-tjänst för ett stort företag: ett icke-standardiserat fall
Efter att ha slutfört 2:a steget tog vi en paus för att analysera fel och projektdynamik. Till exempel uppstod mindre defekter omedelbart på grund av felaktigheter i nätverksdiagrammen som tillhandahållits oss (felaktig kontakt på diagrammet betyder felaktigt köpt patchkabel och behovet av att byta ut den). 

Pausen var nödvändig, eftersom när man arbetade från serversidan var till och med ett litet fel i processen oacceptabelt. Om målet var att säkerställa driftstopp på en nätverkssektion på högst 5 minuter, kunde den inte överskridas. Eventuella avvikelser från schemat måste avtalas med kunden. 

Förplanering och uppdelning av projektet i block gjorde det dock möjligt att möta den planerade stilleståndstiden på alla områden, och i de flesta fall undvika den helt. 

Tidens utmaning - ett projekt under COVID 

Det var dock inte utan ytterligare svårigheter. Naturligtvis var coronaviruset ett av hindren. 

Arbetet komplicerades av att pandemin började, och det var omöjligt för alla specialister som var involverade i processen att vara närvarande under arbetet på klientens plats. Endast anställda i installationsorganisationen fick komma in på platsen och kontroll utfördes genom ett Zoomrum - i det fanns en nätverksingenjör från Linxdatacenter, jag själv som projektledare, en nätverksingenjör från uppdragsgivaren ansvarig för arbetet och ett team som utför installationsarbete.

Oförklarade problem uppstod under arbetets gång och justeringar fick göras i farten. På detta sätt var det möjligt att snabbt förhindra påverkan av den mänskliga faktorn (fel i kretsen, fel vid bestämning av status för gränssnittsaktivitet, etc.).

Även om formatet för distansarbete verkade ovanligt i början av projektet, anpassade vi oss snabbt till de nya förhållandena och nådde slutskedet av arbetet. 

Vi har lanserat en tillfällig konfiguration av nätverksinställningar så att två nätverkskärnor – gamla och nya – kan köras parallellt för att uppnå en smidig övergång. Det visade sig dock att en extra rad inte togs bort från konfigurationsfilen för den nya kärnan, och övergången inträffade inte. Detta tvingade oss att ägna lite tid åt att leta efter problemet. 

Det visade sig att huvudtrafiken överfördes korrekt, och kontrolltrafiken nådde inte noden genom den nya kärnan. Tack vare den tydliga indelningen av projektet i etapper var det möjligt att snabbt identifiera den del av nätverket där problemet uppstod, identifiera problemet och eliminera det. 

Och som resultat

Tekniska resultat av projektet 

Först och främst skapades en ny kärna i det nya företagsnätverket, för vilken vi byggde fysiska/logiska ringar. Detta görs på ett sådant sätt att varje switch i nätverket har en "andra arm". I det gamla nätet var många switchar kopplade till kärnan längs en rutt, en arm (upplänk). Om den gick sönder blev strömbrytaren helt oåtkomlig. Och om flera växlar var anslutna via en upplänk, skulle olyckan inaktivera en hel avdelning eller produktionslinje på företaget. 

I ett nytt nätverk kommer inte ens en ganska allvarlig nätverksincident under något scenario att kunna få ner hela nätverket eller en betydande del av det. 

90 % av all nätverksutrustning har uppdaterats, mediaomvandlare (signalutbredningsmediaomvandlare) har tagits ur drift och behovet av dedikerade kraftledningar för att driva utrustning har eliminerats genom att ansluta till PoE-switchar, där strömförsörjning sker via Ethernet-ledningar. 

Dessutom är alla optiska anslutningar i serverrummet och i fältskåpen markerade - vid alla viktiga kommunikationsnoder. Detta gjorde det möjligt att utarbeta ett topologiskt diagram över utrustning och anslutningar i nätverket, som återspeglar dess faktiska tillstånd idag. 

Nätverks diagram
Nätverk-som-en-tjänst för ett stort företag: ett icke-standardiserat fall
Det viktigaste resultatet i tekniska termer: ganska storskaligt infrastrukturarbete utfördes snabbt, utan att skapa någon inblandning i företagets arbete och nästan obemärkt av dess personal. 

Affärsresultat av projektet

Enligt min mening är detta projekt intressant, inte från den tekniska sidan, utan från den organisatoriska sidan. Svårigheten låg främst i att planera och tänka igenom stegen för att genomföra projektuppgifter. 

Framgången med projektet gör att vi kan säga att vårt initiativ att utveckla nätverksområdet inom Linxdatacenters tjänsteportfölj är det rätta valet för företagets utvecklingsvektor. Ett ansvarsfullt förhållningssätt till projektledning, en kompetent strategi och tydlig planering gjorde att vi kunde slutföra arbetet på rätt nivå. 

Bekräftelse av kvaliteten på arbetet är en begäran från kunden att fortsätta tillhandahålla tjänster för modernisering av nätverket på sina återstående platser i Ryssland.

Källa: will.com

Lägg en kommentar