Network-as-a-Service voor een grote onderneming: een niet-standaard geval

Network-as-a-Service voor een grote onderneming: een niet-standaard geval
Hoe netwerkapparatuur in een grote onderneming kan worden bijgewerkt zonder de productie te stoppen? Hij vertelt over een grootschalig project in de ‘openhartchirurgie’-modus Linxdatacenter projectmanagementmanager Oleg Fedorov. 

De afgelopen jaren hebben we een toenemende vraag van klanten naar diensten met betrekking tot de netwerkcomponent van de IT-infrastructuur opgemerkt. De behoefte aan connectiviteit van IT-systemen, diensten, applicaties, monitoring en operationele bedrijfsbeheertaken op vrijwel elk gebied dwingt bedrijven tegenwoordig om meer aandacht aan netwerken te besteden.  

Het scala aan verzoeken varieert van het garanderen van netwerkfouttolerantie tot het creëren en beheren van een client-autonoom systeem met de aanschaf van een blok IP-adressen, het opzetten van routeringsprotocollen en het beheren van verkeer in overeenstemming met het beleid van de organisatie.

Er is ook een groeiende vraag naar alomvattende oplossingen voor het bouwen en onderhouden van netwerkinfrastructuur, vooral van klanten wier netwerkinfrastructuur helemaal opnieuw wordt opgebouwd of verouderd is en serieuze aanpassingen vereist. 

Deze trend viel samen met de periode van ontwikkeling en complexiteit van de eigen netwerkinfrastructuur van Linxdatacenter. We hebben de geografie van onze aanwezigheid in Europa uitgebreid door verbinding te maken met afgelegen locaties, wat op zijn beurt een verbetering van de netwerkinfrastructuur vereiste. 

Het bedrijf heeft een nieuwe dienst voor klanten gelanceerd, Network-as-a-Service: wij nemen de netwerkproblemen van alle klanten uit handen, zodat zij zich kunnen concentreren op hun kernactiviteiten.

In de zomer van 2020 werd het eerste grote project in deze richting voltooid, waar ik het graag over wil hebben. 

Aan het begin 

Een groot industrieel complex wendde zich tot ons om het netwerkgedeelte van de infrastructuur van een van zijn bedrijven te moderniseren. Het was noodzakelijk om oude apparatuur te vervangen door nieuwe apparatuur, inclusief de netwerkkern.

De laatste modernisering van de apparatuur bij de onderneming vond ongeveer 10 jaar geleden plaats. Het nieuwe management van de onderneming besloot de connectiviteit te verbeteren, te beginnen met het updaten van de infrastructuur op het meest basale, fysieke niveau. 

Het project bestond uit twee delen: upgrade van het serverpark en netwerkapparatuur. Wij waren verantwoordelijk voor het tweede deel. 

Basisvereisten voor het werk waren onder meer het minimaliseren van de stilstand van de productielijnen van de onderneming tijdens de uitvoering van het werk (en op sommige gebieden het volledig elimineren van de stilstand). Elke stopzetting betekent directe financiële verliezen voor de klant, wat onder geen enkele omstandigheid had mogen gebeuren. Vanwege de 24x7x365-modus van de faciliteit en omdat er rekening werd gehouden met het volledig ontbreken van perioden van geplande stilstand in de praktijk van de onderneming, kregen we de taak om hoofdzakelijk openhartoperaties uit te voeren. Dit werd het belangrijkste onderscheidende kenmerk van het project.

Gaan

Het werk werd gepland volgens het principe van verplaatsing van netwerkknooppunten ver van de kern naar dichterbij gelegen knooppunten, en van degenen die het werk van de productielijnen minder beïnvloeden naar degenen die dit werk rechtstreeks beïnvloeden. 

Als we bijvoorbeeld een netwerkknooppunt op de verkoopafdeling nemen, heeft een communicatieonderbreking als gevolg van werkzaamheden op deze afdeling op geen enkele manier invloed op de productie. Tegelijkertijd zal een dergelijk incident ons als opdrachtnemer helpen om de juistheid van de gekozen aanpak om aan dergelijke eenheden te werken te controleren en, na het aanpassen van de acties, aan de volgende fases van het project te werken. 

Het is niet alleen nodig om knooppunten en draden in het netwerk te vervangen, maar ook om alle componenten correct te configureren voor de juiste werking van de oplossing als geheel. Het waren de configuraties die op deze manier werden getest: door te werken buiten de kern, leken we onszelf het “recht te geven om fouten te maken” zonder gebieden in gevaar te brengen die cruciaal zijn voor de werking van de onderneming. 

We hebben gebieden geïdentificeerd die geen invloed hebben op het productieproces, evenals kritieke gebieden – werkplaatsen, laad- en losunits, magazijnen, enz. Op belangrijke gebieden werd de aanvaardbare downtime voor elk netwerkknooppunt afzonderlijk met de klant overeengekomen: van 1 tot 15 minuten. Het was onmogelijk om het loskoppelen van individuele netwerkknooppunten volledig te vermijden, omdat de kabel fysiek moet worden overgeschakeld van oude apparatuur naar nieuwe, en tijdens het schakelproces is het ook noodzakelijk om de "baard" van draden te ontwarren die zich gedurende meerdere jaren van gebruik zonder de juiste manier hebben gevormd. zorg (een van de gevolgen van het uitbesteden van werkzaamheden voor de aanleg van kabellijnen).

Het werk was verdeeld in verschillende fasen.

Stage 1 – Controle. Voorbereiding en coördinatie van de aanpak van de werkplanning en beoordeling van de gereedheid van de teams: de opdrachtgever, de installateur en ons team.

Stage 2 – Ontwikkeling van een format voor het uitvoeren van werkzaamheden, met diepgaande gedetailleerde analyse en planning. We kozen voor een checklist-format met een nauwkeurige indicatie van de volgorde en volgorde van handelingen, tot en met de volgorde van het schakelen van patchkabels per poort.

Stage 3 – Het uitvoeren van werkzaamheden in kasten die de productie niet beïnvloeden. Schatting en aanpassing van de stilstandtijd voor volgende werkfasen.

Stage 4 – Het uitvoeren van werkzaamheden in kasten die direct van invloed zijn op de productie. Schatting en aanpassing van de stilstandtijd voor de laatste fase van de werkzaamheden.

Stage 5 – Het uitvoeren van werkzaamheden in de serverruimte om de overige apparatuur te schakelen. Start op routing op de nieuwe kernel.

Stage 6 – Opeenvolgende omschakeling van de systeemkern van oude netwerkconfiguraties naar nieuwe voor een soepele overgang van het gehele systeemcomplex (VLAN, routing, enz.). In dit stadium hebben we alle gebruikers met elkaar verbonden en alle services overgezet naar de nieuwe hardware, gecontroleerd of de verbinding correct was, ervoor gezorgd dat geen van de bedrijfsservices werd gestopt, ervoor gezorgd dat als er problemen zouden optreden, deze rechtstreeks op de kernel zouden worden aangesloten, waardoor het gemakkelijker werd om mogelijke problemen op te lossen en de definitieve installatie uit te voeren. 

Draadbaard kapsel

Het project bleek lastig, mede vanwege de moeilijke beginomstandigheden. 

Ten eerste is er een groot aantal knooppunten en delen van het netwerk, met een ingewikkelde topologie en classificatie van draden op basis van hun doel. Dergelijke "baarden" moesten uit de kasten worden gehaald en nauwgezet worden "gekamd", waarbij werd uitgezocht welke draad waar vandaan kwam en waar deze naartoe leidde. 

Het zag er ongeveer zo uit:

Network-as-a-Service voor een grote onderneming: een niet-standaard geval
als volgt:

Network-as-a-Service voor een grote onderneming: een niet-standaard geval
of zo: 

Network-as-a-Service voor een grote onderneming: een niet-standaard geval
Ten tweede was het voor elke dergelijke taak noodzakelijk om een ​​dossier op te stellen waarin het proces werd beschreven. “We nemen draad X van poort 1 van de oude apparatuur en pluggen deze in poort 18 van de nieuwe apparatuur.” Het klinkt eenvoudig, maar als je 48 volledig verstopte poorten in je brongegevens hebt en er geen downtime-optie is (we herinneren ons ongeveer 24x7x365), is de enige uitweg om in blokken te werken. Hoe meer draden u in één keer uit oude apparatuur kunt trekken, hoe sneller u ze kunt kammen en in nieuwe netwerkhardware kunt steken, waardoor storingen en downtime in het netwerk worden voorkomen. 

Daarom hebben we in de voorbereidende fase het netwerk in blokken verdeeld - elk behoorde tot een specifiek VLAN. Elke poort (of een subset daarvan) op oude apparatuur is een van de VLAN's in de nieuwe netwerktopologie. We hebben ze als volgt gegroepeerd: de eerste poorten van de switch bevatten gebruikersnetwerken, de middelste – productienetwerken en de laatste – toegangspunten en uplinks. 

Deze aanpak maakte het mogelijk om niet slechts 1 draad, maar 10-15 draadjes in één keer uit oude apparatuur te halen en te kammen. Dit versnelde het werkproces verschillende keren.  

Zo zien de draden in de kasten er trouwens uit na het kammen: 

Network-as-a-Service voor een grote onderneming: een niet-standaard geval
of bijvoorbeeld zo: 

Network-as-a-Service voor een grote onderneming: een niet-standaard geval
Na het voltooien van de tweede fase namen we een pauze om fouten en projectdynamiek te analyseren. Kleine defecten kwamen bijvoorbeeld direct naar voren als gevolg van onnauwkeurigheden in de aan ons verstrekte netwerkschema's (onjuiste connector op het schema betekent verkeerd gekocht patchsnoer en de noodzaak om deze te vervangen). 

De pauze was nodig, omdat bij het werken vanaf de server zelfs een klein probleempje in het proces onaanvaardbaar was. Als het doel was om de downtime op een netwerkgedeelte van niet meer dan 5 minuten te garanderen, dan mocht deze niet worden overschreden. Eventuele afwijkingen van de planning moesten met de opdrachtgever worden overeengekomen. 

Door vooraf te plannen en het project in blokken te verdelen, was het echter mogelijk om op alle gebieden aan de geplande downtime te voldoen en deze in de meeste gevallen zelfs helemaal te vermijden. 

Uitdaging van de tijd - een project onder COVID 

Dit verliep echter niet zonder bijkomende moeilijkheden. Natuurlijk was het coronavirus een van de obstakels. 

Het werk werd bemoeilijkt door het uitbreken van de pandemie en het was onmogelijk voor alle bij het proces betrokken specialisten aanwezig te zijn tijdens de werkzaamheden bij de klant. Alleen medewerkers van de installatieorganisatie mochten het terrein op en de controle vond plaats via een Zoom-kamer - daarin zat een netwerkingenieur van Linxdatacenter, ikzelf als projectmanager, een netwerkingenieur van de klant die verantwoordelijk was voor de werkzaamheden, en een team dat installatiewerkzaamheden uitvoert.

Tijdens de werkzaamheden deden zich onverklaarbare problemen voor en moesten er ter plekke aanpassingen worden gedaan. Op deze manier was het mogelijk om de invloed van de menselijke factor (fouten in het circuit, fouten bij het bepalen van de status van interface-activiteit, enz.) snel te voorkomen.

Hoewel het formaat van werken op afstand ongebruikelijk leek aan het begin van het project, pasten we ons snel aan de nieuwe omstandigheden aan en bereikten we de laatste fase van het werk. 

We hebben een tijdelijke configuratie van netwerkinstellingen gelanceerd om twee netwerkkernen – oud en nieuw – parallel te laten draaien om een ​​soepele overgang te bewerkstelligen. Het bleek echter dat één extra regel niet uit het configuratiebestand van de nieuwe kernel was verwijderd en dat de overgang niet plaatsvond. Dit dwong ons enige tijd te besteden aan het zoeken naar het probleem. 

Het bleek dat het hoofdverkeer correct werd verzonden en dat het controleverkeer het knooppunt niet via de nieuwe kern bereikte. Dankzij de duidelijke indeling van het project in fasen was het mogelijk om snel het deel van het netwerk te identificeren waar het probleem zich voordeed, het probleem te identificeren en op te lossen. 

En als een resultaat

Technische resultaten van het project 

Allereerst is er een nieuwe kern van het nieuwe bedrijfsnetwerk gecreëerd, waarvoor we fysieke/logische ringen hebben gebouwd. Dit gebeurt zo dat elke switch in het netwerk een ‘tweede arm’ heeft. In het oude netwerk waren veel switches langs één route, één arm (uplink) op de core aangesloten. Als deze kapot ging, werd de schakelaar volledig ontoegankelijk. En als er meerdere switches via één uplink zouden worden aangesloten, zou het ongeval een hele afdeling of productielijn in het bedrijf uitschakelen. 

In een nieuw netwerk zal zelfs een tamelijk ernstig netwerkincident in geen enkel scenario het hele netwerk of een aanzienlijk deel ervan kunnen platleggen. 

90% van alle netwerkapparatuur is vernieuwd, mediaconverters (mediaconverters voor signaalvoortplanting) zijn buiten gebruik gesteld en de behoefte aan speciale stroomleidingen voor het voeden van apparatuur is geëlimineerd door verbinding te maken met PoE-switches, waar stroom wordt geleverd via Ethernet-draden. 

Ook zijn alle optische aansluitingen in de serverruimte en in veldkasten gemarkeerd – op alle belangrijke communicatieknooppunten. Dit maakte het mogelijk een topologisch diagram van apparatuur en verbindingen in het netwerk op te stellen, dat de huidige staat ervan weergeeft. 

Netwerk diagram
Network-as-a-Service voor een grote onderneming: een niet-standaard geval
Het belangrijkste resultaat in technische termen: vrij grootschalige infrastructuurwerkzaamheden werden snel uitgevoerd, zonder enige inmenging in de werkzaamheden van de onderneming en vrijwel onopgemerkt door het personeel. 

Bedrijfsresultaten van het project

Naar mijn mening is dit project vooral niet interessant vanuit de technische, maar vanuit de organisatorische kant. De moeilijkheid lag vooral in het plannen en doordenken van de stappen om projecttaken te implementeren. 

Het succes van het project stelt ons in staat om te zeggen dat ons initiatief om het netwerkgebied binnen het dienstenportfolio van Linxdatacenter te ontwikkelen de juiste keuze is voor de ontwikkelingsvector van het bedrijf. Dankzij een verantwoorde aanpak van projectmanagement, een competente strategie en een duidelijke planning konden we het werk op het juiste niveau voltooien. 

Bevestiging van de kwaliteit van het werk is een verzoek van de klant om door te gaan met het leveren van diensten voor netwerkmodernisering op de resterende locaties in Rusland.

Bron: www.habr.com

Voeg een reactie