Network-as-a-Service pre veľký podnik: neštandardný prípad

Network-as-a-Service pre veľký podnik: neštandardný prípad
Ako aktualizovať sieťové zariadenia vo veľkom podniku bez zastavenia výroby? O rozsiahlom projekte v režime „operácie otvoreného srdca“ hovorí Manažér projektového manažmentu Linxdatacenter Oleg Fedorov. 

V posledných rokoch sme zaznamenali zvýšený dopyt zákazníkov po službách súvisiacich so sieťovým komponentom IT infraštruktúry. Potreba konektivity IT systémov, služieb, aplikácií, úlohy monitorovania a operatívneho riadenia podniku takmer v akejkoľvek oblasti nútia dnes spoločnosti venovať zvýšenú pozornosť sieťam.  

Požiadavky siahajú od poskytovania odolnosti voči sieťovým chybám až po vytvorenie a správu klientskeho autonómneho systému so získaním bloku IP adries, konfiguráciou smerovacích protokolov a riadením prevádzky v súlade so zásadami organizácií.

Rastie tiež dopyt po integrovaných riešeniach pre výstavbu a údržbu sieťovej infraštruktúry, a to predovšetkým od zákazníkov, ktorých sieťová infraštruktúra je vytvorená od základov alebo je zastaraná, čo si vyžaduje vážne úpravy. 

Tento trend sa časovo zhodoval s obdobím rozvoja a komplikácií vlastnej sieťovej infraštruktúry Linxdatacenter. Rozšírili sme geografiu našej prítomnosti v Európe pripojením sa k vzdialeným miestam, čo si zase vyžadovalo zlepšenie sieťovej infraštruktúry. 

Spoločnosť spustila pre zákazníkov novú službu Network-as-a-Service: staráme sa o všetky sieťové úlohy pre zákazníkov, čo im umožňuje sústrediť sa na svoju hlavnú činnosť.

V lete 2020 bol dokončený prvý veľký projekt v tomto smere, o ktorom by som rád hovoril. 

Na začiatku 

Veľký priemyselný komplex sa na nás obrátil so žiadosťou o modernizáciu sieťovej časti infraštruktúry v jednom zo svojich podnikov. Bolo potrebné vymeniť staré zariadenie za nové, vrátane jadra siete.

Posledná modernizácia zariadenia v podniku prebehla asi pred 10 rokmi. Nové vedenie podniku sa rozhodlo zlepšiť konektivitu, počnúc modernizáciou infraštruktúry na najzákladnejšej fyzickej úrovni. 

Projekt bol rozdelený na dve časti: upgrade serverového parku a sieťové vybavenie. Za druhú časť sme boli zodpovední my. 

Medzi základné požiadavky na dielo patrilo minimalizovanie prestojov výrobných liniek podniku pri výkone prác (av niektorých oblastiach aj úplné odstránenie prestojov). Akákoľvek stopka je priama peňažná strata klienta, ktorá sa za žiadnych okolností nemala stať. V súvislosti s prevádzkovým režimom zariadenia 24x7x365, ako aj s prihliadnutím na úplnú absenciu období plánovaných odstávok v praxi podniku sme dostali za úlohu v skutočnosti vykonať operáciu na otvorenom srdci. To sa stalo hlavným rozlišovacím znakom projektu.

Poďme

Práce boli plánované podľa princípu pohybu od uzlov siete vzdialených od jadra k bližším, ako aj od výrobných liniek, ktoré majú menší vplyv na prácu, až po tie, ktoré túto prácu priamo ovplyvňujú. 

Napríklad, ak vezmete sieťový uzol v oddelení predaja, potom zlyhanie komunikácie v dôsledku práce v tomto oddelení nijako neovplyvní výrobu. Zároveň nám takýto incident pomôže ako dodávateľovi overiť správnosť zvoleného prístupu k práci na takýchto uzloch a po opravených akciách pracovať v ďalších fázach projektu. 

Je potrebné nielen vymeniť uzly a vodiče v sieti, ale aj správne nakonfigurovať všetky komponenty pre správnu činnosť riešenia ako celku. Boli to konfigurácie, ktoré boli kontrolované týmto spôsobom: keď sme začali pracovať mimo jadra, dali sme si „právo urobiť chybu“ bez toho, aby sme vystavili riziku kritické oblasti pre fungovanie podniku. 

Identifikovali sme oblasti, ktoré neovplyvňujú výrobný proces, ako aj kritické oblasti - dielne, nakladacia a vykladacia jednotka, sklady atď. V kľúčových oblastiach sme s klientom dohodli povolené prestoje pre každý uzol siete samostatne: od 1 do 15 minút. Úplne sa vyhnúť odpájaniu jednotlivých uzlov siete nebolo možné, keďže kábel je potrebné fyzicky prepnúť zo starého zariadenia na nové a v procese prepínania je tiež potrebné rozmotať „fúzy“ drôtov, ktoré vznikli počas niekoľko rokov prevádzky bez náležitej starostlivosti (jeden z dôsledkov outsourcingu prác inštalácie káblových vedení).

Práce boli rozdelené do niekoľkých etáp.

Krok 1 - Audit. Príprava a koordinácia prístupu k plánovaniu prác a posúdenie pripravenosti tímov: objednávateľa, dodávateľa vykonávajúceho montáž a nášho tímu.

Krok 2 – Vývoj formátu na vykonávanie práce s hlbokou podrobnou analýzou a plánovaním. Zvolili sme formát checklistu s presným uvedením poradia a postupnosti úkonov až po postupnosť prepínania prepojovacích káblov podľa portu.

Krok 3 – Vykonávanie prác v skriniach, ktoré neovplyvňujú výrobu. Odhad a úprava prestojov pre nasledujúce etapy prác.

Krok 4 – Vykonávanie prác v skriniach, ktoré priamo ovplyvňujú výrobu. Odhad a úprava prestojov pre záverečnú fázu prác.

Krok 5 – Vykonávanie práce v serverovni na výmenu zvyšného zariadenia. Beží na smerovaní na novom jadre.

Krok 6 – Sekvenčné prepínanie jadra systému zo starých konfigurácií siete na nové pre plynulý prechod celého komplexu systému (VLAN, smerovanie atď.). V tejto fáze sme pripojili všetkých používateľov a preniesli všetky služby na nový hardvér, skontrolovali správne pripojenie, ubezpečili sa, že žiadna z podnikových služieb sa nezastavila, zaručili, že v prípade akýchkoľvek problémov budú pripojení priamo k jadru, čo umožnilo jednoduchšie eliminovať možné riešenie problémov a konečné nastavenie. 

Účes s drôtenou bradou

Projekt sa ukázal ako náročný aj pre ťažké počiatočné podmienky. 

Po prvé, ide o veľké množstvo uzlov a častí siete so zložitou topológiou a klasifikáciou vodičov podľa ich účelu. Takéto „fúzy“ bolo treba vytiahnuť zo skriniek a pracne ich „česať“, zisťovať, ktorý drôt odkiaľ a kam vedie. 

Vyzeralo to nejak takto:

Network-as-a-Service pre veľký podnik: neštandardný prípad
nasledovne:

Network-as-a-Service pre veľký podnik: neštandardný prípad
alebo tak: 

Network-as-a-Service pre veľký podnik: neštandardný prípad
Po druhé, pre každú takúto úlohu bolo potrebné pripraviť súbor s popisom procesu. "Vezmeme drôt X z portu 1 starého zariadenia a zapojíme ho do portu 18 nového zariadenia." Znie to jednoducho, ale keď máte v počiatočných údajoch 48 úplne upchatých portov a neexistuje žiadna nečinná možnosť (pamätáme si asi 24x7x365), jediným východiskom je pracovať v blokoch. Čím viac káblov môžete vytiahnuť zo starého zariadenia naraz, tým rýchlejšie ich môžete očistiť a zapojiť do nového sieťového hardvéru, čím sa vyhnete zlyhaniam siete a prestojom. 

Preto sme v prípravnej fáze rozdelili sieť na bloky - každý z nich patril do konkrétnej VLAN. Každý port (alebo ich podmnožina) na starom zariadení je jednou z VLAN v novej topológii siete. Zoskupili sme ich nasledovne: prvé porty prepínača umiestňujú užívateľské siete, uprostred - produkčné siete a posledné - prístupové body a uplinky. 

Tento prístup umožnil vytiahnuť a vyčesať zo starého zariadenia nie 1 drôt, ale 10-15 naraz. To niekoľkokrát zrýchlilo pracovný postup.  

Mimochodom, takto vyzerajú drôty v skrinkách po česaní: 

Network-as-a-Service pre veľký podnik: neštandardný prípad
alebo napríklad takto: 

Network-as-a-Service pre veľký podnik: neštandardný prípad
Po ukončení 2. etapy sme si dali prestávku na analýzu chýb a dynamiky projektu. Napríklad drobné chyby sa okamžite objavili v dôsledku nepresností v sieťových diagramoch, ktoré nám boli poskytnuté (nesprávny konektor na diagrame je nesprávne zakúpený prepojovací kábel a potreba jeho výmeny). 

Pauza bola nevyhnutná, pretože pri práci s právami servera bola aj malá chyba v procese neprijateľná. Ak bolo cieľom zabezpečiť prestoje na sieťovej časti nie dlhšie ako 5 minút, nebolo možné ho prekročiť. Prípadnú odchýlku od harmonogramu bolo potrebné dohodnúť s klientom. 

Predbežné plánovanie a zablokovanie projektu však umožnilo splniť plánované odstávky na všetkých miestach a vo väčšine prípadov sa bez nich vôbec zaobísť. 

Výzva času - projekt v rámci COVID 

Nebolo to však bez ďalších ťažkostí. Jednou z prekážok bol samozrejme koronavírus. 

Prácu skomplikovala skutočnosť, že začala pandémia a pri práci u klienta nebolo možné byť prítomný pre všetkých špecialistov zapojených do procesu. Iba inštalatér mal povolený vstup na stránku a ovládanie prebiehalo cez miestnosť Zoom, ktorá zahŕňala sieťového inžiniera zo strany Linxdatacenter, mňa ako projektového manažéra, sieťového inžiniera zo strany klienta, ktorý mal na starosti prácu, a tím, ktorý inštalačné práce.

V priebehu prác sa vyskytli nevysvetliteľné problémy a úpravy sa museli vykonávať za chodu. Takže bolo možné rýchlo zabrániť vplyvu ľudského faktora (chyby v schéme, chyby pri určovaní stavu aktivity rozhrania atď.).

Aj keď sa vzdialený formát práce na začiatku projektu zdal nezvyčajný, rýchlo sme sa adaptovali na nové podmienky a vstúpili do záverečnej fázy prác. 

Spustili sme dočasnú konfiguráciu nastavení siete na paralelné spustenie dvoch jadier siete, starého a nového, aby sme dosiahli hladký prechod. Ukázalo sa však, že z konfiguračného súboru nového jadra nebol odstránený jeden riadok navyše a prechod nenastal. To nás prinútilo stráviť nejaký čas hľadaním problému. 

Ukázalo sa, že hlavná prevádzka bola prenášaná správne a riadiaca prevádzka sa cez nové jadro nedostala do uzla. Vďaka jasnému rozdeleniu projektu do etáp bolo možné rýchlo identifikovať sieťový úsek, kde problém vznikol, identifikovať problém a odstrániť ho. 

A ako výsledok

Technické výsledky projektu 

V prvom rade bolo vytvorené nové jadro novej podnikovej siete, pre ktoré sme vybudovali fyzické/logické kruhy. Robí sa to tak, že každý prepínač v sieti má „druhé rameno“. V starej sieti bolo veľa prepínačov pripojených k jadru pozdĺž jednej trasy, jedného ramena (uplink). Ak sa roztrhol, vypínač sa stal úplne nedostupným. A ak bolo cez jeden uplink pripojených niekoľko prepínačov, potom nehoda znefunkčnila celé oddelenie alebo výrobnú linku v podniku. 

V novej sieti ani dosť vážny sieťový incident za žiadnych okolností nedokáže „položiť“ celú sieť alebo jej významnú časť. 

90% všetkých sieťových zariadení bolo aktualizovaných, media konvertory (konvertory média na šírenie signálu) boli vyradené z prevádzky a potreba vyhradených elektrických vedení na napájanie zariadení pripojením k PoE prepínačom, kde je napájanie dodávané cez ethernetové káble, bola eliminované. 

Označené sú aj všetky optické spoje v serverovni a v terénnych skriniach - na všetkých kľúčových komunikačných uzloch. To umožnilo pripraviť topologickú schému zariadení a prepojení v sieti, odzrkadľujúcu jej súčasný stav. 

Sieťový diagram
Network-as-a-Service pre veľký podnik: neštandardný prípad
Najdôležitejší výsledok z technického hľadiska: pomerne rozsiahle práce na infraštruktúre sa vykonali rýchlo, bez akéhokoľvek zásahu do práce podniku a takmer nepostrehnuteľne pre jeho zamestnancov. 

Obchodné výsledky projektu

Tento projekt je podľa mňa zaujímavý predovšetkým nie z technickej stránky, ale z organizačnej stránky. Ťažkosti spočívali predovšetkým v plánovaní a premýšľaní krokov na realizáciu projektových úloh. 

Úspech projektu nám umožňuje povedať, že naša iniciatíva rozvíjať smerovanie siete v rámci portfólia služieb Linxdatacenter je správnou voľbou pre smer rozvoja spoločnosti. Zodpovedný prístup k riadeniu projektu, kompetentná stratégia a jasné plánovanie nám umožnili vykonávať prácu na správnej úrovni. 

Potvrdenie kvality práce - požiadavka od klienta pokračovať v poskytovaní služieb na modernizáciu siete na jeho ďalších miestach v Rusku.

Zdroj: hab.com

Pridať komentár