Network-as-a-Service pro velký podnik: nestandardní případ

Network-as-a-Service pro velký podnik: nestandardní případ
Jak aktualizovat síťové vybavení ve velkém podniku bez zastavení výroby? Hovoří o rozsáhlém projektu v režimu „otevřené operace srdce“. Manažer projektového řízení Linxdatacenter Oleg Fedorov. 

V posledních několika letech jsme zaznamenali zvýšenou poptávku zákazníků po službách souvisejících se síťovou složkou IT infrastruktury. Potřeba konektivity IT systémů, služeb, aplikací, monitorování a operativní úkoly řízení podniku v téměř jakékoli oblasti dnes nutí společnosti věnovat zvýšenou pozornost sítím.  

Rozsah požadavků sahá od zajištění odolnosti proti chybám sítě až po vytvoření a správu klientského autonomního systému s nákupem bloku IP adres, nastavením směrovacích protokolů a řízením provozu v souladu s organizační politikou.

Roste také poptávka po komplexních řešeních pro budování a údržbu síťové infrastruktury, a to především ze strany zákazníků, jejichž síťová infrastruktura je vytvářena od nuly nebo je zastaralá, vyžadující zásadní úpravy. 

Tento trend se shodoval s obdobím rozvoje a složitosti vlastní síťové infrastruktury Linxdatacenter. Rozšířili jsme geografii naší přítomnosti v Evropě připojením ke vzdáleným lokalitám, což zase vyžadovalo zlepšení síťové infrastruktury. 

Společnost spustila novou službu pro klienty Network-as-a-Service: postaráme se o všechny síťové problémy klientů a umožníme jim soustředit se na svůj hlavní byznys.

V létě 2020 byl v tomto směru dokončen první velký projekt, o kterém bych chtěl mluvit. 

Na startu 

Obrátil se na nás velký průmyslový komplex s modernizací síťové části infrastruktury v jednom z jeho podniků. Bylo nutné vyměnit staré zařízení za nové, včetně jádra sítě.

Poslední modernizace zařízení v podniku proběhla asi před 10 lety. Nové vedení podniku se rozhodlo zlepšit konektivitu, počínaje aktualizací infrastruktury na nejzákladnější, fyzické úrovni. 

Projekt byl rozdělen do dvou částí: upgrade serverového parku a síťového vybavení. Za druhou část jsme byli zodpovědní. 

Mezi základní požadavky na dílo patřilo minimalizace prostojů výrobních linek podniku při provádění prací (a v některých oblastech i úplné odstranění prostojů). Jakékoli zastavení znamená pro klienta přímé finanční ztráty, ke kterým by za žádných okolností nemělo dojít. Vzhledem k provoznímu režimu zařízení 24x7x365 a také s ohledem na úplnou absenci období plánovaných odstávek v praxi podniku jsme dostali za úkol v podstatě provádět operace na otevřeném srdci. To se stalo hlavním poznávacím znakem projektu.

Jít

Práce byla plánována podle principu pohybu od síťových uzlů vzdálených od jádra k bližším, stejně jako od těch méně ovlivňujících práci výrobních linek k těm, které tuto práci přímo ovlivňují. 

Vezmeme-li například síťový uzel v obchodním oddělení, pak přerušení komunikace v důsledku práce v tomto oddělení výrobu nijak neovlivní. Zároveň nám takový incident pomůže jako zhotoviteli zkontrolovat správnost zvoleného přístupu k práci na takových celcích a po úpravě akcí pracovat na dalších fázích projektu. 

Pro správnou funkci řešení jako celku je nutné nejen vyměnit uzly a vodiče v síti, ale také správně nakonfigurovat všechny komponenty. Byly to konfigurace, které byly testovány tímto způsobem: když jsme začali pracovat od jádra, zdálo se, že jsme si dali „právo dělat chyby“, aniž bychom ohrozili oblasti kritické pro chod podniku. 

Identifikovali jsme oblasti, které neovlivňují výrobní proces, stejně jako kritické oblasti - dílny, nakládací a vykládací jednotka, sklady atd. V klíčových oblastech byla s klientem dohodnuta přijatelná doba odstávky pro každý síťový uzel zvlášť: od 1 do 15 minut. Odpojení jednotlivých síťových uzlů se zcela vyhnout nedalo, protože kabel je nutné fyzicky přepnout ze starého zařízení na nové a při přepojování je také nutné rozmotat „vousy“ drátů, které vznikly během několika let provozu bez řádného provozu. péče (jeden z důsledků outsourcingových prací na instalaci kabelových vedení).

Práce byly rozděleny do několika etap.

Krok 1 – Audit. Příprava a koordinace přístupu k plánování prací a posouzení připravenosti týmů: zadavatele, dodavatele montáže a našeho týmu.

Krok 2 – Vývoj formátu pro provádění práce s hlubokou podrobnou analýzou a plánováním. Zvolili jsme formát kontrolního seznamu s přesným uvedením pořadí a posloupnosti akcí, až po posloupnost přepínání propojovacích kabelů podle portu.

Krok 3 – Provádění prací ve skříních, které nemají vliv na výrobu. Odhad a úprava prostojů pro následné fáze prací.

Krok 4 – Provádění prací ve skříních, které přímo ovlivňují výrobu. Odhad a úprava prostojů pro konečnou fázi prací.

Krok 5 – Provádění práce v serverovně za účelem výměny zbývajícího zařízení. Spusťte na routování na novém jádře.

Krok 6 – Postupné přepínání jádra systému ze starých síťových konfigurací na nové pro hladký přechod celého komplexu systému (VLAN, routování atd.). V této fázi jsme připojili všechny uživatele a převedli všechny služby na nový hardware, ověřili správnost připojení, zajistili, že žádná z podnikových služeb nebyla zastavena, zajistili, že v případě problémů budou připojeny přímo k jádru, což usnadnilo odstraňování případných problémů a konečné nastavení. 

Účes s drátěným vousem

Projekt se ukázal jako obtížný i kvůli obtížným výchozím podmínkám. 

Za prvé, existuje velké množství uzlů a úseků sítě se složitou topologií a klasifikací vodičů podle jejich účelu. Takové „vousy“ bylo třeba vyndat ze skříní a pracně je „česat“ a zjišťovat, který drát odkud a kam vede. 

Vypadalo to nějak takto:

Network-as-a-Service pro velký podnik: nestandardní případ
následovně:

Network-as-a-Service pro velký podnik: nestandardní případ
nebo tak: 

Network-as-a-Service pro velký podnik: nestandardní případ
Za druhé, pro každou takovou úlohu bylo nutné připravit soubor popisující proces. "Vezmeme drát X z portu 1 starého zařízení a zapojíme ho do portu 18 nového zařízení." Zní to jednoduše, ale když máte ve zdrojových datech 48 zcela ucpaných portů a neexistuje možnost výpadku (pamatujeme si asi 24x7x365), jediným východiskem je pracovat v blocích. Čím více drátů můžete vytáhnout ze starého zařízení najednou, tím rychleji je můžete pročesat a vložit do nového síťového hardwaru, čímž se vyhnete poruchám a prostojům v síti. 

Proto jsme v přípravné fázi rozdělili síť na bloky – každý z nich patřil ke konkrétní VLAN. Každý port (nebo jejich podmnožina) na starém zařízení je jednou z VLAN v nové topologii sítě. Seskupili jsme je takto: první porty uživatelských sítí v přepínači, střední – produkční sítě a poslední – přístupové body a uplinky. 

Tento přístup umožnil vytáhnout a vyčesat ze starého vybavení nejen 1 drát, ale 10-15, najednou. To několikrát urychlilo pracovní proces.  

Mimochodem, takhle vypadají dráty ve skříních po vyčesání: 

Network-as-a-Service pro velký podnik: nestandardní případ
nebo třeba takto: 

Network-as-a-Service pro velký podnik: nestandardní případ
Po dokončení 2. etapy jsme si dali pauzu na analýzu chyb a dynamiky projektu. Drobné závady se například okamžitě objevily kvůli nepřesnostem v nám dodaných síťových schématech (nesprávný konektor na schématu znamená nesprávně zakoupený patch kabel a nutnost jeho výměny). 

Pauza byla nutná, protože při práci ze strany serveru byla i malá závada v procesu nepřijatelná. Pokud bylo cílem zajistit prostoj na síťovém úseku ne delší než 5 minut, pak jej nelze překročit. Případnou odchylku od harmonogramu bylo nutné dohodnout s klientem. 

Předběžné plánování a rozdělení projektu do bloků však umožnilo dodržet plánované odstávky ve všech oblastech a ve většině případů se jim úplně vyhnout. 

Výzva doby – projekt v rámci COVID 

Neobešlo se to však bez dalších obtíží. Jednou z překážek byl samozřejmě koronavirus. 

Práce byla komplikována tím, že vypukla pandemie a nebylo možné, aby při práci u klienta byli přítomni všichni specialisté zapojení do procesu. Na místo směli pouze zaměstnanci instalační organizace a kontrola se prováděla přes místnost Zoom - v ní byl síťový inženýr z Linxdatacenter, já jako projektový manažer, síťový inženýr od klienta odpovědného za práci a tým provádějící instalační práce.

Během práce se objevily nezodpovězené problémy a úpravy bylo nutné provádět za chodu. Tímto způsobem bylo možné rychle zabránit vlivu lidského faktoru (chyby v obvodu, chyby při zjišťování stavu činnosti rozhraní atd.).

Přestože se formát práce na dálku na začátku projektu zdál neobvyklý, rychle jsme se adaptovali na nové podmínky a dostali se do finální fáze práce. 

Spustili jsme dočasnou konfiguraci nastavení sítě, abychom umožnili paralelní běh dvou síťových jader – starého a nového – za účelem dosažení hladkého přechodu. Ukázalo se však, že z konfiguračního souboru nového jádra nebyl odstraněn jeden řádek navíc a k přechodu nedošlo. To nás donutilo strávit nějaký čas hledáním problému. 

Ukázalo se, že hlavní provoz byl přenášen správně a řídicí provoz se do uzlu nedostal přes nové jádro. Díky přehlednému rozdělení projektu na etapy bylo možné rychle identifikovat úsek sítě, kde problém vznikl, identifikovat problém a odstranit jej. 

A jako výsledek

Technické výsledky projektu 

Nejprve bylo vytvořeno nové jádro nové podnikové sítě, pro které jsme vybudovali fyzické/logické kruhy. To se provádí tak, že každý přepínač v síti má „druhé rameno“. Ve staré síti bylo mnoho přepínačů připojeno k jádru podél jedné trasy, jednoho ramene (uplink). Pokud se rozbil, spínač se stal zcela nepřístupným. A pokud by bylo přes jeden uplink připojeno několik přepínačů, pak by nehoda vyřadila z provozu celé oddělení nebo výrobní linku v podniku. 

V nové síti ani dosti vážný síťový incident v žádném případě nebude schopen zničit celou síť nebo její významnou část. 

90 % všech síťových zařízení bylo aktualizováno, media konvertory (převaděče médií pro šíření signálu) byly vyřazeny z provozu a potřeba vyhrazených silových vedení pro napájení zařízení byla eliminována připojením k přepínačům PoE, kde je napájení dodáváno prostřednictvím ethernetových vodičů. 

Dále jsou označeny všechny optické spoje v serverovně a v polních skříních - na všech klíčových komunikačních uzlech. To umožnilo připravit topologické schéma zařízení a zapojení v síti, odrážející její současný stav. 

Síťový diagram
Network-as-a-Service pro velký podnik: nestandardní případ
Nejdůležitější výsledek z technického hlediska: poměrně rozsáhlé infrastrukturní práce byly provedeny rychle, aniž by došlo k jakémukoli zásahu do práce podniku a téměř bez povšimnutí jeho zaměstnanců. 

Obchodní výsledky projektu

Tento projekt je podle mě zajímavý především ne po technické, ale po organizační stránce. Potíž spočívala především v plánování a promýšlení kroků k realizaci projektových úkolů. 

Úspěch projektu nám umožňuje říci, že naše iniciativa rozvíjet síťovou oblast v rámci portfolia služeb Linxdatacenter je správnou volbou pro vývojový vektor společnosti. Odpovědný přístup k řízení projektu, kompetentní strategie a jasné plánování nám umožnily dokončit práci na správné úrovni. 

Potvrzením kvality práce je požadavek klienta pokračovat v poskytování služeb pro modernizaci sítě na jeho zbývajících místech v Rusku.

Zdroj: www.habr.com

Přidat komentář