🥇Network-as-a-Service pentru o întreprindere mare: un caz non-standard

Cum să actualizați echipamentele de rețea într-o întreprindere mare fără a opri producția? El vorbește despre un proiect de anvergură în modul „chirurgie pe cord deschis”. Manager de management de proiect Linxdatacenter Oleg Fedorov.

În ultimii ani, am observat o creștere a cererii clienților pentru servicii legate de componenta de rețea a infrastructurii IT. Nevoia de conectivitate a sistemelor IT, a serviciilor, a aplicațiilor, a sarcinilor de monitorizare și management operațional al afacerii în aproape orice domeniu obligă companiile de astăzi să acorde o atenție sporită rețelelor.

Gama de solicitări variază de la asigurarea toleranței la erori în rețea până la crearea și gestionarea unui sistem autonom client cu achiziționarea unui bloc de adrese IP, configurarea protocoalelor de rutare și gestionarea traficului conform politicilor organizaționale.

Există, de asemenea, o cerere în creștere pentru soluții complete pentru construirea și întreținerea infrastructurii de rețea, în primul rând din partea clienților a căror infrastructură de rețea este creată de la zero sau este învechită, necesitând modificări serioase.

Această tendință a coincis cu perioada de dezvoltare și complexitate a propriei infrastructuri de rețea a Linxdatacenter. Am extins geografia prezenței noastre în Europa prin conectarea la site-uri îndepărtate, ceea ce a necesitat, la rândul său, îmbunătățirea infrastructurii rețelei.

Compania a lansat un nou serviciu pentru clienți, Network-as-a-Service: ne ocupăm de problemele de rețea ale tuturor clienților, permițându-le să se concentreze pe activitatea lor de bază.

În vara lui 2020 a fost finalizat primul mare proiect în această direcție, despre care aș vrea să vă vorbesc.

La inceput

Un complex industrial mare a apelat la noi pentru a moderniza partea de rețea a infrastructurii la una dintre întreprinderile sale. A fost necesară înlocuirea echipamentelor vechi cu echipamente noi, inclusiv nucleul rețelei.

Ultima modernizare a echipamentelor la întreprindere a avut loc acum aproximativ 10 ani. Noul management al întreprinderii a decis să îmbunătățească conectivitatea, începând cu actualizarea infrastructurii la cel mai elementar nivel fizic.

Proiectul a fost împărțit în două părți: modernizarea parcului de servere și a echipamentelor de rețea. Noi am fost responsabili pentru partea a doua.

Cerințele de bază pentru lucru au inclus minimizarea timpului de nefuncționare a liniilor de producție ale întreprinderii în timpul executării lucrărilor (și în unele zone, eliminarea completă a timpului de nefuncționare). Orice oprire înseamnă pierderi financiare directe pentru client, care nu ar fi trebuit să se întâmple sub nicio formă. Datorită modului de funcționare al unității 24x7x365, precum și ținând cont de absența completă a perioadelor de nefuncționare planificate în practica întreprinderii, ni s-a dat sarcina de a efectua, în esență, o intervenție chirurgicală pe cord deschis. Aceasta a devenit principala caracteristică distinctivă a proiectului.

Merge

Lucrarea a fost planificată conform principiului deplasării de la nodurile de rețea îndepărtate de la nucleu la cele mai apropiate, precum și de la cele care influențează mai puțin munca liniilor de producție la cele care influențează direct această lucrare.

De exemplu, dacă luăm un nod de rețea în departamentul de vânzări, atunci o întrerupere a comunicării ca urmare a muncii în acest departament nu va afecta în niciun fel producția. Totodată, un astfel de incident ne va ajuta, ca antreprenor, să verificăm corectitudinea abordării alese de a lucra la astfel de unități și, după ajustarea acțiunilor, să lucrăm la etapele următoare ale proiectului.

Este necesar nu numai să înlocuiți nodurile și firele din rețea, ci și să configurați corect toate componentele pentru funcționarea corectă a soluției în ansamblu. Configurațiile au fost testate în acest fel: pornind de la lucru de la bază, părea să ne acordăm „dreptul de a greși” fără a pune în pericol zone critice pentru funcționarea întreprinderii.

Am identificat zone care nu afectează procesul de producție, precum și zone critice - ateliere, unitate de încărcare și descărcare, depozite, etc. În zonele cheie, timpul de nefuncționare acceptabil pentru fiecare nod de rețea separat a fost convenit cu clientul: de la 1 la 15 minute . A fost imposibil să se evite complet deconectarea nodurilor individuale de rețea, deoarece cablul trebuie să fie schimbat fizic de la echipamentul vechi la cel nou, iar în timpul procesului de comutare este, de asemenea, necesar să se descurce „barba” de fire care s-a format pe parcursul mai multor ani de funcționare fără o funcționare adecvată. îngrijire (una dintre consecințele externalizării lucrărilor pentru instalarea liniilor de cablu).

Lucrarea a fost împărțită în mai multe etape.

Etapa 1 - Audit. Pregătirea și coordonarea abordării planificării lucrărilor și evaluarea gradului de pregătire a echipelor: client, antreprenor de instalare și echipa noastră.

Etapa 2 – Elaborarea unui format de desfășurare a lucrărilor, cu analiză și planificare detaliată profundă. Am ales un format de listă de verificare cu o indicație precisă a ordinii și secvenței acțiunilor, până la secvența de comutare a cablurilor de corecție pe port.

Etapa 3 – Efectuarea de lucrări în dulapuri care nu afectează producția. Estimarea și ajustarea timpului de nefuncționare pentru etapele ulterioare de lucru.

Etapa 4 – Efectuarea de lucrări în dulapuri care afectează direct producția. Estimarea și ajustarea timpului de nefuncționare pentru etapa finală de lucru.

Etapa 5 – Efectuarea lucrărilor în camera serverelor pentru comutarea echipamentelor rămase. Lansați la rutare pe noul nucleu.

Etapa 6 – Comutarea consecutivă a nucleului sistemului de la configurații de rețea vechi la cele noi pentru o tranziție lină a întregului complex de sistem (VLAN, rutare etc.). În această etapă, am conectat toți utilizatorii și am transferat toate serviciile la noul hardware, am verificat că conexiunea este corectă, ne-am asigurat că niciunul dintre serviciile companiei nu a fost oprit, ne-am asigurat că, dacă apar probleme, acestea vor fi conectate direct la kernel, ceea ce a facilitat depanarea posibilelor probleme și configurarea finală.

Coafura cu barbă de sârmă

Proiectul s-a dovedit a fi dificil și din cauza condițiilor inițiale dificile.

În primul rând, există un număr mare de noduri și secțiuni ale rețelei, cu o topologie complicată și o clasificare a firelor în funcție de scopul lor. Astfel de „bărbi” trebuiau scoase din dulapuri și „pieptănate” cu grijă, dându-și seama ce sârmă vine de unde și unde duce.

Arăta cam așa:

după cum urmează:

sau cam asa:

În al doilea rând, pentru fiecare astfel de sarcină a fost necesar să se pregătească un fișier care să descrie procesul. „Luăm firul X de la portul 1 al echipamentului vechi, îl conectăm la portul 18 al noului echipament.” Sună simplu, dar când aveți 48 de porturi complet înfundate în datele sursă și nu există nicio opțiune de nefuncționare (ne amintim despre 24x7x365), singura cale de ieșire este să lucrați în blocuri. Cu cât puteți scoate mai multe fire dintr-un echipament vechi la un moment dat, cu atât mai repede le puteți pieptăna și le puteți introduce în noul hardware de rețea, evitând defecțiunile și timpii de nefuncționare în rețea.

Prin urmare, în etapa pregătitoare, am împărțit rețeaua în blocuri - fiecare dintre ele aparținea unui anumit VLAN. Fiecare port (sau un subset al acestora) de pe echipamentul vechi este unul dintre VLAN-urile din noua topologie de rețea. Le-am grupat astfel: primele porturi ale switch-ului găzduiau rețele de utilizatori, cele de mijloc – rețelele de producție, iar ultimele – punctele de acces și uplink-urile.

Această abordare a făcut posibilă scoaterea și pieptănarea din echipamentul vechi nu doar 1 fir, ci 10-15, dintr-o singură mișcare. Acest lucru a accelerat procesul de lucru de mai multe ori.

Apropo, așa arată firele din dulapuri după pieptănare:

sau, de exemplu, așa:

După finalizarea etapei a 2-a, am făcut o pauză pentru a analiza erorile și dinamica proiectului. De exemplu, defecte minore au apărut imediat din cauza inexactităților în diagramele de rețea furnizate nouă (conector incorect pe diagramă înseamnă cablul de corecție achiziționat incorect și necesitatea înlocuirii acestuia).

Pauza a fost necesară, deoarece atunci când lucrați din partea serverului, chiar și o mică eroare în proces era inacceptabilă. Dacă scopul era asigurarea timpului de nefuncționare pe o secțiune de rețea de cel mult 5 minute, atunci acesta nu putea fi depășit. Orice posibilă abatere de la program trebuia convenită cu clientul.

Cu toate acestea, planificarea prealabilă și împărțirea proiectului în blocuri a făcut posibilă îndeplinirea timpului de nefuncționare planificat în toate zonele și, în majoritatea cazurilor, evitarea acestuia cu totul.

Provocarea vremurilor - un proiect sub COVID

Cu toate acestea, nu a fost fără dificultăți suplimentare. Desigur, coronavirusul a fost unul dintre obstacole.

Lucrarea a fost complicată de faptul că a început pandemia și a fost imposibil ca toți specialiștii implicați în proces să fie prezenți în timpul lucrului la locul clientului. Numai angajații organizației de instalare aveau voie să intre pe șantier, iar controlul a fost efectuat printr-o cameră Zoom - în ea era un inginer de rețea de la Linxdatacenter, eu însumi ca manager de proiect, un inginer de rețea de la clientul responsabil de lucru și o echipă care efectuează lucrări de instalare.

În timpul lucrărilor au apărut probleme nesocotite, iar ajustări au trebuit făcute din mers. În acest fel, a fost posibilă prevenirea rapidă a influenței factorului uman (erori în circuit, erori în determinarea stării activității interfeței etc.).

Deși formatul de lucru la distanță părea neobișnuit la începutul proiectului, ne-am adaptat rapid la noile condiții și am ajuns în stadiul final de lucru.

Am lansat o configurație temporară a setărilor de rețea pentru a permite a două nuclee de rețea - vechi și noi - să ruleze în paralel pentru a realiza o tranziție lină. Cu toate acestea, s-a dovedit că o linie suplimentară nu a fost eliminată din fișierul de configurare al noului nucleu și tranziția nu a avut loc. Acest lucru ne-a forțat să petrecem ceva timp căutând problema.

S-a dovedit că traficul principal a fost transmis corect, iar traficul de control nu a ajuns la nod prin noul nucleu. Datorită împărțirii clare a proiectului în etape, a fost posibilă identificarea rapidă a secțiunii rețelei în care a apărut problema, identificarea problemei și remedierea acesteia.

Și ca rezultat

Rezultatele tehnice ale proiectului

În primul rând, a fost creat un nou nucleu al noii rețele de întreprindere, pentru care am construit inele fizice/logice. Acest lucru se face în așa fel încât fiecare comutator din rețea să aibă un „al doilea braț”. În vechea rețea, multe switch-uri erau conectate la nucleu de-a lungul unei rute, a unui braț (uplink). Dacă s-a rupt, comutatorul a devenit complet inaccesibil. Și dacă mai multe switch-uri ar fi conectate printr-o legătură în sus, atunci accidentul ar dezactiva un întreg departament sau linie de producție la întreprindere.

Într-o rețea nouă, chiar și un incident de rețea destul de grav nu va putea, în niciun scenariu, să distrugă întreaga rețea sau o secțiune semnificativă a acesteia.

90% din toate echipamentele de rețea au fost actualizate, convertoarele media (convertoarele media de propagare a semnalului) au fost scoase din funcțiune, iar nevoia de linii de alimentare dedicate pentru alimentarea echipamentelor a fost eliminată prin conectarea la switch-uri PoE, unde alimentarea este furnizată prin fire Ethernet.

De asemenea, toate conexiunile optice din camera serverului și din dulapurile de teren sunt marcate - la toate nodurile cheie de comunicare. Acest lucru a făcut posibilă pregătirea unei diagrame topologice a echipamentelor și conexiunilor din rețea, reflectând starea actuală a acesteia.

Diagrama rețelei

Cel mai important rezultat din punct de vedere tehnic: lucrările de infrastructură la scară destul de mare au fost efectuate rapid, fără a crea nicio interferență în activitatea întreprinderii și aproape neobservate de personalul acesteia.

Rezultatele de afaceri ale proiectului

În opinia mea, acest proiect este interesant în primul rând nu din punct de vedere tehnic, ci din punct de vedere organizatoric. Dificultatea constă în primul rând în planificarea și gândirea pașilor de implementare a sarcinilor proiectului.

Succesul proiectului ne permite să spunem că inițiativa noastră de a dezvolta zona de networking din portofoliul de servicii Linxdatacenter este alegerea potrivită pentru vectorul de dezvoltare al companiei. O abordare responsabilă a managementului de proiect, o strategie competentă și o planificare clară ne-au permis să finalizăm munca la nivelul corespunzător.

Confirmarea calității muncii este o solicitare din partea clientului de a continua furnizarea de servicii pentru modernizarea rețelei la locațiile rămase din Rusia.

Sursa: www.habr.com

Network-as-a-Service pentru o întreprindere mare: un caz non-standard

La inceput

Merge

Coafura cu barbă de sârmă

Provocarea vremurilor - un proiect sub COVID

Și ca rezultat

Adauga un comentariu Anula răspuns