Sieć jako usługa dla dużego przedsiębiorstwa: przypadek niestandardowy

Sieć jako usługa dla dużego przedsiębiorstwa: przypadek niestandardowy
Jak zaktualizować sprzęt sieciowy w dużym przedsiębiorstwie bez zatrzymywania produkcji? Opowiada o zakrojonym na szeroką skalę projekcie w trybie „operacji na otwartym sercu”. Menedżer zarządzania projektami Linxdatacenter Oleg Fedorov. 

Na przestrzeni ostatnich kilku lat odnotowaliśmy wzrost zapotrzebowania klientów na usługi związane z sieciowym elementem infrastruktury IT. Konieczność zapewnienia łączności systemów informatycznych, usług, aplikacji, monitorowania i zadań operacyjnego zarządzania przedsiębiorstwem w niemal każdym obszarze zmusza współczesne firmy do zwracania większej uwagi na sieci.  

Zakres żądań sięga od zapewnienia odporności na awarie sieci, po utworzenie i zarządzanie autonomicznym systemem klienta z zakupem bloku adresów IP, konfiguracją protokołów routingu i zarządzaniem ruchem zgodnie z polityką organizacyjną.

Rośnie także zapotrzebowanie na kompleksowe rozwiązania w zakresie budowy i utrzymania infrastruktury sieciowej, przede wszystkim ze strony klientów, których infrastruktura sieciowa jest tworzona od podstaw lub jest przestarzała, wymagająca poważnych modyfikacji. 

Tendencja ta zbiegła się z okresem rozwoju i złożoności własnej infrastruktury sieciowej Linxdatacenter. Rozszerzyliśmy geografię naszej obecności w Europie, łącząc się z odległymi lokalizacjami, co z kolei wymagało ulepszenia infrastruktury sieciowej. 

Spółka uruchomiła nową usługę dla klientów Network-as-a-Service: zajmujemy się wszystkimi problemami sieciowymi klientów, pozwalając im skupić się na swojej podstawowej działalności.

Latem 2020 roku zakończył się pierwszy duży projekt w tym kierunku, o którym chciałbym opowiedzieć. 

Na początku 

Duży kompleks przemysłowy zwrócił się do nas z prośbą o modernizację części sieciowej infrastruktury w jednym ze swoich przedsiębiorstw. Konieczna była wymiana starego sprzętu na nowy, łącznie z rdzeniem sieci.

Ostatnia modernizacja sprzętu w przedsiębiorstwie miała miejsce około 10 lat temu. Nowe kierownictwo przedsiębiorstwa postanowiło poprawić łączność, zaczynając od aktualizacji infrastruktury na najbardziej podstawowym, fizycznym poziomie. 

Projekt został podzielony na dwie części: modernizację parku serwerów oraz sprzętu sieciowego. Byliśmy odpowiedzialni za drugą część. 

Podstawowe wymagania dotyczące pracy obejmowały minimalizację przestojów linii produkcyjnych przedsiębiorstwa w trakcie realizacji prac (a w niektórych obszarach całkowite wyeliminowanie przestojów). Każde przestoje oznaczają dla Klienta bezpośrednie straty finansowe, co w żadnym wypadku nie powinno mieć miejsca. Ze względu na tryb pracy placówki 24x7x365, a także biorąc pod uwagę całkowity brak okresów planowanych przestojów w praktyce przedsiębiorstwa, postawiono przed nami zadanie polegające na wykonaniu w zasadzie operacji na otwartym sercu. Stało się to głównym wyróżnikiem projektu.

Chodźmy

Prace zaplanowano zgodnie z zasadą przemieszczania się od węzłów sieci oddalonych od rdzenia do bliższych, a także od mniej wpływających na pracę linii produkcyjnych do tych mających bezpośredni wpływ na tę pracę. 

Przykładowo, jeśli weźmiemy węzeł sieciowy w dziale sprzedaży, to przerwa w komunikacji w wyniku pracy w tym dziale nie będzie miała żadnego wpływu na produkcję. Jednocześnie taki incydent pomoże nam, jako wykonawcy, sprawdzić prawidłowość wybranego podejścia do pracy na tego typu jednostkach i po dostosowaniu działań przystąpić do pracy nad kolejnymi etapami inwestycji. 

Konieczna jest nie tylko wymiana węzłów i przewodów w sieci, ale także prawidłowe skonfigurowanie wszystkich komponentów, aby zapewnić prawidłowe działanie rozwiązania jako całości. To właśnie konfiguracje zostały przetestowane w ten sposób: zaczynając pracę od rdzenia, wydawało się, że dajemy sobie „prawo do popełniania błędów”, nie narażając na ryzyko obszarów krytycznych dla funkcjonowania przedsiębiorstwa. 

Zidentyfikowaliśmy obszary nie mające wpływu na proces produkcyjny, a także obszary krytyczne - warsztaty, jednostka załadunkowo-rozładunkowa, magazyny itp. W kluczowych obszarach uzgodniono z klientem akceptowalny czas przestoju dla każdego węzła sieci z osobna: od 1 do 15 minut. Nie udało się całkowicie uniknąć odłączania poszczególnych węzłów sieci, gdyż kabel trzeba fizycznie przełączyć ze starego sprzętu na nowy, a w trakcie przełączania konieczne jest także rozplątanie „brody” przewodów, która powstała w trakcie kilkuletniej eksploatacji bez odpowiedniego opieka (jedna z konsekwencji outsourcingu prac przy montażu linii kablowych).

Prace podzielono na kilka etapów.

Krok 1 – Audyt. Przygotowanie i koordynacja podejścia do planowania prac oraz ocena gotowości zespołów: klienta, wykonawcy instalacji i naszego zespołu.

Krok 2 – Opracowanie formatu prowadzenia pracy, z głęboką szczegółową analizą i planowaniem. Wybraliśmy format listy kontrolnej z precyzyjnym wskazaniem kolejności i sekwencji działań, aż do kolejności przełączania patchcordów według portów.

Krok 3 – Wykonywanie prac w szafach niemających wpływu na produkcję. Szacowanie i korygowanie przestojów na kolejnych etapach pracy.

Krok 4 – Wykonywanie prac w szafach mających bezpośredni wpływ na produkcję. Oszacowanie i dostosowanie czasu przestoju na końcowym etapie pracy.

Krok 5 – Przeprowadzenie prac w serwerowni w celu wymiany pozostałego sprzętu. Uruchom routing w nowym jądrze.

Krok 6 – Konsekwentne przełączanie rdzenia systemu ze starych konfiguracji sieci na nowe w celu płynnego przejścia całego kompleksu systemu (VLAN, routing itp.). Na tym etapie podłączyliśmy wszystkich użytkowników i przenieśliśmy wszystkie usługi na nowy sprzęt, sprawdziliśmy poprawność połączenia, upewniliśmy się, że żadna z usług przedsiębiorstwa nie została zatrzymana, zadbaliśmy o to, aby w przypadku wystąpienia problemów zostały one podłączone bezpośrednio do jądra, co ułatwiło rozwiązywanie ewentualnych problemów i ostateczną konfigurację. 

Fryzura na brodę z drutu

Projekt okazał się trudny także ze względu na trudne warunki początkowe. 

Po pierwsze, istnieje ogromna liczba węzłów i odcinków sieci, o skomplikowanej topologii i klasyfikacji przewodów zgodnie z ich przeznaczeniem. Takie „brody” trzeba było wyciągać z szafek i mozolnie „czesać”, zastanawiając się, który drut skąd pochodzi i dokąd prowadzi. 

Wyglądało to mniej więcej tak:

Sieć jako usługa dla dużego przedsiębiorstwa: przypadek niestandardowy
w następujący sposób:

Sieć jako usługa dla dużego przedsiębiorstwa: przypadek niestandardowy
lub tak: 

Sieć jako usługa dla dużego przedsiębiorstwa: przypadek niestandardowy
Po drugie, dla każdego takiego zadania konieczne było przygotowanie pliku opisującego proces. „Bierzemy przewód X z portu 1 starego sprzętu i podłączamy go do portu 18 nowego sprzętu”. Brzmi prosto, ale gdy w danych źródłowych masz 48 całkowicie zapchanych portów i nie ma opcji przestoju (pamiętamy o 24x7x365), jedynym wyjściem jest praca w blokach. Im więcej przewodów można wyciągnąć jednorazowo ze starego sprzętu, tym szybciej można je przeczesać i włożyć do nowego sprzętu sieciowego, unikając awarii i przestojów w sieci. 

Dlatego na etapie przygotowawczym podzieliliśmy sieć na bloki – każdy z nich należał do konkretnego VLAN-u. Każdy port (lub jego podzbiór) na starym sprzęcie jest jedną z sieci VLAN w nowej topologii sieci. Pogrupowaliśmy je następująco: w pierwszych portach przełącznika mieściły się sieci użytkowników, w środkowym – sieci produkcyjne, a w ostatnim – punkty dostępowe i uplinki. 

Takie podejście umożliwiło wyciągnięcie i przeczesanie ze starego sprzętu nie tylko 1 drutu, ale 10-15 za jednym razem. Przyspieszyło to kilkakrotnie proces pracy.  

Swoją drogą tak wyglądają przewody w szafkach po czesaniu: 

Sieć jako usługa dla dużego przedsiębiorstwa: przypadek niestandardowy
lub na przykład tak: 

Sieć jako usługa dla dużego przedsiębiorstwa: przypadek niestandardowy
Po zakończeniu II etapu zrobiliśmy sobie przerwę na analizę błędów i dynamiki projektu. Np. drobne usterki pojawiały się od razu na skutek niedokładności w dostarczonych nam schematach sieci (nieprawidłowe złącze na schemacie oznacza źle zakupiony patchcord i konieczność jego wymiany). 

Przerwa była konieczna, ponieważ podczas pracy po stronie serwera nawet niewielka usterka w procesie była nie do przyjęcia. Jeżeli celem było zapewnienie przestoju na odcinku sieci nie dłuższego niż 5 minut, to nie można go było przekroczyć. Ewentualne odstępstwa od harmonogramu musiały być uzgadniane z klientem. 

Jednak wstępne zaplanowanie i podzielenie projektu na bloki pozwoliło dotrzymać zaplanowanego przestoju we wszystkich obszarach, a w większości przypadków całkowicie go uniknąć. 

Wyzwanie czasów – projekt w ramach COVID 

Nie obyło się jednak bez dodatkowych trudności. Jedną z przeszkód był oczywiście koronawirus. 

Pracę komplikuje fakt, że rozpoczęła się pandemia i nie było możliwości, aby wszyscy specjaliści zaangażowani w proces byli obecni podczas prac u klienta. Na plac budowy wpuszczeni zostali wyłącznie pracownicy organizacji instalacyjnej, a kontrola odbywała się poprzez pomieszczenie Zoom – w nim znajdował się inżynier sieci z Linxdatacenter, ja jako kierownik projektu, inżynier sieci od klienta odpowiedzialny za prace oraz ekipa wykonująca prace instalacyjne.

W trakcie pracy pojawiły się nieuwzględnione problemy, które trzeba było wprowadzać na bieżąco. W ten sposób można było szybko zapobiec wpływowi czynnika ludzkiego (błędy w obwodzie, błędy w określeniu stanu aktywności interfejsu itp.).

Choć na początku projektu format pracy zdalnej wydawał się nietypowy, szybko zaadaptowaliśmy się do nowych warunków i dotarliśmy do końcowego etapu prac. 

Uruchomiliśmy tymczasową konfigurację ustawień sieciowych, aby umożliwić równoległą pracę dwóch rdzeni sieciowych – starego i nowego – w celu zapewnienia płynnego przejścia. Okazało się jednak, że z pliku konfiguracyjnego nowego jądra nie usunięto jednej dodatkowej linii i przejście nie nastąpiło. Zmusiło nas to do poświęcenia trochę czasu na poszukiwanie problemu. 

Okazało się, że ruch główny był przesyłany poprawnie, a ruch kontrolny nie docierał do węzła poprzez nowy rdzeń. Dzięki przejrzystemu podziałowi projektu na etapy udało się szybko zidentyfikować odcinek sieci, w którym pojawił się problem, zidentyfikować problem i go wyeliminować. 

I w rezultacie

Wyniki techniczne projektu 

W pierwszej kolejności powstał nowy rdzeń nowej sieci korporacyjnej, dla którego zbudowaliśmy pierścienie fizyczne/logiczne. Odbywa się to w ten sposób, że każdy przełącznik w sieci ma „drugie ramię”. W starej sieci wiele przełączników było podłączonych do rdzenia wzdłuż jednej trasy, jednego ramienia (uplink). Jeśli się zepsuje, przełącznik stanie się całkowicie niedostępny. A jeśli kilka przełączników zostało podłączonych przez jedno łącze nadrzędne, wypadek spowodowałby unieruchomienie całego działu lub linii produkcyjnej w przedsiębiorstwie. 

W nowej sieci nawet dość poważny incydent sieciowy w żadnym wypadku nie będzie w stanie spowodować awarii całej sieci lub jej znacznej części. 

Zmodernizowano 90% całego sprzętu sieciowego, wycofano z eksploatacji media konwertery (konwertery propagacji sygnału), wyeliminowano potrzebę stosowania dedykowanych linii zasilających do zasilania sprzętu poprzez podłączenie do przełączników PoE, gdzie zasilanie dostarczane jest przewodami Ethernet. 

Oznaczone są także wszystkie połączenia optyczne w serwerowni oraz w szafach polowych – przy wszystkich kluczowych węzłach komunikacyjnych. Umożliwiło to przygotowanie schematu topologicznego urządzeń i połączeń w sieci, odzwierciedlającego jej aktualny stan. 

Internetowy diagram
Sieć jako usługa dla dużego przedsiębiorstwa: przypadek niestandardowy
Najważniejszy wynik pod względem technicznym: prace infrastrukturalne na dość dużą skalę zostały przeprowadzone szybko, nie powodując żadnej ingerencji w pracę przedsiębiorstwa i prawie niezauważone przez jego personel. 

Efekty biznesowe projektu

Moim zdaniem projekt ten jest ciekawy przede wszystkim nie od strony technicznej, ale organizacyjnej. Trudność polegała przede wszystkim na planowaniu i przemyśleniu poszczególnych etapów realizacji zadań projektowych. 

Sukces projektu pozwala nam stwierdzić, że nasza inicjatywa rozwoju obszaru sieciowego w ramach portfela usług Linxdatacenter jest właściwym wyborem dla wektora rozwoju firmy. Odpowiedzialne podejście do zarządzania projektami, kompetentna strategia i jasne planowanie pozwoliły nam na wykonanie prac na właściwym poziomie. 

Potwierdzeniem jakości pracy jest żądanie klienta dotyczące dalszego świadczenia usług modernizacji sieci w pozostałych lokalizacjach w Rosji.

Źródło: www.habr.com

Dodaj komentarz