🥇Jak jsme navrhli a implementovali novou síť na Huawei v moskevské kanceláři, část 1

Jak jsme navrhli a implementovali novou síť na Huawei v moskevské kanceláři, část 1

Dnes vám povím o tom, jak vznikla a jak se realizovala myšlenka na vytvoření nové interní sítě pro naši společnost. Pozice managementu je taková, že musíte udělat stejný plnohodnotný projekt pro sebe jako pro klienta. Pokud to pro sebe uděláme dobře, můžeme zákazníka pozvat a ukázat, jak dobře funguje a funguje to, co mu nabízíme. Proto jsme k vývoji konceptu nové sítě pro moskevskou kancelář přistoupili velmi důkladně s využitím celého výrobního cyklu: analýza potřeb oddělení → výběr technického řešení → návrh → implementace → testování. Takže začneme.

Výběr technického řešení: Mutant Sanctuary

Postup práce na složitém automatizovaném systému je v současnosti nejlépe popsán v GOST 34.601-90 „Automatizované systémy. Stages of Creation“, tak jsme pracovali podle toho. A již ve fázích tvorby požadavků a vývoje koncepce jsme narazili na první potíže. Organizace různých profilů - banky, pojišťovny, vývojáři softwaru atd. - pro své úkoly a standardy potřebují určité typy sítí, jejichž specifika jsou jasná a standardizovaná. To však u nás nepůjde.

Proč?

Jet Infosystems je velká diverzifikovaná IT společnost. Naše oddělení interní podpory je přitom malé (ale hrdé), zajišťuje funkčnost základních služeb a systémů. Společnost obsahuje mnoho divizí, které plní různé funkce: jedná se o několik výkonných outsourcingových týmů a interních vývojářů podnikových systémů a informační bezpečnosti a architekty počítačových systémů – obecně, ať to je kdokoli. V souladu s tím se také liší jejich úkoly, systémy a bezpečnostní politiky. Což podle očekávání způsobilo potíže v procesu analýzy potřeb a standardizace.

Zde je například vývojové oddělení: jeho zaměstnanci píší a testují kódy pro velké množství zákazníků. Často je potřeba rychle zorganizovat testovací prostředí a upřímně řečeno, ne vždy je možné formulovat požadavky pro každý projekt, požadovat zdroje a vybudovat samostatné testovací prostředí v souladu se všemi interními předpisy. Vznikají tak kuriózní situace: jednoho dne se váš skromný sluha podíval do místnosti vývojářů a našel pod stolem správně fungující hadoop cluster 20 desktopů, který byl nevysvětlitelně připojen ke společné síti. Myslím, že nemá cenu objasňovat, že IT oddělení společnosti o její existenci nevědělo. Tato okolnost, stejně jako mnohé další, stála za to, že se v průběhu vývoje projektu zrodil termín „mutantní rezerva“, popisující stav dlouhodobě trpící kancelářské infrastruktury.

Nebo tady je další příklad. V rámci oddělení je pravidelně zřízena zkušební stolice. To byl případ Jira a Confluence, které byly v omezené míře využívány Software Development Center v některých projektech. Po nějaké době se o těchto užitečných zdrojích dozvěděla další oddělení, vyhodnotila je a na konci roku 2018 se Jira a Confluence posunuli ze statusu „hračky místních programátorů“ do stavu „firemních zdrojů“. Nyní musí být těmto systémům přiřazen vlastník, musí být definovány SLA, zásady zabezpečení přístupu/informací, zásady zálohování, monitorování, pravidla pro směrování požadavků k opravě problémů - obecně musí být přítomny všechny atributy plnohodnotného informačního systému .
Každá z našich divizí je také inkubátorem, který pěstuje své vlastní produkty. Některé z nich zemřou ve fázi vývoje, některé používáme při práci na projektech, zatímco jiné zakořeňují a stávají se replikovanými řešeními, která sami začínáme používat a prodávat klientům. Pro každý takový systém je žádoucí mít vlastní síťové prostředí, kde se bude vyvíjet bez zásahů do jiných systémů a v určitém okamžiku jej lze integrovat do firemní infrastruktury.

Kromě vývoje máme velmi velký Servisní středisko s více než 500 zaměstnanci, formovanými do týmů pro každého zákazníka. Podílejí se na údržbě sítí a dalších systémů, vzdáleném monitorování, řešení reklamací a tak dále. To znamená, že infrastruktura SC je ve skutečnosti infrastruktura zákazníka, se kterým aktuálně spolupracují. Zvláštností práce s touto částí sítě je, že jejich pracovní stanice pro naši společnost jsou částečně externí a částečně interní. Proto jsme pro SC implementovali následující přístup - společnost poskytuje příslušnému oddělení síťové a další zdroje, přičemž pracovní stanice těchto oddělení považuje za externí spojení (analogicky s pobočkami a vzdálenými uživateli).

Projektování dálnice: my jsme provozovatel (překvapení)

Po posouzení všech úskalí jsme si uvědomili, že získáváme síť telekomunikačního operátora v rámci jedné kanceláře, a začali jsme se podle toho chovat.

Vytvořili jsme jádrovou síť, pomocí které je každému internímu a v budoucnu i externímu spotřebiteli poskytována požadovaná služba: L2 VPN, L3 VPN nebo běžné L3 routing. Některá oddělení potřebují bezpečný přístup k internetu, zatímco jiná potřebují čistý přístup bez firewallů, ale zároveň ochranu našich podnikových zdrojů a hlavní sítě před jejich provozem.

S každou divizí jsme neformálně „uzavřeli SLA“. V souladu s ní musí být v určité, předem dohodnuté lhůtě odstraněny všechny vzniklé incidenty. Požadavky společnosti na svou síť se ukázaly jako přísné. Maximální doba odezvy na incident v případě selhání telefonu a emailu byla 5 minut. Doba pro obnovení funkčnosti sítě během typických poruch není delší než minuta.

Protože máme síť na úrovni operátora, můžete se k ní připojit pouze v přísném souladu s pravidly. Servisní jednotky stanovují zásady a poskytují služby. Nepotřebují ani informace o připojení konkrétních serverů, virtuálních strojů a pracovních stanic. Zároveň jsou ale potřeba ochranné mechanismy, protože ani jedno připojení by nemělo vyřadit síť z provozu. Pokud se náhodně vytvoří smyčka, ostatní uživatelé by si toho neměli všimnout, to znamená, že je nutná adekvátní odezva ze sítě. Každý telekomunikační operátor neustále řeší podobné zdánlivě složité problémy v rámci své hlavní sítě. Poskytuje služby mnoha klientům s různými potřebami a provozem. Různí předplatitelé by zároveň neměli mít nepříjemnosti z provozu ostatních.
Doma jsme tento problém vyřešili následovně: vybudovali jsme páteřní L3 síť s plnou redundancí, pomocí protokolu IS-IS. Nad jádrem byla postavena překryvná síť založená na technologii EVPN/VXLANpomocí směrovacího protokolu MP-BGP. Pro urychlení konvergence směrovacích protokolů byla použita technologie BFD.

Jak jsme navrhli a implementovali novou síť na Huawei v moskevské kanceláři, část 1
Struktura sítě

V testech se toto schéma ukázalo jako vynikající - když je odpojen jakýkoli kanál nebo přepínač, doba konvergence není delší než 0.1-0.2 s, ztratí se minimum paketů (často žádné), TCP relace nejsou přerušeny, telefonní hovory nejsou přerušeny.

Jak jsme navrhli a implementovali novou síť na Huawei v moskevské kanceláři, část 1
Podkladová vrstva – směrování

Jak jsme navrhli a implementovali novou síť na Huawei v moskevské kanceláři, část 1
Překryvná vrstva - Směrování

Jako distribuční přepínače byly použity přepínače Huawei CE6870 s licencemi VXLAN. Toto zařízení má optimální poměr cena/kvalita a umožňuje připojení účastníků rychlostí 10 Gbit/s a připojení k páteřní síti rychlostí 40–100 Gbit/s v závislosti na použitých transceiverech.

Jak jsme navrhli a implementovali novou síť na Huawei v moskevské kanceláři, část 1
Spínače Huawei CE6870

Jako jádrové přepínače byly použity přepínače Huawei CE8850. Cílem je přenášet provoz rychle a spolehlivě. Nejsou k nim připojena žádná zařízení kromě distribučních přepínačů, nevědí nic o VXLAN, proto byl zvolen model s 32 porty 40/100 Gbps se základní licencí, která poskytuje L3 směrování a podporu pro IS-IS a MP-BGP. protokoly .

Jak jsme navrhli a implementovali novou síť na Huawei v moskevské kanceláři, část 1
Spodní je přepínač jádra Huawei CE8850

Ve fázi návrhu se v rámci týmu rozhořela diskuse o technologiích, které by bylo možné použít k implementaci připojení odolného vůči chybám k uzlům hlavní sítě. Naše moskevská kancelář se nachází ve třech budovách, máme 7 distribučních místností, v každé z nich byly instalovány dva distribuční přepínače Huawei CE6870 (v několika distribučních místnostech byly instalovány pouze přístupové přepínače). Při vývoji koncepce sítě byly zvažovány dvě možnosti redundance:

Konsolidace rozvodů se přepne do zásobníku odolného vůči poruchám v každé propojovací místnosti. Pro: jednoduchost a snadné nastavení. Nevýhody: vyšší pravděpodobnost selhání celého zásobníku při výskytu chyb ve firmwaru síťových zařízení („úniky paměti“ a podobně).
Použijte technologie M-LAG a Anycast gateway pro připojení zařízení k distribučním přepínačům.

Nakonec jsme se rozhodli pro druhou možnost. Je poněkud obtížnější na konfiguraci, ale v praxi prokázal svůj výkon a vysokou spolehlivost.
Nejprve se podívejme na připojení koncových zařízení k distribučním přepínačům:
Jak jsme navrhli a implementovali novou síť na Huawei v moskevské kanceláři, část 1
Přejít

Přístupový přepínač, server nebo jakékoli jiné zařízení, které vyžaduje připojení odolné proti chybám, je součástí dvou distribučních přepínačů. Technologie M-LAG poskytuje redundanci na úrovni datového spoje. Předpokládá se, že dva distribuční spínače se připojenému zařízení jeví jako jedno zařízení. Redundance a vyvažování zátěže se provádí pomocí protokolu LACP.

Technologie brány Anycast poskytuje redundanci na úrovni sítě. Na každém z distribučních přepínačů je nakonfigurováno poměrně velké množství VRF (každý VRF je určen pro své vlastní účely – zvlášť pro „běžné“ uživatele, zvlášť pro telefonování, zvlášť pro různá testovací a vývojová prostředí atd.) a v každém VRF má nakonfigurovaných několik VLAN. V naší síti jsou distribuční přepínače výchozími bránami pro všechna zařízení k nim připojená. IP adresy odpovídající VLAN rozhraním jsou stejné pro oba distribuční přepínače. Provoz je směrován přes nejbližší výhybku.

Nyní se podívejme na připojení distribučních přepínačů k jádru:
Odolnost proti poruchám je zajištěna na úrovni sítě pomocí protokolu IS-IS. Upozorňujeme, že mezi přepínači je k dispozici samostatná komunikační linka L3 o rychlosti 100G. Fyzicky je tato komunikační linka kabel Direct Access, je vidět vpravo na fotografii přepínačů Huawei CE6870.

Alternativou by bylo zorganizovat „poctivou“ plně propojenou dvouhvězdičkovou topologii, ale jak již bylo zmíněno výše, máme 7 propojených místností ve třech budovách. Pokud bychom tedy zvolili topologii „dvojitá hvězda“, potřebovali bychom přesně dvakrát tolik transceiverů „dlouhého dosahu“ 40G. Úspory jsou zde velmi výrazné.

Je třeba říci několik slov o tom, jak spolupracují technologie brány VXLAN a Anycast. VXLAN, aniž bychom zacházeli do podrobností, je tunel pro přenos ethernetových rámců uvnitř UDP paketů. Jako cílová IP adresa tunelu VXLAN se používají rozhraní zpětné smyčky distribučních přepínačů. Každý crossover má dva přepínače se stejnými adresami rozhraní zpětné smyčky, takže paket může dorazit na kterýkoli z nich a lze z něj extrahovat ethernetový rámec.

Pokud přepínač ví o cílové MAC adrese načteného rámce, bude rámec správně doručen na místo určení. Aby bylo zajištěno, že oba distribuční přepínače nainstalované ve stejném křížovém propojení mají aktuální informace o všech MAC adresách „přicházejících“ z přístupových přepínačů, je mechanismus M-LAG zodpovědný za synchronizaci tabulek MAC adres (a také ARP tabulky) na obou párech přepínačů M-LAG.

Vyvažování provozu je dosaženo díky přítomnosti několika cest k rozhraním zpětné smyčky distribučních přepínačů v podkladové síti.

Místo závěru

Jak již bylo zmíněno výše, během testování a provozu síť vykazovala vysokou spolehlivost (doba zotavení po typických poruchách není delší než stovky milisekund) a dobrý výkon – každé cross-connect je připojeno k jádru dvěma 40 Gbit/s kanály. Přístupové přepínače v naší síti jsou stohovány a připojeny k distribučním přepínačům prostřednictvím LACP/M-LAG se dvěma kanály 10 Gbit/s. Stoh obvykle obsahuje 5 přepínačů se 48 porty a v každém křížovém propojení je k distribuci připojeno až 10 přístupových stohů. Páteř tedy poskytuje cca 30 Mbit/s na uživatele i při maximální teoretické zátěži, což je v době psaní článku dostačující pro všechny naše praktické aplikace.

Síť vám umožňuje bezproblémově organizovat párování libovolných připojených zařízení přes L2 i L3, čímž poskytuje úplnou izolaci provozu (což má ráda služba informační bezpečnosti) a poruchových domén (což má rád operační tým).

V příštím díle vám řekneme, jak jsme migrovali na novou síť. Zůstaňte naladěni!

Maxim Klochkov
Senior konzultant skupiny síťového auditu a komplexních projektů
Centrum síťových řešení
"Jet Infosystems"

Zdroj: www.habr.com