Jak převzít kontrolu nad vaší síťovou infrastrukturou. Kapitola první. Držet

Tento článek je prvním ze série článků „Jak převzít kontrolu nad svou síťovou infrastrukturou“. Obsah všech článků v seriálu a odkazy naleznete zde.

Plně uznávám, že existuje dostatečný počet společností, kde není kritický výpadek sítě v délce jedné hodiny nebo dokonce jednoho dne. Bohužel nebo naštěstí jsem na takových místech neměl možnost pracovat. Ale samozřejmě, sítě jsou různé, požadavky jsou různé, přístupy jsou různé, a přesto v té či oné podobě bude níže uvedený seznam v mnoha případech ve skutečnosti „nezbytný“.

Takže počáteční podmínky.

Jste v nové práci, povýšili jste nebo jste se rozhodli znovu nahlédnout do svých povinností. Firemní síť je vaší oblastí odpovědnosti. Pro vás je to v mnoha ohledech výzva a novinka, což trochu ospravedlňuje mentorský tón tohoto článku :). Doufám ale, že článek může být užitečný i každému síťovému inženýrovi.

Vaším prvním strategickým cílem je naučit se odolávat entropii a udržovat úroveň poskytovaných služeb.

Mnoho z níže popsaných problémů lze vyřešit různými prostředky. Záměrně nenastoluji téma technické realizace, protože... v principu často není ani tak důležité, jak jste ten či onen problém vyřešili, ale důležité je, jak to používáte a jestli to vůbec používáte. Například váš profesionálně vybudovaný monitorovací systém je málo užitečný, pokud se na něj nedíváte a nereagujete na výstrahy.

Оборудование

Nejprve musíte pochopit, kde jsou největší rizika.

Opět to může být jinak. Připouštím, že někde to budou například otázky bezpečnosti, někde problémy související s kontinuitou služby a někde možná něco jiného. Proč ne?

Předpokládejme, aby bylo jasno, že se stále jedná o kontinuitu služby (tak tomu bylo ve všech společnostech, kde jsem pracoval).

Pak musíte začít s vybavením. Zde je seznam témat, kterým je třeba věnovat pozornost:

  • klasifikace zařízení podle stupně kritičnosti
  • zálohování kritických zařízení
  • podpora, licence

Musíte se zamyslet nad možnými scénáři selhání, zejména u vybavení na vrcholu vaší klasifikace kritičnosti. Obvykle se opomíjí možnost dvojitých problémů, jinak se vaše řešení a podpora mohou nepřiměřeně prodražit, ale v případě skutečně kritických síťových prvků, jejichž výpadek by mohl výrazně ovlivnit obchod, byste na to měli myslet.

příklad

Řekněme, že mluvíme o kořenovém přepínači v datovém centru.

Vzhledem k tomu, že jsme se shodli, že nejdůležitějším kritériem je nepřetržitost služby, je rozumné zajistit „horkou“ zálohu (redundanci) tohoto zařízení. Ale to není vše. Musíte se také rozhodnout, jak dlouho, pokud se první spínač rozbije, je pro vás přijatelné žít pouze s jedním zbývajícím spínačem, protože existuje riziko, že se rozbije také.

Důležité! Tento problém nemusíte řešit sami. Vedení nebo vedení společnosti musíte popsat rizika, možná řešení a náklady. Musí se rozhodovat.

Pokud by se tedy rozhodlo, že s ohledem na malou pravděpodobnost dvojitého selhání je práce 4 hodin na jednom spínači v zásadě přijatelná, můžete si jednoduše vzít příslušnou podporu (podle které bude zařízení vyměněno do 4 hodiny).

Existuje však riziko, že nedoručí. Bohužel jsme se jednou ocitli v takové situaci. Místo čtyř hodin jelo zařízení týden!!!

I toto riziko je tedy potřeba prodiskutovat a možná pro vás bude správnější koupit jiný spínač (třetí) a uchovat jej v balení náhradních dílů (“studená” záloha) nebo jej použít pro laboratorní účely.

Důležité! Udělejte si tabulku veškeré podpory, kterou máte, s daty vypršení platnosti a přidejte si ji do kalendáře, abyste alespoň měsíc předem dostali e-mail, že byste se měli začít starat o obnovení podpory.

Nebude vám odpuštěno, pokud zapomenete obnovit podporu a den po jejím skončení se vám hardware porouchá.

Pohotovostní práce

Ať se ve vaší síti stane cokoli, v ideálním případě byste měli mít přístup ke svému síťovému zařízení.

Důležité! Musíte mít konzolový přístup ke všem zařízením a tento přístup by neměl záviset na stavu uživatelské datové sítě.

Měli byste také předem předvídat možné negativní scénáře a zdokumentovat nezbytná opatření. Dostupnost tohoto dokumentu je také kritická, takže by neměl být pouze zveřejněn ve sdíleném zdroji pro oddělení, ale také uložen lokálně na počítačích techniků.

Tam musí být

  • informace potřebné k otevření tiketu s podporou dodavatele nebo integrátora
  • informace o tom, jak se dostat k jakémukoli zařízení (konzole, správa)

Samozřejmě může obsahovat i další užitečné informace, například popis postupu upgradu různých zařízení a užitečné diagnostické příkazy.

Pobočky

Nyní musíte posoudit rizika spojená s partnery. Obvykle toto

  • Poskytovatelé internetu a body výměny provozu (IX)
  • poskytovatelé komunikačních kanálů

Jaké otázky byste si měli položit? Stejně jako u vybavení je třeba zvážit různé nouzové scénáře. Například pro poskytovatele internetu by to mohlo být něco jako:

  • co se stane, když vám poskytovatel internetu X z nějakého důvodu přestane poskytovat službu?
  • Budou mít pro vás ostatní poskytovatelé dostatečnou šířku pásma?
  • Jak kvalitní zůstane konektivita?
  • Jak nezávislí jsou vaši poskytovatelé internetu a způsobí vážný výpadek jednoho z nich problémy s ostatními?
  • kolik optických vstupů do vašeho datového centra?
  • co se stane, když se jeden ze vstupů úplně zničí?

Co se týče vstupů, v mé praxi ve dvou různých firmách, ve dvou různých datových centrech bagr zničil studny a jen zázrakem nebyla zasažena naše optika. To není tak vzácný případ.

A samozřejmě je potřeba si tyto otázky nejen klást, ale opět s podporou vedení poskytnout přijatelné řešení v každé situaci.

Záloha

Další prioritou může být zálohování konfigurací zařízení. V každém případě je to velmi důležitý bod. Nebudu vypisovat případy, kdy můžete o konfiguraci přijít, je lepší pravidelně zálohovat a nemyslet na to. Pravidelné zálohování může být navíc velmi užitečné při sledování změn.

Důležité! Provádějte zálohy denně. To není tak velké množství dat, aby se na tom ušetřilo. Ráno by měl službukonající technik (nebo vy) obdržet od systému zprávu, která jasně ukazuje, zda záloha proběhla úspěšně nebo ne, a pokud záloha nebyla úspěšná, měl by být problém vyřešen nebo by měl být vytvořen lístek ( viz procesy síťového oddělení).

Verze softwaru

Otázka, zda se vyplatí upgradovat software zařízení, není tak jednoznačná. Na jedné straně jsou staré verze známé chyby a zranitelnosti, ale na druhé straně je nový software zaprvé ne vždy bezbolestný postup upgradu a zadruhé nové chyby a zranitelnosti.

Zde musíte najít nejlepší možnost. Několik jasných doporučení

  • instalujte pouze stabilní verze
  • Přesto byste neměli žít na velmi starých verzích softwaru
  • vytvořit ceduli s informacemi o tom, kde se nějaký software nachází
  • pravidelně čtěte zprávy o zranitelnostech a chybách ve verzích softwaru a v případě kritických problémů byste měli přemýšlet o upgradu

V této fázi s přístupem k zařízení z konzole, informacemi o podpoře a popisem postupu upgradu jste v zásadě na tento krok připraveni. Ideální variantou je, když máte laboratorní vybavení, kde si můžete celý postup zkontrolovat, ale bohužel se to často nestává.

V případě kritického vybavení se můžete obrátit na podporu dodavatele s žádostí o pomoc s upgradem.

Vstupenkový systém

Nyní se můžete rozhlédnout. Musíte zavést procesy pro interakci s ostatními odděleními a v rámci oddělení.

Nemusí to být nutné (např. pokud je vaše firma malá), ale vřele bych doporučoval organizovat práci tak, aby všechny externí i interní úkony procházely tiketovým systémem.

Systém lístků je v podstatě vaše rozhraní pro interní a externí komunikaci a toto rozhraní byste měli popsat dostatečně podrobně.

Vezměme si příklad důležitého a běžného úkolu otevření přístupu. Popíšu algoritmus, který perfektně fungoval v jedné z firem.

příklad

Začněme tím, že zákazníci s přístupem často formulují svá přání v jazyce nesrozumitelném pro síťového inženýra, konkrétně v jazyce aplikace, například „dejte mi přístup k 1C“.

Proto jsme nikdy nepřijímali žádosti přímo od takových uživatelů.
A to byl první požadavek

  • žádosti o přístup by měly pocházet z technických oddělení (v našem případě to byli unix, windows, inženýři helpdesku)

Druhý požadavek je ten

  • tento přístup musí být přihlášen (technickým oddělením, od kterého jsme obdrželi tento požadavek) a jako požadavek obdržíme odkaz na tento přihlášený přístup

Forma této žádosti musí být pro nás srozumitelná, tzn.

  • požadavek musí obsahovat informace o tom, která podsíť a do které podsítě má být otevřen přístup, dále protokol a (v případě tcp/udp) porty

Mělo by to tam být také uvedeno

  • popis, proč je tento přístup otevřen
  • dočasné nebo trvalé (pokud dočasné, do jakého data)

A velmi důležitým bodem jsou schválení

  • od vedoucího oddělení, které iniciovalo přístup (například účetnictví)
  • od vedoucího technického oddělení, odkud tento požadavek přišel na síťové oddělení (například helpdesk)

V tomto případě se za „vlastníka“ tohoto přístupu považuje vedoucí oddělení, které přístup iniciovalo (v našem příkladu účetnictví), a je odpovědný za to, že stránka s přihlášeným přístupem pro toto oddělení zůstane aktuální. .

Protokolování

To je něco, v čem se můžete utopit. Pokud však chcete zavést proaktivní přístup, musíte se naučit, jak se s touto záplavou dat vypořádat.

Zde je několik praktických doporučení:

  • musíte denně kontrolovat protokoly
  • v případě plánované kontroly (a nikoli nouzové situace) se můžete omezit na úrovně závažnosti 0, 1, 2 a přidat vybrané vzory z jiných úrovní, pokud to považujete za nutné
  • napište skript, který analyzuje protokoly a ignoruje ty protokoly, jejichž vzory jste přidali do seznamu ignorovaných

Tento přístup vám časem umožní vytvořit ignorovaný seznam protokolů, které pro vás nejsou zajímavé, a ponechat pouze ty, které skutečně považujete za důležité.
U nás to fungovalo skvěle.

Sledování

Není neobvyklé, že ve firmě chybí monitorovací systém. Můžete se například spolehnout na protokoly, ale zařízení může jednoduše „zemřít“, aniž by mělo čas cokoli „řeknout“, nebo se paket protokolu udp syslog může ztratit a nedorazit. Obecně je samozřejmě důležité a nutné aktivní sledování.

Dva nejoblíbenější příklady v mé praxi:

  • sledování vytížení komunikačních kanálů, kritických vazeb (například připojení k poskytovatelům). Umožňují vám proaktivně vidět potenciální problém degradace služby v důsledku ztráty provozu a v souladu s tím se mu vyhnout.
  • grafy založené na NetFlow. Usnadňují nalezení anomálií v provozu a jsou velmi užitečné pro detekci některých jednoduchých, ale významných typů hackerských útoků.

Důležité! Nastavte si SMS upozornění na nejkritičtější události. To platí jak pro monitorování, tak pro protokolování. Pokud nemáte směnu, tak by sms měla přijít i mimo pracovní dobu.

Promyslete proces tak, abyste neprobudili všechny inženýry. Měli jsme kvůli tomu ve službě inženýra.

Změňte ovládání

Podle mého názoru není nutné kontrolovat všechny změny. V každém případě byste však měli být schopni v případě potřeby snadno zjistit, kdo a proč provedl určité změny v síti.

Několik tipů:

  • použijte lístkový systém k podrobným informacím o tom, co bylo na tomto lístku provedeno, například zkopírováním použité konfigurace do lístku
  • používat možnosti komentářů na síťovém zařízení (například odevzdávat komentář na Juniper). Číslo tiketu si můžete zapsat
  • použijte rozdíl záloh vaší konfigurace

Můžete to implementovat jako proces, který denně kontroluje změny všech tiketů.

Procesy

Musíte formalizovat a popsat procesy ve vašem týmu. Pokud jste dosáhli tohoto bodu, váš tým by již měl mít spuštěny alespoň následující procesy:

Denní procesy:

  • práce s lístky
  • práce s logy
  • ovládání změn
  • denní kontrolní list

Roční procesy:

  • prodloužení záruk, licencí

Asynchronní procesy:

  • reakce na různé nouzové situace

Závěr první části

Všimli jste si, že to všechno ještě není o konfiguraci sítě, ne o designu, ne o síťových protokolech, ne o směrování, ne o bezpečnosti... Je to něco kolem. Ale ty, ač možná nudné, jsou samozřejmě velmi důležité prvky práce síťové divize.

Jak vidíte, zatím jste ve své síti nic nevylepšili. Pokud tam byly chyby zabezpečení, pak zůstaly; pokud byl špatný design, pak zůstal. Dokud neuplatníte své dovednosti a znalosti síťového inženýra, na které jste s největší pravděpodobností vynaložili velké množství času, úsilí a někdy i peněz. Nejprve však musíte vytvořit (nebo posílit) základy a pak začít stavět.

Následující části vám řeknou, jak najít a odstranit chyby a poté zlepšit vaši infrastrukturu.

Samozřejmě nemusíte dělat vše postupně. Čas může být kritický. Udělejte to paralelně, pokud to zdroje dovolí.

A důležitý doplněk. Komunikujte, ptejte se, konzultujte se svým týmem. Jsou to nakonec oni, kdo tohle všechno podporují a dělají.

Zdroj: www.habr.com

Přidat komentář