Ako prevziať kontrolu nad sieťovou infraštruktúrou. Prvá kapitola. Počkať

Tento článok je prvým zo série článkov „Ako prevziať kontrolu nad sieťovou infraštruktúrou“. Obsah všetkých článkov v sérii a odkazy nájdete tu.

Plne pripúšťam, že existuje dostatočný počet spoločností, kde výpadok siete v dĺžke jednej hodiny alebo dokonca jedného dňa nie je kritický. Bohužiaľ alebo našťastie som nemal možnosť pracovať na takýchto miestach. Ale, samozrejme, siete sú odlišné, požiadavky sú odlišné, prístupy sú odlišné, a napriek tomu v tej či onej forme bude nižšie uvedený zoznam v mnohých prípadoch skutočne „povinnosťou“.

Takže počiatočné podmienky.

Ste v novej práci, dostali ste povýšenie alebo ste sa rozhodli nanovo pozrieť na svoje povinnosti. Sieť spoločnosti je vašou oblasťou zodpovednosti. Pre vás je to v mnohých smeroch výzva a novinka, ktorá tak trochu ospravedlňuje mentorský tón tohto článku :). Ale dúfam, že článok môže byť užitočný aj pre každého sieťového inžiniera.

Vaším prvým strategickým cieľom je naučiť sa odolávať entropii a udržiavať úroveň poskytovaných služieb.

Mnohé z problémov opísaných nižšie možno vyriešiť rôznymi spôsobmi. Zámerne nenastoľujem tému technickej realizácie, pretože... v princípe často nie je až také dôležité, ako ste ten či onen problém vyriešili, ale dôležité je, ako ho používate a či ho vôbec používate. Napríklad váš profesionálne vytvorený monitorovací systém je málo užitočný, ak sa naň nepozeráte a nereagujete na upozornenia.

Оборудование

Najprv musíte pochopiť, kde sú najväčšie riziká.

Opäť to môže byť inak. Pripúšťam, že niekde to budú napríklad otázky bezpečnosti, niekde problémy súvisiace s kontinuitou služby a niekde možno niečo iné. Prečo nie?

Predpokladajme, aby bolo jasné, že ide stále o kontinuitu služby (tak to bolo vo všetkých spoločnostiach, kde som pracoval).

Potom musíte začať s vybavením. Tu je zoznam tém, ktorým treba venovať pozornosť:

  • klasifikácia zariadení podľa stupňa kritickosti
  • zálohovanie kritických zariadení
  • podpora, licencie

Musíte si premyslieť možné scenáre zlyhania, najmä so zariadením na vrchole vašej klasifikácie kritickosti. Väčšinou sa zanedbáva možnosť dvojitých problémov, inak sa vaše riešenie a podpora môžu neprimerane predražiť, no v prípade skutočne kritických sieťových prvkov, ktorých výpadok by mohol výrazne ovplyvniť biznis, by ste na to mali myslieť.

Príklad

Povedzme, že hovoríme o koreňovom prepínači v dátovom centre.

Keďže sme sa zhodli, že najdôležitejším kritériom je kontinuita služby, je rozumné poskytnúť „horúcu“ zálohu (redundanciu) tohto zariadenia. To však nie je všetko. Musíte sa tiež rozhodnúť, ako dlho, ak sa pokazí prvý spínač, je pre vás prijateľné žiť iba s jedným zostávajúcim spínačom, pretože existuje riziko, že sa pokazí tiež.

Dôležité! O tomto probléme nemusíte rozhodovať sami. Vedeniu alebo vedeniu spoločnosti musíte popísať riziká, možné riešenia a náklady. Musia robiť rozhodnutia.

Ak sa teda rozhodlo, že vzhľadom na malú pravdepodobnosť dvojitého zlyhania je práca 4 hodín na jednom spínači v zásade prijateľná, môžete si jednoducho vziať príslušnú podporu (podľa ktorej bude zariadenie vymenené do 4 hodiny).

Existuje však riziko, že nedoručia. Žiaľ, raz sme sa ocitli v takejto situácii. Zariadenie namiesto štyroch hodín cestovalo týždeň!!!

Preto je potrebné diskutovať aj o tomto riziku a možno bude pre vás správnejšie kúpiť si ďalší spínač (tretí) a uchovávať ho v balení náhradných dielov (“studená” záloha) alebo ho použiť na laboratórne účely.

Dôležité! Urobte si tabuľku všetkej podpory, ktorú máte, s dátumami vypršania platnosti a pridajte si ju do kalendára, aby ste aspoň mesiac vopred dostali e-mail, že by ste sa mali začať obávať o obnovenie podpory.

Nebude vám odpustené, ak si zabudnete obnoviť podporu a deň po jej skončení sa vám hardvér pokazí.

Pohotovostné práce

Čokoľvek sa deje vo vašej sieti, v ideálnom prípade by ste si mali zachovať prístup k sieťovému zariadeniu.

Dôležité! Musíte mať konzolový prístup ku všetkým zariadeniam a tento prístup by nemal závisieť od stavu používateľskej dátovej siete.

Mali by ste tiež vopred predvídať možné negatívne scenáre a zdokumentovať potrebné kroky. Dostupnosť tohto dokumentu je tiež kritická, takže by nemal byť len zverejnený v zdieľanom zdroji pre oddelenie, ale aj uložený lokálne na počítačoch inžinierov.

Musí byť

  • informácie potrebné na otvorenie tiketu s podporou dodávateľa alebo integrátora
  • informácie o tom, ako sa dostať k akémukoľvek zariadeniu (konzola, správa)

Samozrejme môže obsahovať aj ďalšie užitočné informácie, napríklad popis postupu aktualizácie rôznych zariadení a užitočné diagnostické príkazy.

Pobočky

Teraz musíte posúdiť riziká spojené s partnermi. Zvyčajne toto

  • Poskytovatelia internetu a body výmeny návštevnosti (IX)
  • poskytovateľov komunikačných kanálov

Aké otázky by ste si mali položiť? Rovnako ako v prípade vybavenia je potrebné zvážiť rôzne núdzové scenáre. Napríklad pre poskytovateľov internetu to môže byť niečo ako:

  • čo sa stane, ak vám poskytovateľ internetu X z nejakého dôvodu prestane poskytovať službu?
  • Budú mať pre vás ostatní poskytovatelia dostatočnú šírku pásma?
  • Aká dobrá zostane konektivita?
  • Ako nezávislí sú vaši poskytovatelia internetu a spôsobí vážny výpadok jedného z nich problémy s ostatnými?
  • koľko optických vstupov do vášho dátového centra?
  • čo sa stane, ak sa jeden zo vstupov úplne zničí?

Čo sa týka vstupov, v mojej praxi v dvoch rôznych firmách, v dvoch rôznych dátových centrách bager zničil studne a len zázrakom to nezasiahlo našu optiku. Nie je to až taký ojedinelý prípad.

A samozrejme, tieto otázky si musíte nielen klásť, ale opäť s podporou manažmentu poskytnúť prijateľné riešenie v každej situácii.

Zálohovanie

Ďalšou prioritou môže byť záloha konfigurácií zariadení. V každom prípade je to veľmi dôležitý bod. Nebudem uvádzať prípady, kedy môžete stratiť konfiguráciu, je lepšie robiť pravidelné zálohy a nemyslieť na to. Pravidelné zálohovanie môže byť navyše veľmi užitočné pri sledovaní zmien.

Dôležité! Robte zálohy denne. Nie je to také veľké množstvo údajov, aby ste na tom ušetrili. Ráno by mal službukonajúci technik (alebo vy) dostať zo systému správu, ktorá jasne uvádza, či záloha prebehla úspešne alebo nie, a ak bola záloha neúspešná, problém by sa mal vyriešiť alebo by sa mal vytvoriť lístok ( pozri procesy sieťového oddelenia).

Verzie softvéru

Otázka, či sa oplatí upgradovať softvér zariadenia alebo nie, nie je taká jednoznačná. Na jednej strane sú staré verzie známymi chybami a zraniteľnosťami, no na druhej strane nový softvér je po prvé nie vždy bezbolestný postup aktualizácie a po druhé, nové chyby a zraniteľnosti.

Tu musíte nájsť najlepšiu možnosť. Niekoľko zrejmých odporúčaní

  • inštalovať iba stabilné verzie
  • Napriek tomu by ste nemali žiť na veľmi starých verziách softvéru
  • urobte znamenie s informáciami o tom, kde sa nachádza nejaký softvér
  • pravidelne čítajte správy o zraniteľnostiach a chybách vo verziách softvéru a v prípade kritických problémov by ste mali premýšľať o aktualizácii

V tejto fáze, keď máte konzolový prístup k zariadeniu, informácie o podpore a popis postupu aktualizácie, ste v zásade pripravení na tento krok. Ideálnou možnosťou je, keď máte laboratórne vybavenie, kde si môžete celý postup skontrolovať, ale, žiaľ, nestáva sa to často.

V prípade kritického vybavenia sa môžete obrátiť na podporu predajcu so žiadosťou, aby vám pomohla s inováciou.

Systém lístkov

Teraz sa môžete rozhliadnuť. Musíte vytvoriť procesy pre interakciu s inými oddeleniami a v rámci oddelenia.

Možno to nebude potrebné (napríklad ak je vaša firma malá), ale veľmi by som odporučil organizovať si prácu tak, aby všetky externé a interné úlohy prešli lístkovým systémom.

Systém lístkov je v podstate vaše rozhranie pre internú a externú komunikáciu a toto rozhranie by ste mali opísať dostatočne podrobne.

Zoberme si príklad dôležitej a bežnej úlohy otvorenia prístupu. Popíšem algoritmus, ktorý perfektne fungoval v jednej z firiem.

Príklad

Začnime tým, že zákazníci s prístupom často formulujú svoje túžby v jazyku nezrozumiteľnom pre sieťového inžiniera, konkrétne v jazyku aplikácie, napríklad „poskytnite mi prístup k 1C“.

Preto sme nikdy neprijímali žiadosti priamo od takýchto používateľov.
A to bola prvá požiadavka

  • žiadosti o prístup by mali pochádzať od technických oddelení (v našom prípade to boli inžinieri unix, windows, helpdesk)

Druhá požiadavka je taká

  • tento prístup musí byť zaprotokolovaný (technickým oddelením, od ktorého sme túto žiadosť dostali) a ako žiadosť dostaneme odkaz na tento prihlásený prístup

Forma tejto žiadosti musí byť pre nás zrozumiteľná, t.j.

  • požiadavka musí obsahovať informácie o tom, ktorá podsieť a do ktorej podsiete má byť otvorený prístup, ako aj protokol a (v prípade tcp/udp) porty

Malo by to tam byť tiež uvedené

  • popis, prečo je tento prístup otvorený
  • dočasné alebo trvalé (ak dočasné, do akého dátumu)

A veľmi dôležitým bodom sú schválenia

  • od vedúceho oddelenia, ktoré iniciovalo prístup (napríklad účtovníctvo)
  • od vedúceho technického oddelenia, odkiaľ prišla táto požiadavka na sieťové oddelenie (napríklad helpdesk)

V tomto prípade sa za „majiteľa“ tohto prístupu považuje vedúci oddelenia, ktoré iniciovalo prístup (v našom príklade účtovníctvo), a je zodpovedný za to, aby stránka s prihláseným prístupom pre toto oddelenie zostala aktuálna. .

Ťažba dreva

Toto je niečo, v čom sa môžete utopiť. Ak však chcete zaviesť proaktívny prístup, musíte sa naučiť, ako sa vysporiadať s touto záplavou údajov.

Tu je niekoľko praktických odporúčaní:

  • musíte denne kontrolovať denníky
  • v prípade plánovanej kontroly (a nie núdzovej situácie) sa môžete obmedziť na úrovne závažnosti 0, 1, 2 a pridať vybrané vzory z iných úrovní, ak to považujete za potrebné
  • napíšte skript, ktorý analyzuje protokoly a ignoruje tie protokoly, ktorých vzory ste pridali do zoznamu ignorovaných

Tento prístup vám časom umožní vytvoriť ignorovaný zoznam protokolov, ktoré vás nezaujímajú, a ponechať len tie, ktoré skutočne považujete za dôležité.
U nás to fungovalo výborne.

monitorovanie

Nie je nezvyčajné, že firme chýba monitorovací systém. Môžete sa napríklad spoľahnúť na protokoly, ale zariadenie môže jednoducho „zomrieť“ bez toho, aby malo čas čokoľvek „povedať“, alebo sa paket protokolu udp syslog stratí a nedorazí. Vo všeobecnosti je samozrejme dôležité a potrebné aktívne sledovanie.

Dva najpopulárnejšie príklady v mojej praxi:

  • sledovanie vyťaženia komunikačných kanálov, kritických prepojení (napríklad pripojenie k poskytovateľom). Umožňujú vám proaktívne vidieť potenciálny problém zhoršenia služieb v dôsledku straty prevádzky, a teda sa mu vyhnúť.
  • grafy založené na NetFlow. Uľahčujú vyhľadávanie anomálií v premávke a sú veľmi užitočné na odhaľovanie niektorých jednoduchých, ale významných typov hackerských útokov.

Dôležité! Nastavte si SMS upozornenia na najkritickejšie udalosti. Platí to pre monitorovanie aj protokolovanie. Ak nemáte brigádu, tak by mala prísť sms aj mimo pracovnej doby.

Premýšľajte o procese tak, aby ste nezobudili všetkých inžinierov. Mali sme na to službukonajúceho inžiniera.

Zmeniť ovládanie

Podľa mňa nie je potrebné kontrolovať všetky zmeny. V každom prípade by ste však mali byť schopní v prípade potreby ľahko zistiť, kto a prečo vykonal určité zmeny v sieti.

Niekoľko tipov:

  • použiť systém lístkov na podrobné informácie o tom, čo sa na tomto lístku urobilo, napríklad skopírovaním použitej konfigurácie do lístka
  • použiť možnosti komentárov na sieťovom zariadení (napríklad odovzdať komentár na Juniper). Môžete si zapísať číslo lístka
  • použite rozdiel záloh vašej konfigurácie

Môžete to implementovať ako proces, ktorý denne kontroluje zmeny všetkých lístkov.

procesy

Musíte formalizovať a opísať procesy vo vašom tíme. Ak ste dosiahli tento bod, váš tím by už mal mať spustené aspoň nasledujúce procesy:

Denné procesy:

  • práca s lístkami
  • práca s logami
  • ovládanie zmeny
  • denný kontrolný hárok

Ročné procesy:

  • predĺženie záruk, licencií

Asynchrónne procesy:

  • reakcie na rôzne núdzové situácie

Záver prvej časti

Všimli ste si, že toto všetko ešte nie je o konfigurácii siete, nie o dizajne, nie o sieťových protokoloch, nie o smerovaní, nie o bezpečnosti... Je to niečo okolo. Ale tieto, aj keď možno nudné, sú, samozrejme, veľmi dôležitými prvkami práce sieťovej divízie.

Ako vidíte, zatiaľ ste vo svojej sieti nič nezlepšili. Ak existovali bezpečnostné chyby, zostali, ak bol zlý dizajn, zostali. Až kým neuplatníte svoje schopnosti a znalosti ako sieťový inžinier, na čo ste s najväčšou pravdepodobnosťou vynaložili veľké množstvo času, úsilia a niekedy aj peňazí. Najprv však musíte vytvoriť (alebo posilniť) základ a potom začať s výstavbou.

Nasledujúce časti vám povedia, ako nájsť a odstrániť chyby a potom zlepšiť vašu infraštruktúru.

Samozrejme, nemusíte robiť všetko postupne. Čas môže byť kritický. Urobte to paralelne, ak to zdroje dovoľujú.

A dôležitý doplnok. Komunikujte, pýtajte sa, konzultujte so svojím tímom. V konečnom dôsledku sú to oni, ktorí toto všetko podporujú a robia.

Zdroj: hab.com

Pridať komentár