Cum să preiei controlul asupra infrastructurii de rețea. Capitolul întâi. Ține

Acest articol este primul dintr-o serie de articole „Cum să preia controlul asupra infrastructurii de rețea”. Conținutul tuturor articolelor din serie și link-urile pot fi găsite aici.

Recunosc pe deplin că există un număr suficient de companii în care un timp nefuncțional de o oră sau chiar o zi nu este critic. Din păcate sau din fericire, nu am avut ocazia să lucrez în astfel de locuri. Dar, desigur, rețelele sunt diferite, cerințele sunt diferite, abordările sunt diferite și, totuși, într-o formă sau alta, lista de mai jos în multe cazuri va fi de fapt un „must-do”.

Deci, condițiile inițiale.

Sunteți într-un loc de muncă nou, ați primit o promovare sau ați decis să aruncați o privire nouă asupra responsabilităților dvs. Rețeaua companiei este zona dumneavoastră de responsabilitate. Pentru tine, aceasta este in multe privinte o provocare si noua, ceea ce justifica oarecum tonul de mentorat al acestui articol :). Dar sper că articolul poate fi util și oricărui inginer de rețea.

Primul tău obiectiv strategic este să înveți să reziste entropiei și să menții nivelul de serviciu oferit.

Multe dintre problemele descrise mai jos pot fi rezolvate prin diferite mijloace. Nu ridic în mod deliberat subiectul implementării tehnice, pentru că... în principiu, de multe ori nu este atât de important cum ai rezolvat una sau alta problemă, dar important este cum o folosești și dacă o folosești deloc. De exemplu, sistemul dumneavoastră de monitorizare construit profesional este de puțin folos dacă nu îl priviți și nu răspundeți la alerte.

Оборудование

Mai întâi trebuie să înțelegeți unde sunt cele mai mari riscuri.

Din nou, poate fi diferit. Recunosc că undeva, de exemplu, acestea vor fi probleme de securitate, iar undeva, probleme legate de continuitatea serviciului, și undeva, poate, altceva. De ce nu?

Să presupunem, pentru a fi clar, că aceasta este în continuare continuitate de serviciu (a fost cazul în toate companiile în care am lucrat).

Apoi trebuie să începeți cu echipamentul. Iată o listă de subiecte la care să acordați atenție:

  • clasificarea echipamentelor după gradul de criticitate
  • backup al echipamentelor critice
  • suport, licențe

Trebuie să vă gândiți la posibile scenarii de defecțiune, în special cu echipamentele aflate în fruntea clasificării dvs. de criticitate. De obicei, este neglijată posibilitatea apariției unor probleme duble, altfel soluția și suportul dvs. pot deveni nerezonabil de costisitoare, dar în cazul elementelor de rețea cu adevărat critice, a căror defecțiune ar putea afecta semnificativ afacerea, ar trebui să vă gândiți la asta.

Exemplu

Să presupunem că vorbim despre un comutator rădăcină într-un centru de date.

Deoarece am fost de acord că continuitatea serviciului este cel mai important criteriu, este rezonabil să se ofere backup „fierbinte” (redundanță) a acestui echipament. Dar asta nu este tot. De asemenea, trebuie să decideți cât timp, dacă se rupe primul comutator, este acceptabil să trăiți cu un singur comutator rămas, deoarece există riscul ca și acesta să se rupă.

Important! Nu trebuie să decideți singuri această problemă. Trebuie să descrieți riscurile, soluțiile posibile și costurile pentru management sau managementul companiei. Ei trebuie să ia decizii.

Deci, dacă s-a decis că, având în vedere probabilitatea mică a unei defecțiuni duble, lucrul timp de 4 ore pe un comutator este, în principiu, acceptabil, atunci puteți pur și simplu să luați suportul corespunzător (conform căruia echipamentul va fi înlocuit în 4 ore).

Dar există riscul ca ei să nu ofere. Din păcate, ne-am trezit cândva într-o astfel de situație. În loc de patru ore, echipamentul a călătorit o săptămână!!!

Prin urmare, acest risc trebuie să fie discutat și, poate, va fi mai corect să cumpărați un alt comutator (al treilea) și să îl păstrați într-un pachet de piese de schimb de rezervă („rece”) sau să îl utilizați în scopuri de laborator.

Important! Faceți o foaie de calcul cu tot suportul pe care îl aveți cu date de expirare și adăugați-o în calendarul dvs., astfel încât să primiți un e-mail cu cel puțin o lună în avans în care ar trebui să începeți să vă faceți griji cu privire la reînnoirea suportului.

Nu veți fi iertat dacă uitați să vă reînnoiți asistența și a doua zi după încheierea acestuia se întrerupe hardware-ul.

Munca de urgenta

Orice s-ar întâmpla în rețeaua dvs., în mod ideal ar trebui să mențineți accesul la echipamentul de rețea.

Important! Trebuie să aveți acces la consolă la toate echipamentele și acest acces nu ar trebui să depindă de starea rețelei de date a utilizatorului.

De asemenea, ar trebui să anticipați posibilele scenarii negative în avans și să documentați acțiunile necesare. Disponibilitatea acestui document este, de asemenea, critică, așa că nu ar trebui doar postat pe o resursă comună pentru departament, ci și salvat local pe computerele inginerilor.

Acolo trebuie sa fie

  • informațiile necesare pentru a deschide un bilet cu suport pentru furnizor sau integrator
  • informații despre cum să ajungeți la orice echipament (consolă, management)

Desigur, poate conține și orice alte informații utile, de exemplu, o descriere a procedurii de actualizare pentru diverse echipamente și comenzi utile de diagnosticare.

Afiliați

Acum trebuie să evaluați riscurile asociate partenerilor. De obicei asta

  • Furnizori de internet și puncte de schimb de trafic (IX)
  • furnizorii de canale de comunicare

Ce întrebări ar trebui să îți pui? Ca și în cazul echipamentelor, trebuie luate în considerare diferite scenarii de urgență. De exemplu, pentru furnizorii de internet, ar putea fi ceva de genul:

  • ce se întâmplă dacă furnizorul de internet X încetează să vă ofere servicii dintr-un motiv oarecare?
  • Vor avea alți furnizori suficientă lățime de bandă pentru dvs.?
  • Cât de bună va rămâne conectivitatea?
  • Cât de independenți sunt furnizorii dvs. de internet și o întrerupere gravă a unuia dintre ei va cauza probleme celorlalți?
  • câte intrări optice în centrul dvs. de date?
  • ce se va întâmpla dacă una dintre intrări este complet distrusă?

În ceea ce privește intrările, în practica mea în două firme diferite, în două centre de date diferite, un excavator a distrus puțuri și doar prin minune optica noastră nu a fost afectată. Acesta nu este un caz atât de rar.

Și, desigur, nu trebuie doar să puneți aceste întrebări, ci, din nou, cu sprijinul conducerii, să oferiți o soluție acceptabilă în orice situație.

Backup

Următoarea prioritate poate fi o copie de rezervă a configurațiilor echipamentelor. În orice caz, acesta este un punct foarte important. Nu voi enumera acele cazuri în care puteți pierde configurația; este mai bine să faceți copii de rezervă regulate și să nu vă gândiți la asta. În plus, backup-urile regulate pot fi foarte utile în monitorizarea modificărilor.

Important! Faceți copii de rezervă zilnic. Aceasta nu este o cantitate atât de mare de date pentru a salva în acest sens. Dimineața, inginerul de serviciu (sau dvs.) ar trebui să primească un raport de la sistem, care indică clar dacă backup-ul a avut succes sau nu, iar dacă backup-ul nu a avut succes, problema ar trebui rezolvată sau trebuie creat un bilet ( vezi procesele departamentului de rețea).

Versiuni de software

Întrebarea dacă merită sau nu actualizarea software-ului echipamentului nu este atât de clară. Pe de o parte, versiunile vechi sunt erori și vulnerabilități cunoscute, dar, pe de altă parte, noul software este, în primul rând, nu întotdeauna o procedură de actualizare nedureroasă și, în al doilea rând, noi erori și vulnerabilități.

Aici trebuie să găsiți cea mai bună opțiune. Câteva recomandări evidente

  • instalați numai versiuni stabile
  • Totuși, nu ar trebui să trăiești cu versiuni foarte vechi de software
  • faceți un semn cu informații despre unde se află un software
  • citiți periodic rapoarte despre vulnerabilități și erori în versiunile de software, iar în cazul unor probleme critice, ar trebui să vă gândiți la actualizarea

În această etapă, având acces în consolă la echipament, informații despre suport și o descriere a procedurii de upgrade, ești, în principiu, pregătit pentru acest pas. Opțiunea ideală este atunci când ai echipament de laborator unde poți verifica întreaga procedură, dar, din păcate, acest lucru nu se întâmplă des.

În cazul echipamentelor critice, puteți contacta serviciul de asistență al furnizorului cu o solicitare pentru a vă ajuta cu actualizarea.

Sistemul de bilete

Acum poți să te uiți în jur. Trebuie să stabiliți procese de interacțiune cu alte departamente și în cadrul departamentului.

Acest lucru poate să nu fie necesar (de exemplu, dacă compania dumneavoastră este mică), dar aș recomanda cu căldură să organizați munca în așa fel încât toate sarcinile externe și interne să treacă prin sistemul de bilete.

Sistemul de bilete este în esență interfața dumneavoastră pentru comunicațiile interne și externe și ar trebui să descrieți această interfață suficient de detaliat.

Să luăm un exemplu de sarcină importantă și comună de deschidere a accesului. Voi descrie un algoritm care a funcționat perfect într-una dintre companii.

Exemplu

Să începem cu faptul că de multe ori clienții care au acces își formulează dorințele într-un limbaj de neînțeles pentru un inginer de rețea, și anume, în limba aplicației, de exemplu, „dați-mi acces la 1C”.

Prin urmare, nu am acceptat niciodată solicitări direct de la astfel de utilizatori.
Și asta a fost prima cerință

  • cererile de acces ar trebui să vină de la departamentele tehnice (în cazul nostru acestea au fost ingineri unix, windows, helpdesk)

A doua cerință este aceea că

  • acest acces trebuie înregistrat (de către departamentul tehnic de la care am primit această solicitare) și ca cerere primim un link către acest acces înregistrat

Forma acestei cereri trebuie să ne fie de înțeles, adică.

  • cererea trebuie să conțină informații despre ce subrețea și la ce subrețea ar trebui să fie deschis accesul, precum și protocolul și (în cazul tcp/udp) porturile

Ar trebui indicat și acolo

  • descrierea motivului pentru care este deschis acest acces
  • temporar sau permanent (dacă este temporar, până la ce dată)

Și un punct foarte important sunt aprobările

  • de la șeful departamentului care a inițiat accesul (de exemplu, contabilitate)
  • de la șeful departamentului tehnic, de unde a venit această solicitare către departamentul de rețea (de exemplu, helpdesk)

În acest caz, „proprietarul” acestui acces este considerat a fi șeful departamentului care a inițiat accesul (contabilitatea în exemplul nostru) și este responsabil să se asigure că pagina cu acces logat pentru acest departament rămâne actualizată. .

Logare

Acesta este ceva în care te poți îneca. Dar dacă doriți să implementați o abordare proactivă, atunci trebuie să învățați cum să faceți față acestui potop de date.

Iată câteva recomandări practice:

  • trebuie să revizuiți jurnalele zilnic
  • în cazul unei revizuiri planificate (și nu a unei situații de urgență), vă puteți limita la nivelurile de severitate 0, 1, 2 și puteți adăuga modele selectate de la alte niveluri dacă considerați că este necesar
  • scrieți un script care analizează jurnalele și ignoră acele jurnale ale căror modele le-ați adăugat la lista de ignorare

Această abordare vă va permite, în timp, să creați o listă de ignorare a jurnalelor care nu sunt interesante pentru dvs. și să lăsați doar pe cele pe care le considerați cu adevărat importante.
A funcționat grozav pentru noi.

monitorizarea

Nu este neobișnuit ca o companie să nu aibă un sistem de monitorizare. Vă puteți baza, de exemplu, pe jurnale, dar echipamentul poate pur și simplu „să moară” fără a avea timp să „spună” ceva, sau pachetul de protocol udp syslog se poate pierde și nu ajunge. În general, desigur, monitorizarea activă este importantă și necesară.

Cele mai populare două exemple din practica mea:

  • monitorizarea încărcării canalelor de comunicare, a legăturilor critice (de exemplu, conectarea la furnizori). Acestea vă permit să vedeți în mod proactiv potențiala problemă a degradării serviciului din cauza pierderii traficului și, în consecință, să o evitați.
  • grafice bazate pe NetFlow. Ele facilitează găsirea anomaliilor în trafic și sunt foarte utile pentru detectarea unor tipuri simple, dar semnificative de atacuri de hacker.

Important! Configurați notificări prin SMS pentru cele mai critice evenimente. Acest lucru este valabil atât pentru monitorizare, cât și pentru înregistrare. Dacă nu aveți un schimb de serviciu, atunci sms-urile ar trebui să sosească și în afara programului de lucru.

Gândește-te la proces în așa fel încât să nu trezești toți inginerii. Aveam un inginer de serviciu pentru asta.

Schimba controlul

În opinia mea, nu este necesar să controlăm toate schimbările. Dar, în orice caz, ar trebui să puteți, dacă este necesar, să găsiți cu ușurință cine a făcut anumite modificări în rețea și de ce.

Câteva sfaturi:

  • utilizați un sistem de bilete pentru a detalia ce sa făcut pe acel bilet, de exemplu prin copierea configurației aplicate în bilet
  • utilizați capabilitățile de comentarii pe echipamentele de rețea (de exemplu, comite comentarii pe Juniper). Puteți nota numărul biletului
  • utilizați diferența din backup-urile de configurare

Puteți implementa acest lucru ca un proces, revizuind zilnic toate biletele pentru modificări.

Procesele

Trebuie să formalizați și să descrieți procesele din echipa dvs. Dacă ați ajuns în acest punct, atunci echipa dvs. ar trebui să aibă deja cel puțin următoarele procese în funcțiune:

Procese zilnice:

  • lucrul cu bilete
  • lucrul cu jurnalele
  • schimba controlul
  • fisa de control zilnic

Procese anuale:

  • prelungire de garanții, licențe

Procese asincrone:

  • răspuns la diferite situații de urgență

Concluzia primei părți

Ați observat că toate acestea nu sunt încă despre configurarea rețelei, nu despre design, nu despre protocoale de rețea, nu despre rutare, nu despre securitate... Este ceva în jur. Dar acestea, deși poate plictisitoare, sunt, desigur, elemente foarte importante ale activității unei divizii de rețea.

Până acum, după cum puteți vedea, nu ați îmbunătățit nimic în rețeaua dvs. Dacă au existat vulnerabilități de securitate, atunci acestea au rămas; dacă a existat un design prost, atunci a rămas. Până când ți-ai aplicat abilitățile și cunoștințele ca inginer de rețea, pe care cel mai probabil ai cheltuit o cantitate mare de timp, efort și uneori bani. Dar mai întâi trebuie să creați (sau să întăriți) fundația și apoi să începeți să construiți.

Următoarele părți vă vor spune cum să găsiți și să eliminați erorile, apoi să vă îmbunătățiți infrastructura.

Desigur, nu trebuie să faci totul secvenţial. Timpul poate fi critic. Fă-o în paralel dacă resursele permit.

Și un plus important. Comunicați, întrebați, consultați-vă cu echipa. Până la urmă, ei sunt cei care susțin și fac toate acestea.

Sursa: www.habr.com

Adauga un comentariu