Si të merrni kontrollin e infrastrukturës së rrjetit tuaj. Kapitulli i parë. Mbaje

Ky artikull është i pari në një seri artikujsh "Si të merrni kontrollin e infrastrukturës së rrjetit tuaj". Përmbajtja e të gjithë artikujve në seri dhe lidhjet mund të gjenden këtu.

E pranoj plotësisht se ka një numër të mjaftueshëm kompanish ku një ndërprerje e rrjetit prej një ore apo edhe një ditë nuk është kritike. Fatkeqësisht apo fatmirësisht nuk kam pasur mundësi të punoj në vende të tilla. Por, sigurisht, rrjetet janë të ndryshme, kërkesat janë të ndryshme, qasjet janë të ndryshme, dhe megjithatë, në një formë ose në një tjetër, lista e mëposhtme në shumë raste do të jetë në të vërtetë një "duhet bërë".

Pra, kushtet fillestare.

Jeni në një punë të re, keni marrë një promovim ose keni vendosur t'i hidhni një vështrim të ri përgjegjësive tuaja. Rrjeti i kompanisë është fusha juaj e përgjegjësisë. Për ju, kjo është në shumë mënyra një sfidë dhe e re, e cila justifikon disi tonin mentorues të këtij artikulli :). Por shpresoj se artikulli mund të jetë gjithashtu i dobishëm për çdo inxhinier rrjeti.

Qëllimi juaj i parë strategjik është të mësoni t'i rezistoni entropisë dhe të ruani nivelin e shërbimit të ofruar.

Shumë nga problemet e përshkruara më poshtë mund të zgjidhen me mjete të ndryshme. Unë qëllimisht nuk e ngre temën e zbatimit teknik, sepse... në parim, shpesh nuk është aq e rëndësishme se si e keni zgjidhur këtë apo atë problem, por ajo që është e rëndësishme është se si e përdorni dhe nëse e përdorni fare. Për shembull, sistemi juaj i monitorimit i ndërtuar në mënyrë profesionale ka pak përdorim nëse nuk e shikoni dhe nuk i përgjigjeni sinjalizimeve.

Оборудование

Së pari ju duhet të kuptoni se ku janë rreziqet më të mëdha.

Përsëri, mund të jetë ndryshe. E pranoj që diku, p.sh., këto do të jenë çështje sigurie, diku, çështje që lidhen me vazhdimësinë e shërbimit dhe diku, ndoshta, diçka tjetër. Pse jo?

Le të supozojmë, për të qenë të qartë, se kjo është ende vazhdimësi shërbimi (kështu ka qenë në të gjitha kompanitë ku kam punuar).

Pastaj duhet të filloni me pajisjet. Këtu është një listë e temave që duhet t'i kushtoni vëmendje:

  • klasifikimi i pajisjeve sipas shkallës së kritikitetit
  • kopje rezervë e pajisjeve kritike
  • mbështetje, licenca

Ju duhet të mendoni për skenarët e mundshëm të dështimit, veçanërisht me pajisjet në krye të klasifikimit tuaj kritik. Zakonisht, mundësia e problemeve të dyfishta neglizhohet, përndryshe zgjidhja dhe mbështetja juaj mund të kushtojnë në mënyrë të paarsyeshme, por në rastin e elementëve vërtet kritikë të rrjetit, dështimi i të cilëve mund të ndikojë ndjeshëm në biznes, duhet të mendoni për këtë.

Shembull

Le të themi se po flasim për një ndërprerës rrënjë në një qendër të dhënash.

Meqenëse ne ramë dakord që vazhdimësia e shërbimit është kriteri më i rëndësishëm, është e arsyeshme të sigurohet një kopje rezervë "hot" (tepricë) e kësaj pajisjeje. Por kjo nuk është e gjitha. Ju gjithashtu duhet të vendosni për sa kohë, nëse ndërprerësi i parë prishet, a është e pranueshme që ju të jetoni vetëm me një çelës të mbetur, sepse ekziston rreziku që edhe ai të prishet.

E rëndësishme! Ju nuk duhet ta vendosni vetë këtë çështje. Ju duhet të përshkruani rreziqet, zgjidhjet e mundshme dhe kostot për menaxhimin ose menaxhimin e kompanisë. Ata duhet të marrin vendime.

Pra, nëse u vendos që, duke pasur parasysh probabilitetin e vogël të një dështimi të dyfishtë, puna për 4 orë në një ndërprerës është, në parim, e pranueshme, atëherë thjesht mund të merrni mbështetjen e duhur (sipas së cilës pajisjet do të zëvendësohen brenda 4 orë).

Por ekziston rreziku që ata të mos japin. Fatkeqësisht, dikur u gjendëm në një situatë të tillë. Në vend të katër orësh, pajisjet udhëtuan për një javë!!!

Prandaj, edhe ky rrezik duhet të diskutohet dhe, ndoshta, do të jetë më e saktë që ju të blini një çelës tjetër (të tretë) dhe ta mbani atë në një paketë pjesësh këmbimi (rezervë "e ftohtë") ose ta përdorni për qëllime laboratorike.

E rëndësishme! Bëni një tabelë të të gjithë mbështetjes që keni me datat e skadencës dhe shtojeni në kalendarin tuaj në mënyrë që të merrni një email të paktën një muaj përpara se duhet të filloni të shqetësoheni për rinovimin e mbështetjes suaj.

Nuk do të faleni nëse harroni të rinovoni mbështetjen tuaj dhe një ditë pas përfundimit të saj prishet hardueri.

Punë emergjente

Çfarëdo që të ndodhë në rrjetin tuaj, në mënyrë ideale ju duhet të ruani aksesin në pajisjet e rrjetit tuaj.

E rëndësishme! Duhet të keni akses në tastierë në të gjitha pajisjet dhe kjo qasje nuk duhet të varet nga shëndeti i rrjetit të të dhënave të përdoruesit.

Ju gjithashtu duhet të parashikoni paraprakisht skenarë të mundshëm negativë dhe të dokumentoni veprimet e nevojshme. Disponueshmëria e këtij dokumenti është gjithashtu kritike, kështu që ai jo vetëm që duhet të postohet në një burim të përbashkët për departamentin, por edhe të ruhet në nivel lokal në kompjuterët e inxhinierëve.

Duhet të ketë

  • informacioni i kërkuar për të hapur një biletë me mbështetjen e shitësit ose integruesit
  • informacion se si të arrini në ndonjë pajisje (konsolë, menaxhim)

Sigurisht, ai mund të përmbajë gjithashtu çdo informacion tjetër të dobishëm, për shembull, një përshkrim të procedurës së përmirësimit për pajisje të ndryshme dhe komanda të dobishme diagnostikuese.

Affiliates

Tani ju duhet të vlerësoni rreziqet që lidhen me partnerët. Zakonisht kjo

  • Ofruesit e internetit dhe pikat e shkëmbimit të trafikut (IX)
  • ofruesit e kanaleve të komunikimit

Çfarë pyetjesh duhet t'i bëni vetes? Ashtu si me pajisjet, duhet të merren parasysh skenarë të ndryshëm emergjence. Për shembull, për ofruesit e internetit, mund të jetë diçka si:

  • çfarë ndodh nëse ofruesi i internetit X ndalon së ofruari shërbimin për ndonjë arsye?
  • A do të kenë ofruesit e tjerë gjerësi bande të mjaftueshme për ju?
  • Sa e mirë do të mbetet lidhja?
  • Sa të pavarur janë ofruesit tuaj të internetit dhe a do të shkaktojë një ndërprerje serioze e njërit prej tyre probleme me të tjerët?
  • sa hyrje optike në qendrën tuaj të të dhënave?
  • çfarë do të ndodhë nëse një nga inputet shkatërrohet plotësisht?

Për sa i përket inputeve, në praktikën time në dy kompani të ndryshme, në dy qendra të ndryshme të dhënash, një ekskavator shkatërroi puse dhe vetëm për mrekulli optika jonë nuk u prek. Ky nuk është një rast kaq i rrallë.

Dhe, sigurisht, ju nuk duhet vetëm t'i bëni këto pyetje, por, përsëri, me mbështetjen e menaxhmentit, të ofroni një zgjidhje të pranueshme në çdo situatë.

Rezervimi

Prioriteti tjetër mund të jetë një kopje rezervë e konfigurimeve të pajisjeve. Në çdo rast, kjo është një pikë shumë e rëndësishme. Unë nuk do të rendis ato raste kur mund të humbni konfigurimin; është më mirë të bëni kopje rezervë të rregullt dhe të mos mendoni për të. Përveç kësaj, kopjet rezervë të rregullta mund të jenë shumë të dobishme në monitorimin e ndryshimeve.

E rëndësishme! Bëni kopje rezervë çdo ditë. Kjo nuk është një sasi aq e madhe e të dhënave për të kursyer në këtë. Në mëngjes, inxhinieri në detyrë (ose ju) duhet të marrë një raport nga sistemi, i cili tregon qartë nëse kopjimi ishte i suksesshëm apo jo, dhe nëse rezervimi ishte i pasuksesshëm, problemi duhet të zgjidhet ose duhet të krijohet një biletë ( shih proceset e departamentit të rrjetit).

Versionet e softuerit

Çështja nëse ia vlen apo jo përmirësimi i softuerit të pajisjeve nuk është aq e qartë. Nga njëra anë, versionet e vjetra janë gabime dhe dobësi të njohura, por nga ana tjetër, softueri i ri, së pari, nuk është gjithmonë një procedurë përmirësimi pa dhimbje, dhe së dyti, defekte dhe dobësi të reja.

Këtu ju duhet të gjeni opsionin më të mirë. Disa rekomandime të qarta

  • instaloni vetëm versione të qëndrueshme
  • Megjithatë, nuk duhet të jetoni në versione shumë të vjetra të softuerit
  • bëni një shenjë me informacion se ku ndodhet disa softuer
  • lexoni periodikisht raportet mbi dobësitë dhe gabimet në versionet e softuerit dhe në rast të problemeve kritike, duhet të mendoni për përmirësimin

Në këtë fazë, duke pasur akses në tastierë në pajisje, informacione rreth mbështetjes dhe një përshkrim të procedurës së përmirësimit, ju jeni, në parim, gati për këtë hap. Opsioni ideal është kur keni pajisje laboratorike ku mund të kontrolloni të gjithë procedurën, por, për fat të keq, kjo nuk ndodh shpesh.

Në rastin e pajisjeve kritike, mund të kontaktoni mbështetjen e shitësit me një kërkesë për t'ju ndihmuar me përmirësimin.

Sistemi i biletave

Tani mund të shikoni përreth. Ju duhet të krijoni procese për ndërveprim me departamentet e tjera dhe brenda departamentit.

Kjo mund të mos jetë e nevojshme (për shembull, nëse kompania juaj është e vogël), por unë do të rekomandoja shumë organizimin e punës në atë mënyrë që të gjitha detyrat e jashtme dhe të brendshme të kalojnë përmes sistemit të biletave.

Sistemi i biletave është në thelb ndërfaqja juaj për komunikimet e brendshme dhe të jashtme, dhe ju duhet ta përshkruani këtë ndërfaqe në detaje të mjaftueshme.

Le të marrim një shembull të një detyre të rëndësishme dhe të zakonshme të hapjes së aksesit. Unë do të përshkruaj një algoritëm që funksionoi në mënyrë të përsosur në një nga kompanitë.

Shembull

Le të fillojmë me faktin se shpesh klientët e aksesit formulojnë dëshirat e tyre në një gjuhë të pakuptueshme për një inxhinier rrjeti, domethënë, në gjuhën e aplikacionit, për shembull, "më jep akses në 1C".

Prandaj, ne kurrë nuk kemi pranuar kërkesa drejtpërdrejt nga përdorues të tillë.
Dhe kjo ishte kërkesa e parë

  • Kërkesat për akses duhet të vijnë nga departamentet teknike (në rastin tonë këto ishin inxhinierë unix, Windows, Helpdesk)

Kërkesa e dytë është ajo

  • kjo qasje duhet të regjistrohet (nga departamenti teknik nga e kemi marrë këtë kërkesë) dhe si kërkesë marrim një lidhje me këtë akses të regjistruar

Forma e kësaj kërkese duhet të jetë e kuptueshme për ne, d.m.th.

  • kërkesa duhet të përmbajë informacione se cila nënrrjet dhe në cilën nënrrjet duhet të jetë e hapur, si dhe protokollin dhe portet (në rastin e tcp/udp).

Duhet gjithashtu të tregohet atje

  • përshkrimi se pse është hapur kjo qasje
  • e përkohshme ose e përhershme (nëse është e përkohshme, deri në cilën datë)

Dhe një pikë shumë e rëndësishme janë miratimet

  • nga drejtuesi i departamentit që ka iniciuar aksesin (për shembull, kontabiliteti)
  • nga shefi i departamentit teknik, nga ku kjo kërkesë erdhi në departamentin e rrjetit (për shembull, Helpdesk)

Në këtë rast, "pronari" i kësaj aksesi konsiderohet të jetë drejtuesi i departamentit që ka iniciuar aksesin (duke marrë parasysh shembullin tonë), dhe ai është përgjegjës për të siguruar që faqja me akses të regjistruar për këtë departament të mbetet e përditësuar .

Prerjet

Kjo është diçka në të cilën mund të mbytesh. Por nëse doni të zbatoni një qasje proaktive, atëherë duhet të mësoni se si të merreni me këtë përmbytje të të dhënave.

Këtu janë disa rekomandime praktike:

  • ju duhet të rishikoni regjistrat çdo ditë
  • në rastin e një rishikimi të planifikuar (dhe jo një situatë emergjente), mund të kufizoni veten në nivelet e ashpërsisë 0, 1, 2 dhe të shtoni modele të zgjedhura nga nivele të tjera nëse e konsideroni të nevojshme
  • shkruani një skript që analizon regjistrat dhe injoron ato regjistra, modelet e të cilëve i keni shtuar në listën e injorimit

Kjo qasje do t'ju lejojë, me kalimin e kohës, të krijoni një listë injorimi të regjistrave që nuk janë interesante për ju dhe të lini vetëm ato që vërtet i konsideroni të rëndësishme.
Ajo funksionoi shumë për ne.

Monitorimi

Nuk është e pazakontë që një kompanie t'i mungojë një sistem monitorimi. Për shembull, mund të mbështeteni në regjistrat, por pajisja thjesht mund të "vdes" pa pasur kohë të "thotë" asgjë, ose paketa e protokollit udp syslog mund të humbasë dhe të mos arrijë. Në përgjithësi, sigurisht, monitorimi aktiv është i rëndësishëm dhe i nevojshëm.

Dy shembujt më të njohur në praktikën time:

  • monitorimi i ngarkesës së kanaleve të komunikimit, lidhjeve kritike (për shembull, lidhja me ofruesit). Ato ju lejojnë të shihni në mënyrë proaktive problemin e mundshëm të degradimit të shërbimit për shkak të humbjes së trafikut dhe, në përputhje me rrethanat, ta shmangni atë.
  • grafikët e bazuar në NetFlow. Ato e bëjnë të lehtë gjetjen e anomalive në trafik dhe janë shumë të dobishme për zbulimin e disa llojeve të thjeshta por domethënëse të sulmeve të hakerëve.

E rëndësishme! Konfiguro njoftimet SMS për ngjarjet më kritike. Kjo vlen si për monitorimin ashtu edhe për regjistrimin. Nëse nuk keni turne, atëherë sms-të duhet të vijnë edhe jashtë orarit të punës.

Mendoni gjatë procesit në mënyrë të tillë që të mos zgjoni të gjithë inxhinierët. Ne kishim një inxhinier në detyrë për këtë.

Ndrysho kontrollin

Sipas mendimit tim, nuk është e nevojshme të kontrollohen të gjitha ndryshimet. Por, në çdo rast, duhet të jeni në gjendje, nëse është e nevojshme, të gjeni lehtësisht se kush bëri ndryshime të caktuara në rrjet dhe pse.

Disa këshilla:

  • përdorni një sistem biletash për të detajuar se çfarë është bërë në atë biletë, për shembull duke kopjuar konfigurimin e aplikuar në biletë
  • përdorni aftësitë e komenteve në pajisjet e rrjetit (për shembull, bëni komente në Juniper). Mund të shkruani numrin e biletës
  • përdorni ndryshimin e kopjeve rezervë të konfigurimit tuaj

Ju mund ta zbatoni këtë si një proces, duke rishikuar të gjitha biletat çdo ditë për ndryshime.

proceset

Ju duhet të zyrtarizoni dhe përshkruani proceset në ekipin tuaj. Nëse keni arritur këtë pikë, atëherë ekipi juaj duhet të ketë tashmë të paktën proceset e mëposhtme që po ekzekutohen:

Proceset ditore:

  • duke punuar me bileta
  • duke punuar me trungje
  • ndryshimi i kontrollit
  • fletën e kontrollit të përditshëm

Proceset vjetore:

  • zgjerimi i garancive, licencave

Proceset asinkrone:

  • reagimi ndaj situatave të ndryshme emergjente

Përfundimi i pjesës së parë

A e keni vënë re se e gjithë kjo nuk ka të bëjë ende me konfigurimin e rrjetit, as me dizajnin, as me protokollet e rrjetit, as me rrugëtimin, as me sigurinë... Është diçka rreth e rrotull. Por këto, edhe pse ndoshta të mërzitshme, janë sigurisht elementë shumë të rëndësishëm të punës së një divizioni rrjeti.

Deri më tani, siç mund ta shihni, nuk keni përmirësuar asgjë në rrjetin tuaj. Nëse do të kishte dobësi të sigurisë, atëherë ato mbetën; nëse kishte një dizajn të keq, atëherë mbeti. Derisa të keni aplikuar aftësitë dhe njohuritë tuaja si inxhinier rrjeti, për të cilat me shumë mundësi keni shpenzuar një sasi të madhe kohe, përpjekje dhe ndonjëherë para. Por së pari ju duhet të krijoni (ose forconi) themelin, dhe më pas të filloni ndërtimin.

Pjesët e mëposhtme do t'ju tregojnë se si të gjeni dhe eliminoni gabimet dhe më pas të përmirësoni infrastrukturën tuaj.

Natyrisht, nuk duhet të bëni gjithçka në mënyrë sekuenciale. Koha mund të jetë kritike. Bëjeni paralelisht nëse lejojnë burimet.

Dhe një shtesë e rëndësishme. Komunikoni, pyesni, konsultohuni me ekipin tuaj. Në fund të fundit janë ata që e mbështesin dhe i bëjnë të gjitha këto.

Burimi: www.habr.com

Shto një koment