Како да ја преземете контролата врз вашата мрежна инфраструктура. Прво поглавје. Држете

Оваа статија е прва од серијата написи „Како да ја преземете контролата врз вашата мрежна инфраструктура“. Содржината на сите написи во серијата и линковите може да се најдат тука.

Целосно признавам дека има доволен број компании каде прекинот на мрежата од еден час или дури еден ден не е критичен. За жал или за среќа, немав можност да работам на такви места. Но, се разбира, мрежите се различни, барањата се различни, пристапите се различни, а сепак, во една или друга форма, листата подолу во многу случаи всушност ќе биде „задолжителна работа“.

Значи, првичните услови.

На ново работно место сте, сте добиле унапредување или сте решиле да фрлите нов поглед на вашите обврски. Мрежата на компанијата е ваша област на одговорност. За вас ова на многу начини е предизвик и ново, што донекаде го оправдува менторски тон на оваа статија :). Но, се надевам дека статијата може да биде корисна и за секој мрежен инженер.

Вашата прва стратешка цел е да научите да се спротивставувате на ентропијата и да го одржувате нивото на обезбедената услуга.

Многу од проблемите опишани подолу може да се решат со различни средства. Намерно не ја покренувам темата за техничка имплементација, бидејќи ... во принцип, често не е толку важно како сте го решиле овој или оној проблем, туку важно е како го користите и дали воопшто го користите. На пример, вашиот професионално изграден систем за следење е од мала корист ако не го погледнете и не одговарате на предупредувања.

Оборудование

Прво треба да разберете каде се најголемите ризици.

Повторно, може да биде различно. Признавам дека некаде, на пример, тоа ќе бидат безбедносни прашања, а некаде прашања поврзани со континуитетот на услугата, а некаде, можеби, нешто друго. Зошто да не?

Да претпоставиме, за да бидеме појасни, дека ова е сè уште континуитет на услугата (ова беше случај во сите компании каде што работев).

Потоа треба да започнете со опремата. Еве список на теми на кои треба да се обрне внимание:

  • класификација на опремата по степен на критичност
  • резервна копија на критична опрема
  • поддршка, лиценци

Треба да размислите за можните сценарија за неуспех, особено со опремата на врвот на вашата класификација за критичност. Вообичаено, можноста за двојни проблеми се занемарува, инаку вашето решение и поддршка може да станат неразумно скапи, но во случај на навистина критични мрежни елементи, чиј неуспех може значително да влијае на бизнисот, треба да размислите за тоа.

Пример

Да речеме дека зборуваме за root прекинувач во центарот за податоци.

Бидејќи се согласивме дека континуитетот на услугата е најважниот критериум, разумно е да се обезбеди „жешка“ резервна копија (вишок) на оваа опрема. Но, тоа не е се. Исто така, треба да одлучите колку долго, ако првиот прекинувач се скрши, дали е прифатливо за вас да живеете само со еден преостанат прекинувач, бидејќи постои ризик и тој да се скрши.

Важно! Не треба сами да одлучувате за ова прашање. Мора да ги опишете ризиците, можните решенија и трошоците за менаџментот или раководството на компанијата. Тие мора да носат одлуки.

Значи, ако беше одлучено дека, со оглед на малата веројатност за двоен дефект, работата 4 часа на еден прекинувач е, во принцип, прифатлива, тогаш можете едноставно да ја преземете соодветната поддршка (според која опремата ќе се замени во рок од 4 часови).

Но, постои ризик да не испорачаат. За жал, еднаш се најдовме во таква ситуација. Наместо четири часа, опремата патуваше една недела!!!

Затоа, овој ризик исто така треба да се дискутира и, можеби, ќе биде поправилно да купите друг прекинувач (трет) и да го чувате во пакет за резервни делови („ладна“ резервна копија) или да го користите за лабораториски цели.

Важно! Направете табела со целата поддршка што ја имате со рок на траење и додајте ја во календарот за да добиете е-пошта најмалку еден месец однапред дека треба да почнете да се грижите за обновување на поддршката.

Нема да ви биде простено ако заборавите да ја обновите поддршката и следниот ден откако ќе заврши, вашиот хардвер се расипе.

Итна работа

Што и да се случува на вашата мрежа, идеално би требало да го одржувате пристапот до вашата мрежна опрема.

Важно! Мора да имате пристап од конзолата до целата опрема и овој пристап не треба да зависи од здравјето на мрежата со податоци за корисникот.

Исто така, треба однапред да ги предвидите можните негативни сценарија и да ги документирате потребните активности. Достапноста на овој документ е исто така критична, така што не само што треба да биде објавен на заеднички ресурс за одделот, туку и да се зачува локално на компјутерите на инженерите.

Мора да има

  • информации потребни за отворање билет со поддршка од продавач или интегратор
  • информации за тоа како да дојдете до која било опрема (конзола, менаџмент)

Се разбира, може да содржи и други корисни информации, на пример, опис на процедурата за надградба на различна опрема и корисни дијагностички команди.

Филијали

Сега треба да ги процените ризиците поврзани со партнерите. Обично ова

  • Интернет провајдери и точки за размена на сообраќај (IX)
  • даватели на комуникациски канали

Кои прашања треба да си ги поставите? Како и со опремата, мора да се земат предвид различни сценарија за итни случаи. На пример, за интернет провајдери, може да биде нешто како:

  • што се случува ако интернет провајдерот X престане да ви обезбедува услуга поради некоја причина?
  • Дали другите провајдери ќе имаат доволно пропусен опсег за вас?
  • Колку добро ќе остане поврзувањето?
  • Колку се независни вашите интернет провајдери и дали сериозен прекин на еден од нив ќе предизвика проблеми со другите?
  • колку оптички влезови во вашиот центар за податоци?
  • што ќе се случи ако еден од влезовите е целосно уништен?

Во однос на влезовите, во мојата пракса во две различни компании, во два различни центри за податоци, багер уништи бунари и само за чудо нашата оптика не беше засегната. Ова не е толку редок случај.

И, се разбира, не треба само да ги поставувате овие прашања, туку, повторно, со поддршка од менаџментот, да обезбедите прифатливо решение во секоја ситуација.

Резервна копија

Следниот приоритет може да биде резервна копија на конфигурациите на опремата. Во секој случај, ова е многу важен момент. Нема да ги набројувам оние случаи кога можете да ја изгубите конфигурацијата; подобро е да направите редовни резервни копии и да не размислувате за тоа. Покрај тоа, редовните резервни копии може да бидат многу корисни во следењето на промените.

Важно! Направете резервни копии секој ден. Ова не е толку голема количина на податоци за заштеда на ова. Утрото, дежурниот инженер (или вие) треба да добие извештај од системот, кој јасно покажува дали резервната копија била успешна или не, а ако резервната била неуспешна, проблемот треба да се реши или да се креира билет ( видете ги процесите на мрежниот оддел).

Верзии на софтвер

Прашањето дали вреди или не да се надгради софтверот на опремата не е толку јасно. Од една страна, старите верзии се познати грешки и пропусти, но од друга страна, новиот софтвер, прво, не е секогаш безболна процедура за надградба, и второ, нови грешки и пропусти.

Тука треба да ја пронајдете најдобрата опција. Неколку очигледни препораки

  • инсталирајте само стабилни верзии
  • Сепак, не треба да живеете на многу стари верзии на софтвер
  • направете знак со информации за тоа каде се наоѓа некој софтвер
  • периодично читајте извештаи за ранливости и грешки во верзии на софтвер, а во случај на критични проблеми, треба да размислите за надградба

Во оваа фаза, имајќи пристап од конзолата до опремата, информации за поддршка и опис на процедурата за надградба, вие, во принцип, сте подготвени за овој чекор. Идеална опција е кога имате лабораториска опрема каде што можете да ја проверите целата процедура, но, за жал, тоа не се случува често.

Во случај на критична опрема, можете да контактирате со поддршката на продавачот со барање да ви помогне со надградбата.

Систем за билети

Сега можете да погледнете наоколу. Треба да воспоставите процеси за интеракција со другите одделенија и во рамките на одделот.

Ова можеби не е потребно (на пример, ако вашата компанија е мала), но многу би препорачал да ја организирате работата на таков начин што сите надворешни и внатрешни задачи поминуваат низ системот за билети.

Системот за билети во суштина е вашиот интерфејс за внатрешни и надворешни комуникации и треба да го опишете овој интерфејс доволно детално.

Да земеме пример за важна и вообичаена задача за отворање пристап. Ќе опишам алгоритам кој функционираше совршено во една од компаниите.

Пример

Да почнеме со фактот дека клиентите со пристап често ги формулираат своите желби на јазик неразбирлив за мрежен инженер, имено, на јазикот на апликацијата, на пример, „дај ми пристап до 1C“.

Затоа, ние никогаш не сме прифатиле барања директно од такви корисници.
И тоа беше првото барање

  • барањата за пристап треба да доаѓаат од техничките одделенија (во нашиот случај тоа беа Unix, Windows, инженери за помош)

Второто барање е тоа

  • овој пристап мора да биде најавен (од техничкиот оддел од кој го добивме ова барање) и како барање добиваме врска до овој најавен пристап

Формата на ова барање мора да ни биде разбирлива, т.е.

  • барањето мора да содржи информации за тоа која подмрежа и до која подмрежа треба да биде отворен пристап, како и протоколот и (во случај на tcp/udp) портите

Исто така, треба да биде наведено таму

  • опис зошто е отворен овој пристап
  • привремено или трајно (ако е привремено, до кој датум)

И многу важна точка се одобренијата

  • од раководителот на одделот што иницираше пристап (на пример, сметководство)
  • од раководителот на техничкиот оддел, од каде ова барање дојде до мрежниот оддел (на пример, службата за помош)

Во овој случај, „сопственикот“ на овој пристап се смета за раководител на одделот што го иницирал пристапот (сметководство во нашиот пример), и тој е одговорен да обезбеди дека страницата со најавен пристап за овој оддел останува ажурирана .

Сеча

Ова е нешто во кое можете да се удавите. Но, ако сакате да имплементирате проактивен пристап, тогаш треба да научите како да се справите со овој наплив на податоци.

Еве неколку практични препораки:

  • треба секојдневно да ги прегледувате дневниците
  • во случај на планиран преглед (а не итна ситуација), можете да се ограничите на нивоата на сериозност 0, 1, 2 и да додадете избрани обрасци од други нивоа ако сметате дека е неопходно
  • напишете скрипта што ги анализира дневниците и ги игнорира оние логови чии шеми сте ги додале во списокот со игнорирање

Овој пристап ќе ви овозможи, со текот на времето, да креирате листа за игнорирање на дневници кои не ви се интересни и да ги оставите само оние што навистина ги сметате за важни.
Работеше одлично за нас.

Мониторинг

Не е невообичаено на една компанија да и недостасува систем за следење. Можете, на пример, да се потпрете на дневници, но опремата може едноставно да „умре“ без да имате време да „кажете“ нешто, или пакетот протокол udp syslog може да се изгуби и да не пристигне. Генерално, се разбира, активното следење е важно и неопходно.

Двата најпопуларни примери во мојата пракса:

  • следење на оптоварувањето на комуникациските канали, критичните врски (на пример, поврзување со провајдери). Тие ви овозможуваат проактивно да го видите потенцијалниот проблем на деградација на услугата поради губење на сообраќајот и, соодветно, да го избегнете.
  • графикони базирани на NetFlow. Тие го олеснуваат пронаоѓањето на аномалии во сообраќајот и се многу корисни за откривање на некои едноставни, но значајни типови на хакерски напади.

Важно! Поставете SMS известувања за најкритичните настани. Ова се однесува и на мониторинг и на евиденција. Доколку немате дежурна смена, тогаш смс треба да пристигне и надвор од работното време.

Размислете низ процесот на таков начин што нема да ги разбудите сите инженери. Имавме дежурен инженер за ова.

Променете ја контролата

Според мое мислење, не е неопходно да се контролираат сите промени. Но, во секој случај, треба да можете, доколку е потребно, лесно да откриете кој направил одредени промени на мрежата и зошто.

Неколку совети:

  • користете систем за билети за да детализирате што е направено на тој билет, на пример со копирање на применетата конфигурација во билетот
  • користете ги можностите за коментари на мрежната опрема (на пример, обврзете коментар на Juniper). Можете да го запишете бројот на билетот
  • користете различно од вашите резервни копии на конфигурацијата

Ова може да го имплементирате како процес, секојдневно прегледувајќи ги сите билети за промени.

Процеси

Мора да ги формализирате и опишете процесите во вашиот тим. Ако сте стигнале до оваа точка, тогаш вашиот тим веќе треба да ги има барем следниве процеси што се извршуваат:

Дневни процеси:

  • работа со билети
  • работа со трупци
  • промена на контролата
  • дневен лист за проверка

Годишни процеси:

  • продолжување на гаранциите, лиценците

Асинхрони процеси:

  • одговор на различни итни ситуации

Заклучок од првиот дел

Дали забележавте дека сето ова сè уште не е за конфигурација на мрежата, не за дизајн, не за мрежни протоколи, не за рутирање, не за безбедност... Тоа е нешто околу. Но, овие, иако можеби здодевни, се, се разбира, многу важни елементи на работата на мрежната поделба.

Досега, како што можете да видите, не сте подобриле ништо во вашата мрежа. Ако имаше безбедносни пропусти, тогаш тие остануваа, ако имаше лош дизајн, тогаш остануваше. Сè додека не ги примените своите вештини и знаења како мрежен инженер, на кои најверојатно сте потрошиле многу време, труд, а понекогаш и пари. Но, прво треба да ја создадете (или да ја зајакнете) основата, а потоа да започнете со изградба.

Следните делови ќе ви кажат како да ги пронајдете и елиминирате грешките, а потоа да ја подобрите вашата инфраструктура.

Се разбира, не треба да правите сè последователно. Времето може да биде критично. Направете го тоа паралелно ако дозволуваат ресурсите.

И важен додаток. Комуницирајте, прашајте, консултирајте се со вашиот тим. На крајот, тие се оние кои го поддржуваат и го прават сето ова.

Извор: www.habr.com

Додадете коментар