Прича о једном прекидачу

Прича о једном прекидачу
У нашој локалној мрежној агрегацији имали смо шест пари Ариста ДЦС-7050ЦКС3-32С прекидача и један пар Броцаде ВДКС 6940-36К прекидача. Није да су нас Броцаде свичеви у овој мрежи превише оптерећивали, они раде и обављају своје функције, али ми смо припремали потпуну аутоматизацију неких радњи, а нисмо имали те могућности на овим прекидачима. Такође сам желео да са 40ГЕ интерфејса пређем на могућност коришћења 100ГЕ како бих направио резерву за наредне 2-3 године. Зато смо одлучили да променимо Броцаде у Ариста.

Ови прекидачи су ЛАН агрегациони прекидачи за сваки центар података. На њих су директно повезани дистрибутивни прекидачи (други ниво агрегације), који већ склапају Топ-оф-Рацк локалне мрежне свичеве у рекове са серверима.

Прича о једном прекидачу
Сваки сервер је повезан са једним или два приступна прекидача. Приступни прекидачи су повезани на пар разводних прекидача (два дистрибутивна прекидача и две физичке везе од приступног прекидача до различитих дистрибутивних прекидача се користе за редундантност).

Сваки сервер може да користи сопствени клијент, тако да се клијенту додељује посебан ВЛАН. Исти ВЛАН се затим региструје на другом серверу овог клијента у било ком рацку. Дата центар се састоји од неколико таквих редова (ПОД), сваки ред рекова има своје дистрибуционе прекидаче. Затим се ови дистрибутивни прекидачи повезују на склопке за агрегацију.

Прича о једном прекидачу
Клијенти могу наручити сервер у било ком реду, немогуће је унапред предвидети да ће сервер бити додељен или инсталиран у одређеном реду у одређеном рек-у, због чега постоји око 2500 ВЛАН-ова на агрегационим прекидачима у сваком дата центру.

Опрема за ДЦИ (дата-центар интерконект) је повезана са агрегационим прекидачима. Може бити намењен за Л2 конекцију (пар прекидача који формирају ВКСЛАН тунел до другог центра података) или за Л3 конекцију (два МПЛС рутера).

Прича о једном прекидачу
Као што сам већ написао, да би се објединили процеси аутоматизације конфигурације услуга на опреми у једном дата центру, било је потребно заменити централне агрегационе прекидаче. Уградили смо нове прекидаче поред постојећих, спојили их у МЛАГ пар и почели да се припремамо за рад. Одмах су повезани са постојећим прекидачима за агрегацију, тако да су имали заједнички Л2 домен за све клијентске ВЛАН мреже.

Детаљи кола

За појединости, назовимо старе прекидаче за агрегацију АКСНУМКС и АКСНУМКС, Нова - N1 и N2. Замислимо то у ПОД 1 и ПОД 4 хостовани су сервери једног клијента СКСНУМКС,ВЛАН клијента је означен плавом бојом. Овај клијент користи Л2 услугу повезивања са другим центром података, тако да се његов ВЛАН напаја на пар ВКСЛАН прекидача.

Цустомер СКСНУМКС хостује сервере у ПОД 2 и ПОД 3,ВЛАН клијента је означен тамно зеленом бојом. Овај клијент такође користи услугу повезивања са другим центром података, али Л3, тако да се његов ВЛАН напаја на пар Л3ВПН рутера.

Прича о једном прекидачу
Потребни су нам клијентски ВЛАН-ови да бисмо разумели у којим фазама рада замене шта се дешава, где долази до прекида комуникације и колико може да траје. СТП протокол се не користи у овој шеми, пошто је ширина стабла за њега у овом случају велика, а конвергенција протокола расте експоненцијално са бројем уређаја и веза између њих.

Сви уређаји повезани двоструким везама формирају стек, МЛАГ пар или ВЦС Етхернет мрежу. За пар Л3ВПН рутера, такве технологије се не користе, јер нема потребе за редундантношћу Л2, довољно је да имају Л2 повезаност једни са другима преко агрегационих прекидача.

Опције имплементације

Када смо анализирали опције за даље догађаје, схватили смо да постоји неколико начина да се овај посао изведе. Од глобалног прекида на целој локалној мрежи, до малих буквално 1-2 секунде прекида у деловима мреже.

Мрежа, стани! Прекидачи, замените их!

Најлакши начин је, наравно, прогласити глобални прекид комуникације на свим ПОД-овима и свим ДЦИ услугама и пребацити све везе са прекидача А до прекидача N.

Прича о једном прекидачу
Осим прекида, чије време не можемо поуздано да предвидимо (да, знамо број линкова, али не знамо колико пута ће нешто поћи наопако - од поквареног патцх кабла или оштећеног конектора до неисправног порта или примопредајника ), још увек не можемо унапред да предвидимо да ли ће дужина патцх каблова, ДАЦ, АОЦ, повезаних са старим прекидачима А, бити довољна да их допре до нових прекидача Н, иако стоје поред њих, али ипак мало до са стране и да ли ће исти примопредајници радити /ДАЦ/АОЦ од Броцаде прекидача до Ариста прекидача.

И све то под великим притиском купаца и техничке подршке („Наташа, устани! Наташа, тамо све не функционише! Наташа, већ смо писали техничкој подршци, искрено! Наташа, већ су све испустили ! Наташа, колико још нас неће успети? Наташа, кад ће проћи?!"). И поред унапред најављене паузе и обавештавања клијената, прилив захтева у таквом тренутку је загарантован.

Стани, 1-2-3-4!

Шта ако не најавимо глобалну паузу, већ низ малих прекида комуникације за ПОД и ДЦИ услуге. Током прве паузе, пређите на прекидаче N само ПОД 1, у другом - за пар дана - ПОД 2, па још пар дана ПОД 3Даље ПОД 4…[Н], затим ВКСЛАН прекидачи и затим Л3ВПН рутери.

Прича о једном прекидачу
Оваквом организацијом рада на пребацивању смањујемо сложеност једнократног посла и повећавамо време за решавање проблема ако нешто изненада крене наопако. ПОД 1 остаје повезан са другим ПОД-овима и ДЦИ-овима након пребацивања. Али сам рад се дуго одуговлачи; током овог рада у дата центру, инжењер је потребан да физички изврши пребацивање, а током рада (а такав рад се по правилу обавља ноћу, од 2 до 5 сати ујутро), потребно је присуство мрежног инжењера на прилично високом нивоу квалификација. Али тада добијамо кратке прекиде у комуникацији, по правилу се рад може обавити у интервалу од пола сата са паузом до 2 минута (у пракси често 20-30 секунди са очекиваним понашањем опреме).

У примеру клијента СКСНУМКС или клијента СКСНУМКС мораћете најмање три пута да упозорите на рад са прекидом у комуникацији - први пут да извршите рад на једном ПОД-у, у коме се налази један од његових сервера, други пут - на другом, и трећи пут - када комутаторска опрема за ДЦИ услуге.

Пребацивање агрегираних комуникационих канала

Зашто говоримо о очекиваном понашању опреме, и како се агрегирани канали могу пребацити уз минимизирање прекида комуникације? Замислимо следећу слику:

Прича о једном прекидачу
На једној страни везе налазе се ПОД дистрибутивни прекидачи - D1 и D2, они формирају МЛАГ пар један са другим (стек, ВЦС фабрика, вПЦ пар), са друге стране постоје две везе - Линк КСНУМКС и Линк КСНУМКС - укључени у МЛАГ пар старих агрегационих прекидача А. На страни прекидача D збирни интерфејс са именом Порт-канал А, на страни прекидача за агрегацију А - агрегирани интерфејс са именом Порт-канал Д.

Обједињени интерфејси користе ЛАЦП у свом раду, односно прекидачи са обе стране редовно размењују ЛАЦПДУ пакете на обе везе како би били сигурни да везе:

  • радници;
  • укључени у један пар уређаја на удаљеној страни.

Приликом размене пакета, пакет носи вредност систем-ид, који означава уређај у који су ове везе укључене. За МЛАГ пар (стек, фабрика, итд.), вредност системског ИД-а за уређаје који формирају агрегирани интерфејс је иста. Свитцх D1 шаље на Линк КСНУМКС вредност систем-ид Д, и прекидач D2 шаље на Линк КСНУМКС вредност систем-ид Д.

Прекидачи АКСНУМКС и АКСНУМКС анализирати ЛАЦПДУ пакете примљене преко једног По Д интерфејса и проверити да ли се системски ИД у њима поклапа. Ако се системски ИД примљен преко неке везе изненада разликује од тренутне оперативне вредности, онда се ова веза уклања из збирног интерфејса док се ситуација не исправи. Сада на нашој страни прекидача D тренутна вредност ИД система од ЛАЦП партнера - A, и на страни прекидача А — тренутна вредност ИД-а система од ЛАЦП партнера — D.

Ако треба да променимо збирни интерфејс, то можемо да урадимо на два различита начина:

Метод 1 - једноставан
Онемогућите обе везе са прекидача А. У овом случају, збирни канал не ради.

Прича о једном прекидачу
Повежите обе везе једну по једну на прекидаче N, тада ће се поново преговарати о радним параметрима ЛАЦП-а и формирати интерфејс По Д на прекидачима N и пренос вредности на линковима систем-ид Н.

Прича о једном прекидачу

Метод 2 – Смањите прекид
Искључите везу 2 са прекидача А2. Истовремено, саобраћај између А и D наставиће да се преноси једноставно преко једне од веза, која ће остати део збирног интерфејса.

Прича о једном прекидачу
Повежите везу 2 са прекидачем Н2. На прекидачу N збирни интерфејс је већ конфигурисан По ДН, и прекидач N2 ће почети да емитује на ЛАЦПДУ систем-ид Н. У овој фази већ можемо да проверимо да ли је прекидач N2 ради исправно са примопредајником који се користи за Линк КСНУМКС, да је порт за везу ушао у стање Up, и да се не јављају грешке на порту за везу приликом преноса ЛАЦПДУ-ова.

Прича о једном прекидачу
Али чињеница да је прекидач D2 за агрегирани интерфејс По А са стране Линк 2 прима систем-ид Н вредност различиту од тренутне вредности оперативног система-ид А, не дозвољава прекидаче D увести Линк КСНУМКС део збирног интерфејса По А. Свитцх N не могу ући Линк КСНУМКС у рад, пошто не добија потврду оперативности од ЛАЦП партнера комутатора D2. Настали саобраћај је Линк КСНУМКС не проћи.

И сада искључимо Линк 1 са прекидача А1, чиме се лишавају прекидачи А и D интерфејс радног агрегата. Дакле, на страни прекидача D тренутна радна вредност ИД система за интерфејс нестаје По А.

Прича о једном прекидачу
Ово омогућава прекидаче D и N пристајете на размену систем-ид АН на интерфејсима По А и По ДН, тако да саобраћај почне да се преноси дуж везе Линк КСНУМКС. Пауза у овом случају је, у пракси, до 2 секунде.

Прича о једном прекидачу
И сада можемо лако пребацити Линк 1 на Н1, враћање капацитета и нивоа редунданције интерфејса По А и По ДН. Пошто када је ова веза повезана, тренутна вредност ИД система се не мења ни на једној страни, нема прекида.

Прича о једном прекидачу

Додатне везе

Али пребацивање се може извршити без присуства инжењера у тренутку пребацивања. Да бисмо то урадили, мораћемо унапред да поставимо додатне везе између дистрибутивних прекидача D и нове склопке за агрегацију N.

Прича о једном прекидачу
Постављамо нове везе између прекидача за агрегацију N и дистрибутивни прекидачи за све ПОД-ове. Ово захтева наручивање и постављање додатних патцх каблова и инсталирање додатних примопредајника као у N, и ин D. То можемо да урадимо јер у нашим прекидачима D Сваки ПОД има слободне портове (или их унапред ослобађамо). Као резултат тога, сваки ПОД је физички повезан са две везе са старим прекидачима А и новим прекидачима Н.

Прича о једном прекидачу
На прекидачу D формирана су два агрегирана интерфејса - По А са везама Линк КСНУМКС и Линк КСНУМКСИ По Н - са везама Линк Н1 и Линк Н2. У овој фази проверавамо исправну везу интерфејса и линкова, нивое оптичких сигнала на оба краја линкова (преко ДДМ информација са прекидача), можемо чак проверити перформансе везе под оптерећењем или пратити стања оптичке сигнале и температуре примопредајника неколико дана.

Саобраћај се и даље шаље преко интерфејса По А, и интерфејс По Н не кошта саобраћај. Подешавања на интерфејсима су отприлике овако:

Interface Port-channel A
Switchport mode trunk
Switchport allowed vlan C1, C2

Interface Port-channel N
Switchport mode trunk
Switchport allowed vlan none

Д прекидачи, по правилу, подржавају промене конфигурације засноване на сесији; користе се модели прекидача који имају ову функционалност. Дакле, можемо променити подешавања По А и По Н интерфејса у једном кораку:

Configure session
Interface Port-channel A
Switchport allowed vlan none
Interface Port-channel N
Switchport allowed vlan C1, C2
Commit

Тада ће се промена конфигурације десити довољно брзо, а пауза у пракси неће бити дуже од 5 секунди.

Овај метод нам омогућава да унапред завршимо све припремне радове, извршимо све неопходне провере, координирамо рад са учесницима у процесу, детаљно предвидимо радње за производњу посла, без полета креативности када је „све кренуло наопако ”, и имате при руци план за повратак на претходну конфигурацију. Радове по овом плану изводи мрежни инжењер без присуства инжењера дата центра на лицу места који физички врши комутацију.

Оно што је такође важно код овог начина пребацивања је да се сви нови линкови већ надгледају унапред. Грешке, укључивање линкова у јединицу, учитавање линкова - све потребне информације су већ у систему за праћење, а то је већ уцртано на мапама.

Дан Д

ПОД

Изабрали смо најмање болан пут пребацивања за клијенте и најмање склон сценаријима „нешто је пошло наопако“ са додатним везама. Тако смо пребацили све ПОД-ове на нове прекидаче за агрегацију за неколико ноћи.

Прича о једном прекидачу
Али остаје само да се промени опрема која пружа ДЦИ услуге.

L2

У случају опреме која обезбеђује Л2 конекцију, нисмо били у могућности да извршимо сличан посао са додатним везама. За то постоје најмање два разлога:

  • Недостатак слободних портова потребне брзине на ВКСЛАН прекидачима.
  • Недостатак функције промене конфигурације сесије на ВКСЛАН прекидачима.

Нисмо мењали линкове „један по један” са паузом само приликом договарања новог пара систем-ид, јер нисмо имали 100% поверења да ће поступак проћи како треба, а тест у лабораторији је показао да у У случају да „нешто пође наопако“, и даље добијамо прекид везе, а оно што је најгоре није само за клијенте који имају Л2 конекцију са другим дата центрима, већ уопште за све клијенте овог дата центра.

Унапред смо обавили пропагандни рад на преласку са Л2 канала, тако да је број клијената погођених радом на ВКСЛАН свичевима већ неколико пута мањи него пре годину дана. Као резултат тога, одлучили смо да прекинемо комуникацију преко услуге Л2 везе, под условом да одржавамо нормалан рад услуга локалне мреже у једном дата центру. Поред тога, СЛА за ову услугу предвиђа могућност обављања планираног рада са прекидима.

L3

Зашто смо препоручили да сви пређу на Л3ВПН приликом организовања ДЦИ услуга? Један од разлога је могућност обављања послова на једном од рутера који пружају ову услугу, једноставно смањење нивоа редундантности на Н+0, без прекида комуникације.

Хајде да детаљније погледамо шему пружања услуга. У овој услузи, Л2 сегмент иде са клијентских сервера само на Л3ВПН Селецтел рутере. Мрежа клијената се завршава на рутерима.

Сваки клијент сервер, нпр. S2 и S3 у горњем дијаграму, имају своје приватне ИП адресе - 10.0.0.2/24 на серверу С2 и 10.0.0.3/24 на серверу С3. Аддрессес 10.0.0.252/24 и 10.0.0.253/24 које је Селецтел доделио рутерима Л3ВПН-1 и Л3ВПН-2, редом. ИП адреса 10.0.0.254/24 је ВРРП ВИП адреса на рутерима Селецтел.

Можете сазнати више о услузи Л3ВПН читати у нашем блогу.

Пре пребацивања, све је изгледало отприлике као на дијаграму:

Прича о једном прекидачу
Два рутера Л3ВПН-1 и Л3ВПН-2 били повезани на стари прекидач за агрегацију А. Мастер за ВРРП ВИП адресу 10.0.0.254 је рутер Л3ВПН-1. Има већи приоритет за ову адресу од рутера Л3ВПН-2.

unit 1006 {
    description C2;
    vlan-id 1006;
    family inet {       
        address 10.0.0.252/24 {
            vrrp-group 1 {
                priority 200;
                virtual-address 10.100.0.254;
                preempt {
                    hold-time 120;
                }
                accept-data;
            }
        }
    }
}

С2 сервер користи мрежни пролаз 10.0.0.254 за комуникацију са серверима на другим локацијама. Дакле, искључивање Л3ВПН-2 рутера са мреже (наравно, ако се прво искључи са МПЛС домена) не утиче на повезаност сервера клијента. У овом тренутку, ниво редунданције кола је једноставно смањен.

Прича о једном прекидачу
Након тога можемо безбедно поново повезати рутер Л3ВПН-2 на пар прекидача N. Поставите везе, промените примопредајнике. Логички интерфејси рутера, од којих зависи рад клијентских сервиса, су онемогућени док се не потврди да све функционише како треба.

Након провере веза, примопредајника, нивоа сигнала и нивоа грешака на интерфејсима, рутер је пуштен у рад, али је већ повезан са новим паром прекидача.

Прича о једном прекидачу
Затим снижавамо ВРРП приоритет Л3ВПН-1 рутера, а ВИП адреса 10.0.0.254 се премешта на Л3ВПН-2 рутер. Ови радови се такође изводе без прекида комуникације.

Прича о једном прекидачу
Пренос ВИП адресе 10.0.0.254 на рутер Л3ВПН-2 омогућава вам да онемогућите рутер Л3ВПН-1 без прекида комуникације за клијента и повежите га са новим паром прекидача за агрегацију N.

Прича о једном прекидачу
Да ли вратити ВРРП ВИП на рутер Л3ВПН-1 је друго питање, а чак и ако се врати, то се ради без прекида везе.

Укупно

Након свих ових корака, ми смо заправо заменили прекидаче за агрегацију у једном од наших центара података, док смо минимизирали поремећаје за наше клијенте.

Прича о једном прекидачу
Остаје само демонтажа. Демонтажа старих прекидача, демонтажа старих веза између прекидача А и Д, демонтажа примопредајника са ових веза, корекција мониторинга, корекција мрежних дијаграма у документацији и мониторингу.

Можемо користити прекидаче, примопредајнике, патцх каблове, АОЦ, ДАЦ који су остали након пребацивања у другим пројектима или за друге сличне комутације.

„Наташа, све смо променили!“

Извор: ввв.хабр.цом

Додај коментар