Storia di un switch

Storia di un switch
In a nostra aggregazione di a rete locale avemu avutu sei coppie di switch Arista DCS-7050CX3-32S è un paru di switch Brocade VDX 6940-36Q. Ùn hè micca chì eramu troppu strained da i switch Brocade in questa reta, travaglianu è eseguinu e so funzioni, ma avemu preparatu l'automatizazione cumpleta di certi azzioni, è ùn avemu micca sti capacità nantu à questi switch. Vuliu ancu cambià da l'interfaccia 40GE à a pussibilità di utilizà 100GE per fà una riserva per i prossimi 2-3 anni. Allora avemu decisu di cambià Brocade à Arista.

Questi switch sò switch di aggregazione LAN per ogni centru di dati. I switches di distribuzione (u secondu livellu di l'agregazione) sò direttamente cunnessi cù elli, chì digià assemblanu i switches di rete locale Top-of-Rack in racks cù servitori.

Storia di un switch
Каждый сервер включен в один или два коммутатора доступа. Коммутаторы доступа подключены к паре коммутаторов дистрибьюции (два коммутатора дистрибьюции и два физических линка от коммутатора доступа к разным коммутаторам дистрибьюции используются для резервирования).

Ogni servitore pò esse usatu da u so propiu cliente, cusì u cliente hè attribuitu una VLAN separata. U stessu VLAN hè tandu registratu in un altru servitore di stu cliente in ogni rack. U centru di dati hè custituitu da parechje fila di tali file (POD), ogni fila di rack hà i so propri switches di distribuzione. Allora questi switches di distribuzione sò cunnessi à i switches di aggregazione.

Storia di un switch
I clienti ponu urdinà un servitore in ogni fila; hè impussibile predichendu in anticipu chì u servitore serà attribuitu o installatu in una fila specifica in un rack specificu, per quessa chì ci sò circa 2500 VLAN in switches di aggregazione in ogni centru di dati.

Оборудование для DCI (Data-Center Interconnect) подключается к коммутаторам агрегации. Оно может предназначаться для L2-связности (пара коммутаторов, образующая VXLAN-туннель в другой дата-центр), так и для L3-связности (два MPLS-маршрутизатора).

Storia di un switch
Cum'è aghju scrittu, per unificà i prucessi di l'automatizazione di a cunfigurazione di i servizii nantu à l'equipaggiu in un centru di dati, era necessariu di rimpiazzà i switches d'agregazione cintrali. Avemu stallatu novi interruttori vicinu à quelli esistenti, cumminati in un paru MLAG è cuminciaru à preparà per u travagliu. Sò stati immediatamente cunnessi à i switches di aggregazione esistenti, in modu chì avianu un duminiu L2 cumuni in tutti i VLAN di u cliente.

Dettagli di u circuitu

Per specifichi, nominamu i vechji switches di aggregazione А1 и А2, новые — N1 и N2. Imaginemu chì in POD 1 и POD 4 i servitori di un cliente sò ospitati С1,U client VLAN hè indicatu in blu. Stu cliente usa u serviziu di cunnessione L2 cù un altru centru di dati, cusì a so VLAN hè alimentata à un paru di switch VXLAN.

Cliente С2 ospita i servitori in POD 2 и POD 3,U client VLAN hè indicatu in verde scuru. Stu cliente usa ancu un serviziu di cunnessione cù un altru centru di dati, ma L3, perchè a so VLAN hè alimentata à un paru di router L3VPN.

Storia di un switch
Avemu bisognu di i VLAN di u cliente per capiscenu in quale tappe di u travagliu di rimpiazzamentu ciò chì succede, induve l'interruzzione di cumunicazione si trova, è quale pò esse a so durata. U protokollu STP ùn hè micca usatu in questu schema, postu chì a larghezza di l'arbulu per questu in questu casu hè grande, è a cunvergenza di u protocolu cresce in modu esponenziale cù u numeru di dispusitivi è ligami trà elli.

Tutti i dispusitivi cunnessi da ligami doppiu formanu una pila, coppia MLAG o tessuto Ethernet VCS. Per un paru di router L3VPN, tali tecnulugia ùn sò micca aduprate, postu chì ùn ci hè micca bisognu di redundancy L2; hè abbastanza chì anu una cunnessione L2 à l'altru per mezu di switches di aggregazione.

Opzioni di implementazione

При анализе вариантов дальнейших событий мы поняли, что есть несколько способов провести эти работы. От глобального перерыва на всей локальной сети, до небольших буквально 1-2 секундных перерывов в частях сети.

Сеть, стоять! Коммутаторы, заменяйтесь!

U modu più faciule hè, sicuru, di dichjarà una pausa di cumunicazione globale nantu à tutti i POD è tutti i servizii DCI è cambià tutti i ligami da i switch. А à i switches N.

Storia di un switch
In più di l'interruzzione, u tempu di quale ùn pudemu micca predice in modu affidabile (sì, sapemu u numeru di ligami, ma ùn sapemu quante volte qualcosa andarà male - da un cordone di patch rottu o un connettore dannatu à un portu difettu o transceiver). ), ùn pudemu micca sempre predichendu in anticipu se a lunghezza di i patch cords, DAC, AOC, cunnessi à i vechji switches A, serà abbastanza per ghjunghje à i novi switches N, ancu s'ellu si trova vicinu à elli, ma ancu un pocu per u latu, è se u stessu transceivers hà da travaglià /DAC/AOC da i switch Brocade à i switch Arista.

E tuttu questu in cundizioni di pressione severa da i clienti è u supportu tecnicu ("Natasha, alzati! Natasha, tuttu ùn viaghja micca quì! Natasha, avemu digià scrittu à u supportu tecnicu, onestamente! Natasha, anu digià abbandunatu tuttu. ! Natasha, quanti di più ùn avemu micca u travagliu? Natasha, quandu hà da travaglià ?!"). Ancu malgradu a pausa pre-annunciata è a notificazione à i clienti, un afflussu di richieste in questu tempu hè garantitu.

Ferma, 1-2-3-4 !

Chì s'ellu ùn annunziemu micca una pausa globale, ma piuttostu una seria di picculi interruzzioni di cumunicazione per i servizii POD è DCI. Durante a prima pausa, cambiate à i switches N solu POD 1, во второй — через пару дней — POD 2, poi un paru di ghjorni più POD 3, allura POD 4…[N], poi switch VXLAN è poi router L3VPN.

Storia di un switch
Cù sta urganizazione di u travagliu di cambià, riducemu a cumplessità di u travagliu una volta è aumentemu u nostru tempu per risolve i prublemi se qualcosa di colpu va male. POD 1 resta cunnessu à altri POD è DCI dopu a commutazione. Ma u travagliu stessu si trascina per un bellu pezzu; durante stu travagliu in u centru di dati, un ingegnere hè obligatu à fà fisicamenti u cambiamentu, è durante u travagliu (è tali travagliu hè realizatu, in regula, di notte, da 2). à 5 am), a presenza di un ingegnere di rete in linea hè necessaria à una qualificazione di livellu abbastanza altu. Ma dopu avemu brevi interruzzioni di cumunicazione; in regula, u travagliu pò esse realizatu in un intervalu di una meza ora cù una pausa finu à 2 minuti (in pratica, spessu 20-30 seconde cù u cumpurtamentu previstu di l'equipaggiu).

In u cliente di esempiu С1 o cliente С2 duverete avvistà di u travagliu cù una interruzzione di cumunicazione almenu trè volte - a prima volta per fà u travagliu nantu à un POD, in quale si trova unu di i so servitori, a seconda volta - a seconda, è a terza volta - quandu l'equipaggiu di commutazione per i servizii DCI.

Cambia i canali di cumunicazione aggregati

Perchè parlemu di u cumpurtamentu previstu di l'equipaggiu, è cumu si ponu scambià i canali aggregati minimizendu l'interruzzione di a cumunicazione? Imaginemu a seguente stampa:

Storia di un switch
Da un latu di u ligame ci sò interruttori di distribuzione POD - D1 и D2, formanu una coppia MLAG cù l'altri (stack, VCS factory, vPC pair), da l'altra banda ci sò dui ligami - Link 1 и Link 2 — включены в MLAG-пару старых коммутаторов агрегации А. Da u latu di u cambiamentu D una interfaccia aggregata cù u nome Port-channel A, на стороне коммутаторов агрегации А - interfaccia aggregata cù u nome Port-channel D.

L'interfacce aggregate utilizanu LACP in u so funziunamentu, vale à dì, i switch da i dui lati scambianu regularmente i pacchetti LACPDU nantu à i dui ligami per assicurà chì i ligami:

  • i travagliadori;
  • включены в одну пару устройств на удалённой стороне.

Quandu u scambiu di pacchetti, u pacchettu porta u valore ID di sistema, indicà u dispusitivu induve sti ligami sò inclusi. Per un paru MLAG (stack, factory, etc.), u valore di u sistema-id per i dispositi chì formanu l'interfaccia aggregata hè u listessu. Cambia D1 manda à Link 1 valore ID di sistema D, è cambia D2 manda à Link 2 valore ID di sistema D.

Cambia А1 и А2 analizà i pacchetti LACPDU ricivuti nantu à una interfaccia Po D è verificate se l'id di sistema in elli currisponde. Se l'id di sistema ricevutu via qualchì ligame di colpu differisce da u valore operativu attuale, то этот линк выводится из состава агрегированного интерфейса до исправления ситуации. Сейчас у нас на стороне коммутаторов D valore attuale di l'ID di sistema da u partner LACP - A, è da u latu di u cambiamentu А — текущее значение system-id от LACP-партнёра — D.

Se avemu bisognu di cambià l'interfaccia aggregata, pudemu fà in dui modi diffirenti:

Metudu 1 - Simple
Disattiva i dui ligami da i switch A. In questu casu, u canale aggregatu ùn funziona micca.

Storia di un switch
Cunnette i dui ligami unu per unu à i switch N, allura i paràmetri di u funziunamentu LACP seranu negoziati di novu è l'interfaccia serà furmatu Po D nantu à l'interruttori N è trasmissioni di valori nantu à i ligami ID di sistema N.

Storia di un switch

Metudu 2 - Minimizà l'interruzzione
Disconnect Link 2 da l'interruttore A2. À u listessu tempu, u trafficu trà А и D cuntinuà à esse trasmessi solu nantu à unu di i ligami, chì fermanu parte di l'interfaccia aggregata.

Storia di un switch
Cunnette Link 2 per cambià N2. На коммутаторе N l'interfaccia aggregata hè digià cunfigurata Po DN, è cambia N2 cumminciarà a trasmette à LACPDU ID di sistema N. À questu stadiu pudemu digià verificà chì u cambiamentu N2 funziona bè cù u transceiver utilizatu per Link 2, chì u portu di cunnessione hè intrutu in u statu Up, è chì ùn ci hè micca errore in u portu di cunnessione quandu trasmette LACPDU.

Storia di un switch
Ma u fattu chì u cambiamentu D2 per l'interfaccia aggregata Po A da u latu Link 2 riceve un valore di l'ID di sistema N sfarente da u valore attuale di l'ID di u sistema operatore A, ùn permette micca i switches D intruduce Link 2 в состав агрегированного интерфейса Po A. Cambia N ùn pò micca entre Link 2 in funziunamentu, postu chì ùn riceve micca cunferma di l'operabilità da u partner LACP di u switch D2. U trafficu risultatu hè Link 2 ùn passa micca.

А теперь мы выключаем Link 1 из коммутатора A1, privà cusì i switches А и D работающего агрегированного интерфейса. Таким образом, на стороне коммутатора D u valore di u sistema di u sistema di travagliu attuale per l'interfaccia sparisce Po A.

Storia di un switch
Questu permette i switches D и N accunsenu à scambià l'id di u sistema AN nantu à l'interfaccia Po A и Po DN, cusì chì u trafficu cumencia à esse trasmessi longu u ligame Link 2. A pausa in questu casu hè, in pratica, finu à 2 seconde.

Storia di un switch
È avà pudemu cambià facilmente Link 1 per cambià N1, ristabilisce a capacità è u livellu di redundanza di l'interfaccia Po A и Po DN. Siccomu quandu stu ligame hè cunnessu, u valore attuale di l'ID di u sistema ùn cambia micca da ogni parte, ùn ci hè micca interruzzione.

Storia di un switch

Ligami supplementari

Но переключение можно выполнить без присутствия инженера в момент переключения. Для этого нам потребуется заранее проложить дополнительные линки между коммутаторами дистрибьюции D и новыми коммутаторами агрегации N.

Storia di un switch
Ponemu novi ligami trà i switch di aggregazione N e interruttori di distribuzione per tutti i POD. Questu richiede l'ordine è a stallazione di patch cords supplementari, è l'installazione di transceivers supplementari cum'è in N, è in D. Pudemu fà questu perchè in i nostri switches D Ogni POD hà porti liberi (o li pre-liberamu). In u risultatu, ogni POD hè fisicamente cunnessu da dui ligami à i vechji switch A è à i novi switch N.

Storia di un switch
À l'interruttore D duie interfacce aggregate sò state formate - Po A cù ligami Link 1 и Link 2e Po N - cù ligami Link N1 и Link N2. In questa fase, cuntrollemu a cunnessione curretta di l'interfacce è i ligami, i livelli di segnali ottici à i dui estremità di i ligami (via l'infurmazioni DDM da i switches), pudemu ancu verificà a prestazione di u ligame sottu carica o monitorà i stati di segnali ottici è temperature transceiver per un paru di ghjorni.

Трафик по-прежнему передается через интерфейс Po A, è l'interfaccia Po N стоит без трафика. Настройки на интерфейсах примерно такие:

Interface Port-channel A
Switchport mode trunk
Switchport allowed vlan C1, C2

Interface Port-channel N
Switchport mode trunk
Switchport allowed vlan none

I switch D, in regula, supportanu i cambiamenti di cunfigurazione basati in sessione; i mudelli di switch chì anu sta funziunalità sò usati. Allora pudemu cambià i paràmetri di l'interfaccia Po A è Po N in un passu:

Configure session
Interface Port-channel A
Switchport allowed vlan none
Interface Port-channel N
Switchport allowed vlan C1, C2
Commit

Allora u cambiamentu di cunfigurazione serà abbastanza rapidamente, è a pausa, in pratica, ùn serà più di 5 seconde.

Такой способ позволяет нам выполнить все подготовительные работы заранее, осуществить все необходимые проверки, согласовать работы с участниками процесса, детально спрогнозировать действия по производству работ, без полётов творчества, когда «всё пошло не так», и иметь под рукой план возврата к предыдущей конфигурации. Работы по этому плану производятся сетевым инженером без присутствия на месте инженера дата-центра, который физически осуществляет переключения.

Что ещё важно при таком способе переключений — все новые линки уже заранее поставлены на мониторинг. Ошибки, включение линков в агрегат, загрузка линков — вся необходимая информация уже в системе мониторинга, и это уже отрисовано на картах.

D-Day

bul

Avemu sceltu u percorsu di cambiamentu menu doloroso per i clienti è u menu propensu à scenarii "qualcosa andava male" cù ligami supplementari. Allora avemu cambiatu tutti i POD à novi interruttori di aggregazione in un paru di notti.

Storia di un switch
Ma tuttu ciò chì resta hè di cambià l'equipaggiu chì furnisce servizii DCI.

L2

In u casu di l'equipaggiu chì furnisce a connettività L2, ùn pudemu micca fà un travagliu simili cù ligami supplementari. Ci hè almenu dui motivi per questu:

  • Mancanza di porti liberi di a velocità necessaria in i switch VXLAN.
  • Mancanza di funziunalità di cambiamentu di cunfigurazione di sessione nantu à i switch VXLAN.

Ùn avemu micca cambiatu i ligami "unu à un tempu" cù una pausa solu mentre accunsentì nantu à una nova coppia di sistema-id, postu chì ùn avemu micca cunfidenza di 100% chì a prucedura andava bè, è una prova in u laboratoriu hà dimustratu chì in u casu si "qualcosa va male", avemu sempre una interruzzione di cunnessione, è ciò chì hè peghju ùn hè micca solu per i clienti chì anu una cunnessione L2 cù altri centri di dati, ma in generale per tutti i clienti di stu centru di dati.

Мы загодя провели агитационную работу по переходу с L2 каналов, поэтому количество клиентов, затрагиваемых работами на VXLAN-коммутаторах, было уже в несколько раз меньше, чем год назад. В итоге мы решились на перерыв связи по услуге L2-связности при условии, что мы сохраняем нормальную работу услуг локальной сети в одном дата-центре. К тому же SLA на данную услугу предусматривает возможность проведения плановых работ с перерывом.

L3

Perchè ricumandemu chì tutti passanu à L3VPN quandu urganizemu servizii DCI? Unu di i mutivi hè a capacità di fà u travagliu nantu à unu di i routers chì furnisce stu serviziu, solu riducendu u livellu di redundancy à N + 0, senza interrompe a cumunicazione.

Fighjemu un ochju più vicinu à u schema di serviziu di serviziu. In questu serviziu, u segmentu L2 passa da i servitori di u cliente solu à i routers L3VPN Selectel. A reta di u cliente hè terminata nantu à i routers.

Каждый сервер клиента, например, S2 и S3 in u diagramma sopra, anu u so propiu indirizzu IP privatu - 10.0.0.2/24 nantu à u servitore S2 и 10.0.0.3/24 nantu à u servitore S3. Indirizzi 10.0.0.252/24 и 10.0.0.253/24 assignati da Selectel à i routers L3VPN-1 и L3VPN-2, rispettivamente. indirizzu IP 10.0.0.254/24 hè un indirizzu VIP VRRP nantu à i router Selectel.

Pudete sapè più nantu à u serviziu L3VPN leghje in u nostru blog.

Prima di u cambiamentu, tuttu pareva apprussimatamente cum'è in u schema:

Storia di un switch
Dui routers L3VPN-1 и L3VPN-2 sò stati cunnessi à u vechju switch di aggregazione А. U maestru per l'indirizzu VIP VRRP 10.0.0.254 hè u router L3VPN-1. Hà una priorità più altu per questu indirizzu cà u router L3VPN-2.

unit 1006 {
    description C2;
    vlan-id 1006;
    family inet {       
        address 10.0.0.252/24 {
            vrrp-group 1 {
                priority 200;
                virtual-address 10.100.0.254;
                preempt {
                    hold-time 120;
                }
                accept-data;
            }
        }
    }
}

U servitore S2 usa a porta 10.0.0.254 per cumunicà cù i servitori in altre locu. Cusì, disconnecting the L3VPN-2 router da a reta (di sicuru, s'ellu hè prima disconnected from the MPLS domain) ùn affetta micca a cunnessione di i servitori di u cliente. À questu puntu, u livellu di redundanza di u circuitu hè simplicemente ridutta.

Storia di un switch
Dopu à questu pudemu ricunniscerà in modu sicuru u router L3VPN-2 à un paru di interruttori N. Lay links, cambia transceivers. L'interfaccia logica di u router, da quale dipende u funziunamentu di i servizii di u cliente, sò disattivate finu à chì hè cunfirmatu chì tuttu funziona cumu si deve.

Dopu avè verificatu i ligami, transceivers, signal levels, and error levels on the interfaces, u router hè messu in opera, ma digià cunnessu à un novu paru di switch.

Storia di un switch
In seguitu, bassu a priorità VRRP di u router L3VPN-1, è l'indirizzu VIP 10.0.0.254 hè spustatu à u router L3VPN-2. Sti travaglii sò ancu realizati senza interruzzione di cumunicazione.

Storia di un switch
Trasferendu l'indirizzu VIP 10.0.0.254 à u router L3VPN-2 permette di disattivà u router L3VPN-1 senza interruzzione di cumunicazione per u cliente è cunnette à un novu paru di switches di aggregazione N.

Storia di un switch
Ch'ella sia o micca di vultà VRRP VIP à u router L3VPN-1 hè una altra quistione, è ancu s'ellu hè tornatu, hè fattu senza interrompe a cunnessione.

Tuttu

Dopu à tutti sti passi, avemu daveru rimpiazzatu i switches di aggregazione in unu di i nostri centri di dati, minimizendu l'interruzzione per i nostri clienti.

Storia di un switch
Il ne reste plus qu'à démanteler. Dismantling of old switches, dismantling of old links between switches A and D, dismantling of transceivers from these links, currection of monitoring, currection of network diagrams in documentation and monitoring.

Pudemu aduprà switches, transceivers, patch cords, AOC, DAC left after switching in other projects or for other similar switching.

"Natasha, avemu cambiatu tuttu!"

Source: www.habr.com

Add a comment