Priča o jednom prekidaču

Priča o jednom prekidaču
U našoj lokalnoj mrežnoj agregaciji imali smo šest pari Arista DCS-7050CX3-32S prekidača i jedan par Brocade VDX 6940-36Q prekidača. Nije da su nas Brocade svičevi u ovoj mreži previše opterećivali, oni rade i obavljaju svoje funkcije, ali mi smo pripremali potpunu automatizaciju nekih radnji, a nismo imali te mogućnosti na ovim prekidačima. Takođe sam želeo da sa 40GE interfejsa pređem na mogućnost korišćenja 100GE kako bih napravio rezervu za naredne 2-3 godine. Stoga smo odlučili promijeniti Brocade u Arista.

Ovi prekidači su LAN agregacijski prekidači za svaki podatkovni centar. Na njih su direktno povezani distributivni prekidači (drugi nivo agregacije), koji već sklapaju Top-of-Rack preklopnike lokalne mreže u rekove sa serverima.

Priča o jednom prekidaču
Svaki server je povezan na jedan ili dva pristupna prekidača. Pristupni prekidači su povezani na par razvodnih prekidača (dva distributivna prekidača i dvije fizičke veze od pristupnog prekidača do različitih distributivnih prekidača se koriste za redundantnost).

Svaki server može koristiti vlastiti klijent, tako da se klijentu dodjeljuje poseban VLAN. Isti VLAN se zatim registruje na drugom serveru ovog klijenta u bilo kom racku. Data centar se sastoji od nekoliko takvih redova (POD-ova), svaki red rekova ima svoje distribucione prekidače. Zatim se ovi distributivni prekidači spajaju na sklopke za agregaciju.

Priča o jednom prekidaču
Klijenti mogu naručiti server u bilo kojem redu, nemoguće je unaprijed predvidjeti da će server biti dodijeljen ili instaliran u određenom redu u određenom rack-u, zbog čega postoji oko 2500 VLAN-ova na agregacijskim prekidačima u svakom podatkovnom centru.

Oprema za DCI (Data-Center Interconnect) je povezana na agregacijske sklopke. Može biti namijenjen za L2 konekciju (par prekidača koji formiraju VXLAN tunel do drugog centra podataka) ili za L3 konekciju (dva MPLS rutera).

Priča o jednom prekidaču
Kao što sam već napisao, za objedinjavanje procesa automatizacije konfiguracije usluga na opremi u jednom data centru, bilo je potrebno zamijeniti centralne agregacijske prekidače. Ugradili smo nove prekidače pored postojećih, spojili ih u MLAG par i počeli se pripremati za rad. Odmah su spojeni na postojeće agregacijske prekidače, tako da su imali zajedničku L2 domenu na svim klijentskim VLAN-ovima.

Detalji šeme

Za pojedinosti, nazovimo stare sklopke za agregaciju A1 и A2, novo - N1 и N2. Zamislimo to unutra POD 1 и POD 4 hostovani su serveri jednog klijenta S1,VLAN klijenta je označen plavom bojom. Ovaj klijent koristi L2 uslugu povezivanja sa drugim data centrom, tako da se njegov VLAN napaja na par VXLAN prekidača.

Kupac S2 hostuje servere u POD 2 и POD 3,VLAN klijenta je označen tamno zelenom bojom. Ovaj klijent takođe koristi uslugu povezivanja sa drugim data centrom, ali L3, tako da se njegov VLAN napaja na par L3VPN rutera.

Priča o jednom prekidaču
Potrebni su nam klijentski VLAN-ovi da bismo razumeli u kojim fazama zamene funkcioniše šta se dešava, gde dolazi do prekida komunikacije i koliko može da traje. STP protokol se ne koristi u ovoj shemi, jer je širina stabla za njega u ovom slučaju velika, a konvergencija protokola raste eksponencijalno s brojem uređaja i veza između njih.

Svi uređaji povezani dvostrukim vezama čine stek, MLAG par ili VCS Ethernet mrežu. Za par L3VPN rutera takve tehnologije se ne koriste, jer nema potrebe za redundantnošću L2, dovoljno je da imaju L2 konekciju jedni s drugima putem agregacijskih prekidača.

Mogućnosti implementacije

Analizirajući opcije za dalje događaje, shvatili smo da postoji nekoliko načina da se ovaj posao izvede. Od globalnog prekida na cijeloj lokalnoj mreži, do malih bukvalno 1-2 sekunde prekida u dijelovima mreže.

Mreža, stani! Prekidači, zamijenite ih!

Najlakši način je, naravno, proglasiti globalni prekid komunikacije na svim POD-ovima i svim DCI uslugama i prebaciti sve veze sa prekidača А na prekidače N.

Priča o jednom prekidaču
Osim prekida, čije vrijeme ne možemo pouzdano predvidjeti (da, znamo broj linkova, ali ne znamo koliko će puta nešto poći po zlu - od pokvarenog patch kabla ili oštećenog konektora do neispravnog porta ili primopredajnika ), još uvijek ne možemo unaprijed predvidjeti da li će dužina patch kablova, DAC, AOC, spojenih na stare prekidače A, biti dovoljna da ih dopremo do novih prekidača N, iako stoje pored njih, ali ipak malo do sa strane i da li će isti primopredajnici raditi /DAC/AOC od Brocade prekidača do Arista prekidača.

I sve to pod velikim pritiskom kupaca i tehničke podrške („Nataša, ustani! Nataša, tu sve ne radi! Nataša, već smo pisali tehničkoj podršci, iskreno! Nataša, već su sve ispustili ! Natasha, koliko nas jos nece uspjeti? Natasha, kad ce uspjeti?!). I pored unaprijed najavljene pauze i obavještavanja klijenata, priliv zahtjeva u takvom trenutku je zagarantovan.

Stani, 1-2-3-4!

Što ako ne najavimo globalni prekid, već niz malih prekida komunikacije za POD i DCI usluge. Tokom prve pauze, prebacite se na prekidače N samo POD 1, u drugom - za par dana - POD 2, pa još par dana POD 3, onda POD 4…[N], zatim VXLAN prekidači i zatim L3VPN ruteri.

Priča o jednom prekidaču
Ovakvom organizacijom rada na prebacivanju smanjujemo složenost jednokratnog posla i povećavamo vrijeme za rješavanje problema ako nešto iznenada krene po zlu. POD 1 ostaje povezan sa drugim POD-ovima i DCI-ovima nakon prebacivanja. Ali sam posao se dugo odugovlači; tokom ovog rada u podatkovnom centru potreban je inženjer da fizički izvrši prebacivanje, a tokom rada (a takav se rad u pravilu obavlja noću, od 2 do 5 sati ujutro), potrebno je prisustvo mrežnog inženjera na prilično visokom nivou kvalifikacija. Ali tada dolazimo do kratkih prekida u komunikaciji; u pravilu se rad može obaviti u intervalu od pola sata sa pauzom do 2 minute (u praksi često 20-30 sekundi uz očekivano ponašanje opreme).

U primjeru klijenta S1 ili klijenta S2 morat ćete najmanje tri puta upozoriti na rad s prekidom u komunikaciji - prvi put za rad na jednom POD-u, u kojem se nalazi jedan od njegovih servera, drugi put - na drugom, i treći put - kada sklopna oprema za DCI usluge.

Prebacivanje agregiranih komunikacijskih kanala

Zašto govorimo o očekivanom ponašanju opreme i kako se agregirani kanali mogu prebaciti uz minimaliziranje prekida komunikacije? Zamislimo sljedeću sliku:

Priča o jednom prekidaču
Na jednoj strani veze nalaze se POD distributivni prekidači - D1 и D2, oni formiraju MLAG par jedan s drugim (stack, VCS fabrika, vPC par), s druge strane postoje dvije veze - Link 1 и Link 2 - uključeno u MLAG par starih agregacijskih prekidača А. Na strani prekidača D agregirani interfejs sa imenom Port-kanal A, na strani prekidača za agregaciju А - agregirani interfejs sa imenom Port-kanal D.

Agregirani interfejsi koriste LACP u svom radu, odnosno prekidači sa obe strane redovno razmenjuju LACPDU pakete na obe veze kako bi bili sigurni da veze:

  • radnici;
  • uključeni u jedan par uređaja na udaljenoj strani.

Prilikom razmjene paketa, paket nosi vrijednost system-id, koji označava uređaj na kojem su ove veze uključene. Za MLAG par (stek, fabrika, itd.), vrijednost sistemskog ID-a za uređaje koji formiraju agregirani interfejs je ista. Prekidač D1 šalje na Link 1 značenje sistem-id D, i prekidač D2 šalje na Link 2 značenje sistem-id D.

Prekidači A1 и A2 analizirajte LACPDU pakete primljene preko jednog Po D sučelja i provjerite da li se sistemski ID u njima poklapa. Ako se sistemski ID primljen preko neke veze iznenada razlikuje od trenutne radne vrijednosti, onda se ova veza uklanja iz zbirnog interfejsa dok se situacija ne ispravi. Sada na našoj strani prekidača D trenutna vrijednost ID-a sistema od LACP partnera - A, i na strani prekidača А — trenutna vrijednost ID-a sistema od LACP partnera — D.

Ako trebamo promijeniti agregirani interfejs, to možemo učiniti na dva različita načina:

Metoda 1 - Jednostavna
Onemogućite obe veze sa prekidača A. U ovom slučaju, agregirani kanal ne radi.

Priča o jednom prekidaču
Spojite obje veze jednu po jednu na prekidače N, tada će se LACP radni parametri ponovo pregovarati i sučelje će biti formirano Po D na prekidačima N i prijenos vrijednosti na linkovima sistem-id N.

Priča o jednom prekidaču

Metoda 2 - Minimizirajte prekide
Isključite vezu 2 sa prekidača A2. Istovremeno, saobraćaj između А и D nastavit će se prenositi jednostavno preko jedne od veza, koja će ostati dio zbirnog interfejsa.

Priča o jednom prekidaču
Povežite vezu 2 na prekidač N2. Na prekidaču N agregirani interfejs je već konfigurisan Po DN, i prekidač N2 će početi sa slanjem na LACPDU sistem-id N. U ovoj fazi već možemo provjeriti da li je prekidač N2 radi ispravno sa primopredajnikom koji se koristi za Link 2, da je port za vezu ušao u stanje Up, i da se ne pojavljuju greške na portu veze prilikom prijenosa LACPDU-ova.

Priča o jednom prekidaču
Ali činjenica da je prekidač D2 za agregirani interfejs Po A od Link 2 prima sistem-id N vrijednost različitu od trenutne vrijednosti A id operativnog sistema, ne dozvoljava prekidače D uvesti Link 2 dio agregiranog interfejsa Po A. Prekidač N ne mogu ući Link 2 u rad, jer ne dobija potvrdu operativnosti od LACP partnera komutatora D2. Rezultirajući promet je Link 2 ne prolazi.

I sada isključimo Link 1 sa prekidača A1, čime se oduzimaju prekidači А и D radni agregatni interfejs. Dakle, na strani prekidača D trenutna radna vrijednost system-id za interfejs nestaje Po A.

Priča o jednom prekidaču
Ovo omogućava prekidače D и N pristajete na razmjenu system-id AN na interfejsima Po A и Po DN, tako da se promet počne prenositi duž veze Link 2. Pauza u ovom slučaju je u praksi do 2 sekunde.

Priča o jednom prekidaču
I sada možemo lako prebaciti Link 1 na N1, vraćanje kapaciteta i nivoa redundancije interfejsa Po A и Po DN. Budući da kada je ova veza povezana, trenutna vrijednost ID-a sistema se ne mijenja ni na jednoj strani, nema prekida.

Priča o jednom prekidaču

Dodatne veze

Ali prebacivanje se može izvršiti bez prisustva inženjera u trenutku prebacivanja. Da bismo to učinili, morat ćemo unaprijed postaviti dodatne veze između distribucijskih prekidača D i nove sklopke za agregaciju N.

Priča o jednom prekidaču
Postavljamo nove veze između agregacionih prekidača N i distributivni prekidači za sve POD-ove. To zahtijeva naručivanje i polaganje dodatnih patch kablova, te ugradnju dodatnih primopredajnika kao u N, i D. To možemo učiniti jer u našim prekidačima D Svaki POD ima slobodne portove (ili ih prethodno oslobađamo). Kao rezultat toga, svaki POD je fizički povezan sa dvije veze sa starim prekidačima A i novim prekidačima N.

Priča o jednom prekidaču
Na prekidaču D formirana su dva agregirana interfejsa - Po A sa linkovima Link 1 и Link 2i Po N - sa linkovima Link N1 и Link N2. U ovoj fazi provjeravamo ispravnu povezanost interfejsa i linkova, nivoe optičkih signala na oba kraja linkova (preko DDM informacija sa prekidača), čak možemo provjeriti performanse veze pod opterećenjem ili pratiti stanja optički signali i temperature primopredajnika nekoliko dana.

Saobraćaj se i dalje šalje preko interfejsa Po A, i interfejs Po N ne košta promet. Postavke na interfejsima su otprilike ovako:

Interface Port-channel A
Switchport mode trunk
Switchport allowed vlan C1, C2

Interface Port-channel N
Switchport mode trunk
Switchport allowed vlan none

D prekidači u pravilu podržavaju promjene konfiguracije zasnovane na sesiji; koriste se modeli prekidača koji imaju ovu funkcionalnost. Tako možemo promijeniti postavke Po A i Po N sučelja u jednom koraku:

Configure session
Interface Port-channel A
Switchport allowed vlan none
Interface Port-channel N
Switchport allowed vlan C1, C2
Commit

Tada će se promjena konfiguracije dogoditi dovoljno brzo, a pauza u praksi neće trajati duže od 5 sekundi.

Ova metoda nam omogućava da unaprijed završimo sve pripremne radove, izvršimo sve potrebne provjere, koordiniramo rad sa učesnicima u procesu, detaljno predvidimo radnje za proizvodnju posla, bez poleta kreativnosti kada je „sve krenulo po zlu ,” i imate pri ruci plan za povratak na prethodnu konfiguraciju. Radove prema ovom planu izvodi mrežni inženjer bez prisustva inženjera data centra na licu mjesta koji fizički vrši komutaciju.

Ono što je također važno kod ovog načina prebacivanja je da se svi novi linkovi već unaprijed prate. Greške, uključivanje linkova u jedinicu, učitavanje linkova - sve potrebne informacije su već u sistemu praćenja, a to je već ucrtano na mapama.

D-Day

Pod

Odabrali smo najmanje bolan put prebacivanja za klijente i najmanje sklon scenarijima „nešto je pošlo po zlu“ s dodatnim linkovima. Tako smo prebacili sve POD-ove na nove prekidače za agregaciju za nekoliko noći.

Priča o jednom prekidaču
Ali ostaje samo da se zamijeni oprema koja pruža DCI usluge.

L2

U slučaju opreme koja omogućava L2 povezivost, nismo bili u mogućnosti da izvedemo sličan posao sa dodatnim vezama. Za to postoje najmanje dva razloga:

  • Nedostatak slobodnih portova potrebne brzine na VXLAN prekidačima.
  • Nedostatak funkcionalnosti promjene konfiguracije sesije na VXLAN prekidačima.

Nismo prebacivali linkove “jedan po jedan” sa pauzom samo prilikom dogovaranja novog para system-id, jer nismo imali 100% povjerenja da će postupak proći kako treba, a test u laboratoriji je pokazao da u U slučaju da „nešto krene naopako“, i dalje dobijamo prekid veze, a ono što je najgore nije samo za klijente koji imaju L2 konekciju sa drugim data centrima, već generalno za sve klijente ovog data centra.

Unaprijed smo obavili propagandni rad na prelasku sa L2 kanala, tako da je broj klijenata pogođenih radom na VXLAN switchevima već nekoliko puta manji nego prije godinu dana. Kao rezultat toga, odlučili smo da prekinemo komunikaciju putem usluge L2 veze, pod uslovom da održavamo normalan rad usluga lokalne mreže u jednom data centru. Osim toga, SLA za ovu uslugu predviđa mogućnost obavljanja planiranog rada sa prekidima.

L3

Zašto smo preporučili da svi pređu na L3VPN kada organiziraju DCI usluge? Jedan od razloga je mogućnost obavljanja rada na jednom od rutera koji pružaju ovu uslugu, jednostavno smanjenje redundantnog nivoa na N+0, bez prekida komunikacije.

Pogledajmo pobliže šemu pružanja usluga. U ovoj usluzi, L2 segment ide od klijentskih servera samo do L3VPN Selectel rutera. Mreža klijenta je terminirana na ruterima.

Svaki klijent server, npr. S2 и S3 u gornjem dijagramu, imaju svoje privatne IP adrese - 10.0.0.2/24 na serveru S2 и 10.0.0.3/24 na serveru S3. Adrese 10.0.0.252/24 и 10.0.0.253/24 koje je Selectel dodijelio ruterima L3VPN-1 и L3VPN-2, odnosno. IP adresa 10.0.0.254/24 je VRRP VIP adresa na Selectel ruterima.

Možete saznati više o usluzi L3VPN čitati u našem blogu.

Prije prebacivanja, sve je izgledalo otprilike kao na dijagramu:

Priča o jednom prekidaču
Dva rutera L3VPN-1 и L3VPN-2 bili povezani na stari agregacijski prekidač А. Master za VRRP VIP adresu 10.0.0.254 je ruter L3VPN-1. Ima veći prioritet za ovu adresu od rutera L3VPN-2.

unit 1006 {
    description C2;
    vlan-id 1006;
    family inet {       
        address 10.0.0.252/24 {
            vrrp-group 1 {
                priority 200;
                virtual-address 10.100.0.254;
                preempt {
                    hold-time 120;
                }
                accept-data;
            }
        }
    }
}

S2 server koristi gateway 10.0.0.254 za komunikaciju sa serverima na drugim lokacijama. Dakle, isključivanje L3VPN-2 rutera sa mreže (naravno, ako se prvo isključi sa MPLS domene) ne utiče na povezanost servera klijenta. U ovom trenutku, nivo redundancije kola je jednostavno smanjen.

Priča o jednom prekidaču
Nakon toga možemo bezbedno ponovo povezati ruter L3VPN-2 na par prekidača N. Postavite veze, promijenite primopredajnike. Logički interfejsi rutera, od kojih zavisi rad klijentskih servisa, su onemogućeni dok se ne potvrdi da sve funkcioniše kako treba.

Nakon provjere veza, primopredajnika, nivoa signala i nivoa grešaka na interfejsima, ruter je pušten u rad, ali je već spojen na novi par prekidača.

Priča o jednom prekidaču
Zatim snižavamo VRRP prioritet L3VPN-1 rutera, a VIP adresa 10.0.0.254 se premešta na L3VPN-2 ruter. Ovi radovi se takođe izvode bez prekida komunikacije.

Priča o jednom prekidaču
Prebacivanje VIP adrese 10.0.0.254 na ruter L3VPN-2 omogućava vam da onemogućite ruter L3VPN-1 bez prekida komunikacije za klijenta i povežite ga na novi par agregacijskih prekidača N.

Priča o jednom prekidaču
Da li vratiti VRRP VIP na L3VPN-1 ruter je drugo pitanje, a čak i ako se vrati, to se radi bez prekida veze.

Ukupno

Nakon svih ovih koraka, mi smo zapravo zamijenili sklopke za agregaciju u jednom od naših podatkovnih centara, dok smo minimizirali smetnje za naše klijente.

Priča o jednom prekidaču
Ostaje samo demontaža. Demontaža starih prekidača, demontaža starih veza između prekidača A i D, demontaža primopredajnika sa ovih linkova, korekcija monitoringa, korekcija mrežnih dijagrama u dokumentaciji i monitoringu.

Svičeve, primopredajnike, patch kablove, AOC, DAC preostale nakon prebacivanja možemo koristiti u drugim projektima ili za druge slične komutacije.

“Nataša, sve smo zamenili!”

izvor: www.habr.com

Dodajte komentar