Egy kapcsoló története

Egy kapcsoló története
Helyi hálózati aggregációnkban hat pár Arista DCS-7050CX3-32S kapcsoló és egy pár Brocade VDX 6940-36Q kapcsoló volt. Nem arról van szó, hogy túlzottan megterheltek minket a Brocade kapcsolók ebben a hálózatban, működnek és ellátják a funkcióikat, de néhány művelet teljes automatizálását készítettük elő, és ezeken a kapcsolókon nem rendelkeztünk ezekkel a képességekkel. A 40GE interfészekről is szerettem volna áttérni a 100GE használatának lehetőségére, hogy tartalékot képezhessek a következő 2-3 évre. Ezért úgy döntöttünk, hogy a Brocade-ot Aristára cseréljük.

Ezek a kapcsolók LAN-összesítő kapcsolók minden adatközponthoz. Közvetlenül hozzájuk csatlakoznak az elosztó kapcsolók (az aggregáció második szintje), amelyek már a Top-of-Rack helyi hálózati switcheket kiszolgálókkal ellátott rackekbe szerelik össze.

Egy kapcsoló története
Minden szerver egy vagy két hozzáférési kapcsolóhoz csatlakozik. A hozzáférési kapcsolók egy pár elosztó kapcsolóhoz csatlakoznak (két elosztó kapcsolót és két fizikai kapcsolatot a hozzáférési kapcsolótól a különböző elosztó kapcsolókhoz használnak redundanciára).

Minden szervert saját kliens használhat, így a klienshez külön VLAN van hozzárendelve. Ugyanez a VLAN ezután regisztrálásra kerül a kliens másik kiszolgálóján bármely rackben. Az adatközpont több ilyen sorból (POD-ból) áll, minden rack-sornak saját elosztókapcsolója van. Ezután ezek az elosztó kapcsolók aggregációs kapcsolókhoz kapcsolódnak.

Egy kapcsoló története
A kliensek bármelyik sorba rendelhetnek szervert, nem lehet előre megjósolni, hogy a szerver egy adott rack egy sorában kerül kiosztásra vagy telepítésre, ezért minden adatközpontban mintegy 2500 VLAN található aggregációs kapcsolókon.

A DCI (Data-Center Interconnect) berendezései aggregációs kapcsolókhoz csatlakoznak. Alkalmazható L2 csatlakozáshoz (egy kapcsolópár, amely VXLAN alagutat képez egy másik adatközpontba) vagy L3 csatlakozásra (két MPLS router).

Egy kapcsoló története
Mint már írtam, az egy adatközpontban lévő berendezéseken a szolgáltatások konfigurálásának automatizálási folyamatainak egységesítéséhez a központi aggregációs kapcsolók cseréjére volt szükség. A meglévők mellé új kapcsolókat szereltünk fel, MLAG-párba egyesítettük és elkezdtük a munkára való felkészülést. Azonnal csatlakoztak a meglévő összesítő kapcsolókhoz, így közös L2 tartományuk volt az összes kliens VLAN-on.

Az áramkör részletei

A részletekért nevezzük meg a régi összesítő kapcsolókat A1 и A2, új - N1 и N2. Képzeljük el ezt POD 1 и POD 4 egy kliens szerverei vannak üzemeltetve S1,A kliens VLAN kék színnel van jelölve. Ez az ügyfél egy másik adatközponttal másodlagos csatlakozási szolgáltatást használ, így a VLAN-ja egy pár VXLAN-kapcsolóhoz van táplálva.

vásárló S2 szervereket fogad be POD 2 и POD 3,A kliens VLAN-t sötétzöld jelöli. Ez a kliens egy másik, de L3-as adatközponttal is összeköttetési szolgáltatást használ, így a VLAN-ja egy pár L3VPN útválasztóhoz van táplálva.

Egy kapcsoló története
Kliens VLAN-okra van szükségünk ahhoz, hogy megértsük, mi történik a cseremunka mely szakaszaiban, hol következik be a kommunikációs megszakítás, és mi lehet az időtartama. Az STP protokollt ebben a sémában nem használják, mivel ebben az esetben a fa szélessége nagy, és a protokoll konvergenciája exponenciálisan növekszik az eszközök és a köztük lévő kapcsolatok számával.

Minden kettős kapcsolattal összekapcsolt eszköz egy verem, MLAG pár vagy VCS Ethernet szövetet alkot. Egy pár L3VPN router esetében ilyen technológiákat nem használnak, mivel nincs szükség L2 redundanciára, elég, ha aggregációs kapcsolókon keresztül L2 kapcsolatot létesítenek egymással.

Megvalósítási lehetőségek

A további események lehetőségeinek elemzése során rájöttünk, hogy ennek a munkának több módja is van. A teljes helyi hálózat globális megszakításától a hálózat egyes részein, szó szerint 1-2 másodperces kis szünetekig.

Hálózat, állj! Kapcsolók, cseréld ki!

A legegyszerűbb természetesen az összes POD-on és az összes DCI-szolgáltatáson globális kommunikációs szünetet hirdetni, és az összes linket átkapcsolni a switchekről. А a kapcsolókhoz N.

Egy kapcsoló története
Eltekintve a megszakítástól, melynek időpontját nem tudjuk megbízhatóan megjósolni (igen, tudjuk a linkek számát, de nem tudjuk, hogy hányszor fog elromlani valami - a patch-kábeltől vagy a sérült csatlakozótól a hibás portig vagy adó-vevőig ), továbbra sem tudjuk előre megjósolni, hogy a régi A kapcsolókhoz csatlakoztatott DAC, AOC patch zsinórok hossza elegendő lesz-e ahhoz, hogy elérje az új N kapcsolókhoz, bár mellettük állnak, de még mindig egy kicsit. oldalt, és hogy ugyanazok az adó-vevők működnek-e /DAC/AOC a Brocade kapcsolóktól az Arista kapcsolókig.

És mindezt az ügyfelek és a technikai támogatás erős nyomása alatt („Natasha, kelj fel! Natasha, ott nem működik minden! Natasha, már írtunk a technikai támogatásnak, őszintén! Natasha, már mindent ledobtak ! Natasha, még hányan nem fog működni? Natasha, mikor fog működni?!"). Az előre meghirdetett szünet és az ügyfelek értesítése ellenére is garantált az igénylések ilyenkor.

Állj, 1-2-3-4!

Mi van, ha nem globális szünetet jelentünk be, hanem egy sor kisebb kommunikációs megszakítást a POD és DCI szolgáltatásokban. Az első szünetben váltson kapcsolókra N csak POD 1, a másodikban - pár napon belül - POD 2, aztán még pár nap POD 3További POD 4…[N], majd VXLAN switchek, majd L3VPN routerek.

Egy kapcsoló története
Ezzel a váltási munkaszervezéssel csökkentjük az egyszeri munkavégzés bonyolultságát, és megnöveljük a problémák megoldására fordított időt, ha valami hirtelen elromlik. A POD 1 kapcsolás után is csatlakozik a többi POD-hoz és DCI-hez. De maga a munka sokáig elhúzódik; az adatközpontban végzett munka során egy mérnöknek kell fizikailag elvégeznie a kapcsolást, és a munka során (és az ilyen munkát általában éjszaka, 2-tól végzik. 5 óráig), online hálózatmérnök jelenléte szükséges, elég magas szintű végzettséggel. Ekkor azonban rövid kommunikációs megszakításokat kapunk, a munka általában fél óra intervallumban, legfeljebb 2 perces szünettel (a gyakorlatban gyakran 20-30 másodperc a berendezés elvárt viselkedése mellett) végezhető.

A példa kliensben S1 vagy ügyfél S2 legalább háromszor figyelmeztetnie kell a kommunikáció megszakadásával járó munkára - először egy POD-on végez munkát, amelyben annak egyik szervere található, másodszor - a második, harmadik alkalommal - amikor kapcsolóberendezések a DCI szolgáltatásokhoz.

Összesített kommunikációs csatornák váltása

Miért beszélünk a berendezések elvárt viselkedéséről, és hogyan lehet az összesített csatornákat váltani a kommunikációs megszakítások minimalizálása mellett? Képzeljük el a következő képet:

Egy kapcsoló története
A link egyik oldalán POD elosztó kapcsolók találhatók - D1 и D2, egy MLAG párt alkotnak egymással (stack, VCS gyár, vPC pár), másrészt van két link - Link 1 и Link 2 - benne van a régi összesítő kapcsolók MLAG párjában А. A kapcsoló oldalán D egy összesített felület a névvel A port csatorna, az összesítő kapcsolók oldalán А — összesített interfész a névvel D port csatorna.

Az aggregált interfészek működése során LACP-t használnak, vagyis a két oldali kapcsolók rendszeresen cserélnek LACPDU-csomagokat mindkét linken, hogy megbizonyosodjanak arról, hogy a linkek:

  • munkavállalók;
  • egy pár eszközben található a távoli oldalon.

Csomagok cseréjekor a csomag az értéket hordozza rendszerazonosító, jelezve azt az eszközt, amelyen ezek a hivatkozások szerepelnek. MLAG-pár esetén (verem, gyári stb.) az összesített interfészt alkotó eszközök rendszerazonosító értéke megegyezik. Kapcsoló D1 címre küldi Link 1 jelentés rendszerazonosító D, és váltson D2 címre küldi Link 2 jelentés rendszerazonosító D.

Kapcsolók A1 и A2 elemzi az egy Po D interfészen keresztül kapott LACPDU csomagokat, és ellenőrizze, hogy a bennük lévő rendszerazonosító egyezik-e. Ha valamilyen linken keresztül kapott rendszerazonosító hirtelen eltér az aktuális üzemi értéktől, akkor ezt a hivatkozást a helyzet kijavításáig eltávolítjuk az összesített felületről. Most a mi kapcsolóoldalunkon D aktuális rendszerazonosító értéke az LACP partnertől - A, és a kapcsoló oldalán А — aktuális rendszerazonosító értéke az LACP partnertől — D.

Ha át kell váltanunk az összesített felületet, azt kétféleképpen tehetjük meg:

1. módszer – Egyszerű
Tiltsa le mindkét hivatkozást az A kapcsolóról. Ebben az esetben az összesített csatorna nem működik.

Egy kapcsoló története
Csatlakoztassa mindkét linket egyenként a kapcsolókhoz N, akkor újra megtörténik az LACP működési paramétereinek egyeztetése és az interfész kialakítása Hüvely kapcsolókon N és az értékek továbbítása linkeken rendszerazonosító N.

Egy kapcsoló története

2. módszer – Minimalizálja a megszakításokat
Válassza le a 2-es összekötőt az A2 kapcsolóról. Ugyanakkor a közötti forgalom А и D továbbra is egyszerűen az egyik linken keresztül továbbítható, amely továbbra is az összesített interfész része marad.

Egy kapcsoló története
Csatlakoztassa a Link 2-t az N2 kapcsolóhoz. A kapcsolón N az összesített felület már konfigurálva van Po DN, és váltson N2 megkezdi az átvitelt az LACPDU felé rendszerazonosító N. Ebben a szakaszban már ellenőrizhetjük, hogy a kapcsoló N2 megfelelően működik a használt adó-vevővel Link 2, hogy a csatlakozási port állapotba lépett Up, és nem történik hiba a csatlakozási porton az LACPDU-k továbbításakor.

Egy kapcsoló története
De az a tény, hogy a kapcsoló D2 az összesített felülethez Po A oldalról A 2. hivatkozás az operációs rendszer azonosítójának jelenlegi A értékétől eltérő rendszerazonosító N értéket kap, nem engedélyezi a kapcsolókat D belép Link 2 az összesített felület része Po A. Kapcsoló N nem tud belépni Link 2 működésbe, mivel nem kap visszaigazolást a működőképességről a kapcsoló LACP partnerétől D2. A keletkező forgalom az Link 2 nem jut át.

És most kikapcsoljuk az 1-es linket az A1 kapcsolóról, ezzel megfosztva a kapcsolókat А и D működő összesített felület. Tehát a kapcsoló oldalán D az interfész jelenlegi működő rendszerazonosító értéke eltűnik Po A.

Egy kapcsoló története
Ez lehetővé teszi a kapcsolókat D и N beleegyezik a rendszerazonosító cseréjébe AN felületeken Po A и Po DN, így a forgalom megkezdődik a link mentén Link 2. A szünet ebben az esetben a gyakorlatban legfeljebb 2 másodperc.

Egy kapcsoló története
Most pedig egyszerűen átkapcsolhatjuk az 1-es linket N1-re, helyreállítva az interfész redundanciájának kapacitását és szintjét Po A и Po DN. Mivel a kapcsolat csatlakoztatásakor az aktuális rendszerazonosító értéke nem változik egyik oldalon sem, nincs megszakítás.

Egy kapcsoló története

További linkek

De a váltás végrehajtható mérnök jelenléte nélkül is a váltáskor. Ehhez előzetesen további kapcsolatokat kell létrehoznunk a terjesztési kapcsolók között D és új összesítő kapcsolók N.

Egy kapcsoló története
Új kapcsolatokat építünk ki az összesítő kapcsolók között N és elosztó kapcsolók minden POD-hoz. Ehhez további patch vezetékek megrendelésére és lefektetésére, valamint további adó-vevők telepítésére van szükség Nés be D. Ezt megtehetjük, mert a kapcsolóinkban D Minden POD-nak vannak szabad portjai (vagy előzetesen felszabadítjuk őket). Ennek eredményeként minden POD fizikailag két kapcsolaton keresztül kapcsolódik a régi A kapcsolókhoz és az új N kapcsolókhoz.

Egy kapcsoló története
A kapcsolón D két aggregált interfész jött létre - Po A linkekkel Link 1 и Link 2És Po N - linkekkel Link N1 и Link N2. Ebben a szakaszban ellenőrizzük az interfészek és linkek helyes bekötését, az optikai jelek szintjeit a linkek mindkét végén (a kapcsolókról érkező DDM információn keresztül), akár terhelés alatt is ellenőrizhetjük a kapcsolat teljesítményét, vagy figyelhetjük a kapcsolat állapotát. optikai jelek és adó-vevő hőmérsékletek pár napig.

A forgalom továbbra is a felületen keresztül történik Po A, és a felület Po N nem kerül forgalomba. Az interfészek beállításai a következők:

Interface Port-channel A
Switchport mode trunk
Switchport allowed vlan C1, C2

Interface Port-channel N
Switchport mode trunk
Switchport allowed vlan none

A D kapcsolók általában támogatják a munkamenet-újrakonfigurálást; olyan kapcsolómodelleket használnak, amelyek rendelkeznek ezzel a funkcióval. Így egy lépésben módosíthatjuk a Po A és Po N interfészek beállításait:

Configure session
Interface Port-channel A
Switchport allowed vlan none
Interface Port-channel N
Switchport allowed vlan C1, C2
Commit

Ekkor a konfigurációváltás elég gyorsan megtörténik, és a szünet a gyakorlatban nem haladja meg az 5 másodpercet.

Ez a módszer lehetővé teszi, hogy az összes előkészítő munkát előre elvégezzük, elvégezzük az összes szükséges ellenőrzést, összehangoljuk a munkát a folyamat résztvevőivel, részletesen megjósoljuk a munka előállításához szükséges lépéseket, anélkül, hogy a kreativitás repülne, amikor „minden rosszul sült el. ”, és legyen kéznél egy terv az előző konfigurációhoz való visszatéréshez. A terv szerinti munkát egy hálózati mérnök végzi, az adatközponti mérnök jelenléte nélkül, aki fizikailag elvégzi a kapcsolást.

Az is fontos ennél a váltási módnál, hogy minden új linket már előre figyelnek. Hibák, linkek beillesztése az egységbe, linkek betöltése - minden szükséges információ már a felügyeleti rendszerben van, és ez már fel is van rajzolva a térképekre.

D-Day

POD

Az ügyfelek számára a legkevésbé fájdalmas váltási utat választottuk, és a legkevésbé hajlamosak a „valami elromlott” forgatókönyvekre további hivatkozásokkal. Így néhány éjszaka alatt az összes POD-ot új aggregációs kapcsolókra váltottuk.

Egy kapcsoló története
De már csak a DCI szolgáltatásokat nyújtó berendezés cseréje van hátra.

L2

Az L2 csatlakozást biztosító berendezések esetében további linkekkel nem tudtunk hasonló munkát végezni. Ennek legalább két oka van:

  • A szükséges sebességű szabad portok hiánya a VXLAN kapcsolókon.
  • A VXLAN-kapcsolókon a szekciókonfiguráció-módosítási funkciók hiánya.

Nem váltottunk „egyenként” hivatkozást megszakítással, csak az új rendszerazonosító pár egyeztetése közben, mivel nem volt 100%-os biztosságunk abban, hogy az eljárás megfelelően fog lezajlani, és a laboratóriumi vizsgálat kimutatta, hogy a Abban az esetben, ha „valami elromlik”, továbbra is kapcsolatkimaradást kapunk, és ami a legrosszabb, nem csak azokra az ügyfelekre vonatkozik, akik más adatközpontokkal rendelkeznek L2-kapcsolattal, hanem általában az adatközpont összes kliensével.

Az L2 csatornákról való átálláskor propagandamunkát végeztünk előre, így a VXLAN switcheken végzett munkával érintett ügyfelek száma már többszöröse volt az egy évvel ezelőttinek. Ennek eredményeként úgy döntöttünk, hogy megszakítjuk a kommunikációt az L2 kapcsolati szolgáltatáson keresztül, feltéve, hogy egy adatközpontban fenntartjuk a helyi hálózati szolgáltatások normál működését. Ezen túlmenően a szolgáltatás SLA-ja lehetővé teszi az ütemezett munka megszakításokkal történő végrehajtását.

L3

Miért javasoltuk, hogy mindenki váltson L3VPN-re a DCI szolgáltatások szervezésekor? Ennek egyik oka az, hogy a szolgáltatást nyújtó útválasztók egyikén lehet munkát végezni, egyszerűen N+0-ra csökkentve a redundancia szintjét a kommunikáció megszakítása nélkül.

Nézzük meg közelebbről a szolgáltatásnyújtás sémáját. Ebben a szolgáltatásban az L2 szegmens csak a klienskiszolgálóktól az L3VPN Selectel útválasztókig terjed. A kliens hálózat az útválasztókon le van zárva.

Minden kliens szerver, pl. S2 и S3 a fenti diagramon saját privát IP-címük van - 10.0.0.2/24 az S2 szerveren и 10.0.0.3/24 az S3 szerveren. Címek 10.0.0.252/24 и 10.0.0.253/24 a Selectel az útválasztókhoz rendelt L3VPN-1 и L3VPN-2, ill. IP-cím A 10.0.0.254/24 egy VRRP VIP-cím a Selectel útválasztókon.

További információ az L3VPN szolgáltatásról olvas a blogunkban.

A váltás előtt minden körülbelül úgy nézett ki, mint az ábrán:

Egy kapcsoló története
Két router L3VPN-1 и L3VPN-2 csatlakoztak a régi összesítő kapcsolóhoz А. A 10.0.0.254 VRRP VIP-cím mestere az útválasztó L3VPN-1. Ennek a címnek magasabb prioritása van, mint az útválasztónak L3VPN-2.

unit 1006 {
    description C2;
    vlan-id 1006;
    family inet {       
        address 10.0.0.252/24 {
            vrrp-group 1 {
                priority 200;
                virtual-address 10.100.0.254;
                preempt {
                    hold-time 120;
                }
                accept-data;
            }
        }
    }
}

Az S2 szerver a 10.0.0.254 átjárót használja a más helyeken lévő szerverekkel való kommunikációhoz. Így az L3VPN-2 útválasztó leválasztása a hálózatról (természetesen, ha először leválasztják az MPLS tartományról) nem befolyásolja a kliens szervereinek csatlakozását. Ezen a ponton az áramkör redundanciaszintje egyszerűen lecsökken.

Egy kapcsoló története
Ezt követően biztonságosan újracsatlakoztathatjuk a routert L3VPN-2 egy pár kapcsolóhoz N. Helyezzen el linkeket, cserélje ki az adó-vevőket. Az útválasztó logikai interfészei, amelyektől a kliens szolgáltatások működése függ, le vannak tiltva mindaddig, amíg meg nem bizonyosodik arról, hogy minden megfelelően működik.

Az interfészeken található kapcsolatok, adó-vevők, jelszintek és hibaszintek ellenőrzése után a router üzembe kerül, de már egy új kapcsolópárhoz csatlakozik.

Egy kapcsoló története
Ezután csökkentjük az L3VPN-1 útválasztó VRRP prioritását, és a 10.0.0.254 VIP-cím átkerül az L3VPN-2 útválasztóra. Ezeket a munkákat is a kommunikáció megszakítása nélkül végzik.

Egy kapcsoló története
A 10.0.0.254 VIP-cím átvitele az útválasztóra L3VPN-2 lehetővé teszi a router letiltását L3VPN-1 az ügyfél kommunikációjának megszakítása nélkül, és csatlakoztassa egy új aggregációs kapcsolópárhoz N.

Egy kapcsoló története
Az egy másik kérdés, hogy vissza kell-e küldeni a VRRP VIP-t az L3VPN-1 útválasztóra, és még ha vissza is adják, az a kapcsolat megszakítása nélkül történik.

Összességében

Mindezen lépések után ténylegesen kicseréltük az összesítő kapcsolókat az egyik adatközpontunkban, miközben ügyfeleink számára minimálisra csökkentettük a fennakadásokat.

Egy kapcsoló története
Már csak a szétszerelés marad. Régi kapcsolók bontása, régi kapcsolatok bontása A és D kapcsolók között, adó-vevők leszerelése ezekről a kapcsolatokról, monitorozás javítása, hálózati diagramok javítása a dokumentációban és a felügyeletben.

Más projektekben, vagy más hasonló kapcsoláshoz használhatjuk a kapcsolás után megmaradt switcheket, adó-vevőket, patch zsinórokat, AOC-t, DAC-t.

– Natasha, mindent megváltoztattunk!

Forrás: will.com

Hozzászólás