Ühe lüliti lugu

Ühe lüliti lugu
Meie kohaliku võrgu koondamisel oli meil kuus paari Arista DCS-7050CX3-32S lüliteid ja üks paar Brocade VDX 6940-36Q lüliteid. Asi pole selles, et selles võrgus olevad Brocade lülitid oleksid meid üle pingutanud, need töötavad ja täidavad oma funktsioone, kuid valmistasime ette mõnede toimingute täielikku automatiseerimist ja meil polnud nendel lülititel neid võimalusi. Tahtsin ka 40GE liidestelt üle minna 100GE kasutamise võimalusele, et teha reservi järgmiseks 2-3 aastaks. Seega otsustasime Brocade Arista vastu vahetada.

Need lülitid on iga andmekeskuse LAN-i koondamise lülitid. Nendega on otse ühendatud jaotuslülitid (teine ​​agregatsioonitase), mis juba koondavad Top-of-Racki kohtvõrgu lülitid serveritega rackidesse.

Ühe lüliti lugu
Iga server on ühendatud ühe või kahe juurdepääsulülitiga. Juurdepääsu lülitid on ühendatud jaotuslülitite paariga (liiendamiseks kasutatakse kahte jaotuslülitit ja kahte füüsilist linki juurdepääsulülitist erinevatele jaotuslülititele).

Iga serverit saab kasutada oma klient, seega eraldatakse kliendile eraldi VLAN. Seejärel registreeritakse sama VLAN selle kliendi teises serveris mis tahes riiulis. Andmekeskus koosneb mitmest sellisest reast (POD), igal rackide real on oma jaotuslülitid. Seejärel ühendatakse need jaotuslülitid koondamislülititega.

Ühe lüliti lugu
Kliendid saavad tellida serveri suvalises reas, ei ole võimalik ette ennustada, et server eraldatakse või paigaldatakse konkreetsesse racki konkreetsesse ritta, mistõttu on igas andmekeskuses koondamislülitites umbes 2500 VLAN-i.

DCI (Data-Center Interconnect) seadmed on ühendatud koondamislülititega. See võib olla mõeldud L2-ühenduvuse jaoks (paar lülitit, mis moodustavad VXLAN-i tunneli teise andmekeskusega) või L3-ühenduvuse jaoks (kaks MPLS-ruuterit).

Ühe lüliti lugu
Nagu ma juba kirjutasin, tuli ühes andmekeskuses olevate seadmete teenuste konfigureerimise automatiseerimise protsesside ühtlustamiseks välja vahetada kesksed koondamislülitid. Paigaldasime olemasolevate lülitite kõrvale uued, ühendasime need MLAG paariks ja asusime tööks valmistuma. Need ühendati kohe olemasolevate koondamislülititega, nii et neil oli kõigi kliendi VLAN-ide jaoks ühine L2 domeen.

Ahela üksikasjad

Täpsemalt nimetagem vanad koondamislülitid A1 и A2, uus - N1 и N2. Kujutame seda sisse POD 1 и POD 4 majutatakse ühe kliendi servereid С1,Kliendi VLAN on tähistatud sinisega. See klient kasutab teise andmekeskusega L2 ühenduvusteenust, nii et selle VLAN suunatakse paarile VXLAN-lülitile.

Klient С2 majutab servereid POD 2 и POD 3,Kliendi VLAN on tähistatud tumerohelisega. See klient kasutab ühenduvusteenust ka teise andmekeskusega, kuid L3-ga, nii et selle VLAN-i toidetakse paarile L3VPN-ruuterile.

Ühe lüliti lugu
Vajame kliendi VLAN-e, et mõista, mis asendustöö etappidel toimub, kus toimub sidekatkestus ja milline võib selle kestus olla. STP-protokolli selles skeemis ei kasutata, kuna selle puu laius on sel juhul suur ja protokolli lähenemine kasvab eksponentsiaalselt seadmete ja nendevaheliste linkide arvuga.

Kõik topeltlinkidega ühendatud seadmed moodustavad virna, MLAG paari või VCS Etherneti kanga. L3VPN-ruuteri paari puhul selliseid tehnoloogiaid ei kasutata, kuna pole vaja L2 liiasust, piisab, kui neil on L2-ühenduvus üksteisega agregatsioonilülitite kaudu.

Rakendusvalikud

Edasiste sündmuste võimalusi analüüsides saime aru, et selle töö teostamiseks on mitu võimalust. Alates globaalsest katkestusest kogu kohalikus võrgus kuni väikeste sõna otseses mõttes 1-2 sekundiliste katkestusteni võrgu teatud osades.

Võrk, peatu! Lülitid, vahetage need välja!

Lihtsaim viis on loomulikult kuulutada kõigis POD-ides ja kõigis DCI-teenustes globaalne sidekatkestus ning lülitada kõik lingid lülititest välja. А lülititele N.

Ühe lüliti lugu
Peale katkestuse, mille aega me ei saa usaldusväärselt ennustada (jah, me teame linkide arvu, kuid me ei tea, mitu korda midagi valesti läheb - alates katkisest plaastrijuhtmest või kahjustatud pistikust kuni vigase pordi või transiiverini ), ei oska me siiski ette ennustada, kas vanade lülititega A ühendatud plaastrijuhtmete DAC, AOC pikkus on piisav, et need jõuaksid uutesse lülititesse N, kuigi need seisavad nende kõrval, kuid siiski veidi. küljelt ja kas töötavad samad transiiverid /DAC/AOC Brocade lülititest Arista lülititeni.

Ja seda kõike klientide ja tehnilise toe tugeva surve tingimustes ("Nataša, tõuse püsti! Nataša, seal kõik ei tööta! Nataša, me oleme juba kirjutanud tehnilisele toele, ausalt! Nataša, nad on juba kõik ära jätnud ! Nataša, kui palju meil veel pole, kas see ei tööta? Nataša, millal see töötab?!"). Isegi vaatamata ette teatatud pausile ja klientide teavitamisele on sellisel ajal päringute sissevool garanteeritud.

Peatu, 1-2-3-4!

Mis siis, kui me ei teata ülemaailmsest katkestusest, vaid pigem väikestest sidekatkestest POD- ja DCI-teenustes. Esimese pausi ajal lülitage lülititele N ainult POD 1, teises - paari päeva pärast - POD 2, siis paar päeva veel POD 3Edasi POD 4…[N], seejärel VXLAN-lülitid ja seejärel L3VPN-ruuterid.

Ühe lüliti lugu
Sellise vahetustöö korraldusega vähendame ühekordsete tööde keerukust ja suurendame oma aega probleemide lahendamiseks, kui midagi ootamatult valesti läheb. POD 1 jääb pärast ümberlülitamist ühendatuks teiste POD-ide ja DCI-dega. Kuid töö ise venib kaua; selle töö ajal andmekeskuses on insener kohustatud füüsiliselt lülitusi tegema ja töö ajal (ja sellist tööd tehakse reeglina öösel, alates 2. kuni kella 5), on nõutav online-võrguinseneri olemasolu, kellel on üsna kõrge kvalifikatsioon. Siis aga tekivad lühikesed sidekatkestused, reeglina saab tööd teha pooletunnise intervalliga kuni 2-minutilise pausiga (praktikas sageli 20-30 sekundit seadmete eeldatava käitumisega).

Näidiskliendis С1 või klient С2 Sidekatkestuse korral peate hoiatama töö eest vähemalt kolm korda - esimest korda töö tegemiseks ühe POD-iga, milles üks selle serveritest asub, teist korda - teisel ja kolmandal korral - kui DCI teenuste lülitusseadmed.

Koondkommunikatsioonikanalite vahetamine

Miks me räägime seadmete eeldatavast käitumisest ja kuidas saab koondatud kanaleid vahetada, minimeerides samal ajal sidekatkestusi? Kujutagem ette järgmist pilti:

Ühe lüliti lugu
Lingi ühel küljel on POD-i jaotuslülitid - D1 и D2, moodustavad nad omavahel MLAG-paari (stack, VCS-i tehas, vPC-paar), teisalt on kaks linki - Link 1 и Link 2 - sisaldub vanade koondamislülitite MLAG paaris А. Lüliti poolel D nimega koondatud liides Port-kanal A, koondamislülitite küljel А - koondatud liides nimega Port-kanal D.

Koondliidesed kasutavad oma töös LACP-d, see tähendab, et mõlema poole lülitid vahetavad regulaarselt mõlemal lingil LACPDU pakette tagamaks, et lingid:

  • töötajad;
  • sisaldub ühes seadmepaaris kaugjuhtimispuldil.

Pakettide vahetamisel kannab pakett väärtust süsteemi ID, mis näitab seadet, kuhu need lingid on lisatud. MLAG-paari (pinn, tehas jne) puhul on koondliidese moodustavate seadmete süsteemi ID väärtus sama. Lüliti D1 saadab Link 1 väärtus süsteemi ID D, ja lüliti D2 saadab Link 2 väärtus süsteemi ID D.

Lülitid A1 и A2 analüüsida ühe Po D liidese kaudu vastuvõetud LACPDU pakette ja kontrollida, kas nende süsteemi ID ühtib. Kui mõne lingi kaudu saadud süsteemi ID äkki erineb praegusest tööväärtusest, siis eemaldatakse see link koondliidesest kuni olukorra parandamiseni. Nüüd meie lüliti poolel D LACP partneri praegune süsteemi ID väärtus - A, ja lüliti poolel А — praegune süsteemi ID väärtus LACP partnerilt — D.

Kui meil on vaja koondaliidest vahetada, saame seda teha kahel erineval viisil.

1. meetod – lihtne
Keelake mõlemad lülitite A lingid. Sel juhul koondatud kanal ei tööta.

Ühe lüliti lugu
Ühendage mõlemad lingid ükshaaval lülititega N, siis lepitakse uuesti läbi LACP tööparameetrid ja moodustatakse liides PoD lülititel N ja väärtuste edastamine linkidel süsteemi ID N.

Ühe lüliti lugu

2. meetod – katkestuste minimeerimine
Ühendage link 2 lahti lülitist A2. Samal ajal liiklus vahel А и D edastatakse edasi lihtsalt ühe lingi kaudu, mis jääb koondliidese osaks.

Ühe lüliti lugu
Ühendage link 2 lülitiga N2. Lüliti peal N koondliides on juba konfigureeritud Po DN, ja lüliti N2 hakkab edastama LACPDU-le süsteemi ID N. Selles etapis saame juba kontrollida, et lüliti N2 töötab õigesti kasutatava transiiveriga Link 2, et ühendusport on sisenenud olekusse Upja et LACPDU-de edastamisel ei esineks ühenduspordis vigu.

Ühe lüliti lugu
Aga see, et lüliti D2 koondatud liidese jaoks Po A küljelt Link 2 saab süsteemi ID N väärtuse, mis erineb praegusest operatsioonisüsteemi ID A väärtusest, ei luba lüliteid D tutvustama Link 2 osa koondliidest Po A. Lüliti N sisse ei saa Link 2 tööle, kuna see ei saa lüliti LACP-partnerilt kinnitust töökindluse kohta D2. Sellest tulenev liiklus on Link 2 ei pääse läbi.

Ja nüüd lülitame lüliti A1 lingi 1 väljajättes sellega lülitid ilma А и D töötav koondliides. Nii et lüliti poolel D liidese praegune töötav süsteemi ID väärtus kaob Po A.

Ühe lüliti lugu
See võimaldab lülitid D и N nõustute vahetama süsteemi ID-d AN liideste kohta Po A и Po DN, nii et liiklust hakatakse edastama mööda linki Link 2. Sel juhul on vaheaeg praktikas kuni 2 sekundit.

Ühe lüliti lugu
Ja nüüd saame lingi 1 hõlpsalt vahetada lülitiks N1, taastades liidese liiasuse mahu ja taseme Po A и Po DN. Kuna selle lingi ühendamisel ei muutu praegune süsteemi ID väärtus kummalgi poolel, pole katkestust.

Ühe lüliti lugu

Täiendavad lingid

Kuid ümberlülitamist saab teha ilma inseneri juuresolekuta ümberlülitamise ajal. Selleks peame jaotuslülitite vahel eelnevalt looma täiendavad lingid D ja uued koondamislülitid N.

Ühe lüliti lugu
Loome koondamislülitite vahele uusi ühendusi N ja jaotuslülitid kõigile POD-idele. See nõuab täiendavate plaastrijuhtmete tellimist ja paigaldamist ning täiendavate transiiverite paigaldamist nagu on näidatud Nja sisse D. Saame seda teha, sest meie lülitid D Igal POD-il on vabad pordid (või me eelvabastame need). Selle tulemusena on iga POD füüsiliselt kahe lingi kaudu ühendatud vanade lülititega A ja uute lülititega N.

Ühe lüliti lugu
Lüliti peal D on moodustatud kaks agregeeritud liidest - Po A linkidega Link 1 и Link 2Ja Po N - linkidega Link N1 и Link N2. Selles etapis kontrollime liideste ja linkide õiget ühendamist, optiliste signaalide taset linkide mõlemas otsas (lülitite DDM-i teabe kaudu), saame isegi kontrollida lingi jõudlust koormuse all või jälgida lülitite olekuid. optilised signaalid ja transiiveri temperatuurid paariks päevaks.

Liiklus saadetakse endiselt liidese kaudu Po Aja liides Po N ei maksa liiklust. Liideste seaded on umbes sellised:

Interface Port-channel A
Switchport mode trunk
Switchport allowed vlan C1, C2

Interface Port-channel N
Switchport mode trunk
Switchport allowed vlan none

D-lülitid toetavad reeglina seansipõhiseid konfiguratsioonimuudatusi; kasutatakse selle funktsiooniga lülitimudeleid. Nii saame Po A ja Po N liideste sätteid muuta ühe sammuga:

Configure session
Interface Port-channel A
Switchport allowed vlan none
Interface Port-channel N
Switchport allowed vlan C1, C2
Commit

Siis toimub konfiguratsiooni muutmine piisavalt kiiresti ja paus ei ole praktikas pikem kui 5 sekundit.

See meetod võimaldab meil kõik ettevalmistustööd eelnevalt lõpule viia, läbi viia kõik vajalikud kontrollid, koordineerida tööd protsessis osalejatega, ennustada üksikasjalikult töö tegemise toiminguid ilma loovuslendudeta, kui "kõik läks valesti" ”, ja teil on käepärast plaan eelmisele konfiguratsioonile naasmiseks. Selle plaani järgseid töid teostab võrguinsener ilma andmekeskuse inseneri kohalolekuta, kes füüsiliselt ümberlülitamist teostab.

Selle ümberlülitusmeetodi puhul on oluline ka see, et kõiki uusi linke jälgitakse juba eelnevalt. Vead, linkide lisamine üksusesse, linkide laadimine - kogu vajalik info on juba seiresüsteemis ja see on juba kaartidele joonistatud.

D-Day

POD

Valisime täiendavate linkidega klientide jaoks kõige vähem valusama vahetustee ja kõige vähem altid stsenaariumidele, et midagi läks valesti. Seega vahetasime paari ööga kõik POD-id uutele koondamislülititele.

Ühe lüliti lugu
Kuid jääb üle vaid vahetada DCI-teenuseid pakkuvaid seadmeid.

L2

L2 ühenduvust tagavate seadmete puhul ei saanud me sarnast tööd täiendavate linkidega teha. Sellel on vähemalt kaks põhjust:

  • Vajaliku kiirusega vabade portide puudumine VXLAN-lülititel.
  • VXLAN-lülitite seansi konfiguratsiooni muutmise funktsioonide puudumine.

Me ei vahetanud linke "ükshaaval" pausiga ainult uue süsteemi-id paari kokkuleppimisel, kuna meil polnud 100% kindlust, et protseduur toimub õigesti ja laboris tehtud test näitas, et Kui "midagi läheb valesti", tekib ikkagi ühenduskatkestus ja kõige hullem pole see mitte ainult klientide jaoks, kellel on L2-ühendus teiste andmekeskustega, vaid üldiselt kõigi selle andmekeskuse klientide jaoks.

L2 kanalitelt üleminekul tegime propagandatööd enne tähtaega, seega oli VXLAN-lülitite tööst mõjutatud kliente juba mitu korda vähem kui aasta tagasi. Sellest tulenevalt otsustasime katkestada side L2 ühendusteenuse kaudu eeldusel, et säilitame ühes andmekeskuses tavavõrguteenuste toimimise. Lisaks näeb selle teenuse SLA ette võimaluse teha plaanipäraseid töid katkestustega.

L3

Miks soovitasime kõigil DCI teenuste korraldamisel üle minna L3VPN-ile? Üks põhjusi on võimalus teha tööd ühe seda teenust pakkuva ruuteriga, vähendades lihtsalt koondamistaset tasemele N+0, ilma sidet katkestamata.

Vaatame lähemalt teenuse osutamise skeemi. Selles teenuses läheb L2 segment ainult kliendiserveritelt L3VPN Selecteli ruuteritele. Kliendivõrk on ruuterites lõpetatud.

Iga kliendiserver, nt. S2 и S3 ülaltoodud diagrammil on oma privaatsed IP-aadressid - 10.0.0.2/24 serveris S2 и 10.0.0.3/24 serveris S3. Aadressid 10.0.0.252/24 и 10.0.0.253/24 Selecteli poolt ruuteritele määratud L3VPN-1 и L3VPN-2, vastavalt. IP-aadress 10.0.0.254/24 on VRRP VIP-aadress Selecteli ruuterites.

Saate L3VPN-teenuse kohta lisateavet loe meie ajaveebis.

Enne lülitit nägi kõik välja umbes nagu diagrammil:

Ühe lüliti lugu
Kaks ruuterit L3VPN-1 и L3VPN-2 olid ühendatud vana agregatsioonilülitiga А. VRRP VIP-aadressi 10.0.0.254 juht on ruuter L3VPN-1. Sellel on selle aadressi jaoks kõrgem prioriteet kui ruuteril L3VPN-2.

unit 1006 {
    description C2;
    vlan-id 1006;
    family inet {       
        address 10.0.0.252/24 {
            vrrp-group 1 {
                priority 200;
                virtual-address 10.100.0.254;
                preempt {
                    hold-time 120;
                }
                accept-data;
            }
        }
    }
}

S2 server kasutab muudes asukohtades asuvate serveritega suhtlemiseks lüüsi 10.0.0.254. Seega ei mõjuta L3VPN-2 ruuteri võrgust lahtiühendamine (muidugi, kui see on esmalt MPLS-domeenist lahti ühendatud) kliendi serverite ühenduvust. Sel hetkel vähendatakse vooluringi koondamistaset lihtsalt.

Ühe lüliti lugu
Pärast seda saame ruuteri turvaliselt uuesti ühendada L3VPN-2 lülitite paarile N. Paigutage linke, vahetage transiivereid. Ruuteri loogilised liidesed, millest sõltub klienditeenuste toimimine, on keelatud seni, kuni kinnitatakse, et kõik toimib nii nagu peab.

Pärast liideste linkide, transiiverite, signaalitasemete ja veatasemete kontrollimist pannakse ruuter tööle, kuid on juba ühendatud uue lülitipaariga.

Ühe lüliti lugu
Järgmisena alandame ruuteri L3VPN-1 VRRP prioriteeti ja VIP-aadress 10.0.0.254 teisaldatakse L3VPN-2 ruuterisse. Neid töid tehakse ka ilma side katkemiseta.

Ühe lüliti lugu
VIP-aadressi 10.0.0.254 ülekandmine ruuterile L3VPN-2 võimaldab ruuteri keelata L3VPN-1 ilma kliendi sidet katkestamata ja ühendage see uue koondamislülitite paariga N.

Ühe lüliti lugu
Kas tagastada VRRP VIP L3VPN-1 ruuterile või mitte, on teine ​​küsimus ja isegi kui see tagastatakse, tehakse seda ilma ühendust katkestamata.

Kogusummas

Pärast kõiki neid samme asendasime ühes oma andmekeskuses koondamislülitid, minimeerides samal ajal häireid klientide jaoks.

Ühe lüliti lugu
Jääb vaid lahti võtta. Vanade kommutaatorite demonteerimine, vanade linkide demonteerimine kommutaatorite A ja D vahel, transiiverite demonteerimine nendelt linkidelt, monitooringu korrigeerimine, võrguskeemide korrigeerimine dokumentatsioonis ja monitooring.

Saame kasutada lüliteid, transiivereid, patch-juhtmeid, AOC-d, DAC-i, mis on jäänud pärast ümberlülitamist teistes projektides või muuks sarnaseks lülitamiseks.

"Nataša, me vahetasime kõik!"

Allikas: www.habr.com

Lisa kommentaar