Kisah satu saklar

Kisah satu saklar
Dalam agregasi jaringan lokal kami, kami memiliki enam pasang sakelar Arista DCS-7050CX3-32S dan sepasang sakelar Brocade VDX 6940-36Q. Bukannya kami terlalu terbebani oleh switch Brocade di jaringan ini, mereka bekerja dan menjalankan fungsinya, namun kami sedang mempersiapkan otomatisasi penuh dari beberapa tindakan, dan kami tidak memiliki kemampuan ini pada switch ini. Saya juga ingin beralih dari antarmuka 40GE ke kemungkinan menggunakan 100GE untuk membuat cadangan untuk 2-3 tahun ke depan. Jadi kami memutuskan untuk mengganti Brokat menjadi Arista.

Sakelar ini adalah sakelar agregasi LAN untuk setiap pusat data. Sakelar distribusi (agregasi tingkat kedua) terhubung langsung dengannya, yang sudah merakit sakelar jaringan lokal Top-of-Rack di rak dengan server.

Kisah satu saklar
Setiap server terhubung ke satu atau dua switch akses. Sakelar akses dihubungkan ke sepasang sakelar distribusi (dua sakelar distribusi dan dua tautan fisik dari sakelar akses ke sakelar distribusi berbeda digunakan untuk redundansi).

Setiap server dapat digunakan oleh kliennya sendiri, sehingga klien dialokasikan VLAN terpisah. VLAN yang sama kemudian didaftarkan pada server lain klien ini di rak mana pun. Pusat data terdiri dari beberapa baris (POD), setiap baris rak memiliki sakelar distribusinya sendiri. Kemudian sakelar distribusi ini dihubungkan ke sakelar agregasi.

Kisah satu saklar
Klien dapat memesan server di baris mana pun; tidak mungkin memprediksi sebelumnya bahwa server akan dialokasikan atau dipasang di baris tertentu di rak tertentu, sehingga ada sekitar 2500 VLAN pada sakelar agregasi di setiap pusat data.

Peralatan untuk DCI (Data-Center Interconnect) dihubungkan ke sakelar agregasi. Ini dapat ditujukan untuk konektivitas L2 (sepasang switch yang membentuk terowongan VXLAN ke pusat data lain) atau untuk konektivitas L3 (dua router MPLS).

Kisah satu saklar
Seperti yang sudah saya tulis, untuk menyatukan proses otomatisasi konfigurasi layanan pada peralatan di satu pusat data, sakelar agregasi pusat perlu diganti. Kami memasang sakelar baru di samping sakelar yang sudah ada, menggabungkannya menjadi pasangan MLAG dan mulai bersiap untuk bekerja. Mereka segera terhubung ke switch agregasi yang ada, sehingga mereka memiliki domain L2 yang sama di semua VLAN klien.

Detail sirkuit

Untuk lebih spesifiknya, beri nama sakelar agregasi lama A1 ΠΈ A2, baru - N1 ΠΈ N2. Mari kita bayangkan itu di PO 1 ΠΈ PO 4 server dari satu klien dihosting Π‘1,VLAN klien ditunjukkan dengan warna biru. Klien ini menggunakan layanan konektivitas L2 dengan pusat data lain, sehingga VLAN-nya diumpankan ke sepasang switch VXLAN.

Klien Π‘2 host server di PO 2 ΠΈ PO 3,VLAN klien ditandai dengan warna hijau tua. Klien ini juga menggunakan layanan konektivitas dengan pusat data lain, tetapi L3, sehingga VLAN-nya disalurkan ke sepasang router L3VPN.

Kisah satu saklar
Kami memerlukan VLAN klien untuk memahami pada tahap pekerjaan penggantian apa yang terjadi, di mana gangguan komunikasi terjadi, dan berapa durasinya. Protokol STP tidak digunakan dalam skema ini, karena lebar pohonnya dalam kasus ini besar, dan konvergensi protokol tumbuh secara eksponensial dengan jumlah perangkat dan tautan di antara mereka.

Semua perangkat yang terhubung dengan tautan ganda membentuk tumpukan, pasangan MLAG, atau kain Ethernet VCS. Untuk sepasang router L3VPN, teknologi seperti itu tidak digunakan, karena redundansi L2 tidak diperlukan, cukup memiliki konektivitas L2 satu sama lain melalui sakelar agregasi.

Opsi implementasi

Saat menganalisis pilihan untuk kejadian lebih lanjut, kami menyadari bahwa ada beberapa cara untuk melaksanakan pekerjaan ini. Dari jeda global di seluruh jaringan lokal, hingga jeda kecil 1-2 detik di beberapa bagian jaringan.

Jaringan, hentikan! Sakelar, gantilah!

Cara termudah tentu saja adalah dengan mendeklarasikan pemutusan komunikasi global pada semua POD dan semua layanan DCI dan mengalihkan semua tautan dari sakelar. А untuk beralih N.

Kisah satu saklar
Selain gangguan, yang waktunya tidak dapat kami prediksi dengan pasti (ya, kami mengetahui jumlah tautannya, namun kami tidak mengetahui berapa kali terjadi kesalahan - mulai dari kabel patch yang rusak atau konektor yang rusak hingga port atau transceiver yang rusak ), kita masih belum bisa memprediksi terlebih dahulu apakah panjang kabel patch, DAC, AOC yang terhubung ke sakelar A lama akan cukup untuk menjangkau sakelar N baru, meskipun berdiri di sebelahnya, tetapi masih sedikit untuk samping, dan apakah transceiver yang sama akan berfungsi /DAC/AOC dari sakelar Brocade ke sakelar Arista.

Dan semua ini dalam kondisi tekanan berat dari pelanggan dan dukungan teknis (β€œNatasha, bangun! Natasha, semuanya tidak berfungsi di sana! Natasha, kami sudah menulis surat ke dukungan teknis, sejujurnya! Natasha, mereka sudah membatalkan semuanya !Natasha, berapa lagi yang belum akan berhasil? Natasha, kapan akan berhasil?!"). Meskipun ada jeda dan pemberitahuan yang telah diumumkan sebelumnya kepada klien, masuknya permintaan pada saat seperti itu dijamin.

Berhenti, 1-2-3-4!

Bagaimana jika kita tidak mengumumkan jeda global, melainkan serangkaian gangguan komunikasi kecil untuk layanan POD dan DCI. Selama istirahat pertama, beralih ke sakelar N hanya PO 1, yang kedua - dalam beberapa hari - PO 2, lalu beberapa hari lagi PO 3Lebih lanjut POD 4…[T], lalu sakelar VXLAN dan kemudian router L3VPN.

Kisah satu saklar
Dengan pengaturan peralihan pekerjaan ini, kami mengurangi kompleksitas pekerjaan satu kali dan menambah waktu kami untuk menyelesaikan masalah jika tiba-tiba terjadi kesalahan. POD 1 tetap terhubung ke POD dan DCI lain setelah peralihan. Namun pekerjaan itu sendiri memakan waktu lama, selama pekerjaan ini di pusat data, seorang insinyur diharuskan melakukan peralihan secara fisik, dan selama pekerjaan (dan pekerjaan tersebut dilakukan, sebagai suatu peraturan, pada malam hari, dari jam 2 sampai jam 5 pagi), diperlukan kehadiran seorang network engineer online dengan kualifikasi yang cukup tinggi. Namun kemudian kita mengalami gangguan komunikasi singkat; sebagai aturan, pekerjaan dapat dilakukan dalam interval setengah jam dengan jeda hingga 2 menit (dalam praktiknya, seringkali 20-30 detik dengan perilaku peralatan yang diharapkan).

Dalam contoh klien Π‘1 atau klien Π‘2 Anda harus memperingatkan tentang pekerjaan dengan gangguan komunikasi setidaknya tiga kali - pertama kali melakukan pekerjaan pada satu POD, di mana salah satu servernya berada, kedua kalinya - pada yang kedua, dan ketiga kalinya - ketika peralatan switching untuk layanan DCI.

Mengganti saluran komunikasi agregat

Mengapa kita berbicara tentang perilaku peralatan yang diharapkan, dan bagaimana saluran gabungan dapat dialihkan sambil meminimalkan gangguan komunikasi? Mari kita bayangkan gambar berikut:

Kisah satu saklar
Di satu sisi tautan terdapat sakelar distribusi POD - D1 и D2, mereka membentuk pasangan MLAG satu sama lain (tumpukan, pabrik VCS, pasangan vPC), di sisi lain ada dua tautan - Link 1 и Link 2 - termasuk dalam pasangan sakelar agregasi lama MLAG А. Di sisi saklar D antarmuka agregat dengan nama Port-saluran A, di sisi sakelar agregasi А - antarmuka agregat dengan nama Saluran pelabuhan D.

Antarmuka gabungan menggunakan LACP dalam operasinya, yaitu sakelar di kedua sisi secara teratur menukar paket LACPDU di kedua tautan untuk memastikan bahwa tautan tersebut:

  • pekerja;
  • disertakan dalam sepasang perangkat di sisi jarak jauh.

Saat bertukar paket, paket tersebut membawa nilainya sistem-id, menunjukkan perangkat tempat tautan ini disertakan. Untuk pasangan MLAG (stack, factory, dll.), nilai system-id untuk perangkat yang membentuk antarmuka agregat adalah sama. Mengalihkan D1 mengirim ke Link 1 nilai id sistem D, dan beralih D2 mengirim ke Link 2 nilai id sistem D.

Sakelar A1 ΠΈ A2 menganalisis paket LACPDU yang diterima melalui satu antarmuka Po D dan memeriksa apakah id sistem di dalamnya cocok. Jika system-id yang diterima melalui beberapa link tiba-tiba berbeda dari nilai operasi saat ini, lalu tautan ini dihapus dari antarmuka gabungan hingga situasinya diperbaiki. Sekarang di sisi saklar kita D nilai id sistem saat ini dari mitra LACP - A, dan di sisi saklar А β€” nilai id sistem saat ini dari mitra LACP β€” D.

Jika kita perlu mengganti antarmuka gabungan, kita dapat melakukannya dengan dua cara berbeda:

Metode 1 - Sederhana
Nonaktifkan kedua tautan dari sakelar A. Dalam hal ini, saluran agregat tidak berfungsi.

Kisah satu saklar
Hubungkan kedua tautan satu per satu ke sakelar N, kemudian parameter operasi LACP akan dinegosiasikan kembali dan antarmuka akan terbentuk Polong pada sakelar N dan transmisi nilai pada tautan id sistem N.

Kisah satu saklar

Metode 2 - Minimalkan gangguan
Putuskan sambungan Tautan 2 dari sakelar A2. Pada saat yang sama, lalu lintas antar А и D akan terus ditransmisikan hanya melalui salah satu tautan, yang akan tetap menjadi bagian dari antarmuka gabungan.

Kisah satu saklar
Hubungkan Tautan 2 untuk beralih N2. Di saklar N antarmuka agregat sudah dikonfigurasi Po DN, dan beralih N2 akan mulai mentransmisikan ke LACPDU id sistem N. Pada tahap ini kita sudah dapat memeriksa saklar itu N2 bekerja dengan benar dengan transceiver yang digunakan Link 2, bahwa port koneksi telah memasuki keadaan Up, dan tidak terjadi kesalahan pada port koneksi saat mentransmisikan LACPDU.

Kisah satu saklar
Tapi faktanya saklar itu D2 untuk antarmuka agregat Po A oleh Tautan 2 menerima nilai N id sistem yang berbeda dari nilai A id sistem operasi saat ini, tidak mengizinkan sakelar D perkenalkan Link 2 bagian dari antarmuka agregat Po A. Mengalihkan N tidak bisa masuk Link 2 dioperasikan, karena tidak menerima konfirmasi pengoperasian dari mitra sakelar LACP D2. Lalu lintas yang dihasilkan adalah Link 2 tidak lolos.

Dan sekarang kita matikan Link 1 dari saklar A1, sehingga menghilangkan sakelar А и D antarmuka agregat yang berfungsi. Jadi di sisi saklar D nilai id sistem yang berfungsi saat ini untuk antarmuka menghilang Po A.

Kisah satu saklar
Hal ini memungkinkan saklar D ΠΈ N setuju untuk bertukar sistem-id SEBUAH pada antarmuka Po A ΠΈ Po DN, sehingga lalu lintas mulai dikirimkan sepanjang tautan Link 2. Istirahat dalam hal ini, dalam praktiknya, hingga 2 detik.

Kisah satu saklar
Dan sekarang kita dapat dengan mudah mengganti Link 1 ke beralih N1, memulihkan kapasitas dan tingkat redundansi antarmuka Po A ΠΈ Po DN. Karena ketika tautan ini terhubung, nilai id sistem saat ini tidak berubah di kedua sisi, tidak ada gangguan.

Kisah satu saklar

Tautan tambahan

Namun peralihan dapat dilakukan tanpa kehadiran teknisi pada saat peralihan. Untuk melakukan ini, kita perlu terlebih dahulu memasang tautan tambahan antara saklar distribusi D dan sakelar agregasi baru N.

Kisah satu saklar
Kami sedang membangun hubungan baru antara sakelar agregasi N dan saklar distribusi untuk semua POD. Hal ini memerlukan pemesanan dan pemasangan kabel patch tambahan, dan pemasangan transceiver tambahan seperti pada N, dan masuk D. Kita bisa melakukan ini karena di switch kita D Setiap POD memiliki port gratis (atau kami membebaskannya terlebih dahulu). Hasilnya, setiap POD dihubungkan secara fisik melalui dua link ke sakelar lama A dan ke sakelar baru N.

Kisah satu saklar
Di saklar D dua antarmuka agregat telah terbentuk - Po A dengan tautan Link 1 ΠΈ Link 2Dan Po N - dengan tautan Tautan N1 ΠΈ Tautan N2. Pada tahap ini, kami memeriksa koneksi antarmuka dan tautan yang benar, level sinyal optik di kedua ujung tautan (melalui informasi DDM dari sakelar), kami bahkan dapat memeriksa kinerja tautan di bawah beban atau memantau statusnya sinyal optik dan suhu transceiver selama beberapa hari.

Lalu lintas masih dikirim melalui antarmuka Po A, dan antarmuka Po N tidak memerlukan biaya lalu lintas. Pengaturan pada antarmuka kira-kira seperti ini:

Interface Port-channel A
Switchport mode trunk
Switchport allowed vlan C1, C2

Interface Port-channel N
Switchport mode trunk
Switchport allowed vlan none

Sakelar D, sebagai suatu peraturan, mendukung perubahan konfigurasi berbasis sesi; model sakelar yang memiliki fungsi ini digunakan. Jadi kita dapat mengubah pengaturan antarmuka Po A dan Po N dalam satu langkah:

Configure session
Interface Port-channel A
Switchport allowed vlan none
Interface Port-channel N
Switchport allowed vlan C1, C2
Commit

Kemudian perubahan konfigurasi akan terjadi cukup cepat, dan jeda dalam praktiknya tidak lebih dari 5 detik.

Metode ini memungkinkan kita untuk menyelesaikan semua pekerjaan persiapan terlebih dahulu, melakukan semua pemeriksaan yang diperlukan, mengoordinasikan pekerjaan dengan para peserta dalam proses, memprediksi secara rinci tindakan untuk menghasilkan karya, tanpa kreativitas ketika β€œsemuanya tidak beres. ,” dan sudah menyiapkan rencana untuk kembali ke konfigurasi sebelumnya. Pekerjaan menurut rencana ini dilakukan oleh seorang insinyur jaringan tanpa kehadiran seorang insinyur pusat data di lokasi yang secara fisik melakukan peralihan.

Yang juga penting dalam metode peralihan ini adalah semua tautan baru sudah dipantau terlebih dahulu. Kesalahan, penyertaan tautan dalam unit, pemuatan tautan - semua informasi yang diperlukan sudah ada dalam sistem pemantauan, dan ini sudah tergambar di peta.

D-Day

POD

Kami memilih jalur peralihan yang paling tidak menyakitkan bagi klien dan paling tidak rentan terhadap skenario β€œada yang tidak beres” dengan tautan tambahan. Jadi kami mengalihkan semua POD ke sakelar agregasi baru dalam beberapa malam.

Kisah satu saklar
Namun yang tersisa hanyalah mengganti peralatan yang menyediakan layanan DCI.

L2

Dalam hal peralatan yang menyediakan konektivitas L2, kami tidak dapat melakukan pekerjaan serupa dengan tautan tambahan. Setidaknya ada dua alasan untuk ini:

  • Kurangnya port gratis dengan kecepatan yang dibutuhkan pada switch VXLAN.
  • Kurangnya fungsionalitas perubahan konfigurasi sesi pada switch VXLAN.

Kami tidak mengganti tautan "satu per satu" dengan jeda hanya ketika menyetujui pasangan sistem-id yang baru, karena kami tidak memiliki keyakinan 100% bahwa prosedur akan berlangsung dengan benar, dan pengujian di laboratorium menunjukkan bahwa di kasusnya jika β€œada yang tidak beres” kita masih mendapatkan gangguan koneksi, dan yang terburuk tidak hanya terjadi pada klien yang memiliki konektivitas L2 dengan pusat data lain, tetapi secara umum untuk semua klien pusat data ini.

Kami melakukan pekerjaan propaganda sebelumnya pada transisi dari saluran L2, sehingga jumlah klien yang terpengaruh oleh pekerjaan pada switch VXLAN sudah beberapa kali lebih sedikit dibandingkan tahun lalu. Akibatnya, kami memutuskan untuk menghentikan komunikasi melalui layanan koneksi L2, dengan syarat kami menjaga pengoperasian normal layanan jaringan lokal di satu pusat data. Selain itu, SLA untuk layanan ini memberikan kemungkinan pelaksanaan pekerjaan terjadwal dengan interupsi.

L3

Mengapa kami menyarankan semua orang beralih ke L3VPN saat mengatur layanan DCI? Salah satu alasannya adalah kemampuan untuk melakukan pekerjaan pada salah satu router yang menyediakan layanan ini, cukup dengan mengurangi tingkat redundansi ke N+0, tanpa mengganggu komunikasi.

Mari kita lihat lebih dekat skema pemberian layanan. Dalam layanan ini, segmen L2 berpindah dari server klien hanya ke router L3VPN Selectel. Jaringan klien diakhiri pada router.

Setiap server klien, mis. S2 ΠΈ S3 pada diagram di atas, memiliki alamat IP pribadinya sendiri - 10.0.0.2/24 di server S2 ΠΈ 10.0.0.3/24 di server S3. Alamat 10.0.0.252/24 ΠΈ 10.0.0.253/24 ditugaskan oleh Selectel ke router L3VPN-1 ΠΈ L3VPN-2, masing-masing. alamat IP 10.0.0.254/24 adalah alamat VIP VRRP pada router Selectel.

Anda dapat mempelajari lebih lanjut tentang layanan L3VPN Baca di blog kita.

Sebelum peralihan, semuanya tampak seperti pada diagram:

Kisah satu saklar
Dua router L3VPN-1 и L3VPN-2 terhubung ke sakelar agregasi lama А. Master untuk alamat VIP VRRP 10.0.0.254 adalah router L3VPN-1. Alamat ini mempunyai prioritas lebih tinggi dibandingkan router L3VPN-2.

unit 1006 {
    description C2;
    vlan-id 1006;
    family inet {       
        address 10.0.0.252/24 {
            vrrp-group 1 {
                priority 200;
                virtual-address 10.100.0.254;
                preempt {
                    hold-time 120;
                }
                accept-data;
            }
        }
    }
}

Server S2 menggunakan gateway 10.0.0.254 untuk berkomunikasi dengan server di lokasi lain. Dengan demikian, memutuskan sambungan router L3VPN-2 dari jaringan (tentu saja, jika sambungannya pertama kali terputus dari domain MPLS) tidak memengaruhi konektivitas server klien. Pada titik ini, tingkat redundansi rangkaian berkurang.

Kisah satu saklar
Setelah ini kita dapat menyambungkan kembali router dengan aman L3VPN-2 ke sepasang saklar N. Letakkan tautan, ganti transceiver. Antarmuka logis router, yang menjadi sandaran pengoperasian layanan klien, dinonaktifkan hingga dipastikan bahwa semuanya berfungsi sebagaimana mestinya.

Setelah memeriksa tautan, transceiver, level sinyal, dan tingkat kesalahan pada antarmuka, router dioperasikan, tetapi sudah terhubung ke sepasang sakelar baru.

Kisah satu saklar
Selanjutnya, kami menurunkan prioritas VRRP dari router L3VPN-1, dan alamat VIP 10.0.0.254 dipindahkan ke router L3VPN-2. Pekerjaan ini juga dilakukan tanpa gangguan komunikasi.

Kisah satu saklar
Mentransfer alamat VIP 10.0.0.254 ke router L3VPN-2 memungkinkan Anda untuk menonaktifkan router L3VPN-1 tanpa gangguan komunikasi untuk klien dan menghubungkannya ke sepasang sakelar agregasi baru N.

Kisah satu saklar
Apakah akan mengembalikan VRRP VIP ke router L3VPN-1 atau tidak adalah pertanyaan lain, dan meskipun dikembalikan, hal itu dilakukan tanpa mengganggu koneksi.

Total

Setelah semua langkah ini, kami mengganti sakelar agregasi di salah satu pusat data kami, sekaligus meminimalkan gangguan bagi pelanggan kami.

Kisah satu saklar
Yang tersisa hanyalah pembongkaran. Pembongkaran switch lama, pembongkaran link lama antara switch A dan D, pembongkaran transceiver dari link tersebut, koreksi monitoring, koreksi diagram jaringan pada dokumentasi dan monitoring.

Kita dapat menggunakan sakelar, transceiver, kabel patch, AOC, DAC yang tersisa setelah peralihan di proyek lain atau untuk peralihan serupa lainnya.

β€œNatasha, kita sudah menukar semuanya!”

Sumber: www.habr.com

Tambah komentar