قصة التبديل واحد

قصة التبديل واحد
في مجموعة شبكتنا المحلية، كان لدينا ستة أزواج من محولات Arista DCS-7050CX3-32S وزوج واحد من محولات Brocade VDX 6940-36Q. لا يعني ذلك أننا كنا متوترين للغاية بسبب محولات Brocade في هذه الشبكة، فهي تعمل وتؤدي وظائفها، لكننا كنا نجهز أتمتة كاملة لبعض الإجراءات، ولم تكن لدينا هذه الإمكانيات على هذه المحولات. أردت أيضًا التبديل من واجهات 40GE إلى إمكانية استخدام 100GE من أجل تكوين احتياطي لمدة 2-3 سنوات القادمة. لذلك قررنا تغيير Brocade إلى Arista.

هذه المحولات عبارة عن محولات تجميع LAN لكل مركز بيانات. ترتبط محولات التوزيع (المستوى الثاني من التجميع) مباشرة بها، والتي تقوم بالفعل بتجميع محولات الشبكة المحلية الموجودة أعلى الحامل في رفوف مع الخوادم.

قصة التبديل واحد
يرتبط كل خادم بمحول وصول واحد أو اثنين. يتم توصيل محولات الوصول بزوج من محولات التوزيع (يتم استخدام محولي توزيع ورابطين ماديين من محول الوصول إلى محولات توزيع مختلفة للتكرار).

يمكن استخدام كل خادم من قبل العميل الخاص به، لذلك يتم تخصيص شبكة VLAN منفصلة للعميل. يتم بعد ذلك تسجيل نفس شبكة VLAN على خادم آخر لهذا العميل في أي حامل. يتكون مركز البيانات من عدة صفوف (PODs)، ولكل صف من الرفوف مفاتيح التوزيع الخاصة به. ثم يتم توصيل مفاتيح التوزيع هذه بمفاتيح التجميع.

قصة التبديل واحد
يمكن للعملاء طلب خادم في أي صف؛ من المستحيل التنبؤ مقدمًا بأنه سيتم تخصيص الخادم أو تثبيته في صف معين في حامل معين، لذلك يوجد حوالي 2500 شبكة محلية ظاهرية (VLAN) على محولات التجميع في كل مركز بيانات.

يتم توصيل معدات DCI (اتصال مركز البيانات) بمفاتيح التجميع. يمكن أن يكون مخصصًا للاتصال L2 (زوج من المحولات يشكل نفق VXLAN إلى مركز بيانات آخر) أو للاتصال L3 (جهازي توجيه MPLS).

قصة التبديل واحد
كما كتبت بالفعل، لتوحيد عمليات أتمتة تكوين الخدمات على المعدات في مركز بيانات واحد، كان من الضروري استبدال مفاتيح التجميع المركزية. لقد قمنا بتثبيت مفاتيح جديدة بجانب المفاتيح الموجودة، وقمنا بدمجها في زوج MLAG وبدأنا في الاستعداد للعمل. وتم توصيلها على الفور بمحولات التجميع الموجودة، بحيث يكون لديهم مجال L2 مشترك عبر جميع شبكات VLAN الخاصة بالعميل.

تفاصيل الدائرة

للحصول على تفاصيل، دعنا نسمي مفاتيح التجميع القديمة A1 и A2، جديد - N1 и N2. دعونا نتخيل ذلك في الحافظة 1 и الحافظة 4 تتم استضافة خوادم عميل واحد S1، تتم الإشارة إلى شبكة VLAN الخاصة بالعميل باللون الأزرق. يستخدم هذا العميل خدمة اتصال L2 مع مركز بيانات آخر، لذلك يتم تغذية شبكة VLAN الخاصة به إلى زوج من محولات VXLAN.

زبون S2 خوادم المضيفين في الحافظة 2 и الحافظة 3، تتم الإشارة إلى شبكة VLAN الخاصة بالعميل باللون الأخضر الداكن. يستخدم هذا العميل أيضًا خدمة اتصال مع مركز بيانات آخر، ولكن L3، لذلك يتم تغذية شبكة VLAN الخاصة به إلى زوج من أجهزة توجيه L3VPN.

قصة التبديل واحد
نحتاج إلى أن تفهم شبكات VLAN الخاصة بالعميل ما يحدث في مراحل عمل الاستبدال، وأين يحدث انقطاع الاتصال، وما قد تكون مدته. لا يتم استخدام بروتوكول STP في هذا المخطط، نظرًا لأن عرض الشجرة الخاصة به في هذه الحالة كبير، وينمو تقارب البروتوكول بشكل كبير مع عدد الأجهزة والروابط بينها.

تشكل جميع الأجهزة المتصلة بروابط مزدوجة مكدسًا أو زوجًا من MLAG أو نسيج VCS Ethernet. بالنسبة لزوج من أجهزة توجيه L3VPN، لا يتم استخدام هذه التقنيات، نظرًا لعدم الحاجة إلى تكرار L2، يكفي أن يكون لديهم اتصال L2 ببعضهم البعض من خلال مفاتيح التجميع.

خيارات التنفيذ

عند تحليل الخيارات لمزيد من الأحداث، أدركنا أن هناك عدة طرق لتنفيذ هذا العمل. من انقطاع عالمي على الشبكة المحلية بأكملها، إلى فترات راحة صغيرة مدتها 1-2 ثانية في أجزاء من الشبكة.

الشبكة، توقف! المفاتيح، استبدلها!

أسهل طريقة بالطبع هي إعلان انقطاع الاتصال الشامل على جميع أجهزة POD وجميع خدمات DCI وتبديل جميع الروابط من المحولات А للمفاتيح N.

قصة التبديل واحد
بصرف النظر عن الانقطاع، لا يمكننا التنبؤ بوقته بشكل موثوق (نعم، نحن نعرف عدد الروابط، لكننا لا نعرف عدد المرات التي سيحدث فيها خطأ ما - من سلك تصحيح مكسور أو موصل تالف إلى منفذ أو جهاز إرسال واستقبال معيب )، ما زلنا لا نستطيع التنبؤ مسبقًا بما إذا كان طول أسلاك التصحيح، DAC، AOC، المتصلة بالمفاتيح القديمة A، سيكون كافيًا للوصول إلى المفاتيح الجديدة N، على الرغم من وقوفها بجانبها، ولكن لا يزال قليلاً الجانب، وما إذا كانت نفس أجهزة الإرسال والاستقبال ستعمل /DAC/AOC من محولات Brocade إلى محولات Arista.

وكل هذا في ظل ظروف الضغط الشديد من العملاء والدعم الفني ("ناتاشا، انهضي! ناتاشا، كل شيء لا يعمل هناك! ناتاشا، لقد كتبنا بالفعل إلى الدعم الفني، بصراحة! ناتاشا، لقد أسقطوا كل شيء بالفعل" ناتاشا، كم عدد الأشخاص الذين لم ينجحوا؟ ناتاشا، متى سينجح؟!"). حتى على الرغم من الاستراحة المعلن عنها مسبقًا وإخطار العملاء، فإن تدفق الطلبات في مثل هذا الوقت مضمون.

توقف، 1-2-3-4!

ماذا لو لم نعلن عن انقطاع عالمي، بل عن سلسلة من انقطاعات الاتصالات الصغيرة لخدمات POD وDCI. أثناء الاستراحة الأولى، قم بالتبديل إلى المفاتيح N فقط الحافظة 1، في الثانية - في غضون يومين - الحافظة 2، ثم بضعة أيام أخرى الحافظة 3إضافي جراب 4...[ن]، ثم مفاتيح VXLAN ثم أجهزة توجيه L3VPN.

قصة التبديل واحد
من خلال تنظيم تبديل العمل هذا، نقوم بتقليل تعقيد العمل لمرة واحدة وزيادة وقتنا لحل المشكلات إذا حدث خطأ ما فجأة. يبقى POD 1 متصلاً بوحدات POD وDCIs الأخرى بعد التبديل. لكن العمل نفسه يستمر لفترة طويلة؛ أثناء هذا العمل في مركز البيانات، يُطلب من المهندس إجراء التبديل فعليًا، وأثناء العمل (ويتم تنفيذ هذا العمل، كقاعدة عامة، في الليل، من الساعة 2 إلى 5 صباحًا)، يشترط وجود مهندس شبكات عبر الإنترنت بمؤهلات عالية المستوى إلى حد ما. ولكن بعد ذلك نحصل على انقطاعات قصيرة في الاتصال، كقاعدة عامة، يمكن تنفيذ العمل في فترة نصف ساعة مع استراحة تصل إلى دقيقتين (في الممارسة العملية، في كثير من الأحيان 2-20 ثانية مع السلوك المتوقع للمعدات).

في العميل المثال S1 أو العميل S2 سيتعين عليك التحذير من انقطاع الاتصال ثلاث مرات على الأقل - المرة الأولى لتنفيذ العمل على POD واحد، حيث يوجد أحد خوادمه، والمرة الثانية - في المرة الثانية، والمرة الثالثة - عندما تبديل المعدات لخدمات DCI.

تبديل قنوات الاتصال المجمعة

لماذا نتحدث عن السلوك المتوقع للمعدات، وكيف يمكن تبديل القنوات المجمعة مع تقليل انقطاع الاتصال؟ لنتخيل الصورة التالية:

قصة التبديل واحد
يوجد على أحد جانبي الرابط مفاتيح توزيع POD - D1 и D2، يشكلون زوجًا من MLAG مع بعضهم البعض (المكدس، مصنع VCS، زوج vPC)، ومن ناحية أخرى هناك رابطان - لينك شنومك и لينك شنومك - متضمن في زوج MLAG من مفاتيح التجميع القديمة А. على الجانب التبديل D واجهة مجمعة مع الاسم ميناء القناة أ، على جانب مفاتيح التجميع А - واجهة مجمعة بالاسم ميناء القناة د.

تستخدم الواجهات المجمعة LACP في عملها، أي أن المحولات على كلا الجانبين تتبادل بانتظام حزم LACPDU على كلا الارتباطين للتأكد من أن الروابط:

  • العمل.
  • المدرجة في زوج واحد من الأجهزة على الجانب البعيد.

عند تبادل الحزم، تحمل الحزمة القيمة معرف النظام، للإشارة إلى الجهاز الذي تم تضمين هذه الارتباطات فيه. بالنسبة لزوج MLAG (المكدس، المصنع، وما إلى ذلك)، تكون قيمة معرف النظام للأجهزة التي تشكل الواجهة المجمعة هي نفسها. يُحوّل D1 يرسل إلى لينك شنومك قيمة معرف النظام دوالتبديل D2 يرسل إلى لينك شنومك قيمة معرف النظام د.

مفاتيح A1 и A2 قم بتحليل حزم LACPDU المستلمة عبر واجهة Po D واحدة وتحقق من تطابق معرف النظام فيها. إذا اختلف معرف النظام المستلم عبر رابط ما فجأة من قيمة التشغيل الحالية، ثم تتم إزالة هذا الارتباط من الواجهة المجمعة حتى يتم تصحيح الموقف. الآن على جانب التبديل لدينا D قيمة معرف النظام الحالية من شريك LACP - Aوعلى جانب التبديل А - قيمة معرف النظام الحالية من شريك LACP - D.

إذا أردنا تبديل الواجهة المجمعة، فيمكننا القيام بذلك بطريقتين مختلفتين:

الطريقة الأولى - بسيطة
قم بتعطيل كلا الارتباطين من المحولين A. في هذه الحالة، لا تعمل القناة المجمعة.

قصة التبديل واحد
قم بتوصيل كلا الرابطين واحدًا تلو الآخر بالمفاتيح N، فسيتم التفاوض على معلمات تشغيل LACP مرة أخرى وسيتم تشكيل الواجهة جراب على المفاتيح N ونقل القيم على الروابط معرف النظام N.

قصة التبديل واحد

الطريقة الثانية - تقليل المقاطعة
افصل الرابط 2 عن المفتاح A2. وفي الوقت نفسه، حركة المرور بين А и D سيستمر إرساله عبر أحد الروابط، والذي سيظل جزءًا من الواجهة المجمعة.

قصة التبديل واحد
قم بتوصيل الرابط 2 للتبديل N2. على التبديل N تم تكوين الواجهة المجمعة بالفعل بو DNوالتبديل N2 سيبدأ الإرسال إلى LACPDU معرف النظام N. في هذه المرحلة يمكننا بالفعل التحقق من التبديل N2 يعمل بشكل صحيح مع جهاز الإرسال والاستقبال المستخدم لينك شنومكأن منفذ الاتصال قد دخل إلى الحالة Up، وعدم حدوث أي أخطاء في منفذ الاتصال عند إرسال وحدات LACPDU.

قصة التبديل واحد
ولكن الحقيقة أن التبديل D2 للواجهة المجمعة بو أ من الجانب يتلقى الارتباط 2 قيمة N لمعرف النظام مختلفة عن قيمة معرف نظام التشغيل الحالي، لا يسمح بالتبديل D أدخل لينك شنومك جزء من الواجهة المجمعة بو أ. يُحوّل N لا أستطيع الدخول لينك شنومك إلى التشغيل، لأنه لا يتلقى تأكيدًا بقابلية التشغيل من شريك LACP الخاص بالمحول D2. حركة المرور الناتجة هي لينك شنومك لا تمر.

والآن نقوم بإيقاف تشغيل الرابط 1 من المفتاح A1، وبالتالي حرمان المفاتيح А и D واجهة العمل الإجمالية. لذلك على الجانب التبديل D تختفي قيمة معرف نظام العمل الحالي للواجهة بو أ.

قصة التبديل واحد
وهذا يسمح بالتبديل D и N توافق على تبادل معرف النظام AN على الواجهات بو أ и بو DN، بحيث يبدأ نقل حركة المرور عبر الرابط لينك شنومك. يصل الاستراحة في هذه الحالة عمليًا إلى ثانيتين.

قصة التبديل واحد
والآن يمكننا بسهولة تبديل الرابط 1 إلى التبديل N1، واستعادة القدرة ومستوى تكرار الواجهة بو أ и بو DN. نظرًا لأنه عند اتصال هذا الارتباط، فإن قيمة معرف النظام الحالية لا تتغير على أي من الجانبين، ولا يوجد أي انقطاع.

قصة التبديل واحد

روابط إضافية

لكن يمكن إجراء التبديل دون حضور المهندس وقت التبديل. للقيام بذلك، سنحتاج إلى وضع روابط إضافية بين محولات التوزيع مسبقًا D ومفاتيح التجميع الجديدة N.

قصة التبديل واحد
نحن نضع روابط جديدة بين مفاتيح التجميع N ومفاتيح التوزيع لجميع PODs. يتطلب ذلك طلب أسلاك توصيل إضافية وتركيبها، وتركيب أجهزة إرسال واستقبال إضافية كما هو الحال في N، وفي D. يمكننا أن نفعل هذا لأنه في مفاتيحنا D يحتوي كل POD على منافذ مجانية (أو نقوم بتحريرها مسبقًا). ونتيجة لذلك، يتم توصيل كل POD فعليًا عن طريق رابطين للمفاتيح القديمة A والمفاتيح الجديدة N.

قصة التبديل واحد
على التبديل D تم تشكيل واجهتين مجمعتين - بو أ مع الروابط لينك شنومك и لينك شنومكو بو ن - مع الروابط الرابط رقم 1 и الرابط رقم 2. في هذه المرحلة، نتحقق من الاتصال الصحيح للواجهات والروابط، ومستويات الإشارات الضوئية عند طرفي الروابط (عبر معلومات DDM من المحولات)، ويمكننا أيضًا التحقق من أداء الارتباط تحت التحميل أو مراقبة حالات الإشارات الضوئية ودرجات حرارة جهاز الإرسال والاستقبال لبضعة أيام.

لا يزال يتم إرسال حركة المرور من خلال الواجهة بو أ، والواجهة بو ن لا يكلف أي حركة المرور. الإعدادات على الواجهات هي كالتالي:

Interface Port-channel A
Switchport mode trunk
Switchport allowed vlan C1, C2

Interface Port-channel N
Switchport mode trunk
Switchport allowed vlan none

تدعم محولات D، كقاعدة عامة، تغييرات التكوين المستندة إلى الجلسة؛ ويتم استخدام نماذج المحولات التي تحتوي على هذه الوظيفة. لذا يمكننا تغيير إعدادات واجهات Po A وPo N في خطوة واحدة:

Configure session
Interface Port-channel A
Switchport allowed vlan none
Interface Port-channel N
Switchport allowed vlan C1, C2
Commit

ثم سيحدث تغيير التكوين بسرعة كافية، ولن يكون الاستراحة، في الواقع، أكثر من 5 ثوان.

تسمح لنا هذه الطريقة بإكمال جميع الأعمال التحضيرية مسبقًا، وإجراء جميع الفحوصات اللازمة، وتنسيق العمل مع المشاركين في العملية، والتنبؤ بالتفصيل بالإجراءات الخاصة بإنتاج العمل، دون رحلات إبداعية عندما "يحدث كل شيء بشكل خاطئ". "، ولديك خطة للعودة إلى التكوين السابق. يتم تنفيذ العمل وفقًا لهذه الخطة من قبل مهندس الشبكة دون وجود مهندس مركز البيانات في الموقع الذي يقوم فعليًا بالتبديل.

ما يهم أيضًا في طريقة التبديل هذه هو أن جميع الروابط الجديدة تتم مراقبتها مسبقًا مسبقًا. الأخطاء، وإدراج الروابط في الوحدة، وتحميل الروابط - جميع المعلومات الضرورية موجودة بالفعل في نظام المراقبة، وقد تم رسمها بالفعل على الخرائط.

يوم النصر

POD

لقد اخترنا مسار التبديل الأقل إيلامًا للعملاء والأقل عرضة لسيناريوهات "حدث خطأ ما" مع الروابط الإضافية. لذلك قمنا بتحويل جميع أجهزة POD إلى مفاتيح تجميع جديدة في بضع ليالٍ.

قصة التبديل واحد
ولكن كل ما تبقى هو تبديل المعدات التي توفر خدمات DCI.

L2

في حالة المعدات التي توفر اتصال L2، لم نتمكن من تنفيذ عمل مماثل باستخدام روابط إضافية. هناك سببين على الأقل لهذا الغرض:

  • عدم وجود منافذ مجانية بالسرعة المطلوبة على محولات VXLAN.
  • عدم وجود وظيفة تغيير تكوين الجلسة على محولات VXLAN.

لم نقم بتبديل الروابط "واحدة تلو الأخرى" مع فاصل فقط أثناء الاتفاق على زوج جديد من معرفات النظام، حيث لم تكن لدينا ثقة بنسبة 100% في أن الإجراء سيسير بشكل صحيح، وأظهر اختبار في المختبر ذلك في في حالة "حدث خطأ ما"، ما زلنا نحصل على انقطاع في الاتصال، والأسوأ من ذلك ليس فقط بالنسبة للعملاء الذين لديهم اتصال L2 بمراكز البيانات الأخرى، ولكن بشكل عام لجميع عملاء مركز البيانات هذا.

لقد قمنا بعمل دعائي مسبقًا بشأن الانتقال من قنوات L2، وبالتالي فإن عدد العملاء المتأثرين بالعمل على محولات VXLAN كان بالفعل أقل عدة مرات مما كان عليه قبل عام. ونتيجة لذلك، قررنا قطع الاتصال عبر خدمة اتصال L2، بشرط أن نحافظ على التشغيل العادي لخدمات الشبكة المحلية في مركز بيانات واحد. بالإضافة إلى ذلك، توفر اتفاقية مستوى الخدمة لهذه الخدمة إمكانية تنفيذ العمل المقرر مع فترة راحة.

L3

لماذا نوصي الجميع بالتبديل إلى L3VPN عند تنظيم خدمات DCI؟ أحد الأسباب هو القدرة على تنفيذ العمل على أحد أجهزة التوجيه التي توفر هذه الخدمة، مما يؤدي ببساطة إلى تقليل مستوى التكرار إلى N+0، دون مقاطعة الاتصال.

دعونا نلقي نظرة فاحصة على مخطط تقديم الخدمة. في هذه الخدمة، ينتقل مقطع L2 من خوادم العملاء فقط إلى أجهزة توجيه L3VPN Selectel. يتم إنهاء شبكة العميل على أجهزة التوجيه.

كل خادم عميل، على سبيل المثال. S2 и S3 في الرسم البياني أعلاه، لديهم عناوين IP خاصة بهم - 10.0.0.2/24 على الخادم S2 и 10.0.0.3/24 على الخادم S3. عناوين 10.0.0.252/24 и 10.0.0.253/24 المعينة من قبل Selectel لأجهزة التوجيه L3VPN-1 и L3VPN-2، على التوالى. عنوان IP 10.0.0.254/24 هو عنوان VRRP VIP على أجهزة التوجيه Selectel.

يمكنك معرفة المزيد عن خدمة L3VPN قرأ في مدونتنا.

قبل التبديل، بدا كل شيء تقريبًا كما في الرسم التخطيطي:

قصة التبديل واحد
جهازي توجيه L3VPN-1 и L3VPN-2 تم توصيلها بمفتاح التجميع القديم А. سيد عنوان VRRP VIP 10.0.0.254 هو جهاز التوجيه L3VPN-1. لديه أولوية أعلى لهذا العنوان من جهاز التوجيه L3VPN-2.

unit 1006 {
    description C2;
    vlan-id 1006;
    family inet {       
        address 10.0.0.252/24 {
            vrrp-group 1 {
                priority 200;
                virtual-address 10.100.0.254;
                preempt {
                    hold-time 120;
                }
                accept-data;
            }
        }
    }
}

يستخدم خادم S2 البوابة 10.0.0.254 للتواصل مع الخوادم في المواقع الأخرى. وبالتالي، فإن فصل جهاز التوجيه L3VPN-2 عن الشبكة (بالطبع، إذا تم فصله أولاً عن مجال MPLS) لا يؤثر على اتصال خوادم العميل. عند هذه النقطة، يتم تقليل مستوى تكرار الدائرة ببساطة.

قصة التبديل واحد
بعد ذلك يمكننا إعادة توصيل جهاز التوجيه بأمان L3VPN-2 إلى زوج من المفاتيح N. وضع الروابط، وتغيير أجهزة الإرسال والاستقبال. يتم تعطيل الواجهات المنطقية لجهاز التوجيه، والتي يعتمد عليها تشغيل خدمات العملاء، حتى يتم التأكد من أن كل شيء يعمل كما ينبغي.

بعد التحقق من الروابط وأجهزة الإرسال والاستقبال ومستويات الإشارة ومستويات الخطأ على الواجهات، يتم تشغيل جهاز التوجيه، ولكنه متصل بالفعل بزوج جديد من المفاتيح.

قصة التبديل واحد
بعد ذلك، نقوم بتخفيض أولوية VRRP لجهاز التوجيه L3VPN-1، ويتم نقل عنوان VIP 10.0.0.254 إلى جهاز التوجيه L3VPN-2. يتم تنفيذ هذه الأعمال أيضًا دون انقطاع الاتصال.

قصة التبديل واحد
نقل عنوان VIP 10.0.0.254 إلى جهاز التوجيه L3VPN-2 يسمح لك بتعطيل جهاز التوجيه L3VPN-1 دون انقطاع الاتصال بالعميل وتوصيله بزوج جديد من مفاتيح التجميع N.

قصة التبديل واحد
ما إذا كان سيتم إرجاع VRRP VIP إلى جهاز التوجيه L3VPN-1 أم لا، فهو سؤال آخر، وحتى إذا تم إعادته، فسيتم ذلك دون مقاطعة الاتصال.

في المجموع

بعد كل هذه الخطوات، قمنا بالفعل باستبدال مفاتيح التجميع في أحد مراكز البيانات لدينا، مع تقليل التعطيل لعملائنا.

قصة التبديل واحد
كل ما تبقى هو التفكيك. تفكيك المحولات القديمة، تفكيك الوصلات القديمة بين المحولين A و D، تفكيك أجهزة الإرسال والاستقبال من هذه الوصلات، تصحيح المراقبة، تصحيح مخططات الشبكة في التوثيق والرصد.

يمكننا استخدام المفاتيح وأجهزة الإرسال والاستقبال وأسلاك التصحيح وAOC وDAC المتبقية بعد التبديل في مشاريع أخرى أو لتحويلات أخرى مماثلة.

"ناتاشا، لقد قمنا بتبديل كل شيء!"

المصدر: www.habr.com

إضافة تعليق