كيف قمنا بإخلاء نوبة عمل ياندكس

كيف قمنا بإخلاء نوبة عمل ياندكس

عندما يتناسب العمل مع جهاز كمبيوتر محمول واحد ويمكن القيام به بشكل مستقل عن الآخرين، فلا توجد مشكلة في الانتقال إلى مكان بعيد - فقط البقاء في المنزل في الصباح. لكن ليس الجميع محظوظين جدًا.

التحول تحت الطلب هو فريق من المتخصصين في توفر الخدمة (SREs). وهي تشمل المسؤولين المناوبين والمطورين والمديرين، بالإضافة إلى "لوحة معلومات" مشتركة مكونة من 26 لوحة LCD مقاس 55 بوصة لكل منها. يعتمد استقرار خدمات الشركة وسرعة حل المشكلات على عمل وردية العمل.

اليوم ديمتري ميليكوف tal10n، مدير وردية العمل، سيتحدث عن كيفية تمكنهم في غضون أيام من نقل المعدات إلى منازلهم وإنشاء إجراءات عمل جديدة. أعطيه الكلمة.

- عندما يكون لديك وقت لا نهاية له، يمكنك التحرك بشكل مريح في أي مكان مع أي شيء. لكن الانتشار السريع لفيروس كورونا وضعنا في ظروف مختلفة تماما. كان موظفو ياندكس من بين أول من تحولوا إلى العمل عن بعد - حتى قبل إدخال نظام العزل الذاتي. لقد حدث مثل هذا. وفي يوم الخميس 12 مارس، طُلب مني تقييم إمكانية نقل عمل الفريق إلى المنزل. وفي يوم الجمعة الثالث عشر، ظهرت توصية بالتحول إلى العمل عن بعد. في ليلة الثلاثاء 13 مارس/آذار، كان كل شيء جاهزًا لدينا: كان الأشخاص المناوبون يعملون من المنزل، وتم نقل المعدات، وتمت كتابة البرامج المفقودة، وتمت إعادة تكوين العمليات. والآن سأخبرك كيف نجحنا في ذلك. لكن عليك أولاً أن تتذكر المهام التي يحلها التحول في العمل.

من نحن

Yandex هي شركة كبيرة تقدم مئات الخدمات. لا يعتمد استقرار البحث والمساعد الصوتي وجميع المنتجات الأخرى على المطورين فقط. قد يتم تعطيل مصدر الطاقة في مركز البيانات. قد يتسبب العامل في إتلاف أحد الكابلات الضوئية عن طريق الخطأ أثناء استبدال الأسفلت. أو قد تكون هناك زيادة كبيرة في نشاط المستخدم، مما يسبب حاجة ملحة لإعادة تخصيص السعة. علاوة على ذلك، فإننا نعيش جميعا في بنية تحتية ضخمة ومعقدة، وقد يؤدي إصدار منتج ما إلى تدهور منتج آخر عن غير قصد.

26 لوحة في مساحتنا المفتوحة عبارة عن ألف ونصف تنبيه وأكثر من مائة مخطط ولوحة لخدماتنا. في الأساس، هذه لوحة تشخيصية ضخمة. يمكن للمسؤول المناوب ذو الخبرة أن يفهم بسرعة حالة المكونات المهمة من خلال النظر إليها ويمكنه تحديد الاتجاه للتحقيق في مشكلة تكنولوجية. هذا لا يعني أنه يجب على الشخص أن ينظر باستمرار إلى جميع الأجهزة: ستجذب الأتمتة نفسها الانتباه عن طريق إرسال إشعار إلى الواجهة الخاصة للضابط المناوب، ولكن بدون لوحة مرئية، قد يستغرق حل المشكلة وقتًا طويلاً.

عندما تنشأ مشاكل، يقوم الضابط المناوب أولاً بتقييم أولوياتهم. ثم يقوم بعزل المشكلة أو تقليل تأثيرها على المستخدمين.

هناك عدة طرق قياسية لعزل المشكلة. أحدها هو تدهور الخدمات، عندما يقوم المسؤول المناوب بتعطيل بعض الوظائف التي لا يلاحظها المستخدمون على الإطلاق. يتيح لك ذلك تقليل الحمل مؤقتًا ومعرفة ما حدث. في حالة ظهور مشكلة في مركز البيانات، يتصل المسؤول المناوب بفريق التشغيل، ويفهم المشكلة، ويراقب توقيت حلها، وإذا لزم الأمر، يقوم بإشراك فرق متخصصة.

عندما لا يتمكن المسؤول المناوب من عزل المشكلة التي نشأت بسبب الإصدار، فإنه يبلغ فريق الخدمة عنها - ويبحث المطورون عن الأخطاء في الكود الجديد. إذا لم يتمكنوا من معرفة ذلك، فإن المسؤول يجذب المطورين من المنتجات الأخرى أو مهندسي توفر الخدمة.

أستطيع أن أتحدث لفترة طويلة عن كيفية عمل كل شيء هنا، ولكن أعتقد أنني قد نقلت الجوهر بالفعل. يقوم الوردية المناوبة بتنسيق عمل جميع الخدمات ومراقبة المشاكل العالمية. من المهم للمسؤول المناوب أن تكون لوحة التشخيص أمام عينيه. لهذا السبب، عند التحول إلى العمل عن بعد، لا يمكنك فقط منح الجميع جهاز كمبيوتر محمول. لن تظهر المخططات والتنبيهات على الشاشة. ما يجب القيام به؟

فكرة

في المكتب، يعمل جميع المسؤولين العشرة المناوبين في نوبات خلف لوحة تحكم واحدة، والتي تتضمن 26 شاشة، وجهازي كمبيوتر، وأربع بطاقات فيديو NVIDIA Quadro NVS 810، ومصدري طاقة غير منقطعين مثبتين على حامل والعديد من وسائل الوصول المستقلة إلى الشبكة. كنا بحاجة إلى التأكد من حصول الجميع على فرصة العمل في المنزل. ليس من الممكن ببساطة تجميع مثل هذا الجدار في شقة (ستكون زوجتي سعيدة بهذا بشكل خاص)، لذلك قررنا إنشاء نسخة محمولة يمكن إحضارها وتجميعها في المنزل.

لقد بدأنا بتجربة التكوين. كنا بحاجة إلى تركيب جميع الأجهزة على عدد أقل من شاشات العرض، لذلك كان المطلب الرئيسي للشاشة هو كثافة البكسل العالية. من بين شاشات 4K المتوفرة في بيئتنا، اخترنا Lenovo P27u-10 للاختبار.

من أجهزة الكمبيوتر المحمولة أخذنا جهاز MacBook Pro مقاس 16 بوصة. يحتوي على نظام فرعي رسومات قوي إلى حد ما، وهو ضروري لعرض الصور على العديد من شاشات 4K، وأربعة موصلات عالمية من النوع C. قد تسأل: لماذا لا سطح المكتب؟ يعد استبدال جهاز كمبيوتر محمول بنفس الجهاز تمامًا من المستودع أسهل وأسرع بكثير من تجميع وتكوين وحدة نظام مماثلة. ويزن أقل.

نحن الآن بحاجة إلى فهم عدد الشاشات التي يمكننا توصيلها بالفعل بالكمبيوتر المحمول. والمشكلة هنا ليست في عدد الموصلات، ولم نتمكن من معرفة ذلك إلا عن طريق اختبار النظام المجمع.

كيف قمنا بإخلاء نوبة عمل ياندكس

تجريب

لقد وضعنا جميع المخططات والتنبيهات بشكل مريح على أربع شاشات وقمنا بتوصيلها بجهاز كمبيوتر محمول، لكننا واجهنا مشكلة. يؤدي عرض 4x4K بكسل على الشاشات المتصلة إلى وضع ضغط كبير على بطاقة الفيديو بحيث يتم استنزاف الكمبيوتر المحمول حتى أثناء الشحن. لحسن الحظ، تم حل المشكلة بمساعدة Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. لقد تمكنت من توصيل شاشة ومصدر طاقة وحتى الماوس ولوحة المفاتيح المفضلة لدي بقاعدة الإرساء.

ولكن ظهرت مشكلة أخرى على الفور: كانت وحدة معالجة الرسومات تتأرجح كثيرًا لدرجة ارتفاع درجة حرارة الكمبيوتر المحمول، مما يعني ارتفاع درجة حرارة البطارية أيضًا، مما أدى إلى دخولها في وضع الحماية وتوقفت عن قبول الشحن. بشكل عام، هذا وضع مفيد للغاية يحمي من المواقف الخطيرة. في بعض الحالات، تم حل المشكلة بمساعدة جهاز عالي التقنية - قلم حبر جاف يوضع أسفل الكمبيوتر المحمول لتحسين التهوية. لكن هذا لم يساعد الجميع، لذلك قمنا أيضًا بزيادة سرعة المروحة القياسية.

كانت هناك ميزة أخرى غير سارة. يجب أن تكون جميع المخططات والتنبيهات موجودة في مكان محدد بدقة. تخيل أنك تقود طائرة للهبوط - ثم تبدأ مؤشرات السرعة ومقاييس الارتفاع ومقاييس المتغيرات ومؤشرات الموقف والبوصلات ومؤشرات الموقع في تغيير الحجم والقفز إلى أماكن مختلفة. لذلك قررنا تقديم تطبيق من شأنه أن يساعد في هذا الأمر. في إحدى الأمسيات، كتبناها في Electron.js، مع أخذها جاهزة API حول إنشاء وإدارة النوافذ. أضفنا معالج التكوين وتحديثه الدوري، بالإضافة إلى دعم عدد محدود من الشاشات. وبعد ذلك بقليل أضافوا دعمًا للإعدادات المختلفة.

التجميع والتسليم

بحلول يوم الاثنين، حصل لنا السحرة من مكتب المساعدة على 40 شاشة وعشرة أجهزة كمبيوتر محمولة ونفس العدد من محطات الإرساء. لا أعرف كيف تمكنوا من ذلك، لكن أشكرهم جزيل الشكر.

كيف قمنا بإخلاء نوبة عمل ياندكس

كل ما تبقى هو تسليم كل شيء إلى شقق المسؤولين المناوبين. وهذه عشرة عناوين في أجزاء مختلفة من موسكو: الجنوب والشرق والوسط، وكذلك بالاشيخا، التي تبعد 45 كيلومترًا عن المكتب (بالمناسبة، تمت إضافة متدرب من سيربوخوف لاحقًا). كان من الضروري توزيع كل هذا بطريقة أو بأخرى بين الناس، لبناء الخدمات اللوجستية.

لقد أدخلت جميع العناوين على خرائطنا، ولا تزال هناك فرصة لتحسين الطريق بين نقاط مختلفة (لقد استخدمت الإصدار التجريبي المجاني من الأداة الخاصة بالسعاة). قمنا بتقسيم فريقنا إلى أربعة فرق مستقلة مكونة من شخصين، ولكل منها طريقه الخاص. تبين أن سيارتي هي الأكثر اتساعًا، لذلك أخذت معدات لأربعة موظفين في وقت واحد.

كيف قمنا بإخلاء نوبة عمل ياندكس

استغرق التسليم بأكمله ثلاث ساعات قياسية. غادرنا المكتب في الساعة العاشرة مساء يوم الاثنين. في الساعة الواحدة صباحًا كنت بالفعل في المنزل. في تلك الليلة نفسها ذهبنا إلى الخدمة بمعدات جديدة.

ونتيجة لذلك

وبدلاً من وحدة تشخيصية كبيرة واحدة، قمنا بتجميع عشرة أجهزة محمولة نسبياً في شقة كل شخص في الخدمة. وبطبيعة الحال، لا تزال هناك بعض التفاصيل التي يتعين علينا حلها. على سبيل المثال، كان لدينا هاتف "حديدي" واحد للضابط المناوب للإخطارات. لم ينجح هذا في الظروف الجديدة، لذلك توصلنا إلى "هواتف افتراضية" للضباط المناوبين (في الأساس، قنوات في برنامج المراسلة). وكانت هناك تغييرات أخرى كذلك. لكن الشيء الرئيسي هو أننا تمكنا في وقت قياسي من نقل ليس فقط الأشخاص، مما يقلل من خطر إصابتهم بالعدوى، ولكن كل عملنا إلى المنزل دون الإضرار بالعمليات واستقرار المنتج. لقد كنا نعمل في هذا الوضع لمدة شهر الآن.

ستجد أدناه صورًا لأماكن العمل الحقيقية لضباطنا المناوبين.

كيف قمنا بإخلاء نوبة عمل ياندكس

كيف قمنا بإخلاء نوبة عمل ياندكس

كيف قمنا بإخلاء نوبة عمل ياندكس

كيف قمنا بإخلاء نوبة عمل ياندكس

كيف قمنا بإخلاء نوبة عمل ياندكس

المصدر: www.habr.com