المراقبة + اختبار الحمل = القدرة على التنبؤ وعدم وجود أعطال

كان على قسم تكنولوجيا المعلومات في VTB التعامل مع حالات الطوارئ في تشغيل الأنظمة عدة مرات ، عندما زاد الحمل عليها عدة مرات. لذلك ، أصبح من الضروري تطوير واختبار نموذج يتنبأ بحمل الذروة على الأنظمة الحرجة. للقيام بذلك ، قام متخصصو تكنولوجيا المعلومات بالبنك بإعداد المراقبة ، وتحليل البيانات ، وتعلم كيفية أتمتة التنبؤات. ما هي الأدوات التي ساعدت في التنبؤ بالحمل وما إذا كان من الممكن تحسين العمل بمساعدتهم ، سنخبر في مقال قصير.

المراقبة + اختبار الحمل = القدرة على التنبؤ وعدم وجود أعطال

تنشأ مشاكل الخدمات المحملة بشكل كبير في جميع الصناعات تقريبًا ، لكنها ضرورية للقطاع المالي. في الساعة X ، يجب أن تكون جميع الوحدات القتالية جاهزة ، لذلك كان من الضروري معرفة ما قد يحدث مسبقًا وحتى تحديد اليوم الذي سترتفع فيه الحمولة وأي الأنظمة ستواجهها. يجب التعامل مع حالات الفشل ومنعها ، لذلك لم تتم مناقشة الحاجة إلى تنفيذ نظام تحليلات تنبؤية. كان لابد من ترقية الأنظمة بناءً على بيانات المراقبة.

تحليلات على الركبة

يعد مشروع كشوف المرتبات من أكثر المشاريع حساسية في حالة الفشل. إنه الأكثر قابلية للفهم للتنبؤ ، لذلك قررنا أن نبدأ به. نظرًا لارتفاع الاتصال في أوقات ذروة الأحمال ، يمكن أن تواجه الأنظمة الفرعية الأخرى أيضًا مشكلات ، بما في ذلك الخدمات المصرفية عن بُعد (RB). على سبيل المثال ، بدأ العملاء الذين كانوا سعداء بالرسائل النصية القصيرة حول استلام الأموال في استخدامها بنشاط. في هذه الحالة ، يمكن أن يقفز الحمل بأكثر من مرتبة من حيث الحجم. 

تم إنشاء نموذج التنبؤ الأول يدويًا. أخذنا التحميل للعام الماضي وحسبنا الأيام التي يتوقع فيها الحد الأقصى للقمم: على سبيل المثال ، في اليوم الأول والخامس عشر والخامس والعشرين ، وكذلك في الأيام الأخيرة من الشهر. تطلب هذا النموذج تكاليف عمالة خطيرة ولم يقدم تنبؤات دقيقة. ومع ذلك ، حددت الاختناقات حيث كان من الضروري إضافة "حديد" ، والسماح بتحسين عملية تحويل الأموال من خلال الاتفاق مع العملاء الأساسيين: من أجل عدم إعطاء رواتب "في جرعة واحدة" ، تم توزيع المعاملات من مناطق مختلفة بمرور الوقت . الآن نقوم بمعالجتها في أجزاء تستطيع البنية التحتية لتقنية المعلومات للبنك "مضغها" دون إخفاقات.

بعد حصولنا على أول نتيجة إيجابية ، انتقلنا إلى التشغيل الآلي للتنبؤ ، حيث كانت هناك اثنا عشر منطقة حرجة أخرى تنتظر دورها.

نهج متكامل

نفذت VTB نظام مراقبة من MicroFocus. من هناك ، أخذنا جمع البيانات للتنبؤ ، ونظام التخزين ، ونظام التقارير. في الواقع ، كانت هناك مراقبة بالفعل ، ولم يتبق سوى إضافة المقاييس ووحدة التنبؤ وإنشاء تقارير جديدة. هذا الحل مدعوم من قبل المقاول الخارجي تكنوسيرف ، لذلك وقع العمل الرئيسي في تنفيذ المشروع على اختصاصيها ، لكننا قمنا ببناء النموذج بأنفسنا. تم إجراء نظام التنبؤ على أساس النبي - تم تطوير هذا المنتج المفتوح بواسطة Facebook. إنه سهل الاستخدام ويتكامل بسهولة مع أدوات المراقبة المتكاملة و Vertica. بشكل تقريبي ، يقوم النظام بتحليل جدول التحميل واستقراءه بناءً على سلسلة فورييه. من الممكن أيضًا إضافة بعض المعاملات للأيام المأخوذة من نموذجنا. يتم أخذ المقاييس دون تدخل بشري ، مرة واحدة في الأسبوع تتم إعادة حساب التوقعات تلقائيًا ، ويتم إرسال التقارير الجديدة إلى المستلمين. 

يكشف هذا النهج عن الدورات الرئيسية ، على سبيل المثال ، السنوية والشهرية والفصلية والأسبوعية. الرواتب والمدفوعات المقدمة وفترات الإجازات والعطلات والمبيعات - كل هذا يؤثر على عدد المكالمات إلى الأنظمة. اتضح ، على سبيل المثال ، أن بعض الدورات تتداخل مع بعضها البعض ، وأن الحمل الرئيسي (75٪) على الأنظمة يأتي من المنطقة الفيدرالية المركزية. الكيانات القانونية والأفراد يتصرفون بشكل مختلف. إذا تم توزيع العبء من "الفيزيائيين" بالتساوي نسبيًا على مدار أيام الأسبوع (هناك الكثير من المعاملات الصغيرة) ، فإن الشركات لديها 99,9٪ خلال ساعات العمل ، علاوة على ذلك ، يمكن أن تكون المعاملات قصيرة ، أو يمكن معالجتها في غضون عدة دقائق أو حتى ساعات.

المراقبة + اختبار الحمل = القدرة على التنبؤ وعدم وجود أعطال

بناءً على البيانات التي تم الحصول عليها ، يتم تحديد الاتجاهات طويلة الأجل. كشف النظام الجديد أن الناس يغادرون بأعداد كبيرة للعمل المصرفي عن بعد. الجميع يعرف هذا ، لكننا لم نتوقع مثل هذا الحجم وفي البداية لم نؤمن به: عدد المكالمات إلى مكاتب البنك ينخفض ​​بسرعة كبيرة ، وعدد المعاملات عن بعد يتزايد بنفس المقدار بالضبط. وفقًا لذلك ، يتزايد الحمل على الأنظمة أيضًا وسيستمر في النمو. نتوقع الآن الحمل حتى فبراير 2020. يمكن توقع الأيام العادية بخطأ بنسبة 3٪ وأيام الذروة - مع خطأ بنسبة 10٪. هذه نتيجة جيدة.

المزالق

كالعادة ، لم يكن يخلو من الصعوبات. لا تتخطى آلية الاستقراء التي تستخدم سلسلة فورييه الصفر جيدًا - فنحن نعلم أن الكيانات القانونية تنشئ معاملات قليلة في عطلة نهاية الأسبوع ، لكن وحدة التنبؤ تنتج قيمًا بعيدة عن الصفر. كان من الممكن تصحيحها بالقوة ، لكن العكازات ليست طريقتنا. بالإضافة إلى ذلك ، كان علينا حل مشكلة إزالة البيانات غير المؤلمة من أنظمة المصدر. يتطلب الجمع المنتظم للمعلومات موارد حوسبة جادة ، لذلك قمنا ببناء ذاكرة تخزين مؤقت سريعة باستخدام النسخ المتماثل ، ونحصل بالفعل على بيانات الأعمال من النسخ المتماثلة. يعد عدم وجود حمل إضافي على الأنظمة الرئيسية في مثل هذه الحالات مطلبًا للحظر.

تحديات جديدة

تم حل المهمة المباشرة للتنبؤ بالقمم: لم تكن هناك إخفاقات مرتبطة بالحمل الزائد في البنك منذ مايو من هذا العام ، ولعب نظام التنبؤ الجديد دورًا مهمًا في ذلك. نعم ، لم يكن ذلك كافيًا ، والآن يريد البنك أن يفهم مدى خطورة البستوني عليه. نحن بحاجة إلى تنبؤات باستخدام مقاييس من اختبار الحمل ، وبالنسبة لحوالي 30٪ من الأنظمة المهمة ، يعمل هذا بالفعل ، والبقية في طور الحصول على تنبؤات. في المرحلة التالية ، سوف نتنبأ بالحمل على الأنظمة ليس في المعاملات التجارية ، ولكن فيما يتعلق بالبنية التحتية لتكنولوجيا المعلومات ، أي أننا سننزل إلى الطبقة أدناه. بالإضافة إلى ذلك ، نحن بحاجة إلى أتمتة مجموعة المقاييس بشكل كامل وإنشاء التنبؤات بناءً عليها ، حتى لا نتعامل مع التفريغ. لا يوجد شيء مميز في هذا - نحن فقط عبر المراقبة واختبار الحمل وفقًا لأفضل الممارسات العالمية.

المصدر: www.habr.com

إضافة تعليق