مانیتورینگ + تست بار = پیش بینی و بدون خرابی

بخش فناوری اطلاعات VTB چندین بار مجبور شد با شرایط اضطراری در عملکرد سیستم ها مقابله کند، زمانی که بار روی آنها چندین برابر افزایش یافت. بنابراین، نیاز به توسعه و آزمایش مدلی بود که اوج بار را در سیستم‌های بحرانی پیش‌بینی کند. برای انجام این کار، متخصصان فناوری اطلاعات بانک نظارت را راه‌اندازی کردند، داده‌ها را تجزیه و تحلیل کردند و یاد گرفتند که پیش‌بینی‌ها را خودکار کنند. ما در یک مقاله کوتاه به شما خواهیم گفت که کدام ابزارها به پیش بینی بار کمک کردند و آیا به بهینه سازی کار کمک کردند یا خیر.

مانیتورینگ + تست بار = پیش بینی و بدون خرابی

مشکلات مربوط به خدمات پر بار تقریباً در همه صنایع به وجود می آید، اما برای بخش مالی این مشکلات حیاتی هستند. در ساعت X، تمام واحدهای رزمی باید آماده باشند و بنابراین لازم بود از قبل بدانیم چه اتفاقی می‌افتد و حتی روزی را که بار پرش می‌کند و کدام سیستم‌ها با آن مواجه می‌شوند، مشخص می‌شود. باید با شکست‌ها برخورد کرد و از آن جلوگیری کرد، بنابراین نیاز به پیاده‌سازی یک سیستم تحلیل پیش‌بینی‌کننده حتی مورد بحث قرار نگرفت. لازم بود سیستم ها بر اساس داده های نظارتی نوسازی شوند.

تجزیه و تحلیل روی زانوهای شما

پروژه حقوق و دستمزد یکی از حساس ترین پروژه ها در صورت شکست است. این قابل درک ترین برای پیش بینی است، بنابراین تصمیم گرفتیم با آن شروع کنیم. به دلیل اتصال بالا، سایر زیرسیستم ها، از جمله خدمات بانکداری از راه دور (RBS)، ممکن است در زمان اوج بار با مشکل مواجه شوند. به عنوان مثال، مشتریانی که از پیامک در مورد دریافت پول خوشحال بودند، شروع به استفاده فعال از آن کردند. بار می تواند بیش از یک مرتبه بزرگی پرش کند. 

اولین مدل پیش بینی به صورت دستی ایجاد شد. ما آپلودهای سال گذشته را گرفتیم و محاسبه کردیم که در چه روزهایی حداکثر پیک مورد انتظار است: به عنوان مثال، 1، 15 و 25، و همچنین در روزهای پایانی ماه. این مدل به هزینه های نیروی کار قابل توجهی نیاز داشت و پیش بینی دقیقی ارائه نمی کرد. با این وجود، تنگناهایی را شناسایی کرد که در آن نیاز به افزودن سخت‌افزار بود و امکان بهینه‌سازی فرآیند انتقال پول را با توافق با مشتریان لنگر فراهم کرد: برای اینکه حقوق‌ها در یک قلپ داده نشود، تراکنش‌ها از مناطق مختلف در طول زمان فاصله می‌گرفتند. اکنون آن‌ها را در بخش‌هایی پردازش می‌کنیم که زیرساخت فناوری اطلاعات بانک می‌تواند بدون شکست «جویدن» را انجام دهد.

با دریافت اولین نتیجه مثبت، به پیش‌بینی خودکار رفتیم. ده‌ها منطقه حیاتی دیگر منتظر نوبت خود بودند.

رویکرد یکپارچه

VTB یک سیستم مانیتورینگ را از MicroFocus پیاده سازی کرده است. از آنجا جمع آوری داده ها را برای پیش بینی، یک سیستم ذخیره سازی و یک سیستم گزارش گیری گرفتیم. در واقع، نظارت از قبل وجود داشت، تنها چیزی که باقی مانده بود اضافه کردن معیارها، یک ماژول پیش‌بینی و ایجاد گزارش‌های جدید بود. این تصمیم توسط پیمانکار خارجی تکنوسرور پشتیبانی می شود، بنابراین کار اصلی اجرای پروژه بر عهده متخصصان آن بود، اما ما خودمان مدل را ساختیم. سیستم پیش‌بینی بر اساس پیامبر، یک محصول متن‌باز که توسط فیس‌بوک توسعه یافته است، ساخته شده است. استفاده از آن آسان است و به راحتی با ابزارهای نظارت یکپارچه نصب شده ما و Vertica ادغام می شود. به طور کلی، سیستم نمودار بار را تجزیه و تحلیل می کند و آن را بر اساس سری فوریه برون یابی می کند. همچنین می توان ضرایب خاصی را بر اساس مدل ما به روز اضافه کرد. معیارها بدون دخالت انسان انجام می شود، پیش بینی به طور خودکار یک بار در هفته محاسبه می شود و گزارش های جدید برای گیرندگان ارسال می شود. 

این رویکرد چرخه های اصلی را مشخص می کند، به عنوان مثال، سالانه، ماهانه، فصلی و هفتگی. پرداخت حقوق و پیش پرداخت، دوره های تعطیلات، تعطیلات و فروش - همه اینها بر تعداد تماس ها با سیستم ها تأثیر می گذارد. به عنوان مثال، مشخص شد که برخی از چرخه ها با یکدیگر همپوشانی دارند و بار اصلی (75٪) روی سیستم ها از ناحیه مرکزی فدرال می آید. اشخاص حقوقی و اشخاص حقیقی رفتار متفاوتی دارند. اگر بار "فیزیکدانان" به طور نسبتاً مساوی در طول روزهای هفته توزیع شود (این تعداد تراکنش های کوچک زیادی است) ، برای شرکت ها 99,9٪ صرف ساعات کاری می شود و تراکنش ها می توانند کوتاه باشند یا می توانند در چندین مورد پردازش شوند. دقیقه یا حتی ساعت

مانیتورینگ + تست بار = پیش بینی و بدون خرابی

بر اساس داده های به دست آمده، روندهای بلندمدت تعیین می شود. سیستم جدید نشان داده است که مردم به طور دسته جمعی به سمت خدمات بانکی از راه دور حرکت می کنند. همه این را می دانند، اما ما انتظار چنین مقیاسی را نداشتیم و در ابتدا به آن اعتقاد نداشتیم: تعداد تماس ها با دفاتر بانکی به سرعت در حال کاهش است و تعداد تراکنش های از راه دور دقیقاً به همان میزان در حال افزایش است. بر این اساس، بار روی سیستم ها نیز رو به افزایش است و به رشد خود ادامه خواهد داد. ما اکنون بار را تا فوریه 2020 پیش بینی می کنیم. روزهای عادی را می توان با خطای 3 درصد و روزهای اوج را با خطای 10 درصد پیش بینی کرد. این یک نتیجه خوب است.

مشکلات

طبق معمول، این بدون مشکل نبود. مکانیسم برون یابی با استفاده از سری فوریه به خوبی از صفر عبور نمی کند - می دانیم که اشخاص حقوقی تراکنش های کمی در تعطیلات آخر هفته ایجاد می کنند، اما ماژول پیش بینی مقادیری را تولید می کند که از صفر فاصله زیادی دارند. امکان اصلاح آنها به زور وجود داشت، اما عصا روش ما نیست. علاوه بر این، ما باید مشکل بازیابی بدون دردسر داده ها از سیستم های منبع را حل می کردیم. جمع آوری منظم اطلاعات به منابع محاسباتی جدی نیاز دارد، بنابراین ما کش های سریعی را با استفاده از تکرار ایجاد کردیم و داده های تجاری را از رونوشت ها دریافت کردیم. عدم وجود بار اضافی بر روی سیستم های اصلی در چنین مواردی یک الزام مسدود کننده است.

چالش های جدید

تکلیف ساده پیش‌بینی پیک‌ها حل شد: از اردیبهشت ماه سال جاری هیچ گونه خرابی مرتبط با اضافه بار در بانک رخ نداده است و سیستم جدید پیش‌بینی نقش مهمی در این امر ایفا کرد. بله، معلوم شد که کافی نیست و اکنون بانک می خواهد بفهمد که اوج ها برای آن چقدر خطرناک هستند. ما به پیش‌بینی‌هایی با استفاده از معیارهای آزمایش بار نیاز داریم، و برای حدود 30٪ از سیستم‌های حیاتی این کار در حال حاضر کار می‌کند، بقیه در فرآیند به دست آوردن پیش‌بینی هستند. در مرحله بعد، بار سیستم ها را نه در معاملات تجاری، بلکه از نظر زیرساخت فناوری اطلاعات پیش بینی می کنیم، یعنی یک لایه پایین می آییم. علاوه بر این، باید مجموعه معیارها و ساخت پیش بینی ها بر اساس آنها را کاملاً خودکار کنیم تا با دانلودها سروکار نداشته باشیم. هیچ چیز جالبی در مورد آن وجود ندارد - ما فقط در حال عبور از نظارت و آزمایش بار در راستای بهترین شیوه های جهانی هستیم.

منبع: www.habr.com

اضافه کردن نظر