Мониторинг + тестирање на оптоварување = предвидување и без дефекти

Одделот за ИТ на VTB неколку пати мораше да се справи со итни ситуации во работењето на системите, кога оптоварувањето на нив се зголеми многу пати. Затоа, имаше потреба да се развие и тестира модел кој ќе предвиди максимално оптоварување на критичните системи. За да го направат ова, ИТ специјалистите на банката поставија мониторинг, анализираа податоци и научија да ги автоматизираат предвидувањата. Ќе ви кажеме во кратка статија кои алатки помогнаа да се предвиди оптоварувањето и дали помогнаа да се оптимизира работата.

Мониторинг + тестирање на оптоварување = предвидување и без дефекти

Проблемите со услугите со големо оптоварување се јавуваат во речиси сите индустрии, но за финансискиот сектор тие се критични. На час X, сите борбени единици мора да бидат подготвени, и затоа беше неопходно однапред да се знае што може да се случи, па дури и да се одреди денот кога товарот ќе скокне и кои системи ќе наидат на него. Неуспесите треба да се решат и спречат, па затоа не се ни дискутираше за потребата од имплементација на систем за предвидлива анализа. Беше неопходно да се модернизираат системите засновани на податоци од мониторинг.

Анализа на колена

Проектот за плати е еден од најчувствителните во случај на неуспех. Тоа е најразбирливо за прогнозирање, па решивме да започнеме со него. Поради високата поврзаност, другите потсистеми, вклучително и услугите за далечинско банкарство (RBS), би можеле да имаат проблеми при максимални оптоварувања. На пример, клиентите кои беа воодушевени од СМС за прием на пари почнаа активно да ја користат. Товарот може да скокне за повеќе од ред на големина. 

Првиот модел за прогноза беше креиран рачно. Ги зедовме прикачувањата за минатата година и пресметавме во кои денови се очекуваат максимални врвови: на пример, 1-ви, 15-ти и 25-ти, како и во последните денови од месецот. Овој модел бара значителни трошоци за работна сила и не дава точна прогноза. Сепак, ги идентификуваше тесните грла каде што беше неопходно да се додаде хардвер и овозможи да се оптимизира процесот на трансфер на пари со договор со сидро клиенти: за да не се даваат плати во една голтка, трансакциите од различни региони беа распоредени со текот на времето. Сега ги обработуваме во делови што ИТ инфраструктурата на банката може да ги „џвака“ без дефект.

Откако го добивме првиот позитивен резултат, преминавме на автоматизирање на прогнозирањето Уште десетина критични области го чекаа својот ред.

Интегриран пристап

VTB има имплементирано систем за следење од MicroFocus. Оттаму зедовме собирање податоци за прогнозирање, систем за складирање и систем за известување. Всушност, мониторингот веќе беше поставен, остана само да се додадат метрика, модул за предвидување и да се создадат нови извештаи. Оваа одлука е поддржана од надворешниот изведувач Техносерв, така што главната работа за спроведување на проектот падна на неговите специјалисти, но ние самите го изградивме моделот. Системот за прогнозирање е направен врз основа на Prophet, производ со отворен код развиен од Facebook. Лесен е за употреба и лесно се интегрира со нашите инсталирани интегрирани алатки за следење и Vertica. Грубо кажано, системот го анализира графикот на оптоварување и го екстраполира врз основа на Фуриеовите серии. Исто така, можно е да се додаваат одредени коефициенти по ден, земени од нашиот модел. Метриката се зема без човечка интервенција, прогнозата автоматски се пресметува еднаш неделно, а новите извештаи се испраќаат до примателите. 

Овој пристап ги идентификува главните цикличности, на пример, годишни, месечни, квартални и неделни. Исплати на плати и аванси, периоди на одмор, празници и распродажби - сето тоа влијае на бројот на повици кон системите. Се покажа, на пример, дека некои циклуси се преклопуваат едни со други, а главниот товар (75%) на системите доаѓа од Централниот федерален округ. Правните и физичките лица се однесуваат поинаку. Ако оптоварувањето од „физичарите“ е релативно рамномерно распределено во текот на деновите во неделата (ова се многу мали трансакции), тогаш за компаниите 99,9% се трошат на работното време, а трансакциите може да бидат кратки или може да се обработат во рок од неколку минути или дури часови.

Мониторинг + тестирање на оптоварување = предвидување и без дефекти

Врз основа на добиените податоци, се утврдуваат долгорочните трендови. Новиот систем откри дека луѓето масовно се движат кон далечински банкарски услуги. Сите го знаат ова, но ние не очекувавме таков размер и на почетокот не верувавме во тоа: бројот на повици до канцелариите на банките се намалува исклучително брзо, а бројот на далечински трансакции расте за исто толку. Според тоа, оптоварувањето на системите исто така расте и ќе продолжи да расте. Сега го предвидуваме оптоварувањето до февруари 2020 година. Нормалните денови може да се предвидат со грешка од 3%, а врвните денови со грешка од 10%. Ова е добар резултат.

Стапици

Како и обично, ова не беше без тешкотии. Механизмот за екстраполација користејќи серии Фурие не ја преминува нулата добро - знаеме дека правните лица генерираат малку трансакции за време на викендите, но модулот за предвидување произведува вредности кои се далеку од нула. Можеше и насилно да се коригираат, но патериците не се наш метод. Покрај тоа, моравме да го решиме проблемот со безболно преземање податоци од изворните системи. Редовното собирање информации бара сериозни компјутерски ресурси, така што изградивме брзи кешови користејќи репликација и примавме деловни податоци од реплики. Отсуството на дополнително оптоварување на главните системи во такви случаи е услов за блокирање.

Нови предизвици

Директната задача за предвидување на врвовите беше решена: немаше неуспеси поврзани со преоптоварување во банката од мај оваа година, а новиот систем за прогнозирање одигра важна улога во ова. Да, се покажа дека не е доволно, а сега банката сака да разбере колку се опасни врвовите за неа. Потребни ни се предвидувања со помош на метрика од тестирање на оптоварување, а за околу 30% од критичните системи ова веќе функционира, а останатите се во процес на добивање прогнози. Во следната фаза, ќе го предвидиме оптоварувањето на системите не во деловните трансакции, туку во однос на ИТ инфраструктурата, односно ќе се спуштиме еден слој надолу. Дополнително, треба целосно да го автоматизираме собирањето на метрика и изградбата на прогнози врз основа на нив, за да не се занимаваме со преземања. Нема ништо фенси во тоа - ние едноставно го преминуваме мониторингот и тестирањето на оптоварување во согласност со глобалните најдобри практики.

Извор: www.habr.com

Додадете коментар