Monitorování + zátěžové testování = předvídatelnost a žádné poruchy

IT oddělení VTB muselo několikrát řešit havarijní stavy v provozu systémů, kdy jejich zatížení mnohonásobně vzrostlo. Proto bylo nutné vyvinout a otestovat model, který by předpovídal špičkové zatížení kritických systémů. Za tímto účelem IT specialisté banky nastavili monitoring, analyzovali data a naučili se automatizovat prognózy. Jaké nástroje pomohly předvídat zatížení a zda bylo možné s jejich pomocí optimalizovat práci, řekneme v krátkém článku.

Monitorování + zátěžové testování = předvídatelnost a žádné poruchy

Problémy s vysoce vytíženými službami vznikají téměř ve všech odvětvích, ale pro finanční sektor jsou kritické. V hodině X musely být všechny bojové jednotky připraveny, takže bylo nutné předem vědět, co se může stát, a dokonce určit den, kdy zátěž stoupne a které systémy jí budou čelit. Poruchy je třeba řešit a předcházet jim, takže o potřebě implementace prediktivního analytického systému se ani nemluvilo. Systémy musely být modernizovány na základě monitorovacích dat.

Analytika na koleně

Mzdový projekt je jedním z nejcitlivějších v případě neúspěchu. Pro prognózování je nejsrozumitelnější, a tak jsme se rozhodli s ní začít. Kvůli vysoké konektivitě ve špičce mohou mít problémy i další subsystémy, včetně vzdáleného bankovnictví (RB). Například zákazníci, kteří byli potěšeni SMS o příjmu peněz, je začali aktivně využívat. V tomto případě by zátěž mohla vyskočit o více než řád. 

První predikční model byl vytvořen ručně. Vzali jsme upload za poslední rok a spočítali, ve které dny se očekávají maximální vrcholy: například 1., 15. a 25. a také poslední dny v měsíci. Tento model vyžadoval značné mzdové náklady a neposkytoval přesnou předpověď. Přesto identifikovala úzká místa, kde bylo nutné přidat „železo“, a umožnila optimalizovat proces převodu peněz tím, že se dohodla s kotevními klienty: aby se platy nedávaly „na jeden zátah“, transakce z různých regionů byly rozloženy v čase. . Nyní je zpracováváme po částech, které je IT infrastruktura banky schopna „žvýkat“ bez poruch.

Po obdržení prvního pozitivního výsledku jsme přešli k automatickému předpovídání. Tucet dalších kritických oblastí čekalo, až na ně přijde řada.

Integrovaný přístup

VTB implementovala monitorovací systém od MicroFocus. Odtud jsme převzali sběr dat pro prognózování, systém ukládání a systém podávání zpráv. V podstatě už byl monitoring, zbývalo jen přidat metriky, predikční modul a vytvořit nové reporty. Toto řešení je podporováno externím dodavatelem Technoserv, takže hlavní práce na realizaci projektu spočívala na jeho specialistech, ale model jsme si postavili sami. Prognostický systém byl vytvořen na základě Prophet - tento otevřený produkt byl vyvinut Facebookem. Snadno se používá a snadno se integruje s našimi integrovanými monitorovacími nástroji a Vertica. Zhruba řečeno, systém analyzuje rozvrh načítání a extrapoluje jej na základě Fourierovy řady. Je také možné přidat některé koeficienty pro dny převzaté z našeho modelu. Metriky jsou pořizovány bez lidského zásahu, jednou týdně se automaticky přepočítá předpověď, příjemcům se zasílají nové reporty. 

Tento přístup odhaluje hlavní cykly, například roční, měsíční, čtvrtletní a týdenní. Mzdy a zálohy, období dovolených, dovolené a tržby – to vše ovlivňuje počet volání do systémů. Ukázalo se například, že některé cykly se navzájem překrývají a hlavní zátěž (75 %) systémů pochází z Centrálního federálního okruhu. Právnické a fyzické osoby se chovají odlišně. Pokud je zátěž od „fyziků“ relativně rovnoměrně rozložena do dnů v týdnu (je hodně malých transakcí), tak firmy mají 99,9 % v pracovní době, navíc transakce mohou být krátké, nebo je lze zpracovat v rámci několik minut nebo dokonce hodin.

Monitorování + zátěžové testování = předvídatelnost a žádné poruchy

Na základě získaných dat jsou stanoveny dlouhodobé trendy. Nový systém odhalil, že lidé hromadně odcházejí do vzdáleného bankovnictví. Každý to ví, ale takový rozsah jsme nečekali a zprvu v něj nevěřili: extrémně rychle klesá počet hovorů do kanceláří banky a přesně o stejnou částku roste počet transakcí na dálku. V souladu s tím také roste a bude dále růst zatížení systémů. Nyní předpovídáme zatížení do února 2020. Normální dny lze předvídat s chybou 3 % a dny ve špičce s chybou 10 %. To je dobrý výsledek.

Úskalí

Jako obvykle se to neobešlo bez potíží. Extrapolační mechanismus využívající Fourierovy řady dobře nepřekračuje nulu – víme, že právnické osoby generují o víkendu málo transakcí, ale predikční modul produkuje hodnoty, které zdaleka nejsou nulové. Bylo možné je napravit násilím, ale berle nejsou naší metodou. Navíc jsme museli vyřešit problém bezbolestného odstraňování dat ze zdrojových systémů. Pravidelné shromažďování informací vyžaduje seriózní výpočetní zdroje, takže jsme vytvořili rychlé mezipaměti pomocí replikace, obchodní data získáváme již z replik. Absence dodatečného zatížení nadřízených systémů je v takových případech požadavkem blokování.

Nové výzvy

Hlavní úkol předpovídání špiček byl vyřešen: od května letošního roku nedošlo v bance k žádným výpadkům souvisejícím s přetížením a významnou roli v tom sehrál nový predikční systém. Ano, nestačilo to a banka chce nyní pochopit, jak nebezpečné jsou pro ni piky. Potřebujeme předpovědi využívající metriky ze zátěžového testování a u asi 30 % kritických systémů to již funguje, zbytek je v procesu získávání předpovědí. V další fázi budeme předpovídat zatížení systémů nikoli v obchodních transakcích, ale z hlediska IT infrastruktury, to znamená, že půjdeme dolů na vrstvu níže. Navíc musíme plně automatizovat sběr metrik a na nich založenou konstrukci prognóz, abychom se nezabývali vykládáním. Na tom není nic výjimečného – pouze křížíme monitorování a zátěžové testování v souladu s nejlepšími světovými postupy.

Zdroj: www.habr.com

Přidat komentář