Monitorització + proves de càrrega = predictibilitat i sense fallades

El departament d'informàtica de VTB ha hagut de fer front a situacions d'emergència en el funcionament dels sistemes diverses vegades, quan la càrrega sobre ells augmentava moltes vegades. Per tant, es va fer necessari desenvolupar i provar un model que predigués la càrrega màxima en sistemes crítics. Per fer-ho, els informàtics del banc van establir un seguiment, van analitzar les dades i van aprendre a automatitzar les previsions. Quines eines van ajudar a predir la càrrega i si va ser possible optimitzar el treball amb la seva ajuda, explicarem en un breu article.

Monitorització + proves de càrrega = predictibilitat i sense fallades

Els problemes amb els serveis altament carregats sorgeixen en gairebé totes les indústries, però són crítics per al sector financer. A l'hora X, totes les unitats de combat havien d'estar preparades, per la qual cosa calia saber amb antelació què podia passar i fins i tot determinar el dia en què augmentaria la càrrega i quins sistemes s'hi enfrontarian. Els errors s'han de tractar i prevenir, de manera que ni tan sols es va parlar de la necessitat d'implementar un sistema d'anàlisi predictiva. Els sistemes s'havien d'actualitzar en funció de les dades de monitorització.

Analítica al genoll

Un projecte de nòmina és un dels més sensibles en cas de fracàs. És el més entenedor per a la previsió, així que vam decidir començar per ell. A causa de l'alta connectivitat en moments de càrrega punta, altres subsistemes també podrien experimentar problemes, inclosa la banca remota (RB). Per exemple, els clients que estaven encantats amb els SMS sobre la recepció de diners van començar a utilitzar-los activament. En aquest cas, la càrrega podria saltar en més d'un ordre de magnitud. 

El primer model predictiu es va crear manualment. Hem agafat la pujada de l'últim any i hem calculat en quins dies s'esperen els pics màxims: per exemple, els dies 1, 15 i 25, així com els últims dies del mes. Aquest model requeria costos laborals greus i no donava una previsió precisa. No obstant això, va identificar colls d'ampolla on calia afegir "ferro", i va permetre optimitzar el procés de transferència de diners, acordant amb els clients àncora: per no donar els sous "d'un glop", les transaccions de diferents regions es van repartir al llarg del temps. . Ara els processem en parts que la infraestructura informàtica del banc és capaç de "mastegar" sense fallades.

Després d'haver rebut el primer resultat positiu, vam passar a l'automatització de la previsió i una dotzena d'àrees crítiques més esperaven el seu torn.

Enfocament integrat

VTB ha implementat un sistema de monitorització de MicroFocus. A partir d'aquí, vam agafar la recollida de dades per a la previsió, un sistema d'emmagatzematge i un sistema d'informes. De fet, ja hi havia un seguiment, només quedava afegir mètriques, un mòdul de predicció i crear nous informes. Aquesta solució compta amb el suport del contractista extern Technoserv, per la qual cosa la principal tasca d'execució del projecte va recaure en els seus especialistes, però el model el vam construir nosaltres mateixos. El sistema de previsió es va fer sobre la base de Prophet: aquest producte obert va ser desenvolupat per Facebook. És fàcil d'utilitzar i s'integra fàcilment amb les nostres eines de monitorització integrades i Vertica. A grans trets, el sistema analitza el calendari de càrrega i l'extrapola a partir de la sèrie de Fourier. També és possible afegir alguns coeficients per als dies extrets del nostre model. Les mètriques es prenen sense intervenció humana, un cop a la setmana es torna a calcular automàticament la previsió, s'envien nous informes als destinataris. 

Aquest enfocament revela els cicles principals, per exemple, anual, mensual, trimestral i setmanal. Sous i pagaments anticipats, períodes de vacances, vacances i rebaixes: tot això afecta el nombre de trucades als sistemes. Va resultar, per exemple, que alguns cicles es superposen i la càrrega principal (75%) dels sistemes prové del Districte Federal Central. Les persones jurídiques i les persones es comporten de manera diferent. Si la càrrega dels "físics" es distribueix de manera relativament uniforme durant els dies de la setmana (hi ha moltes transaccions petites), les empreses tenen un 99,9% durant l'horari laboral, a més, les transaccions poden ser curtes o es poden processar dins de uns quants minuts o fins i tot hores.

Monitorització + proves de càrrega = predictibilitat i sense fallades

A partir de les dades obtingudes, es determinen tendències a llarg termini. El nou sistema va revelar que la gent marxa massivament a la banca remota. Tothom ho sap, però no esperàvem tal escala i al principi no hi creiem: el nombre de trucades a les oficines del banc està disminuint molt ràpidament i el nombre de transaccions a distància creix exactament en la mateixa quantitat. En conseqüència, la càrrega dels sistemes també està creixent i continuarà creixent. Ara estem pronosticant la càrrega fins al febrer de 2020. Els dies normals es poden predir amb un error del 3% i els dies punta, amb un error del 10%. Aquest és un bon resultat.

Trampes

Com és habitual, no va estar exempt de dificultats. El mecanisme d'extrapolació mitjançant sèries de Fourier no creua bé el zero: sabem que les persones jurídiques generen poques transaccions el cap de setmana, però el predictor produeix valors que estan lluny de zero. Va ser possible corregir-los a la força, però les crosses no són el nostre mètode. A més, vam haver de resoldre el problema de l'eliminació indolora de dades dels sistemes font. La recollida regular d'informació requereix recursos informàtics seriosos, de manera que hem creat memòria cau ràpida mitjançant la rèplica, ja obtenim dades empresarials de les rèpliques. L'absència de càrrega addicional als sistemes mestres en aquests casos és un requisit de bloqueig.

Nous reptes

La tasca frontal de previsió de pics es va resoldre: des del maig d'enguany no hi va haver falles relacionades amb la sobrecàrrega al banc, i el nou sistema de previsió hi va tenir un paper important. Sí, no n'hi havia prou, i ara el banc vol entendre com de perilloses són les piques per a això. Necessitem previsions amb mètriques de proves de càrrega, i per al voltant del 30% dels sistemes crítics això ja funciona, la resta està en procés d'obtenir previsions. En la següent etapa, predirem la càrrega dels sistemes no en transaccions comercials, sinó en termes d'infraestructura informàtica, és a dir, baixarem a la capa inferior. A més, hem d'automatitzar totalment la recollida de mètriques i la construcció de previsions a partir d'elles, per no fer front a la descàrrega. No hi ha res destacat en això: només encreuem el control i les proves de càrrega d'acord amb les millors pràctiques mundials.

Font: www.habr.com

Afegeix comentari