Valvonta + kuormitustestaus = ennuste ja ei vikoja

VTB:n IT-osasto joutui useaan otteeseen käsittelemään järjestelmien toiminnan hätätilanteita, jolloin niihin kohdistuva kuormitus moninkertaistui. Siksi oli tarpeen kehittää ja testata malli, joka ennustaisi kriittisten järjestelmien huippukuormituksen. Tätä varten pankin IT-asiantuntijat perustivat seurannan, analysoivat dataa ja oppivat automatisoimaan ennusteita. Kerromme lyhyessä artikkelissa, mitkä työkalut auttoivat ennustamaan kuormitusta ja auttoivatko ne optimoimaan työtä.

Valvonta + kuormitustestaus = ennuste ja ei vikoja

Ongelmia korkean kuormituksen palveluissa esiintyy lähes kaikilla toimialoilla, mutta rahoitussektorille ne ovat kriittisiä. Tunnilla X kaikkien taisteluyksiköiden on oltava valmiina, ja siksi oli tarpeen tietää etukäteen, mitä voisi tapahtua, ja jopa määrittää päivä, jolloin kuorma hyppää ja mitkä järjestelmät kohtaavat sen. Epäonnistumisia pitää käsitellä ja ennaltaehkäistä, joten ennakoivan analyysijärjestelmän käyttöönoton tarpeesta ei edes keskusteltu. Järjestelmät oli tarpeen modernisoida seurantatietoihin perustuen.

Analyysi polvillasi

Palkkalaskentaprojekti on yksi herkimmistä epäonnistumisen varalta. Se on ymmärrettävin ennustamisen kannalta, joten päätimme aloittaa siitä. Korkean liitettävyyden vuoksi muissa alijärjestelmissä, mukaan lukien etäpankkipalvelut (RBS), voi esiintyä ongelmia ruuhkahuippujen aikana. Esimerkiksi asiakkaat, jotka olivat iloisia rahan vastaanottamisesta saadusta tekstiviestistä, alkoivat käyttää sitä aktiivisesti. Kuorma voi hypätä enemmän kuin suuruusluokkaa. 

Ensimmäinen ennustemalli luotiin manuaalisesti. Otimme viime vuoden lataukset ja laskemme, minä päivänä maksimihuiput ovat odotettavissa: esimerkiksi 1., 15. ja 25. päivä sekä kuun viimeisinä päivinä. Tämä malli vaati huomattavia työvoimakustannuksia eikä antanut tarkkaa ennustetta. Siitä huolimatta se tunnisti pullonkauloja, joihin oli tarpeen lisätä laitteistoa, ja mahdollisti rahansiirtoprosessin optimoinnin ankkuriasiakkaiden kanssa sopimalla: jotta palkkoja ei annettaisi kerralla, tapahtumat eri alueilta jaettiin ajan mittaan. Nyt käsittelemme ne osissa, jotka pankin IT-infrastruktuuri pystyy "pureskelemaan" virheettömästi.

Ensimmäisen positiivisen tuloksen saatuaan siirryttiin ennustamisen automatisointiin, vuoroaan odotti kymmenkunta kriittistä aluetta.

Kattava lähestymistapa

VTB on ottanut käyttöön MicroFocuksen valvontajärjestelmän. Sieltä otimme tiedonkeruun ennustamista varten, tallennusjärjestelmän ja raportointijärjestelmän. Itse asiassa valvonta oli jo paikallaan, jäljellä oli vain lisätä mittareita, ennustemoduuli ja luoda uusia raportteja. Tätä päätöstä tukee ulkopuolinen urakoitsija Technoserv, joten pääasiallinen työ projektin toteuttamisessa jäi sen asiantuntijoille, mutta rakensimme mallin itse. Ennustejärjestelmä tehtiin Facebookin kehittämän avoimen lähdekoodin tuotteen Prophetin pohjalta. Se on helppokäyttöinen ja helposti integroitavissa asennettujen integroitujen valvontatyökalujemme ja Vertican kanssa. Karkeasti sanottuna järjestelmä analysoi kuormituskaavion ja ekstrapoloi sen Fourier-sarjan perusteella. On myös mahdollista lisätä tiettyjä kertoimia päiväkohtaisesti, jotka on otettu mallistamme. Mittarit otetaan ilman ihmisen puuttumista, ennuste lasketaan automaattisesti uudelleen kerran viikossa ja vastaanottajille lähetetään uudet raportit. 

Tämä lähestymistapa tunnistaa tärkeimmät suhdannevaihtelut, esimerkiksi vuosittaiset, kuukausittaiset, neljännesvuosittaiset ja viikoittaiset. Palkka- ja ennakkomaksut, lomakaudet, lomat ja myynti - kaikki tämä vaikuttaa järjestelmiin tulevien puheluiden määrään. Kävi esimerkiksi ilmi, että jotkin syklit menevät päällekkäin ja järjestelmien pääkuormitus (75 %) tulee keskusliittovaltiolta. Juridiset ja yksityishenkilöt käyttäytyvät eri tavalla. Jos ”fyysikkojen” kuormitus jakautuu suhteellisen tasaisesti viikonpäiville (tämä on paljon pieniä tapahtumia), niin yrityksillä 99,9 % kuluu työaikaan ja tapahtumat voivat olla lyhyitä tai ne voidaan käsitellä useissa erissä. minuutteja tai jopa tunteja.

Valvonta + kuormitustestaus = ennuste ja ei vikoja

Saatujen tietojen perusteella määritetään pitkän aikavälin trendit. Uusi järjestelmä on paljastanut, että ihmiset siirtyvät massiivisesti etäpankkipalveluihin. Kaikki tietävät tämän, mutta emme odottaneet tällaista mittakaavaa emmekä aluksi uskoneet siihen: puheluiden määrä pankkikonttoreihin vähenee erittäin nopeasti ja etätapahtumien määrä kasvaa täsmälleen saman verran. Vastaavasti myös järjestelmien kuormitus kasvaa ja kasvaa edelleen. Ennustelemme nyt kuormitusta helmikuuhun 2020 asti. Normaalit päivät voidaan ennustaa 3 %:n virheellä ja huippupäivät 10 %:n virheellä. Tämä on hyvä tulos.

Sudenkuopat

Kuten tavallista, tämä ei sujunut ongelmitta. Fourier-sarjaa käyttävä ekstrapolointimekanismi ei ylitä nollaa hyvin - tiedämme, että juridiset henkilöt luovat vähän tapahtumia viikonloppuisin, mutta ennustemoduuli tuottaa arvoja, jotka ovat kaukana nollasta. Ne oli mahdollista korjata väkisin, mutta kainalosauvat eivät ole menetelmämme. Lisäksi jouduimme ratkaisemaan ongelman tietojen kivuttomasti noutamisesta lähdejärjestelmistä. Säännöllinen tiedonkeruu vaatii vakavia laskentaresursseja, joten rakensimme nopeita välimuistia replikoinnin avulla ja vastaanotimme liiketoimintatietoja replikoista. Tällaisissa tapauksissa isäntäjärjestelmien lisäkuormituksen puuttuminen on estovaatimus.

Uudet haasteet

Huippujen ennustamisen suoraviivainen tehtävä ratkaistiin: ylikuormitukseen liittyviä vikoja ei ole ollut pankissa tämän vuoden toukokuun jälkeen, ja uudella ennustejärjestelmällä oli tässä tärkeä rooli. Kyllä, se osoittautui riittämättömäksi, ja nyt pankki haluaa ymmärtää, kuinka vaarallisia huiput ovat sille. Tarvitsemme ennusteita kuormitustestauksen mittareilla, ja noin 30 prosentissa kriittisistä järjestelmistä tämä toimii jo, loput ovat parhaillaan hankkimassa ennusteita. Seuraavassa vaiheessa aiomme ennustaa järjestelmien kuormitusta ei liiketoimissa, vaan IT-infrastruktuurin kannalta, eli menemme yhden kerroksen alaspäin. Lisäksi meidän on automatisoitava täysin mittareiden kerääminen ja niiden perusteella ennusteiden rakentaminen, jotta latauksia ei tarvitse käsitellä. Siinä ei ole mitään hienoa – risteämme vain seurannan ja kuormitustestauksen kanssa maailmanlaajuisten parhaiden käytäntöjen mukaisesti.

Lähde: will.com

Lisää kommentti