DokumentÄcijas atbalsta sistÄma mÅ«su bankÄ pastÄvÄ«gi attÄ«stÄs un mÄrogojas, un prasÄ«bas Ätrumam un kļūdu pielaidei tikai pieaug. KÄdÄ brÄ«dÄ« LMS uzturÄÅ”ana bez efektÄ«vas centralizÄtas uzraudzÄ«bas kļuva pÄrÄk riskanti. Lai nodroÅ”inÄtu VTB biznesa procesus un vienkÄrÅ”otu administratoru darbu, mÄs ieviesÄm risinÄjumu, kura pamatÄ ir atvÄrto tehnoloÄ£iju kaudze. Ar tÄs palÄ«dzÄ«bu mÄs varam proaktÄ«vi reaÄ£Ät uz incidentiem, novÄrÅ”ot iespÄjamÄs problÄmas. Zem griezuma ir stÄsts par mÅ«su pieredzi, izmantojot bezmaksas programmatÅ«ru liela mÄroga biznesa sistÄmu uzraudzÄ«bai.
KÄpÄc uzraudzÄ«t savu dokumentu pÄrvaldÄ«bas sistÄmu?
KopÅ” 2005. gada dokumentÄcijas atbalstu VTB bankÄ āpÄrvaldaā sistÄma CompanyMedia. LMS nodarbina vairÄk nekÄ 60 tÅ«kstoÅ”us lietotÄju, kuri katru mÄnesi izveido vairÄk nekÄ miljonu jaunu dokumentu. MÅ«su serveriem jÄdarbojas 24 stundas diennaktÄ«: gandrÄ«z jebkurÄ brÄ«dÄ« sistÄmÄ ir 2500ā3000 cilvÄku, kuri ir savienoti visÄ valstÄ«, no Petropavlovskas-KamÄatskas lÄ«dz KaļiÅingradai. Katra LMS darbÄ«bas sekunde nozÄ«mÄ 10ā15 izmaiÅas.
Lai nodroÅ”inÄtu, ka sistÄma precÄ«zi izpilda tai uzticÄtos uzdevumus, esam izvietojuÅ”i defektu tolerantu infrastruktÅ«ru, izmantojot starpniekserverus, pieprasÄ«jumu balansÄÅ”anu, informÄcijas aizsardzÄ«bu, pilna teksta meklÄÅ”anu, integrÄcijas marÅ”rutus un dublÄÅ”anu. Lai atbalstÄ«tu un pÄrvaldÄ«tu Å”Äda mÄroga projektu, ir nepiecieÅ”ami milzÄ«gi resursi. Administratori visu diennakti uzrauga pamatinformÄciju par servera darbÄ«bu, RAM slodzi, CPU laiku, I/O apakÅ”sistÄmu un tÄ tÄlÄk. Bet papildus tam ir nepiecieÅ”ama smalkÄka analÄ«ze:
- biznesa scenÄriju izpildei pavadÄ«tÄ laika aprÄÄ·inÄÅ”ana;
- sistÄmas veiktspÄjas un slodzes dinamikas uzraudzÄ«ba;
- meklÄt sistÄmas komponentos novirzes no apstiprinÄtajÄm nefunkcionÄlajÄm prasÄ«bÄm.
11 gadus pÄc LMS ievieÅ”anas Ä«paÅ”i aktuÄls ir kļuvis jautÄjums par proaktÄ«vu reaÄ£ÄÅ”anu uz dažÄda veida kļūdÄm. Bankas vadÄ«ba saprata, ka darbs bez monitoriem un sistÄmas dzÄ«ves konsoles spÄlÄjas ar uguni: mazÄkÄ kļūme Å”Äda lÄ«meÅa biznesa sistÄmÄ var radÄ«t miljonus lielus zaudÄjumus.
2016. gadÄ sÄkÄm ieviest rÄ«kus, kas ļauj Ätri identificÄt problÄmas LMS darbÄ«bÄ, tostarp reÄllaikÄ uzraudzÄ«t mÅ«s interesÄjoÅ”os parametrus. IepriekÅ” pielietotÄ uzraudzÄ«bas sistÄma tika izvietota un testÄta InterTrust uzÅÄmuma infrastruktÅ«ras ietvaros.
KÄ viss sÄkÄs
MÅ«sdienÄs VTB LMS centralizÄtÄ lietojumprogrammu uzraudzÄ«bas sistÄma, kuras pamatÄ ir atvÄrtÄ pirmkoda programmatÅ«ras produkti, palÄ«dz novÄrst lielÄko daļu kļūdu, kas saistÄ«tas ar dokumentu plÅ«smu, Ätri un precÄ«zi klasificÄt problÄmas un operatÄ«vi reaÄ£Ät uz jebkÄdiem incidentiem. Tas ietver divas apakÅ”sistÄmas:
- sistÄmas pakalpojumu IT infrastruktÅ«ras uzraudzÄ«bai;
- uzraudzÄ«t kļūdu raÅ”anos LMS darbÄ«bÄ.
Viss sÄkÄs ar vienu bezmaksas uzraudzÄ«bas lietotni. IzpÄtot vairÄkas iespÄjas, mÄs izvÄlÄjÄmies Zabbix ā bezmaksas programmatÅ«ru, kas sÄkotnÄji bija paredzÄta banku pakalpojumiem un aprÄ«kojumam. Å Ä« PHP tÄ«mekļa sistÄma, kas var uzglabÄt datus MySQL, PostgreSQL, SQLite vai Oracle datu bÄzÄ, bija lieliski piemÄrota mÅ«su vajadzÄ«bÄm.
Zabbix palaiž savus aÄ£entus katrÄ serverÄ« un reÄllaikÄ apkopo informÄciju par interesÄjoÅ”o metriku vienÄ datu bÄzÄ. Izmantojot lietojumprogrammu, ir Ärti apkopot datus par procesoru un operatÄ«vÄs atmiÅas slodzi, tÄ«kla un citu komponentu izmantoÅ”anu, pÄrbaudÄ«t standarta pakalpojumu (SMTP vai HTTP) pieejamÄ«bu un reakciju, palaist ÄrÄjÄs programmas un atbalstÄ«t uzraudzÄ«bu, izmantojot SNMP.
PÄc Zabbix izvietoÅ”anas mÄs konfigurÄjÄm standarta aparatÅ«ras metriku, un sÄkumÄ ar to pietika. Bet VTB SDO pastÄvÄ«gi attÄ«stÄs un aug: 2016. gadÄ manÄmi palielinÄjÄs serveru skaits, parÄdÄ«jÄs migrÄcijas procesi, sistÄmai pievienojÄs Maskavas Banka, VTB Capital un VTB24. Vairs nav pietiekami daudz standarta metrikas, un mÄs iemÄcÄ«jÄm Zabbix izsekot informÄcijai par rindu esamÄ«bu katrÄ no sÄjumiem, kas savienoti ar serveri (no kastes Zabbix atspoguļo tikai vispÄrÄjo diska rindu), kÄ arÄ« laiku, kas nepiecieÅ”ams. lai pabeigtu noteiktu procedÅ«ru.
TurklÄt mÄs aprÄ«kojÄm sistÄmu ar vairÄkiem trigeriem - nosacÄ«jumiem, saskaÅÄ ar kuriem administratoram tiek nosÅ«tÄ«ts paziÅojums (ziÅa Telegram, SMS uz tÄlruÅa numuru vai e-pasts). Trigerus var konfigurÄt jebkurai parametru kopai. PiemÄram, varat norÄdÄ«t noteiktu brÄ«vas diska vietas procentuÄlo daļu, un sistÄma brÄ«dinÄs administratoru, kad tiks sasniegts norÄdÄ«tais slieksnis, vai informÄs jÅ«s, ja fona procedÅ«ra darbojas ilgÄk nekÄ parasti.
Java savienojamÄ«ba un datu vizualizÄcija
MÄs bÅ«tiski paplaÅ”inÄjÄm analizÄjamo datu klÄstu, taÄu drÄ«z vien ar to nepietika efektÄ«vai uzraudzÄ«bai. Izmantojot to, ka CompanyMedia LMS ir Java lietojumprogramma, mÄs izveidojÄm savienojumu ar Java virtuÄlo maŔīnu, izmantojot JMX interfeisu, un varÄjÄm tieÅ”i Åemt Java metriku. Un ne tikai Java vitÄlÄs aktivitÄtes standarta parametri, piemÄram, GC darba intensitÄte vai kaudzes patÄriÅÅ”, bet arÄ« specifiski testi, kas tieÅ”i saistÄ«ti ar izpildÄmÄs lietojumprogrammas kodu.
2017. gadÄ, aptuveni gadu pÄc monitoringa sistÄmas ievieÅ”anas, kļuva skaidrs, ka, lai normÄli strÄdÄtu ar kolosÄlo Zabbix savÄkto datu apjomu, pietrÅ«ka vizualizÄcijas - sarežģītu ekrÄnu. LabÄkais Ŕīs problÄmas risinÄjums atkal bija bezmaksas programmatÅ«ra - Grafana, Ärts metrikas informÄcijas panelis, kas ļauj apkopot visus datus vienÄ ekrÄnÄ.
Grafana interfeiss ir interaktÄ«vs, atgÄdinot OLAP sistÄmu. ApakÅ”sistÄma parÄda Zabbix saÅemtos datus vienÄ ekrÄnÄ, sniedzot informÄciju viegli analizÄjamu grafiku un diagrammu veidÄ. Administrators var viegli pielÄgot sev vajadzÄ«gÄs ŔķÄles.
UzraudzÄ«ba un profilaktiska kļūdu novÄrÅ”ana LMS sistÄmÄ
ELK atvÄrtÄ pirmkoda programmatÅ«ras platforma palÄ«dz filtrÄt un analizÄt monitoringa laikÄ saÅemto informÄciju. Å is atvÄrtÄ pirmkoda produkts sastÄv no trim spÄcÄ«giem rÄ«kiem datu vÄkÅ”anai, glabÄÅ”anai un analÄ«zei: Elasticsearch, Logstash un Kibana. Å Ä«s apakÅ”sistÄmas ievieÅ”ana ļauj Ä«paÅ”i reÄllaikÄ redzÄt, cik daudz kļūdu sistÄmÄ ir raduÅ”Äs, uz kuriem serveriem un vai Ŕīs kļūdas atkÄrtojas.
Tagad administrators var atklÄt problÄmu agrÄ«nÄ stadijÄ, pat pirms lietotÄjs ar to saskaras. Å Äda proaktÄ«vÄ uzraudzÄ«ba ļauj novÄrst sistÄmas darbÄ«bas traucÄjumus, savlaicÄ«gi novÄrÅ”ot kļūdas. TurklÄt mÄs varam saprast, kÄ ir mainÄ«jusies sistÄmas darbÄ«ba pÄc atjauninÄÅ”anas, kÄ arÄ« atklÄt jaunas problÄmas, ja tÄs parÄdÄs.
UzÅÄmÄjdarbÄ«bas operÄciju uzraudzÄ«ba
Papildus galvenajÄm resursu patÄriÅa uzraudzÄ«bas funkcijÄm sistÄmai ir iespÄja analizÄt un kontrolÄt biznesa operÄcijas.
KopÄjÄ biznesa operÄciju izpildes laika uzraudzÄ«ba ļauj identificÄt jaunus faktorus un izprast to ietekmi uz sistÄmas darbÄ«bu.
PieprasÄ«jumu izpildes laika uzraudzÄ«ba katram biznesa pakalpojumam ļauj atklÄt darbÄ«bas, kas atŔķiras no normas.
IepriekÅ” redzamais ekrÄnuzÅÄmums ir piemÄrs fona uzdevuma pÄrraudzÄ«bai, Åemot vÄrÄ tÄ novirzi no normas.
KontrolÄto uzdevumu saraksts, Åemot vÄrÄ to darbÄ«bu noteiktÄ serverÄ«, ļauj identificÄt kļūdas, tostarp uzdevumu izpildes dublÄÅ”anos, visos serveros.
Tiek uzraudzītas arī fona procedūru izpildes laika tendences.
SistÄma aug, attÄ«stÄs un palÄ«dz tikt galÄ ar problÄmÄm
IevieÅ”ot aprakstÄ«to sistÄmu, LMS serveru darbÄ«bas uzraudzÄ«ba ir ievÄrojami vienkÄrÅ”ota. TomÄr ik pa laikam rodas dažÄda veida konflikti, kas ietekmÄ dokumentu aprites Ätrumu un izraisa lietotÄju sÅ«dzÄ«bas. TÄtad mÄs sapratÄm, ka ir jÄkontrolÄ paÅ”as lietojumprogrammas darbÄ«ba, nevis tikai serveri.
Lai atrisinÄtu Å”o problÄmu, uzraudzÄ«bas sistÄmai caur API tika pieslÄgts balansÄtÄjs, kas darbojas ar lietojumprogrammu serveru kopu. Pateicoties tam, administrators var redzÄt, cik ilgÄ laikÄ serveris atbild uz katru lietotÄja pieprasÄ«jumu.
Dati par servera atbildes laikiem kļuva pieejami analÄ«zei, kas ļÄva saistÄ«t LMS palÄninÄÅ”anos ar serverÄ« notiekoÅ”ajiem procesiem. Jo Ä«paÅ”i radÄs interesanta situÄcija: serveris darbojas lÄni, lai gan Å”obrÄ«d tas nav ielÄdÄts. AnalizÄjot anomÄliju, mÄs atklÄjÄm novirzes atkritumu savÄcÄja Java darbÄ«bÄ. BeigÄs izrÄdÄ«jÄs, ka tieÅ”i nepareiza Ŕī dienesta darbÄ«ba noveda pie Å”Ädas situÄcijas. PÄrÅemot vadÄ«bu pÄr Garbage Collector Java, mÄs pilnÄ«bÄ novÄrsÄm problÄmu.
TÄdÄ veidÄ bezmaksas programmatÅ«ra palÄ«dz banku nozares dokumentu pÄrvaldÄ«bas sistÄmai attÄ«stÄ«ties un augt. Esam pieskÄruÅ”ies tikai galvenajÄm problÄmÄm saistÄ«bÄ ar VTB SDO uzraudzÄ«bas sistÄmu. Ja interesÄ sÄ«kÄk, jautÄjiet komentÄros, mÄs ar prieku padalÄ«simies ar jums savÄ pieredzÄ.
Avots: www.habr.com