Open source-software til LMS: hvordan gratis soft hjælper med at administrere kritiske forretningssystemer hos VTB

Dokumentationsstøttesystemet i vores bank udvikles og skaleres konstant, og kravene til hastighed og fejltolerance er kun stigende. På et tidspunkt blev det for risikabelt at vedligeholde et LMS uden effektiv centraliseret overvågning. For at sikre forretningsprocesser hos VTB og forenkle arbejdet for administratorer implementerede vi en løsning baseret på en stak åbne teknologier. Med dens hjælp kan vi reagere proaktivt på hændelser og forhindre potentielle problemer. Under snittet er en historie om vores erfaring med at bruge gratis software til at overvåge store forretningssystemer.

Open source-software til LMS: hvordan gratis soft hjælper med at administrere kritiske forretningssystemer hos VTB

Hvorfor overvåge dit dokumenthåndteringssystem?

Siden 2005 er dokumentationssupport hos VTB Bank blevet "administreret" af CompanyMedia-systemet. LMS beskæftiger over 60 tusinde brugere, som opretter mere end en million nye dokumenter hver måned. Vores servere skal fungere 24 timer i døgnet: På næsten ethvert tidspunkt er der 2500-3000 mennesker i systemet, som er forbundet i hele landet, fra Petropavlovsk-Kamchatsky til Kaliningrad. Hvert sekund af LMS-drift betyder 10-15 ændringer.

For at sikre, at systemet nøjagtigt opfylder de tildelte opgaver, har vi implementeret en fejltolerant infrastruktur ved hjælp af proxyservere, anmodningsbalancering, informationsbeskyttelse, fuldtekstsøgning, integrationsruter og backup. At støtte og administrere et projekt af denne skala kræver enorme ressourcer. Administratorer overvåger grundlæggende oplysninger om serverdrift, RAM-belastning, CPU-tid, I/O-undersystem og så videre døgnet rundt. Men udover dette er der brug for mere subtile analyser:

  • beregning af den tid brugt på at udføre forretningsscenarier;
  • overvågning af dynamikken i systemets ydeevne og belastningen på det;
  • søge efter afvigelser i systemkomponenter fra de godkendte ikke-funktionelle krav.

11 år efter indførelsen af ​​LMS er spørgsmålet om proaktiv reaktion på forskellige typer fejl blevet særligt akut. Bankens ledelse indså, at det at arbejde uden skærme og en systemlivskonsol legede med ilden: Den mindste fejl i et forretningssystem på dette niveau kunne resultere i millioner i tab.

I 2016 begyndte vi at introducere værktøjer til hurtigt at identificere problemer i funktionen af ​​LMS, herunder overvågning af parametre af interesse for os i realtid. Tidligere blev det anvendte overvågningssystem implementeret og testet inden for rammerne af InterTrust-virksomhedens infrastruktur.

Hvordan det hele begyndte

I dag hjælper VTB LMS' centraliserede applikationsovervågningssystem, baseret på open source-softwareprodukter, med at forhindre de fleste fejl i forbindelse med dokumentflow, hurtigt og præcist klassificere problemer og reagere hurtigt på eventuelle hændelser. Det omfatter to undersystemer:

  • til overvågning af IT-infrastrukturen af ​​systemtjenester;
  • at overvåge forekomsten af ​​fejl i driften af ​​LMS.

Det hele startede med en enkelt gratis overvågningsapp. Efter at have gennemgået flere muligheder, besluttede vi os for Zabbix - gratis software, der oprindeligt blev skrevet til banktjenester og udstyr. Dette PHP webbaserede system, som kan gemme data i MySQL, PostgreSQL, SQLite eller Oracle Database, passede perfekt til vores behov.

Zabbix kører sine agenter på hver server og indsamler information om metrics af interesse i realtid i en enkelt database. Ved at bruge applikationen er det praktisk at indsamle data om belastningen på processorer og RAM, om brugen af ​​netværket og andre komponenter, kontrollere tilgængeligheden og responsen af ​​standardtjenester (SMTP eller HTTP), køre eksterne programmer og understøtte overvågning via SNMP.

Efter at have installeret Zabbix, konfigurerede vi standard hardware-metrics, og i starten var dette nok. Men VTB SDO udvikler sig og vokser konstant: I 2016 steg antallet af servere mærkbart, migreringsprocesser dukkede op, Bank of Moscow, VTB Capital og VTB24 sluttede sig til systemet. Der er ikke længere nok standardmålinger, og vi lærte Zabbix at spore information om tilstedeværelsen af ​​køer på hver af de diskenheder, der er tilsluttet serveren (ud af boksen Zabbix afspejler kun den generelle diskkø), såvel som den tid, det tager at gennemføre en bestemt procedure.

Open source-software til LMS: hvordan gratis soft hjælper med at administrere kritiske forretningssystemer hos VTB

Derudover udstyrede vi systemet med flere triggere - betingelser, hvorunder en meddelelse sendes til administratoren (en besked i Telegram, en SMS til et telefonnummer eller en e-mail). Triggere kan konfigureres for ethvert sæt parametre. For eksempel kan du angive en vis procentdel af ledig diskplads, og systemet vil advare administratoren, når den angivne tærskel er nået, eller informere dig, hvis en baggrundsprocedure kører længere end normalt.

Java-forbindelse og datavisualisering

Vi udvidede rækken af ​​analyserede data betydeligt, men snart var dette ikke nok til effektiv overvågning. Ved at udnytte det faktum, at CompanyMedias LMS er en Java-applikation, koblede vi til Java Virtual Machine via JMX-grænsefladen og var i stand til at tage Java-metrics direkte. Og ikke kun standardparametre for Java vital aktivitet, såsom GC-arbejdsintensitet eller Heap-forbrug, men også specifikke tests relateret direkte til den eksekverbare applikationskode.

Open source-software til LMS: hvordan gratis soft hjælper med at administrere kritiske forretningssystemer hos VTB

I 2017, cirka et år efter implementeringen af ​​overvågningssystemet, blev det klart, at for at kunne arbejde normalt med den kolossale mængde data indsamlet i Zabbix, var der ikke nok visualisering - komplekse skærme. Den bedste løsning på dette problem var igen gratis software - Grafana, et praktisk dashboard til metrikker, der giver dig mulighed for at samle alle data på én skærm.

Open source-software til LMS: hvordan gratis soft hjælper med at administrere kritiske forretningssystemer hos VTB

Grafana-grænsefladen er interaktiv og minder om et OLAP-system. Undersystemet viser data modtaget af Zabbix på en enkelt skærm og præsenterer informationen i form af grafer og diagrammer, der er nemme at analysere. Administratoren kan nemt tilpasse de skiver, han har brug for.

Open source-software til LMS: hvordan gratis soft hjælper med at administrere kritiske forretningssystemer hos VTB

Overvågning og forebyggende eliminering af fejl i LMS-systemet

ELK open source-softwareplatformen hjælper dig med at filtrere og analysere de oplysninger, der modtages under overvågning. Dette opensource-produkt består af tre kraftfulde værktøjer til indsamling, lagring og analyse af data: Elasticsearch, Logstash og Kibana. Implementeringen af ​​dette delsystem gør det især muligt i realtid at se, hvor mange fejl der opstod i systemet, på hvilke servere og om disse fejl gentages.

Open source-software til LMS: hvordan gratis soft hjælper med at administrere kritiske forretningssystemer hos VTB

Nu kan administratoren opdage et problem på et tidligt tidspunkt, selv før brugeren støder på det. Sådan proaktiv overvågning giver dig mulighed for at forhindre systemfejl ved at eliminere fejl rettidigt. Derudover kan vi forstå, hvordan systemets adfærd har ændret sig efter opdateringen, samt opdage nye problemer, hvis de dukker op.

Open source-software til LMS: hvordan gratis soft hjælper med at administrere kritiske forretningssystemer hos VTB

Overvågning af forretningsdrift

Ud over de grundlæggende funktioner til overvågning af ressourceforbrug, har systemet mulighed for at analysere og kontrollere forretningsdrift.

Open source-software til LMS: hvordan gratis soft hjælper med at administrere kritiske forretningssystemer hos VTB

Overvågning af den overordnede eksekveringstid for forretningsdrift giver dig mulighed for at identificere nye faktorer og forstå den indflydelse, de har på driften af ​​systemet.

Open source-software til LMS: hvordan gratis soft hjælper med at administrere kritiske forretningssystemer hos VTB

Overvågning af eksekveringstiden for anmodninger for hver virksomhedsservice gør det muligt at opdage operationer, der afviger fra normen.

Open source-software til LMS: hvordan gratis soft hjælper med at administrere kritiske forretningssystemer hos VTB

Skærmbilledet ovenfor er et eksempel på overvågning af en baggrundsopgave med hensyn til dens afvigelse fra normen.

Open source-software til LMS: hvordan gratis soft hjælper med at administrere kritiske forretningssystemer hos VTB

Listen over kontrollerede opgaver med hensyn til deres aktivitet på en specifik server giver dig mulighed for at identificere fejl - herunder duplikering af opgaveudførelse - på tværs af alle servere.

Open source-software til LMS: hvordan gratis soft hjælper med at administrere kritiske forretningssystemer hos VTB

Tendenser i udførelsestiden for baggrundsprocedurer overvåges også.

Systemet vokser, udvikler sig og hjælper med at håndtere problemer

Med implementeringen af ​​det beskrevne system er overvågningen af ​​driften af ​​LMS-servere blevet væsentligt forenklet. Ikke desto mindre opstår der fra tid til anden forskellige slags konflikter, som påvirker dokumentflowets hastighed og forårsager brugerklager. Så vi indså, at det var nødvendigt at kontrollere opførselen af ​​selve applikationen, og ikke kun serverne.

For at løse dette problem blev en balancer tilsluttet overvågningssystemet via API, som arbejder med en klynge af applikationsservere. Takket være dette kan administratoren se, hvor lang tid det tager serveren at svare på hver brugeranmodning.

Data om serversvartider blev tilgængelige til analyse, hvilket gjorde det muligt at koble nedbremsningen af ​​LMS'et med de processer, der foregår på serveren. Især opstod en interessant situation: serveren kører langsomt, selvom den i øjeblikket ikke er indlæst. Ved at analysere anomalien opdagede vi afvigelser i driften af ​​Garbage Collector Java. Til sidst viste det sig, at det var den forkerte drift af denne tjeneste, der førte til denne situation. Ved at tage kontrol over Garbage Collector Java eliminerede vi fuldstændigt problemet.

Sådan hjælper gratis software dokumenthåndteringssystemet i bankbranchen med at udvikle sig og vokse. Vi har kun berørt de vigtigste problemer relateret til VTB SDO-overvågningssystemet. Hvis du er interesseret i detaljer, spørg i kommentarerne, vi vil med glæde dele vores erfaring med dig.

Kilde: www.habr.com

Tilføj en kommentar