Open-Source-Software für LMS: Wie kostenlose Software bei der Verwaltung kritischer Geschäftssysteme bei VTB hilft

Das Dokumentationsunterstützungssystem unserer Bank entwickelt und skaliert ständig und die Anforderungen an Geschwindigkeit und Fehlertoleranz steigen immer weiter. Irgendwann wurde die Aufrechterhaltung eines LMS ohne effektive zentrale Überwachung zu riskant. Um Geschäftsprozesse bei VTB zu sichern und die Arbeit von Administratoren zu vereinfachen, haben wir eine Lösung implementiert, die auf einem Stapel offener Technologien basiert. Mit seiner Hilfe können wir proaktiv auf Vorfälle reagieren und potenzielle Probleme verhindern. Unterhalb des Ausschnitts finden Sie eine Geschichte über unsere Erfahrungen mit der Verwendung freier Software zur Überwachung großer Geschäftssysteme.

Open-Source-Software für LMS: Wie kostenlose Software bei der Verwaltung kritischer Geschäftssysteme bei VTB hilft

Warum Ihr Dokumentenmanagementsystem überwachen?

Seit 2005 wird die Dokumentationsunterstützung bei der VTB Bank durch das CompanyMedia-System „verwaltet“. Das LMS beschäftigt über 60 Benutzer, die jeden Monat mehr als eine Million neue Dokumente erstellen. Unsere Server müssen 24 Stunden am Tag funktionieren: Fast jederzeit sind 2500–3000 Menschen im System, die im ganzen Land, von Petropawlowsk-Kamtschatski bis Kaliningrad, verbunden sind. Jede Sekunde LMS-Betrieb bedeutet 10–15 Änderungen.

Um sicherzustellen, dass das System seine zugewiesenen Aufgaben genau erfüllt, haben wir eine fehlertolerante Infrastruktur mit Proxyservern, Anforderungsausgleich, Informationsschutz, Volltextsuche, Integrationsrouten und Backup bereitgestellt. Die Unterstützung und Verwaltung eines Projekts dieser Größenordnung erfordert enorme Ressourcen. Administratoren überwachen rund um die Uhr grundlegende Informationen zum Serverbetrieb, zur RAM-Auslastung, zur CPU-Zeit, zum E/A-Subsystem usw. Darüber hinaus sind jedoch subtilere Analysen erforderlich:

  • Berechnen der Zeit, die für die Ausführung von Geschäftsszenarien aufgewendet wird;
  • Überwachung der Dynamik der Systemleistung und deren Belastung;
  • Suche nach Abweichungen von Systemkomponenten von den genehmigten nichtfunktionalen Anforderungen.

11 Jahre nach der Einführung des LMS ist die Frage der proaktiven Reaktion auf verschiedene Arten von Fehlern besonders akut geworden. Das Management der Bank erkannte, dass der Verzicht auf Monitore und eine Systemlebenskonsole ein Spiel mit dem Feuer war: Der kleinste Fehler in einem Geschäftssystem dieser Größenordnung könnte zu Verlusten in Millionenhöhe führen.

Im Jahr 2016 haben wir mit der Einführung von Tools zur schnellen Identifizierung von Problemen bei der Funktionsweise des LMS begonnen, einschließlich der Überwachung von für uns interessanten Parametern in Echtzeit. Zuvor wurde das eingesetzte Überwachungssystem im Rahmen der InterTrust-Unternehmensinfrastruktur eingesetzt und getestet.

Wie alles begann

Heute trägt das zentralisierte Anwendungsüberwachungssystem von VTB LMS, das auf Open-Source-Softwareprodukten basiert, dazu bei, die meisten Fehler im Zusammenhang mit dem Dokumentenfluss zu verhindern, Probleme schnell und genau zu klassifizieren und umgehend auf Vorfälle zu reagieren. Es umfasst zwei Subsysteme:

  • zur Überwachung der IT-Infrastruktur von Systemdiensten;
  • um das Auftreten von Fehlern im Betrieb des LMS zu überwachen.

Alles begann mit einer einzigen kostenlosen Überwachungs-App. Nachdem wir mehrere Optionen durchgespielt hatten, entschieden wir uns für Zabbix – eine kostenlose Software, die ursprünglich für Bankdienstleistungen und -ausrüstung geschrieben wurde. Dieses webbasierte PHP-System, das Daten in MySQL, PostgreSQL, SQLite oder Oracle Database speichern kann, passte perfekt zu unseren Anforderungen.

Zabbix führt seine Agenten auf jedem Server aus und sammelt Informationen zu interessierenden Metriken in Echtzeit in einer einzigen Datenbank. Mit der Anwendung ist es bequem, Daten über die Auslastung von Prozessoren und RAM, über die Nutzung des Netzwerks und anderer Komponenten zu sammeln, die Verfügbarkeit und Reaktion von Standarddiensten (SMTP oder HTTP) zu überprüfen, externe Programme auszuführen und die Überwachung über zu unterstützen SNMP.

Nachdem wir Zabbix bereitgestellt hatten, konfigurierten wir Standard-Hardwaremetriken, und zunächst reichte das aus. Aber VTB SDO entwickelt sich ständig weiter und wächst: Im Jahr 2016 stieg die Anzahl der Server deutlich an, Migrationsprozesse traten auf, die Bank of Moscow, VTB Capital und VTB24 traten dem System bei. Es gibt nicht mehr genügend Standardmetriken, und wir haben Zabbix beigebracht, Informationen über das Vorhandensein von Warteschlangen auf jedem der mit dem Server verbundenen Volumes (out of the box spiegelt Zabbix nur die allgemeine Festplattenwarteschlange wider) sowie die dafür benötigte Zeit zu verfolgen um einen bestimmten Vorgang abzuschließen.

Open-Source-Software für LMS: Wie kostenlose Software bei der Verwaltung kritischer Geschäftssysteme bei VTB hilft

Darüber hinaus haben wir das System mit mehreren Auslösern ausgestattet – Bedingungen, unter denen eine Benachrichtigung an den Administrator gesendet wird (eine Nachricht in Telegram, eine SMS an eine Telefonnummer oder eine E-Mail). Trigger können für jeden Parametersatz konfiguriert werden. Sie können beispielsweise einen bestimmten Prozentsatz des freien Speicherplatzes angeben und das System benachrichtigt den Administrator, wenn der angegebene Schwellenwert erreicht ist, oder informiert Sie, wenn ein Hintergrundvorgang länger als gewöhnlich ausgeführt wird.

Java-Konnektivität und Datenvisualisierung

Wir haben den Umfang der analysierten Daten erheblich erweitert, doch für eine effektive Überwachung reichte dies bald nicht mehr aus. Wir machten uns die Tatsache zunutze, dass das LMS von CompanyMedia eine Java-Anwendung ist, indem wir über die JMX-Schnittstelle eine Verbindung zur Java Virtual Machine herstellten und Java-Metriken direkt erfassen konnten. Und nicht nur Standardparameter der Java-Lebensaktivität, wie z. B. GC-Arbeitsintensität oder Heap-Verbrauch, sondern auch spezifische Tests, die sich direkt auf den ausführbaren Anwendungscode beziehen.

Open-Source-Software für LMS: Wie kostenlose Software bei der Verwaltung kritischer Geschäftssysteme bei VTB hilft

Im Jahr 2017, etwa ein Jahr nach der Implementierung des Überwachungssystems, wurde klar, dass es für die normale Arbeit mit der enormen Datenmenge, die in Zabbix gesammelt wurde, nicht genügend Visualisierung – komplexe Bildschirme – gab. Die beste Lösung für dieses Problem war wiederum kostenlose Software – Grafana, ein praktisches Dashboard für Metriken, mit dem Sie alle Daten auf einem Bildschirm zusammenfassen können.

Open-Source-Software für LMS: Wie kostenlose Software bei der Verwaltung kritischer Geschäftssysteme bei VTB hilft

Die Grafana-Schnittstelle ist interaktiv und erinnert an ein OLAP-System. Das Subsystem zeigt die von Zabbix empfangenen Daten auf einem einzigen Bildschirm an und präsentiert die Informationen in Form von Grafiken und Diagrammen, die leicht zu analysieren sind. Der Administrator kann die Slices, die er benötigt, ganz einfach anpassen.

Open-Source-Software für LMS: Wie kostenlose Software bei der Verwaltung kritischer Geschäftssysteme bei VTB hilft

Überwachung und präventive Behebung von Fehlern im LMS-System

Die Open-Source-Softwareplattform ELK hilft Ihnen, die während der Überwachung erhaltenen Informationen zu filtern und zu analysieren. Dieses Open-Source-Produkt besteht aus drei leistungsstarken Tools zum Sammeln, Speichern und Analysieren von Daten: Elasticsearch, Logstash und Kibana. Die Implementierung dieses Subsystems ermöglicht es insbesondere, in Echtzeit zu sehen, wie viele Fehler im System aufgetreten sind, auf welchen Servern und ob sich diese Fehler wiederholen.

Open-Source-Software für LMS: Wie kostenlose Software bei der Verwaltung kritischer Geschäftssysteme bei VTB hilft

Jetzt kann der Administrator ein Problem frühzeitig erkennen, noch bevor der Benutzer darauf stößt. Durch eine solche proaktive Überwachung können Sie Systemstörungen vorbeugen, indem Sie Fehler rechtzeitig beheben. Darüber hinaus können wir verstehen, wie sich das Systemverhalten nach dem Update verändert hat, und neue Probleme erkennen, wenn sie auftreten.

Open-Source-Software für LMS: Wie kostenlose Software bei der Verwaltung kritischer Geschäftssysteme bei VTB hilft

Überwachung des Geschäftsbetriebs

Zusätzlich zu den Grundfunktionen der Überwachung des Ressourcenverbrauchs verfügt das System über die Möglichkeit, Geschäftsabläufe zu analysieren und zu steuern.

Open-Source-Software für LMS: Wie kostenlose Software bei der Verwaltung kritischer Geschäftssysteme bei VTB hilft

Durch die Überwachung der gesamten Ausführungszeit von Geschäftsabläufen können Sie neue Faktoren identifizieren und deren Auswirkungen auf den Betrieb des Systems verstehen.

Open-Source-Software für LMS: Wie kostenlose Software bei der Verwaltung kritischer Geschäftssysteme bei VTB hilft

Die Überwachung der Ausführungszeit von Anfragen für jeden Geschäftsdienst ermöglicht es, von der Norm abweichende Vorgänge zu erkennen.

Open-Source-Software für LMS: Wie kostenlose Software bei der Verwaltung kritischer Geschäftssysteme bei VTB hilft

Der Screenshot oben ist ein Beispiel für die Überwachung einer Hintergrundaufgabe hinsichtlich ihrer Abweichung von der Norm.

Open-Source-Software für LMS: Wie kostenlose Software bei der Verwaltung kritischer Geschäftssysteme bei VTB hilft

Die Liste der kontrollierten Aufgaben im Hinblick auf ihre Aktivität auf einem bestimmten Server ermöglicht es Ihnen, Fehler – einschließlich der Duplizierung der Aufgabenausführung – auf allen Servern zu identifizieren.

Open-Source-Software für LMS: Wie kostenlose Software bei der Verwaltung kritischer Geschäftssysteme bei VTB hilft

Trends in der Ausführungszeit von Hintergrundprozeduren werden ebenfalls überwacht.

Das System wächst, entwickelt sich und hilft bei der Bewältigung von Problemen

Mit der Implementierung des beschriebenen Systems wurde die Überwachung des Betriebs von LMS-Servern erheblich vereinfacht. Dennoch kommt es von Zeit zu Zeit zu Konflikten verschiedener Art, die die Geschwindigkeit des Dokumentenflusses beeinträchtigen und zu Beschwerden der Benutzer führen. Wir erkannten also, dass es notwendig war, das Verhalten der Anwendung selbst und nicht nur der Server zu kontrollieren.

Um dieses Problem zu lösen, wurde ein Balancer per API an das Überwachungssystem angebunden, der mit einem Cluster von Anwendungsservern zusammenarbeitet. Dadurch kann der Administrator sehen, wie lange es dauert, bis der Server auf jede Benutzeranfrage antwortet.

Für die Analyse standen Daten zu Server-Reaktionszeiten zur Verfügung, die es ermöglichten, die Verlangsamung des LMS mit den auf dem Server ablaufenden Prozessen in Verbindung zu bringen. Insbesondere ergab sich eine interessante Situation: Der Server läuft langsam, obwohl er in diesem Moment nicht ausgelastet ist. Bei der Analyse der Anomalie haben wir Abweichungen im Betrieb von Garbage Collector Java entdeckt. Letztendlich stellte sich heraus, dass die fehlerhafte Bedienung dieses Dienstes zu dieser Situation geführt hatte. Durch die Übernahme der Kontrolle über Garbage Collector Java konnten wir das Problem vollständig beseitigen.

Auf diese Weise trägt kostenlose Software dazu bei, dass sich das Dokumentenmanagementsystem im Bankensektor weiterentwickelt und erweitert. Wir haben nur die Hauptthemen im Zusammenhang mit dem VTB SDO-Überwachungssystem angesprochen. Wenn Sie an Details interessiert sind, fragen Sie in den Kommentaren nach, wir teilen unsere Erfahrungen gerne mit Ihnen.

Source: habr.com

Kommentar hinzufügen