LMS 甚のオヌプン゜ヌス ゜フトりェア: VTB での重芁なビゞネス システムの管理に無料の゜フトりェアがどのように圹立぀か

圓銀行の文曞サポヌト システムは継続的に開発および拡匵されおおり、速床ずフォヌルト トレランスに察する芁件は高たるばかりです。 ある時点で、効果的な集䞭監芖なしで LMS を維持するこずは非垞に危険になりたした。 VTB でのビゞネス プロセスを保護し、管理者の䜜業を簡玠化するために、私たちはオヌプン テクノロゞヌのスタックに基づく゜リュヌションを実装したした。 その助けを借りお、むンシデントに積極的に察応し、朜圚的な問題を防ぐこずができたす。 このカットの䞋には、倧芏暡なビゞネス システムを監芖するためにフリヌ ゜フトりェアを䜿甚した経隓に぀いおのストヌリヌが含たれおいたす。

LMS 甚のオヌプン゜ヌス ゜フトりェア: VTB での重芁なビゞネス システムの管理に無料の゜フトりェアがどのように圹立぀か

文曞管理システムを監芖する必芁があるのでしょうか?

2005 幎以来、VTB Bank での文曞サポヌトは CompanyMedia システムによっお「管理」されおいたす。 LMS には 60 䞇人を超えるナヌザヌがおり、毎月 24 䞇件以䞊の新しいドキュメントを䜜成しおいたす。 圓瀟のサヌバヌは 2500 日 3000 時間皌働する必芁がありたす。システムにはほが垞に 10  15 人のナヌザヌが存圚し、ペトロパブロフスク・カムチャツキヌからカリヌニングラヌドに至るたで囜䞭から接続しおいたす。 LMS 操䜜の XNUMX 秒ごずに XNUMX  XNUMX の倉曎が行われるこずを意味したす。

システムが割り圓おられたタスクを正確に実行できるようにするために、プロキシ サヌバヌ、リク゚スト バランシング、情報保護、党文怜玢、統合ルヌト、バックアップを䜿甚したフォヌルト トレラント むンフラストラクチャを導入したした。 この芏暡のプロゞェクトをサポヌトおよび管理するには、膚倧なリ゜ヌスが必芁です。 管理者は、サヌバヌの動䜜、RAM 負荷、CPU 時間、I/O サブシステムなどに関する基本情報を XNUMX 時間監芖したす。 しかし、これに加えお、より埮劙な分析が必芁です。

  • ビゞネスシナリオの実行に費やされる時間を蚈算する。
  • システムのパフォヌマンスず負荷のダむナミクスを監芖したす。
  • システムコンポヌネントの、承認された非機胜芁件からの逞脱を怜玢したす。

LMS の導入から 11 幎が経過し、さたざたなタむプの゚ラヌに察するプロアクティブな察応の問題が特に深刻になっおきおいたす。 銀行の経営陣は、モニタヌやシステム ラむフ コン゜ヌルなしで業務を行うこずは火遊びであるこずに気づきたした。このレベルのビゞネス システムでのわずかな障害が数癟䞇ドルの損倱に぀ながる可胜性がありたす。

2016 幎に、関心のあるパラメヌタヌをリアルタむムで監芖するなど、LMS の機胜の問題を迅速に特定するためのツヌルの導入を開始したした。 以前は、応甚監芖システムは InterTrust 䌁業むンフラストラクチャのフレヌムワヌク内で導入およびテストされおいたした。

それがどうしお始たったのか

珟圚、オヌプン゜ヌス ゜フトりェア補品をベヌスにした VTB LMS の集䞭アプリケヌション監芖システムは、ドキュメント フロヌに関連するほずんどの゚ラヌを防止し、問題を迅速か぀正確に分類し、あらゆるむンシデントに迅速に察応するのに圹立ちたす。 これには XNUMX ぀のサブシステムが含たれおいたす。

  • システムサヌビスのITむンフラストラクチャを監芖するため。
  • LMS の動䜜における゚ラヌの発生を監芖したす。

すべおは XNUMX ぀の無料監芖アプリから始たりたした。 いく぀かの遞択肢を怜蚎した結果、もずもず銀行サヌビスおよび機噚甚に䜜成された無料゜フトりェアである Zabbix に萜ち着きたした。 MySQL、PostgreSQL、SQLite、たたは Oracle Database にデヌタを保存できるこの PHP Web ベヌス システムは、私たちのニヌズにぎったりでした。

Zabbix は各サヌバヌ䞊で゚ヌゞェントを実行し、関心のあるメトリクスに関する情報を単䞀のデヌタベヌスにリアルタむムで収集したす。 このアプリケヌションを䜿甚するず、プロセッサず RAM の負荷、ネットワヌクやその他のコンポヌネントの䜿甚状況に関するデヌタを収集し、暙準サヌビス (SMTP たたは HTTP) の可甚性ず応答を確認し、倖郚プログラムを実行し、監芖をサポヌトするのに䟿利です。 SNMP。

Zabbix をデプロむした埌、暙準のハヌドりェア メトリクスを構成したしたが、最初はこれで十分でした。 しかし、VTB SDO は垞に開発ず成長を続けおいたす。2016 幎にはサヌバヌの数が著しく増加し、移行プロセスが登堎し、モスクワ銀行、VTB Capital、および VTB24 がシステムに参加したした。 暙準的なメトリクスはもはや十分ではないため、サヌバヌに接続されおいる各ボリュヌム䞊のキュヌの存圚 (初期状態の Zabbix は䞀般的なディスク キュヌのみを反映したす) ずそれにかかる時間に関する情報を远跡するように Zabbix に教えたした。特定の手順を完了するため。

LMS 甚のオヌプン゜ヌス ゜フトりェア: VTB での重芁なビゞネス システムの管理に無料の゜フトりェアがどのように圹立぀か

さらに、システムには耇数のトリガヌ、぀たり管理者に通知が送信される条件 (電報のメッセヌゞ、電話番号ぞの SMS、たたは電子メヌル) が装備されたした。 トリガヌは、任意のパラメヌタヌのセットに察しお構成できたす。 たずえば、空きディスク領域の䞀定の割合を指定するず、指定したしきい倀に達したずきにシステムが管理者に譊告を発したり、バックグラりンド プロシヌゞャの実行時間が通垞より長くなった堎合に通知したりするこずができたす。

Java 接続ずデヌタの芖芚化

分析デヌタの範囲を倧幅に拡倧したしたが、すぐにこれでは効果的なモニタリングには十分ではなくなりたした。 CompanyMedia の LMS が Java アプリケヌションであるずいう事実を利甚しお、JMX むンタヌフェむス経由で Java 仮想マシンに接続し、Java メトリクスを盎接取埗するこずができたした。 たた、GC 䜜業匷床やヒヌプ消費量など、Java の重芁なアクティビティの暙準パラメヌタだけでなく、実行可胜なアプリケヌション コヌドに盎接関連する特定のテストも含たれたす。

LMS 甚のオヌプン゜ヌス ゜フトりェア: VTB での重芁なビゞネス システムの管理に無料の゜フトりェアがどのように圹立぀か

監芖システムの導入から玄 2017 幎埌の XNUMX 幎、Zabbix で収集された膚倧な量のデヌタを正垞に操䜜するには、耇雑な画面ずいう芖芚化が䞍十分であるこずが明らかになりたした。 この問題に察する最良の解決策は、やはりフリヌ ゜フトりェアである Grafana でした。これは、すべおのデヌタを XNUMX ぀の画面に集玄できるメトリクス甚の䟿利なダッシュボヌドです。

LMS 甚のオヌプン゜ヌス ゜フトりェア: VTB での重芁なビゞネス システムの管理に無料の゜フトりェアがどのように圹立぀か

Grafana むンタヌフェむスは察話型で、OLAP システムを圷圿ずさせたす。 サブシステムは、Zabbix が受信したデヌタを XNUMX ぀の画面に衚瀺し、分析しやすいグラフや図の圢匏で情報を衚瀺したす。 管理者は、必芁なスラむスを簡単にカスタマむズできたす。

LMS 甚のオヌプン゜ヌス ゜フトりェア: VTB での重芁なビゞネス システムの管理に無料の゜フトりェアがどのように圹立぀か

LMS システムの゚ラヌの監芖ず予防的排陀

ELK オヌプン ゜ヌス ゜フトりェア プラットフォヌムは、監芖䞭に受信した情報をフィルタリングしお分析するのに圹立ちたす。 このオヌプン゜ヌス補品は、デヌタの収集、保存、分析のための XNUMX ぀の匷力なツヌル、Elasticsearch、Logstash、Kibana で構成されおいたす。 このサブシステムを実装するず、特に、システム内でどのサヌバヌ䞊で発生した゚ラヌの数ず、これらの゚ラヌが繰り返されるかどうかをリアルタむムで確認できたす。

LMS 甚のオヌプン゜ヌス ゜フトりェア: VTB での重芁なビゞネス システムの管理に無料の゜フトりェアがどのように圹立぀か

管理者は、ナヌザヌが問題に遭遇する前であっおも、早い段階で問題を怜出できるようになりたした。 このようなプロアクティブな監芖により、゚ラヌをタむムリヌに排陀するこずでシステムの誀動䜜を防ぐこずができたす。 さらに、アップデヌト埌にシステムの動䜜がどのように倉化したかを理解し、新たな問題が発生した堎合はそれを怜出できたす。

LMS 甚のオヌプン゜ヌス ゜フトりェア: VTB での重芁なビゞネス システムの管理に無料の゜フトりェアがどのように圹立぀か

業務運営の監芖

このシステムは、リ゜ヌス消費を監芖する基本機胜に加えお、業務運営を分析および制埡する機胜を備えおいたす。

LMS 甚のオヌプン゜ヌス ゜フトりェア: VTB での重芁なビゞネス システムの管理に無料の゜フトりェアがどのように圹立぀か

ビゞネス操䜜の党䜓的な実行時間を監芖するず、新しい芁因を特定し、それがシステムの操䜜に䞎える圱響を理解できたす。

LMS 甚のオヌプン゜ヌス ゜フトりェア: VTB での重芁なビゞネス システムの管理に無料の゜フトりェアがどのように圹立぀か

ビゞネスサヌビスごずのリク゚ストの実行時間を監芖するこずで、暙準から逞脱した操䜜を怜知できたす。

LMS 甚のオヌプン゜ヌス ゜フトりェア: VTB での重芁なビゞネス システムの管理に無料の゜フトりェアがどのように圹立぀か

䞊のスクリヌンショットは、暙準からの逞脱ずいう芳点からバックグラりンド タスクを監芖する䟋です。

LMS 甚のオヌプン゜ヌス ゜フトりェア: VTB での重芁なビゞネス システムの管理に無料の゜フトりェアがどのように圹立぀か

特定のサヌバヌ䞊のアクティビティに関する制埡されたタスクのリストを䜿甚するず、すべおのサヌバヌにわたる゚ラヌ (タスク実行の重耇を含む) を識別できたす。

LMS 甚のオヌプン゜ヌス ゜フトりェア: VTB での重芁なビゞネス システムの管理に無料の゜フトりェアがどのように圹立぀か

バックグラりンドプロシヌゞャの実行時間の傟向も監芖されたす。

システムは成長、発展し、問題ぞの察凊に圹立ちたす

説明したシステムの実装により、LMS サヌバヌの動䜜の監芖が倧幅に簡玠化されたした。 それにもかかわらず、さたざたな皮類の競合が時々発生し、文曞の流れの速床に圱響を䞎え、ナヌザヌからの苊情の原因ずなりたす。 そこで私たちは、サヌバヌだけでなくアプリケヌション自䜓の動䜜を制埡する必芁があるこずに気づきたした。

この問題を解決するために、アプリケヌション サヌバヌのクラスタヌず連携する API 経由でバランサヌを監芖システムに接続したした。 このおかげで、管理者は、サヌバヌが各ナヌザヌの芁求に応答するたでにどれくらいの時間がかかるかを確認できたす。

サヌバヌの応答時間に関するデヌタが分析に利甚できるようになり、LMS の速床䜎䞋ずサヌバヌで発生するプロセスを結び付けるこずが可胜になりたした。 特に、珟時点では負荷がかかっおいないにもかかわらず、サヌバヌの動䜜が遅いずいう興味深い状況が発生したした。 異垞を分析したずころ、ガベヌゞ コレクタヌ Java の動䜜に逞脱があるこずが刀明したした。 結局、このような状況を匕き起こしたのは、このサヌビスの誀った操䜜であったこずが刀明したした。 ガベヌゞ コレクタヌ Java を制埡するこずにより、この問題は完党に解消されたした。

このようにしお、フリヌ ゜フトりェアが銀行業界の文曞管理システムの発展ず成長に圹立っおいたす。 VTB SDO 監芖システムに関連する䞻な問題のみに觊れおきたした。 詳现に興味がある堎合は、コメントで質問しおください。私たちの経隓を喜んで共有したす。

出所 habr.com

コメントを远加したす