なぜ銀行は AIOps ず包括的なモニタリングを必芁ずするのでしょうか?たた、顧客関係は䜕に基づいおいるのでしょうか?

Habrの出版物では、チヌムずのパヌトナヌシップを構築した経隓に぀いおすでに曞いおいたすここで 新芏事業を立ち䞊げる際に事業が砎綻しないようパヌトナヌシップ契玄曞を䜜成する方法に぀いお解説したす。さお、ここでクラむアントずのパヌトナヌシップを構築する方法に぀いおお話ししたいず思いたす。なぜなら、クラむアントがいなければ䜕も厩れおしたうこずはないからです。この蚘事が、倧䌁業に補品を販売し始めたスタヌトアップ䌁業にずっお圹立぀こずを願っおいたす。

私は珟圚、そのようなスタヌトアップである MONQ Digital lab を率いおおり、チヌムず䞀緒に䌁業の IT のサポヌトず運甚のプロセスを自動化する補品を開発しおいたす。垂堎参入は簡単な䜜業ではありたせん。私たちは少しの䞋調べから始め、垂堎の専門家やパヌトナヌに盞談し、垂堎の现分化を実斜したした。重芁な質問は、「誰の痛みを最もよく癒すこずができるのか」を理解するこずでした。

銀行はTOP3セグメントにランクむンしたした。そしおもちろん、リストの先頭にいたのはティンコフずズベルバンクでした。私たちが銀行垂堎の専門家を蚪問したずき、圌らは「そこにあなたの補品を玹介すれば、銀行垂堎ぞの道が開かれるでしょう」ず蚀いたした。私たちは䞡方に参入しようずしたしたが、ズベルバンクは倱敗し、ティンコフの人たちはロシアのスタヌトアップずの生産的なコミュニケヌションにはるかにオヌプンであるこずがわかりたしたおそらく、圓時のズベルが 買った 西偎の競合䌁業ではほが 10 億ドルです。 1か月以内に、私たちはすでにパむロットプロゞェクトを開始しおいたした。それがどのように起こったのかを知るには、読み続けおください。

圓瀟は長幎にわたり運甚ず監芖の問題に取り組んでおり、珟圚は公共郚門、保険䌚瀟、銀行、通信䌚瀟に圓瀟の補品を導入しおいたす。 1぀の実装は航空䌚瀟向けでしたプロゞェクトの前は、航空業界がこれほどITに䟝存する業界だずは考えおもいたせんでしたが、今ではCOVID-19にもかかわらず、この䌚瀟が出珟しお飛躍するこずを心から願っおいたす。

圓瀟が補造する補品は、䌁業向け゜フトりェア、AIOps セグメント (IT 運甚向け人工知胜、ITOps) に属したす。䌁業内のプロセスの成熟床が高たるに぀れおこのようなシステムを実装する䞻な目暙は次のずおりです。

  1. 問題を解消する: 障害を特定し、アラヌトフロヌを䞍芁なものからクリアし、担圓者にタスクずむンシデントを割り圓おたす。
  2. IT サヌビスの効率を向䞊: むンシデントの解決にかかる時間を短瞮し、障害の原因を特定し、IT ステヌタスの透明性を高めたす。
  3. ビゞネス効率の向䞊手䜜業を枛らし、リスクを軜枛し、顧客ロむダルティを高めたす。

私たちの経隓では、銀行はすべおの倧芏暡 IT むンフラストラクチャに共通する次のような監芖の「悩み」を抱えおいたす。

  • 「各人が自分のこずを行う」: 倚くの技術郚門があり、ほが党員が少なくずも 1 ぀の独自の監芖システムを所有しおおり、ほずんどの䌁業が耇数のシステムを所有しおいたす。
  • 倧量のアラヌト: 各システムが数癟のアラヌトを生成し、すべおの責任者に堎合によっおは郚門間でも集䞭攻撃したす。各通知に垞に焊点を合わせるのは困難であり、通知の数が倚いず緊急性ず重芁性が損なわれたす。
  • 業界のリヌダヌである倧手銀行は、システムを継続的に監芖しお障害の発生箇所を把握するだけでなく、真の AI マゞック、぀たりシステムの自己監芖、自己予枬、自己修正を実珟したいず考えおいたす。

ティンコフでの最初のミヌティングに出垭した際、圌らはすぐに、モニタリングに問題はなく、䜕も問題がないず話しおくれたした。そこで䞻な質問は、「すでにうたくいっおいる人々に私たちは䜕を提䟛できるのか」でした。

䌚話は長く続き、マむクロサヌビスがどのように構築されおいるか、各郚門がどのように機胜しおいるか、ナヌザヌにずっおどのむンフラストラクチャの問題がより敏感で、どの問題がそれほど敏感でないか、「盲点」はどこにあるのか、そしお目暙ず SLA は䜕かなどに぀いお話し合いたした。

ちなみに、銀行の SLA は本圓に玠晎らしいです。たずえば、ネットワヌクの可甚性に関連する優先床 1 のむンシデントを解決するには、わずか数分しかかかりたせん。もちろん、ここでの゚ラヌずダりンタむムのコストは盞圓なものになりたす。

その結果、いく぀かの協力分野を特定したした。

  1. 第䞀段階は、むンシデント解決のスピヌドを䞊げるための包括的な監芖です。
  2. 2 番目の段階は、プロセスを自動化しお、IT 郚門の拡匵に䌎うリスクずコストを削枛するこずです。

盎接メトリクスを取埗するこずは䞍可胜であったため、耇数の監芖システムからの情報を凊理するこずによっおのみ、いく぀かの「癜い点」を明るい譊告色で塗るこずができ、たた、䜕が起こっおいるかの党䜓像を把握するために、さたざたな監芖システムからのデヌタを「1぀の画面」に䞀元化する必芁もありたした。 「傘」はこの䜜業に適しおおり、圓時の芁件を満たしおいたした。

私たちの意芋では、顧客ずの関係においお非垞に重芁なこずは誠実さです。最初の䌚話ずラむセンスのコストの蚈算の埌、コストが非垞に䜎いため、すぐにラむセンスを賌入する䟡倀があるず蚀われたした (䞊蚘のグリヌン バンクに関する蚘事の Dynatrace Key-Astrom ず比范するず、圓瀟のラむセンスのコストは 12 億ではなく、1 ギガバむトあたり月額 XNUMX ルヌブルですが、Sber の堎合はその数倍安くなりたす)。しかし、私たちはすぐに自分たちが䜕を持っおいるか、䜕を持っおいないかを圌らに䌝えたした。おそらく、倧手むンテグレヌタヌの営業担圓者は「はい、もちろんすべお察応できたすので、ラむセンスを賌入しおください」ず答えたかもしれたせんが、私たちはすべおをテヌブルに出すこずにしたした。発売時点では、圓瀟のボックスには Prometheus ずの統合がなく、自動化サブシステムを備えた新しいバヌゞョンがリリヌスされる予定でしたが、ただクラむアントに出荷されおいたせんでした。

パむロット プロゞェクトが開始され、その境界が定矩され、2 か月が䞎えられたした。䞻な目的は次のずおりです。

  • プラットフォヌムの新しいバヌゞョンを準備し、銀行のむンフラに導入する
  • 2 ぀の監芖システム (Zabbix ず Prometheus) を接続したす。
  • Slack ず SMS 経由で担圓者に通知を送信したす。
  • 自動修埩スクリプトを実行したす。

パむロット プロゞェクトの最初の 1 か月は、パむロット プロゞェクトのニヌズに合わせお、超高速モヌドでプラットフォヌムの新しいバヌゞョンを準備するこずに費やされたした。新しいバヌゞョンには、Prometheus ずの統合ず自動修埩機胜がすぐに組み蟌たれたした。開発チヌムのおかげで、圌らは数晩眠らずに、以前に玄束した他の期限を守らずに玄束どおりにリリヌスするこずができたした。

パむロットを蚭定しおいるずきに、プロゞェクトを早期に終了させる可胜性のある新たな問題が発生したした。メッセンゞャヌや SMS 経由で通知を送信するには、Microsoft Azure サヌバヌぞの受信および送信接続 (圓時、このプラットフォヌムを䜿甚しお Slack に通知を送信しおいたした) ず倖郚の SMS 送信サヌビスが必芁でした。しかし、このプロゞェクトでは安党性が特に重芖されたした。銀行の方針により、いかなる状況でもそのような「穎」を開けるこずはできない。すべおが閉ルヌプで機胜する必芁がありたした。 Slack や SMS 経由で通知を送信する独自​​の内郚サヌビスの API を䜿甚するように提案されたしたが、そのようなサヌビスをすぐに接続する機䌚はありたせんでした。

開発チヌムずの議論の倜は、うたく解決できる解決策が芋぀かるこずで終わりたした。バックログを培底的に調査した結果、これたで時間も優先順䜍もなかったタスクが 1 ぀芋぀かりたした。それは、実装チヌムやクラむアントが自分でアドオンを䜜成しおプラットフォヌムの機胜を拡匵できるように、プラグむン システムを䜜成するこずです。

しかし、自動化をむンストヌル、構成、展開する時間は、残り 1 か月しかありたせんでした。

圓瀟のチヌフアヌキテクトであるセルゲむによるず、プラグむン システムの実装には少なくずも 1 か月かかるずのこずです。

時間がなかったんです 

解決策はただ䞀぀、クラむアントのずころぞ行き、すべおをありのたたに䌝えるこずだけだった。延期に぀いお䞀緒に話し合っおください。そしおそれはうたくいきたした。私たちには2週間の延長が䞎えられたした。圌らにも結果を瀺す期限ず瀟内矩務がありたしたが、2 週間の䜙裕がありたした。結局、私たちはすべおを賭けたした。銬鹿げたこずをする方法はなかった。誠実さずパヌトナヌシップのアプロヌチが再び成果を䞊げたした。

パむロットの結果、いく぀かの重芁な技術的成果ず結論が埗られたした。

アラヌト凊理の新しい機胜をテストしたした

展開されたシステムは、Prometheus からアラヌトを正しく受信し、グルヌプ化するようになりたした。 Prometheus クラむアントからの問題に関するアラヌトが 30 秒ごずに飛び亀っおいたため (時間のグルヌプ化は有効になっおいたせんでした)、これを「アンブレラ」自䜓にグルヌプ化できるかどうか疑問に思っおいたした。それは可胜であるこずが刀明したした - プラットフォヌム内のアラヌト凊理の構成はスクリプトによっお実装されたす。これにより、凊理甚のほがあらゆるロゞックを実装するこずが可胜になりたす。暙準ロゞックはすでにテンプレヌトの圢でプラットフォヌムに実装されおいたす。独自のロゞックを䜜成したくない堎合は、既補のロゞックを䜿甚できたす。

なぜ銀行は AIOps ず包括的なモニタリングを必芁ずするのでしょうか?たた、顧客関係は䜕に基づいおいるのでしょうか?

合成トリガヌ むンタヌフェヌス。接続された監芖システムからのアラヌトの凊理の蚭定

システムの「健党性」状態を構築

アラヌトは、構成ナニット (CU) の正垞性に圱響を䞎える監芖むベントを䜜成するために䜿甚されたした。圓瀟では、内郚 CMDB を䜿甚するこずも、倖郚 CMDB に接続するこずもできるリ゜ヌス サヌビス モデル (RSM) を実装しおいたす。パむロット プロゞェクトでは、クラむアントは CMDB に接続しおいたせんでした。

なぜ銀行は AIOps ず包括的なモニタリングを必芁ずするのでしょうか?たた、顧客関係は䜕に基づいおいるのでしょうか?

リ゜ヌス サヌビス モデルを操䜜するためのむンタヌフェむス。パむロットRSM。

実は、クラむアントは最終的に、さたざたなシステムからのむベントを確認できる単䞀の監芖画面を手に入れたした。珟圚、「アンブレラ」には、Zabbix ず Prometheus の 2 ぀のシステムず、プラットフォヌム自䜓の内郚監芖システムが接続されおいたす。

なぜ銀行は AIOps ず包括的なモニタリングを必芁ずするのでしょうか?たた、顧客関係は䜕に基づいおいるのでしょうか?

分析むンタヌフェヌス。単䞀の監芖画面。

プロセス自動化を開始

むベントの監芖により、事前蚭定されたアクション (通知の送信、スクリプトの実行、むンシデントの登録/匷化) が開始されたしたが、むンシデントの登録/匷化はこの特定のクラむアントでは詊行されたせんでした。その理由は、パむロット プロゞェクトにサヌビス デスクずの統合が含たれおいなかったためです。

なぜ銀行は AIOps ず包括的なモニタリングを必芁ずするのでしょうか?たた、顧客関係は䜕に基づいおいるのでしょうか?

アクション蚭定むンタヌフェヌス。 Slack に通知を送信し、サヌバヌを再起動したす。

補品の機胜を拡匵したした

自動化スクリプトに぀いお話し合ったずき、クラむアントは bаsh のサポヌトず、これらのスクリプトを簡単に構成できるむンタヌフェヌスを求めたした。新しいバヌゞョンでは、さらにいく぀かの機胜が远加されcURL、SSH、SNMP をサポヌトする Lua で本栌的な論理構造を蚘述する機胜、スクリプトのラむフ サむクル䜜成、線集、バヌゞョン管理、削陀、アヌカむブを管理できる機胜が実装されたした。

なぜ銀行は AIOps ず包括的なモニタリングを必芁ずするのでしょうか?たた、顧客関係は䜕に基づいおいるのでしょうか?

自動修埩スクリプトを操䜜するためのむンタヌフェヌス。 SSH 経由でサヌバヌを再起動するためのスクリプト。

䞻な調査結果

パむロット䞭には、珟圚の機胜を改善し、クラむアントにずっおの䟡倀を高めるナヌザヌ ストヌリヌも䜜成されたした。その䞀郚を以䞋に瀺したす。

  • アラヌトから自動修埩スクリプトに倉数を盎接枡す機胜を実装したす。
  • Active Directory 経由でプラットフォヌムに認蚌を远加したす。

そしお、私たちは他の機胜を䜿っお補品を「成長させる」ずいう、よりグロヌバルな課題に盎面したした。

  • ルヌルや゚ヌゞェントではなく、ML に基づくリ゜ヌス サヌビス モデルの自動構築 (おそらく珟圚の䞻な課題)。
  • 远加のスクリプトおよびロゞック蚀語のサポヌトこれは JavaScript になりたす。

私の考えでは、 䞀番倧切なものこのパむロットが瀺すのは次の 2 ぀です。

  1. 顧客ずのパヌトナヌシップは効率性の鍵であり、誠実さずオヌプンさを基盀ずした効果的なコミュニケヌションが構築され、顧客は短期間で倧きな成果を達成するチヌムの䞀員ずなりたす。
  2. いかなる状況でも、「カスタマむズ」や「チヌト」を䜜成しないでください。䜓系的な゜リュヌションのみを実行しおください。もう少し時間をかけお、他のクラむアントが䜿甚できる䜓系的な゜リュヌションを䜜成するこずをお勧めしたす。ちなみに、たさにそれが起こりたした。プラグむン システムず Azure ぞの䟝存を拒吊するこずで、他のクラむアントにさらなる䟡倀が提䟛されたした (連邊法 152 号、こんにちは)。

出所 habr.com

DDoS 保護機胜を備えた信頌性の高いサむト甚ホスティング、VPS VDS サヌバヌを賌入する 🔥 DDoS攻撃察策付きの信頌性の高いりェブサむトホスティング、VPS/VDSサヌバヌを賌入したしょう | ProHoster