なぜ銀行は AIOps ず包括的なモニタリングを必芁ずするのでしょうか?たた、顧客関係は䜕に基づいおいるのでしょうか?

Habré に関する出版物で、私はすでにチヌムずのパヌトナヌシップを構築した経隓に぀いお曞きたした (ここで 新芏事業を立ち䞊げる際に事業が砎綻しないようにパヌトナヌシップ契玄をどのように䜜成するかに぀いおお話したす。ここで、クラむアントずのパヌトナヌシップを構築する方法に぀いお話したいず思いたす。クラむアントなしでは䜕も厩れるこずはありたせん。この蚘事が、自瀟補品を倧䌁業に販売し始めおいるスタヌトアップ䌁業にずっお圹立぀こずを願っおいたす。

私は珟圚、MONQ Digital lab ずいうスタヌトアップを率いおおり、私のチヌムず䌁業 IT のサポヌトず運甚のプロセスを自動化する補品を開発しおいたす。垂堎に参入するこずは簡単な䜜業ではありたせん。私たちは少しの䞋調べから始め、垂堎の専門家やパヌトナヌに盞談し、垂堎の现分化を実行したした。䞻な質問は、「誰の痛みを最も良く治すこずができるか?」を理解するこずでした。

銀行がトップ 3 セグメントにランクむンしたした。そしおもちろん、リストの最初にいたのはティンコフずズベルバンクでした。私たちが銀行垂堎の専門家を蚪問したずき、圌らはこう蚀いたした。「そこに補品を導入すれば、銀行垂堎ぞの道は開かれたす。」私たちはあちこちに参入しようずしたしたが、ズベルバンクでは倱敗が埅っおいたした。ティンコフの人たちは、ロシアの新興䌁業ずの生産的なコミュニケヌションにはるかにオヌプンであるこずが刀明したしたおそらく圓時のズベルバンクの事実のせいでしょう 買った 西偎の競合他瀟は玄 10 億瀟。 1 か月以内にパむロット プロゞェクトを開始したした。それがどのように起こったのか、読んでください。

圓瀟は長幎にわたり運甚ず監芖の問題に取り組んできたした。珟圚では、公共郚門、保険、銀行、通信䌚瀟に補品を導入しおいたす。導入䟋の 1 ぀は航空䌚瀟でした (プロゞェクト前は、導入さえしおいたせんでした)。航空業界はそれほど IT に䟝存した業界だったず思いたす。そしお今、私たちはコロナにもかかわらず、この䌚瀟が台頭し、飛躍するこずを心から願っおいたす。)

圓瀟が補造する補品は、゚ンタヌプラむズ ゜フトりェアである AIOps (IT 運甚のための人工知胜、たたは ITOps) セグメントに属したす。䌁業内のプロセスの成熟床が高たるに぀れお、このようなシステムを導入する䞻な目暙は次のずおりです。

  1. 火灜の消火: 障害を特定し、瓊瀫からの譊告の流れを取り陀き、責任者にタスクずむンシデントを割り圓おたす。
  2. IT サヌビスの効率を向䞊したす。むンシデントの解決にかかる時間を短瞮し、障害の原因を瀺し、IT ステヌタスの透明性を高めたす。
  3. ビゞネス効率の向䞊: 手䜜業の量を削枛し、リスクを軜枛し、顧客ロむダルティを高めたす。

私たちの経隓では、銀行はすべおの倧芏暡な IT むンフラストラクチャに共通しお、監芖に関しお次のような「問題」を抱えおいたす。

  • 「誰にも分からない」: 技術郚門が倚数あり、ほが党員が少なくずも 1 ぀の監芖システムを持っおおり、ほずんどが耇数の監芖システムを持っおいたす。
  • アラヌトの「蚊の矀れ」: 各システムが䜕癟ものアラヌトを生成し、責任者党員にアラヌトを送り぀けたす (堎合によっおは郚門間でも)。各通知の制埡の焊点を垞に維持するこずは困難です。通知の数が倚いため、緊急性ず重芁性が平準化されたす。
  • 倧手銀行 - セクタヌのリヌダヌは、システムを継続的に監芖しおどこに障害があるかを把握するだけでなく、システムを自己監芖、自己予枬、自己修正できるようにする AI の真の魔法も望んでいたす。

私たちがティンコフでの最初のミヌティングに来たずき、すぐに圌らはモニタリングに問題はなく、害を及がすものは䜕もないず蚀われたした。䞻な質問は、「すでにうたくいっおいる人々に䜕を提䟛できるでしょうか?」ずいうこずでした。

䌚話は長くなり、マむクロサヌビスがどのように構築されおいるか、郚門がどのように機胜しおいるか、むンフラストラクチャの問題のうちどの問題がより敏感で、どの問題がナヌザヌにずっおそれほど敏感ではないか、「盲点」はどこにあるのか、目暙ず SLA は䜕かに぀いお話し合いたした。

ちなみに、この銀行の SLA は本圓に玠晎らしいです。たずえば、優先床 1 のネットワヌク可甚性に関するむンシデントは、解決たでに数分しかかからない堎合がありたす。もちろん、ここでの゚ラヌずダりンタむムのコストは莫倧です。

その結果、私たちはいく぀かの協力分野を特定したした。

  1. 最初の段階は、むンシデント解決の速床を䞊げるための包括的な監芖です。
  2. 第 2 段階はプロセスの自動化で、リスクを軜枛し、IT 郚門を拡倧するためのコストを削枛したす。

耇数の監芖システムからの情報を凊理するこずによっおのみ、いく぀かの「癜い点」をアラヌトの明るい色で描くこずができたした。これは、さたざたな監芖システムからのデヌタを順番に「1 ぀の画面」に集䞭管理する必芁もあったためです。䜕が起こっおいるかの党䜓像を理解するために。それには「傘」が適しおおり、その条件を満たしたした。

私たちの意芋では、クラむアントずの関係においお非垞に重芁なこずは誠実さです。最初の䌚話ずラむセンスのコストの蚈算の埌、コストが非垞に䜎いため、すぐにラむセンスを賌入する䟡倀があるかもしれないず蚀われたした (グリヌンバンクに関する䞊蚘の蚘事の Dynatrace Klyuch-Astrom ず比范するず、私たちのラむセンス費甚は 12 億の 1 分の XNUMX ではなく、XNUMX ギガバむトあたり月あたり XNUMX ルヌブルです。Sber の堎合は数倍安くなりたす。しかし、私たちはすぐに自分たちが持っおいるものず持っおいないものを圌らに䌝えたした。おそらく、倧手むンテグレヌタヌの営業担圓者は、「はい、䜕でもできたす。もちろんラむセンスを賌入したす」ず蚀うかもしれたせんが、私たちはすべおのカヌドをテヌブルに眮くこずにしたした。発売時の圓瀟のボックスには Prometheus が統合されおおらず、自動化サブシステムを備えた新しいバヌゞョンがリリヌスされようずしおいたしたが、ただお客様には出荷されおいたせん。

パむロット プロゞェクトが開始され、その境界が決定され、䞎えられた期間は 2 か月でした。䞻なタスクは次のずおりです。

  • 新しいバヌゞョンのプラットフォヌムを準備し、銀行のむンフラストラクチャに導入する
  • 2 ぀の監芖システム (Zabbix ず Prometheus) を接続したす。
  • Slack および SMS 経由で責任者に通知を送信したす。
  • 自動修埩スクリプトを実行したす。

パむロット プロゞェクトの最初の 1 か月間は、パむロット プロゞェクトのニヌズに合わせお超高速モヌドでプラットフォヌムの新しいバヌゞョンを準備するのに費やされたした。新しいバヌゞョンには、Prometheus ずの統合ず自動修埩がすぐに含たれおいたす。私たちの開発チヌムのおかげで、圌らは数晩眠れたせんでしたが、以前に玄束した他の玄束の期限を守るこずなく、玄束したものをリリヌスしたした。

パむロットのセットアップ䞭に、プロゞェクトが予定より早く終了する可胜性がある新たな問題に遭遇したした。むンスタント メッセンゞャヌや SMS 経由でアラヌトを送信するには、Microsoft Azure サヌバヌ (圓時はこのプラットフォヌムを䜿甚しおいたした) ぞの送受信接続が必芁でした。 Slack にアラヌトを送信するず倖郚送信サヌビス SMS を䜿甚したす。しかし、このプロゞェクトでは安党性が特に重芖されたした。銀行の方針によれば、いかなる状況においおもそのような「穎」を開けるこずはできなかった。すべおが閉じたルヌプで機胜する必芁がありたした。 Slack や SMS 経由でアラヌトを送信する独自​​の内郚サヌビスの API を䜿甚するよう提案されたしたが、そのようなサヌビスをそのたた接続する機䌚はありたせんでした。

開発チヌムずの蚎論の倜は、解決策の探玢が成功裏に終わりたした。バックログを調べたずころ、時間も優先床も決しお足りなかったタスクが 1 ぀芋぀かりたした。それは、実装チヌムたたはクラむアントが自分でアドオンを蚘述しお、プラットフォヌムの機胜を拡匵できるようにするプラグむン システムを䜜成するこずです。

しかし、残りはちょうど 1 か月で、その間にすべおをむンストヌルし、自動化を構成し、展開する必芁がありたした。

圓瀟のチヌフアヌキテクトであるセルゲむ氏によるず、プラグむン システムの実装には少なくずも 1 か月かかりたす。

時間がありたせんでした...

解決策は 2 ぀だけです。クラむアントのずころに行っお、すべおをありのたたに䌝えたす。締め切りの倉曎に぀いお䞀緒に話し合っおください。そしおそれはうたくいきたした。 2週間の远加猶予が䞎えられたした。圌らには独自の期限ず結果を瀺すずいう瀟内矩務もありたしたが、XNUMX 週間の予備期間がありたした。結局のずころ、私たちはすべおを賭けおいたす。台無しにするこずは䞍可胜でした。正盎さずパヌトナヌシップによるアプロヌチが再び功を奏したした。

パむロットの結果、いく぀かの重芁な技術的結果ず結論が埗られたした。

アラヌトを凊理するための新機胜をテストしたした

導入されたシステムは、Prometheus からアラヌトを正しく受信し、それらをグルヌプ化するようになりたした。 Prometheus クラむアントからの問題に関するアラヌトは 30 秒ごずに送られおきたした (時間によるグルヌプ化は有効になっおいたせん)。私たちは、それらを「アンブレラ」自䜓でグルヌプ化できないかどうか疑問に思っおいたした。プラットフォヌムでのアラヌト凊理の蚭定はスクリプトによっお実装されるため、可胜であるこずがわかりたした。これにより、それらを凊理するためのほがすべおのロゞックを実装するこずが可胜になりたす。プラットフォヌムにはテンプレヌトの圢匏で暙準ロゞックがすでに実装されおいたす。独自のものを考え出したくない堎合は、既補のものを䜿甚できたす。

なぜ銀行は AIOps ず包括的なモニタリングを必芁ずするのでしょうか?たた、顧客関係は䜕に基づいおいるのでしょうか?

「合成トリガヌ」むンタヌフェヌス。接続された監芖システムからのアラヌト凊理のセットアップ

システムの「健党性」の状態を構築

アラヌトに基づいお、構成ナニット (CU) の健党性に圱響を䞎える監芖むベントが䜜成されたした。私たちは、内郚 CMDB を䜿甚するこずも、倖郚 CMDB に接続するこずもできるリ゜ヌス サヌビス モデル (RSM) を実装しおいたす。パむロット プロゞェクト䞭、クラむアントは独自の CMDB に接続したせんでした。

なぜ銀行は AIOps ず包括的なモニタリングを必芁ずするのでしょうか?たた、顧客関係は䜕に基づいおいるのでしょうか?

リ゜ヌスサヌビスモデルを操䜜するためのむンタヌフェむス。パむロット RSM。

実際、クラむアントには最終的に単䞀の監芖画面があり、さたざたなシステムからのむベントが衚瀺されたす。珟圚、2 ぀のシステム、Zabbix ず Prometheus、およびプラットフォヌム自䜓の内郚監芖システムが「アンブレラ」に接続されおいたす。

なぜ銀行は AIOps ず包括的なモニタリングを必芁ずするのでしょうか?たた、顧客関係は䜕に基づいおいるのでしょうか?

分析むンタヌフェむス。単䞀の監芖画面。

プロセスオヌトメヌションを開始

むベントの監芖により、事前構成されたアクション (アラヌトの送信、スクリプトの実行、むンシデントの登録/匷化) の起動がトリガヌされたした。埌者は、この特定のクラむアントでは詊行されたせんでした。パむロット プロゞェクトでは、サヌビス デスクずの統合はありたせんでした。

なぜ銀行は AIOps ず包括的なモニタリングを必芁ずするのでしょうか?たた、顧客関係は䜕に基づいおいるのでしょうか?

アクション蚭定むンタヌフェむス。 Slack にアラヌトを送信し、サヌバヌを再起動したす。

拡匵された補品機胜

自動化スクリプトに぀いお話し合う際、クラむアントは bash のサポヌトず、これらのスクリプトを簡単に蚭定できるむンタヌフェむスを求めたした。新しいバヌゞョンでは、もう少し機胜が远加され (cURL、SSH、SNMP をサポヌトする本栌的な論理構造を Lua で䜜成できる機胜)、スクリプトのラむフサむクル (䜜成、線集、バヌゞョン管理) を管理できる機胜が実装されたした。 、削陀しおアヌカむブしたす。

なぜ銀行は AIOps ず包括的なモニタリングを必芁ずするのでしょうか?たた、顧客関係は䜕に基づいおいるのでしょうか?

自動修埩スクリプトを操䜜するためのむンタヌフェむス。 SSH経由のサヌバヌ再起動スクリプト。

䞻な調査結果

パむロット䞭には、珟圚の機胜を改善し、クラむアントの䟡倀を高めるナヌザヌ ストヌリヌも䜜成されたした。その䞀郚を次に瀺したす。

  • 倉数をアラヌトから自動修埩スクリプトに盎接転送する機胜を実装したす。
  • Active Directory 経由でプラットフォヌムに認蚌を远加したす。

そしお、他の機胜を備えた補品を「構築」するずいう、さらなるグロヌバルな課題も受けたした。

  • ルヌルや゚ヌゞェントではなく、ML に基づいたリ゜ヌス サヌビス モデルの自動構築 (おそらく珟圚の䞻な課題)。
  • 远加のスクリプト蚀語ず論理蚀語のサポヌト (これは JavaScript になりたす)。

私の考えでは、 䞀番倧切なものこのパむロット版が瀺しおいるのは 2 ぀のこずです。

  1. クラむアントずのパヌトナヌシップが有効性の鍵ずなりたす。誠実さず率盎さに基づいお効果的なコミュニケヌションが構築され、クラむアントは短期間で倧きな成果を達成するチヌムの䞀員ずなりたす。
  2. いかなる状況でも、「カスタマむズ」しお「束葉杖」を構築する必芁はありたせん。システム ゜リュヌションのみを必芁ずしたす。もう少し時間をかけお、他のクラむアントが䜿甚できるシステム ゜リュヌションを䜜成するこずをお勧めしたす。ちなみに、プラグむン システムず Azure ぞの䟝存の排陀により、他のクラむアントに付加䟡倀が提䟛されたした (こんにちは、連邊法 152)。

出所 habr.com

コメントを远加したす