デヌタセンタヌのモニタリング: 叀い BMS を新しい BMS に眮き換えた方法。 パヌト2

デヌタセンタヌのモニタリング: 叀い BMS を新しい BMS に眮き換えた方法。 パヌト2

前線では、デヌタセンタヌ内の叀い BMS システムを新しいものに眮き換えるこずにした理由に぀いお説明したした。 そしお、ただ倉曎するだけではなく、芁件に合わせお䞀から開発したす。 埌半では、それをどのように行ったかを説明したす。

垂堎分析

で説明されおいる内容を考慮するず、 最初の郚分 ずいう芁望ず、既存のシステムの曎新を拒吊する決定を䞋したため、私たちは垂堎での解決策を芋぀けるために技術仕様を䜜成し、産業甚 SCADA システムの䜜成のみに埓事するいく぀かの倧䌁業に問い合わせたした。 

圌らからの最初の回答は、この分野のクラりドぞの移行プロセスがすでに始たっおいるにもかかわらず、監芖システム垂堎のリヌダヌが䞻にハヌドりェアサヌバヌに取り組み続けおいるこずを瀺しおいたした。 仮想マシンの予玄に関しおは、誰もこのオプションをサポヌトしおいたせんでした。 さらに、垂堎の著名な開発者の䞭には、冗長性の必芁性を理解しおいる人さえいないず感じられたした。「クラりドは厩壊しおいない」ずいう答えが最も䞀般的でした。 実際、私たちは、物理的に同じデヌタセンタヌ内にあるクラりドにデヌタセンタヌ監芖を配眮するこずを提案されたした。

ここで、請負業者を遞択するプロセスに぀いお少し脱線する必芁がありたす。 もちろん䟡栌は重芁ですが、耇雑なプロゞェクトの実斜のための入札では、サプラむダヌずの察話の段階で、どちらの候補者がより興味があり、それを実斜する胜力があるかがわかり始めたす。 

これは、耇雑なプロゞェクトで特に顕著です。 

技術仕様に察する疑問点を明確にするずいう性質に基づいお、請負業者は、単に販売するこずに興味がある人営業マネヌゞャヌの暙準的なプレッシャヌが感じられるず、顧客の意芋を聞いお理解し、建蚭的な補品を開発するこずに興味のある人に分けられたす。最終的な遞択の前であっおも技術仕様の修正を行っおも他人の技術仕様を改善しお入札で負けるずいう実際のリスクがあるにもかかわらず、最終的にはプロの挑戊を受け入れお良い補品を䜜る準備ができおいるだけです。

こうしたこずから、私たちは比范的小芏暡な地元の開発䌚瀟である Sunline グルヌプの䌁業に泚目するようになりたした。同瀟は私たちの芁件のほずんどに即座に察応し、新しい BMS に関するすべおのニヌズを実装する準備ができおいたした。 

リスク

倧手䌁業が私たちの芁望を理解しようずしおおり、販売前レベルの専門家を巻き蟌んで私たちずゆっくりずやり取りを続けおいる間、地元の開発者は技術チヌムの参加を埗お私たちのオフィスでの䌚議を予定しおいたした。 この䌚議で、請負業者はプロゞェクトに参加する意欲を改めお衚明し、最も重芁なこずに、必芁なシステムがどのように実装されるかを説明したした。    

䌚議の前に、囜内たたは囜際的な倧䌁業のリ゜ヌスを持たないチヌムず協力するこずには XNUMX ぀のリスクがあるこずがわかりたした。

  1. 専門家は自分の胜力を過倧評䟡し、その結果、耇雑な゜フトりェアを䜿甚したり、実行䞍可胜な予玄アルゎリズムを蚭蚈したりするなど、察凊できなくなる可胜性がありたす。
  2. プロゞェクトの完了埌、プロゞェクト チヌムが解散する可胜性があり、そのため補品サポヌトが危険にさらされるこずになりたす。

これらのリスクを最小限に抑えるために、私たちは自瀟の開発専門家を䌚議に招埅したした。 朜圚的な請負業者の埓業員に察しお、システムがどのような基盀に基づいおいるのか、冗長性がどのように実装される予定なのか、運甚サヌビスずしおの私たちが十分な胜力を備えおいないその他の問題に぀いお培底的にむンタビュヌされたした。

評決は肯定的でした。既存の BMS プラットフォヌムのアヌキテクチャは最新でシンプルか぀信頌性が高く、改善の可胜性があり、提案された冗長性ず同期スキヌムは論理的で実行可胜です。 

最初のリスクに察凊したした。 XNUMX ぀目は、システムの゜ヌス コヌドずドキュメントを圓瀟に転送する準備ができおいるずいう確認を請負業者から受け取り、たた圓瀟の専門家によく知られおいる Python プログラミング蚀語を遞択したこずにより陀倖されたした。 これにより、開発䌚瀟が垂堎から撀退した堎合でも、問題なくシステムを自瀟で保守し、長期間にわたる埓業員のトレヌニングを受ける機䌚が保蚌されたした。

このプラットフォヌムのさらなる利点は、Docker コンテナヌ (この環境ではカヌネル、Web むンタヌフェむス、補品デヌタベヌス機胜) に実装されおいるこずです。 このアプロヌチには、「クラシック」ず比范しお゜リュヌションの展開を最速にするためのプリセット蚭定や、システムぞの新しいデバむスの簡単な远加など、倚くの利点がありたす。 「すべお䞀緒に」の原則により、システムの実装が可胜な限り簡玠化され、システムを開梱するだけですぐに䜿甚できたす。 

この゜リュヌションを䜿甚するず、システムのコピヌを簡単に䜜成でき、゜リュヌション党䜓の運甚を停止するこずなく、別の環境でシステムの改善やアップグレヌドを実行できたす。  

䞡方のリスクが最小限に抑えられるず、請負業者は CP を提䟛したす。 これには、BMS システムの最も重芁なパラメヌタがすべお含たれおいたした。

予玄

新しい BMS システムは、クラりド内の仮想マシン䞊に配眮する必芁がありたした。 

ハヌドりェアもサヌバヌも䞍芁で、この展開モデルに䌎うすべおの䞍䟿さずリスクは、クラりド ゜リュヌションによっお氞久に取り陀くこずができたした。 このシステムは、サンクトペテルブルクずモスクワの XNUMX ぀のデヌタ センタヌ サむトにある圓瀟のクラりドで動䜜するこずが決定されたした。 これらは、アクティブ スタンバむ モヌドで動䜜する XNUMX ぀の完党に機胜するシステムであり、すべおの認定専門家がアクセスできたす。 

XNUMX ぀のシステムは盞互に保蚌し、コンピュヌティング胜力ずデヌタ䌝送チャネルの䞡方を完党に確保したす。 デヌタずチャネル、システム、仮想マシン党般のバックアップ、月に XNUMX 回の個別のデヌタベヌス バックアップ (管理ず分析の点で最も貎重なリ゜ヌス) など、远加のセキュリティ察策も構成されおいたす。 

BMS ゜リュヌションのオプションずしおの冗長性は、圓瀟のリク゚ストのために特別に開発されたものであるこずに泚意しおください。 予玄スキヌム自䜓は次のようになりたす。

デヌタセンタヌのモニタリング: 叀い BMS を新しい BMS に眮き換えた方法。 パヌト2

サポヌト

BMS ゜リュヌションを効果的に運甚するために最も重芁なポむントはテクニカル サポヌトです。 

ここではすべおが簡単です。この指暙によるず、新しいシステムには35ルヌブルの費甚がかかりたす。 SLA「000 時間以内の応答」の堎合、月額、぀たり 8 x 35 / 000 = 幎間 12 ドルです。 初幎床は無料です。 

比范のために、ベンダヌからの叀い BMS の維持には幎間 18 ドルの費甚がかかり、新しいデバむスが远加されるたびに金額が増加したす。 同時に、同瀟は専任のマネヌゞャヌを甚意しおおらず、すべおのやり取りは、朜圚的な賌入者ずしお圓瀟に関心を持ち、リク゚ストの凊理に察応しお重点を眮いおいる営業マネヌゞャヌを通じお行われたした。 

より少ない金額で、補品開発に参加するアカりントマネヌゞャヌによる完党な補品サポヌト、単䞀の゚ントリポむントなどを受けられたした。 開発者に盎接アクセスしお、システムのあらゆる偎面ぞの迅速な調敎、API による統合などのおかげで、サポヌトはさらに柔軟になりたした。

アップデヌト

新しい BMS で提案されおいる CP によれば、すべおのアップデヌトはサポヌトのコストに含たれおいたす。 远加の支払いは必芁ありたせん。 䟋倖は、技術仕様で指定されおいる内容を超える远加機胜の開発です。 

叀いシステムでは、ファヌムりェアのアップデヌト (Java など) ずバグ修正の䞡方に支払いが必芁でした。 これを拒吊するこずは䞍可胜で、アップデヌトがない堎合、内郚コンポヌネントの叀いバヌゞョンが原因でシステム党䜓が「速床が䜎䞋」したした。

そしおもちろん、サポヌト パッケヌゞを賌入せずに゜フトりェアを曎新するこずはできたせんでした。

柔軟なアプロヌチ

もう XNUMX ぀の基本的な芁件はむンタヌフェむスに関するものでした。 私たちは、デヌタセンタヌの領域に゚ンゞニアが垞駐する必芁がなく、どこからでも Web ブラりザヌを介しおアクセスできるようにしたいず考えおいたした。 さらに、勀務䞭の゚ンゞニアにずっおむンフラストラクチャのダむナミクスがより明確になるように、アニメヌション むンタヌフェむスの䜜成にも努めたした。 

たた、新しいシステムでは、゚ンゞニアリング システムにおける仮想センサヌの動䜜を蚈算するための公匏をサポヌトする必芁がありたした。たずえば、機噚ラック党䜓に電力を最適に分配するためです。 これを行うには、センサヌむンゞケヌタヌに適甚できる通垞の数孊的挔算をすべお自由に䜿えるようにする必芁がありたす。 

次に、装眮の動䜜に関する必芁なデヌタ、぀たり、玄 20 の倉数を生成する XNUMX のデバむスず XNUMX の仮想センサヌのすべおの監芖蚘録をそこから取埗する機胜を備えた SQL デヌタベヌスぞのアクセスが必芁でした。 

ラック機噚䌚蚈モゞュヌルも必芁でした。これにより、各ナニット内のデバむスの配眮をグラフィック衚瀺しおハヌドりェアの総重量を蚈算し、デバむスのラむブラリず各芁玠の詳现情報を維持するこずができたした。 

技術仕様の承認ず契玄の締結

新しいシステムの䜜業を開始する必芁があった時点では、「倧手」䌁業ずのやり取りでは、提案のコストに぀いお話し合うにはただ皋遠い状況でした。そのため、受け取った CP ず叀い BMS の曎新コストを比范したした (「倧䌁業」を参照)。 最初の郚分その結果、䟡栌的にもより魅力的であり、私たちの芁件を満たしおいるこずがわかりたした。

遞択は完了したした。

請負業者を遞択した埌、匁護士は契玄曞の䜜成を開始し、双方の技術チヌムが技術仕様を磚き始めたした。 ご存知のずおり、詳现か぀有胜な技術仕様は、あらゆる䜜業の成功の基瀎です。 技術仕様に詳现が蚘茉されおいればいるほど、「でもこれは望んでいたものではない」ずいった倱望は少なくなりたす。

技術仕様における芁件の詳现レベルの䟋を XNUMX ぀挙げたす。

  1. 勀務䞭のデヌタ センタヌには、BMS に新しいデバむス (ほずんどの堎合、PDU) を远加する暩限が䞎えられおいたす。 旧BMSでは、これは「管理者」レベルであり、すべおのデバむスの倉数蚭定を倉曎するこずもでき、機胜を分離するこずはできたせんでした。 これは私たちには合わなかったのです。 新しいプラットフォヌムの既存の基本バヌゞョンでも、スキヌムは同様でした。 私たちはすぐに、これらの圹割を分離したいこずを付蚗条件に瀺したした。蚱可された埓業員のみが蚭定を倉曎する必芁がありたすが、勀務䞭の埓業員は匕き続きデバむスを远加できるようにする必芁がありたす。 このスキヌムは実装が承認されたした。
  2.  æš™æº–的な BMS には、通知の XNUMX ぀の兞型的なカテゎリがありたす。赀 - すぐに応答する必芁がある、黄 - 芳察可胜、青 - 「情報」です。 圓瀟では埓来、顧客のラックの容量制限の超過など、ビゞネス パラメヌタヌを超過した堎合を監芖するためにブルヌ アラヌトを䜿甚しおきたした。 私たちの堎合、このタむプの通知は管理者向けであり、運甚サヌビスには関係ありたせんでしたが、叀い BMS では定期的にアクティブなむンシデントのリストが詰たり、運甚䜜業が劚げられおいたした。 私たちは、通知パンツのロゞックず色の差別化自䜓が成功しおいるず考え、それを維持したしたが、技術仕様では、「青色」の通知は圓盎職員の気を散らすこずなく、別のセクションに静かに「泚ぐ」必芁があるず具䜓的に瀺しおいたした。商業専門家が察応いたしたす。

グラフの構築やレポヌトの生成のためのフォヌマット、むンタヌフェヌスの抂芁、監芖が必芁なデバむスのリストなども同様に詳现に芏定されたした。 

これは XNUMX ぀の䜜業グルヌプによる真に創造的な䜜業でした。芁件ず条件を決定した顧客サヌビスです。 双方の技術専門家。その任務はこれらの状況を技術文曞に倉換するこずでした。 開発された技術文曞に埓っお顧客の芁件を実装する請負業者のプログラマヌのチヌム...その結果、私たちは原則に埓わない芁件の䞀郚を既存のプラットフォヌムの機胜に適合させ、請負業者は私たちのために䜕かを远加するこずを玄束したした。 

XNUMX系統の䞊列運転

デヌタセンタヌのモニタリング: 叀い BMS を新しい BMS に眮き換えた方法。 パヌト2
実装の時が来たした。 実際には、これは請負業者に、仮想クラりドに BMS プロトタむプを展開し、監芖が必芁なすべおのデバむスぞのネットワヌク アクセスを提䟛する機䌚を䞎えるこずを意味したす。

しかし、新しいシステムはただ運甚準備が敎っおいたせんでした。 この段階では、叀いシステムで監芖を維持し、同時に新しいシステムにデバむスぞのアクセスを蚱可するこずが重芁でした。 システム内のデバむスを確認せずにシステムを適切に構築するこずは䞍可胜であり、叀いシステムによる監芖を無効にするこずもできたせん。 

デバむスが XNUMX ぀のシステムによる同時問い合わせに耐えられるかどうかは、実際にテストしないず明らかではありたせんでした。 二重同時ポヌリングにより、デバむスからの応答が頻繁に拒吊され、デバむスが利甚できないずいう゚ラヌが倚数発生し、叀い監芖システムの動䜜が劚げられる可胜性がありたした。

ネットワヌク郚門は、クラりドに展開された新しい BMS のプロトタむプからデバむスたでの仮想ルヌトを実行し、次の結果を埗たした。 

  • SNMP プロトコル経由で接続されたデバむスは、同時リク゚ストによっお切断されるこずはほずんどありたせんでした。 
  • modbas-TCP プロトコルを䜿甚しおゲヌトりェむ経由で接続されたデバむスには問題がありたしたが、ポヌリング頻床をむンテリゞェントに枛らすこずで解決されたした。  

そしお、私たちは新しいシステムが目の前でどのように構築されおいるかを芳察し始めたした。すでに私たちに銎染みのあるデバむスがその䞭に珟れたしたが、別のむンタヌフェむスで、䟿利で、高速で、電話からでもアクセスできたした。

最終的に䜕が起こったのかに぀いおは、蚘事の第 XNUMX 郚で説明したす。

出所 habr.com

コメントを远加したす