Uma.Tech がどのようにインフラを開発したか

新しいサービスを開始し、トラフィックが増加し、サーバーを交換し、新しいサイトに接続し、データセンターを改造しました。そして今回は、XNUMX 年前にご紹介した始まりのこのストーリーをお話します。.

中間結果をまとめるには XNUMX 年が一般的です。 そこで、私たちはインフラの開発について話すことにしました。このインフラは、過去 XNUMX 年間で驚くほど興味深い発展の道を歩んできたことを誇りに思っています。 私たちが実施した量的な変化は質的な変化に変わり、今ではインフラストラクチャは過去 XNUMX 年半ばには素晴らしいと思われたモードで動作できるようになりました。

当社は、PREMIER や Match TV など、信頼性と負荷に関して最も厳しい要件を持つ最も複雑なプロジェクトの運用を保証します。 スポーツ放送や人気テレビ シリーズのプレミアではテラビット/秒単位のトラフィックが必要ですが、私たちはこれを簡単に実装できるため、そのような速度で作業することが長い間当たり前になっています。 そして XNUMX 年前、当社のシステムで実行されていた最も重いプロジェクトは Rutube でした。Rutube はそれ以来開発され、ボリュームとトラフィックが増加し、負荷を計画する際にはこれらを考慮する必要がありました。

インフラストラクチャのハードウェアをどのように開発したかについて話しました (「Rutube 2009-2015: 当社のハードウェアの歴史」)ビデオのアップロードを担当するシステムを開発しました(「毎秒 700 から XNUMX ギガビットまで - ロシア最大のビデオ ホスティング サイトの XNUMX つがビデオをアップロードする方法」) しかし、これらのテキストが書かれてから多くの時間が経過し、他の多くのソリューションが作成および実装され、その結果、現代の要件を満たし、新しいタスクに適応するのに十分な柔軟性が可能になりました。

Uma.Tech がどのようにインフラを開発したか

ネットワークコア 私たちは常に開発を続けています。 前回の記事で述べたように、2015 年に Cisco の機器に切り替えました。 当時はまだ同じ 10/40G でしたが、明らかな理由により、数年後に既存のシャーシがアップグレードされ、現在では 25/100G が積極的に使用されています。

Uma.Tech がどのようにインフラを開発したか

100G リンクは長い間、贅沢品でもありませんでした (むしろ、これは私たちのセグメントにおける時代の緊急の要件です)、珍しいものでもありませんでした (そのような速度で接続を提供する通信事業者が増えています)。 ただし、10/40G の関連性は依然として維持されています。これらのリンクを通じて、少量のトラフィックで通信事業者を接続し続けますが、このトラフィックに対して、より大容量のポートを使用するのは現時点では不適切です。

私たちが作成したネットワーク コアは別途検討する価値があり、少し後で別の記事のトピックになります。 そこでは技術的な詳細を掘り下げ、作成時のアクションのロジックを検討します。 しかし、親愛なる読者の皆さんの関心は無限ではないため、インフラストラクチャをより概略的に描き続けます。

ビデオ出力サーバー 私たちはそのために多大な労力を費やしています。 以前は、それぞれ 2 つの 4G ポートを備えた 5 ~ 10 枚のネットワーク カードを備えた 1U サーバーを主に使用していましたが、現在ではトラフィックのほとんどが、それぞれ 2 つの 3G ポートを備えた 25 ~ 10 枚のカードを備えた 25U サーバーから送信されます。 10G と 25G のカードのコストはほぼ同じで、より高速なソリューションでは XNUMXG と XNUMXG の両方で送信できます。 その結果、明らかな節約が実現しました。接続用のサーバー コンポーネントとケーブルが減り、コストが削減され (信頼性が高くなり)、コンポーネントがラック内で占有するスペースが減り、単位面積あたりにより多くのサーバーを配置できるようになり、その結果、レンタル コストが削減されました。

しかし、それよりも重要なのは速度の向上です。 1Uで100G以上を送信できるようになりました! そしてこれは、ロシアの一部の大規模プロジェクトが40Uからの2G出力を「成果」と呼んでいる状況を背景にしている。 私たちは彼らの問題を知りたいのです!

Uma.Tech がどのようにインフラを開発したか

10G でのみ動作できる世代のネットワーク カードがまだ使用されていることに注意してください。 この装置は安定して動作し、私たちにとって非常に身近なものなので、捨てることはせずに新たな活用法を見つけました。 これらのコンポーネントをビデオ ストレージ サーバーにインストールしましたが、1 つまたは 10 つの XNUMXG インターフェイスでは効率的に動作するには明らかに不十分であり、ここでは XNUMXG カードが適切であることが判明しました。

ストレージシステム も成長しています。 過去 12 年間で、2 ディスク (36x HDD 4U) から XNUMX ディスク (XNUMXx HDD XNUMXU) に変更されました。 このような大容量の「死骸」を使用することを恐れている人もいます。そのようなシャーシの XNUMX つが故障すると、生産性、さらには操作性が脅かされる可能性があるからです。 – システム全体に対して。 しかし、当社ではそのようなことは起こりません。当社では、地理的に分散されたデータのコピーのレベルでバックアップを提供しています。 シャーシを異なるデータセンターに分散し、合計 XNUMX 台を使用しています。これにより、シャーシの障害時とサイトダウン時の両方で問題の発生がなくなりました。

Uma.Tech がどのようにインフラを開発したか

もちろん、このアプローチによりハードウェア RAID が冗長化されましたが、私たちはそれを放棄しました。 冗長性を排除することで、ソリューションを簡素化し、潜在的な障害点の XNUMX つを取り除くことで、システムの信頼性も同時に向上しました。 当社のストレージ システムは「自家製」であることを思い出してください。 私たちはこれをかなり意図的に行いましたが、その結果には完全に満足していました。

データセンター 過去 XNUMX 年間で、私たちは何度か変化してきました。 前回の記事を書いて以来、XNUMX つのデータ センター (DataLine) だけを変更していません。残りはインフラストラクチャの発展に応じて交換が必要でした。 拠点間の移動はすべて計画されていました。

9 年前、私たちは MMTS-XNUMX の内部に移行し、高品質の修理、優れた冷却システム、安定した電源供給、そして以前はあらゆる表面に厚い層を形成しており、機器の内部も詰まっていた塵埃のないサイトに移動しました。 。 質の高いサービスをお選びください – しかも無塵です! – それが私たちの移転の理由になりました。

Uma.Tech がどのようにインフラを開発したか

ほとんどの場合、「9 つの移動は XNUMX つの攻撃に等しい」ですが、移行中に発生する問題は毎回異なります。 今回、XNUMX つのデータセンター内での移動の主な困難は、光クロスコネクトによって「提供」されました。光クロスコネクトは、電気通信事業者によって単一のクロスコネクトに統合されずに、フロア間に大量に存在するためです。 相互接続の更新と再ルーティングのプロセス (MMTS-XNUMX エンジニアが私たちを支援してくれました) は、おそらく移行の最も困難な段階でした。

2019 回目の移行は 2 年前に行われ、XNUMX 年にあまり良好ではないデータセンターから OXNUMXxygen に移行しました。 移転の理由は上で説明したものと似ていますが、通信事業者にとって元のデータセンターが魅力的ではないという問題がさらに加わりました。多くのプロバイダーは自力でここまで「追いつく」必要がありました。

Uma.Tech がどのようにインフラを開発したか

13 ラックを MMTS-9 の高品質サイトに移行したことにより、この場所をオペレーターの場所 (いくつかのラックとオペレーターの「前線」) として開発するだけでなく、主なもの。 これにより、あまり良くないデータセンターからの移行がいくらか簡素化されました。私たちはそこからほとんどの機器を別のサイトに移送し、O2xygen には開発中の役割が与えられ、機器を備えた 5 つのラックをそこに送りました。

現在、O2xygen はすでに本格的なプラットフォームになっており、必要なオペレーターが「到着」しており、新しいオペレーターが接続を続けています。 通信事業者にとって、O2xygen は戦略的開発の観点からも魅力的であることが判明しました。

私たちは常に移動のメインフェーズを一晩で実行し、MMTS-9 内および O2xygen への移行の際にはこのルールを遵守しました。 ラックの数に関係なく、「夜間の移動」ルールに厳密に従っていることを強調します。 20台のラックを移動して、これも一晩で完了した前例もあります。 移行は正確さと一貫性が必要な非常に単純なプロセスですが、準備プロセス、移動時、新しい場所への展開時の両方で、いくつかのコツがあります。 ご興味がございましたら、移行について詳しくお話しさせていただきます。

結果 私たちは 40 年間の開発計画を好みます。 当社は、80 つのデータセンターに分散された新しいフォールトトレラント インフラストラクチャの構築を完了しました。 トラフィック密度が急激に増加しました。最近は 2U で 100 ~ 1G に満足していましたが、今では XNUMXU で XNUMXG が標準です。 今では、たとえ XNUMX テラビットのトラフィックであっても、私たちはそれが当たり前のことであると認識しています。 私たちは、柔軟性と拡張性を備えたインフラストラクチャをさらに開発する準備ができています。

質問: 親愛なる読者の皆さん、次の文章で何を伝えるべきでしょうか? 私たちが自家製データストレージシステムを作り始めた理由について教えてください。 ネットワークコアとその機能について教えてください。 データセンター間の移行のコツや微妙な点について教えてください。 コンポーネントの選択とパラメーターの微調整による配信決定の最適化については? XNUMX つのデータセンター構造で実装されたデータセンター内の多重冗長性と水平スケーリング機能による持続可能なソリューションの作成について教えてください。

著者: Petr Vinogradov - Uma.Tech テクニカル ディレクター ハムスター

出所: habr.com

コメントを追加します