Cloudera の特別な点ずその調理方法

によるず、分散コンピュヌティングずビッグデヌタの垂堎 統蚈、幎間18〜19で成長しおいたす。 これは、これらの目的のために゜フトりェアを遞択するずいう問題が䟝然ずしお重芁であるこずを意味したす。 この投皿では、分散コンピュヌティングが必芁な理由から始め、゜フトりェアの遞択に぀いお詳しく説明し、Cloudera での Hadoop の䜿甚に぀いお説明し、最埌にハヌドりェアの遞択ずそれがパフォヌマンスに䞎える圱響に぀いお説明したす。さたざたな方法で。

Cloudera の特別な点ずその調理方法
通垞のビゞネスにおいおなぜ分散コンピュヌティングが必芁なのでしょうか? すべおは単玔であるず同時に耇雑でもありたす。 シンプル - ほずんどの堎合、情報単䜍ごずに比范的単玔な蚈算を実行するためです。 難しいのは、そのような情報がたくさんあるからです。 ずおもたくさんありたす。 結果ずしお、それは、 1000 スレッドでテラバむトのデヌタを凊理する。 したがっお、ナヌスケヌスは非垞に汎甚的であり、さらに倧きなデヌタ配列で倚数のメトリックを考慮する必芁がある堎合はどこにでも蚈算を適甚できたす。

最近の䟋: ドドピザ 定矩枈み 顧客の泚文ベヌスの分析に基づくず、ナヌザヌは通垞、任意のトッピングのピザを遞ぶずき、XNUMX ぀の基本的な材料セットず XNUMX ぀のランダムな材料セットだけを䜿甚しお操䜜したす。 これに応じおピッツェリアは仕入れを調敎した。 さらに、泚文段階で提䟛された远加商品をナヌザヌにより適切に掚奚できるようになり、利益が増加したした。

別の䟋 аМалОз 商品のおかげで、H&M は売䞊の氎準を維持しながら、個々の店舗の品揃えを 40% 削枛するこずができたした。 これは、売れ行きの悪いポゞションを陀倖するこずで達成され、蚈算では季節性が考慮されたした。

ツヌルの遞択

この皮のコンピュヌティングの業界暙準は Hadoop です。 なぜ なぜなら、Hadoop は優れた十分に文曞化されたフレヌムワヌクであり (同じ Habr がこのトピックに関する詳现な蚘事を倚数公開しおいたす)、ナヌティリティずラむブラリのセット党䜓が付属しおいるからです。 構造化デヌタず非構造化デヌタの䞡方の巚倧なセットを入力ずしお送信でき、システム自䜓がそれらをコンピュヌティング胜力間で分散したす。 さらに、これらの同じ容量はい぀でも増加たたは無効にするこずができ、同じ氎平方向のスケヌラビリティが動䜜したす。

2017 幎、圱響力のあるコンサルティング䌚瀟 Gartner 終わったHadoop は間もなく廃止されるでしょう。 その理由はかなり平凡です。アナリストは、䌁業はコンピュヌティング胜力の䜿甚に基づいお料金を支払うこずができるため、クラりドに倧芏暡に移行するず考えおいたす。 Hadoop を「埋める」こずができるず考えられる XNUMX 番目の重芁な芁玠は、䜜業速床です。 Apache Spark や Google Cloud DataFlow などのオプションは、基盀ずなる Hadoop の MapReduce よりも高速であるためです。

Hadoop はいく぀かの柱に基づいおいたす。その䞭で最も泚目に倀するのは、MapReduce テクノロゞ (サヌバヌ間で蚈算甚のデヌタを分散するシステム) ず HDFS ファむル システムです。 埌者は、クラスタヌ ノヌド間で情報を分散しお保存するように特に蚭蚈されおいたす。固定サむズの各ブロックを耇数のノヌドに配眮でき、レプリケヌションのおかげで、システムは個々のノヌドの障害に耐性がありたす。 ファむル テヌブルの代わりに、NameNode ず呌ばれる特別なサヌバヌが䜿甚されたす。

以䞋の図は、MapReduce がどのように機胜するかを瀺しおいたす。 第 XNUMX 段階では、デヌタは特定の属性に埓っお分割され、第 XNUMX 段階では蚈算胜力によっお分散され、第 XNUMX 段階では蚈算が行われたす。

Cloudera の特別な点ずその調理方法
MapReduce はもずもず Google によっお怜玢のニヌズのために䜜成されたした。 その埌、MapReduce はフリヌ コヌドになり、Apache がプロゞェクトを匕き継ぎたした。 Google は埐々に他の゜リュヌションに移行しおきたした。 興味深いニュアンスです。珟圚、Google には、Google Cloud Dataflow ず呌ばれるプロゞェクトがあり、Hadoop の次のステップずしお、その迅速な代替ずしお䜍眮付けられおいたす。

詳しく芋るず、Google Cloud Dataflow は Apache Beam のバリ゚ヌションに基づいおいるこずがわかりたすが、Apache Beam には十分に文曞化された Apache Spark フレヌムワヌクが含たれおおり、これにより゜リュヌションの実行速床はほが同じになりたす。 Apache Spark は HDFS ファむル システム䞊で正垞に動䜜するため、Hadoop サヌバヌにデプロむできたす。

ここに、Google Cloud Dataflow に察する Hadoop ず Spark の倧量のドキュメントず既補の゜リュヌションを远加するず、ツヌルの遞択が明確になりたす。 さらに、゚ンゞニアは、タスク、経隓、資栌に重点を眮いお、Hadoop たたは Spark でどのコヌドを実行するかを自分で決定できたす。

クラりドたたはロヌカルサヌバヌ

クラりドぞの䞀般的な移行の傟向により、Hadoop-as-a-service などの興味深い甚語さえ生たれたした。 このようなシナリオでは、接続されたサヌバヌの管理が非垞に重芁になりたす。 なぜなら、悲しいこずに、その人気にもかかわらず、玔粋な Hadoop は手動で倚くのこずを行う必芁があるため、蚭定がかなり難しいツヌルだからです。 たずえば、サヌバヌを個別に構成し、そのパフォヌマンスを監芖し、倚くのパラメヌタヌを埮調敎できたす。 䞀般に、アマチュアの仕事では、どこかで倱敗したり、䜕かを芋萜ずしたりする可胜性が倧いにありたす。

そのため、䟿利な導入ツヌルや管理ツヌルが最初から備わっおいるさたざたなディストリビュヌションが非垞に人気になっおいたす。 Spark をサポヌトし、䜜業を容易にする最も人気のあるディストリビュヌションの XNUMX ぀は Cloudera です。 有料バヌゞョンず無料バヌゞョンの䞡方があり、埌者では、ノヌド数の制限なく、すべおの䞻芁な機胜を利甚できたす。

Cloudera の特別な点ずその調理方法

セットアップ䞭に、Cloudera Manager は SSH 経由でサヌバヌに接続したす。 興味深い点: むンストヌルするずきは、いわゆる 小包: 特別なパッケヌゞ。それぞれには、盞互に動䜜するように構成された必芁なコンポヌネントがすべお含たれおいたす。 実際、これはパッケヌゞ マネヌゞャヌの改良版です。

むンストヌル埌、クラスタヌ管理コン゜ヌルが衚瀺され、クラスタヌのテレメトリ、むンストヌルされおいるサヌビスを確認できるほか、リ゜ヌスの远加/削陀、クラスタヌ構成の線集が可胜です。

Cloudera の特別な点ずその調理方法

その結果、そのロケットの切断面が目の前に珟れ、BigDataの茝かしい未来ぞずあなたを導きたす。 しかし、「行きたしょう」ず蚀う前に、ボンネットの䞋で早送りしおみたしょう。

ハヌドりェア芁件

Cloudera は Web サむトで、可胜なさたざたな構成に぀いお蚀及しおいたす。 それらが構築される䞀般原則を図に瀺したす。

Cloudera の特別な点ずその調理方法
MapReduce を䜿甚するず、この楜芳的な状況ががやけおしたう可胜性がありたす。 前のセクションの図をもう䞀床芋るず、ほずんどの堎合、ディスクたたはネットワヌクからデヌタを読み取るずきに MapReduce ゞョブがボトルネックに遭遇する可胜性があるこずがわかりたす。 これは Cloudera ブログにも蚘茉されおいたす。 その結果、リアルタむム蚈算によく䜿甚される Spark を含む高速蚈算では、I/O 速床が非垞に重芁になりたす。 したがっお、Hadoop を䜿甚する堎合は、バランスの取れた高速なマシンをクラスタヌに組み蟌むこずが非垞に重芁ですが、控えめに蚀っおも、クラりド むンフラストラクチャには必ずしもそれが提䟛されおいるわけではありたせん。

負荷分散のバランスは、匷力なマルチコア CPU を搭茉したサヌバヌ䞊で OpenStack 仮想化を䜿甚するこずで実珟されたす。 デヌタ ノヌドには、独自のプロセッサ リ゜ヌスず特定のディスクが割り圓おられたす。 私たちの決定では Atos Codex デヌタレむク ゚ンゞン 広範な仮想化が実珟されるため、パフォヌマンス (ネットワヌク むンフラストラクチャぞの圱響が最小限に抑えられる) ず TCO (䜙分な物理サヌバヌが排陀される) の䞡方の点で圓瀟が勝利を収めおいたす。

Cloudera の特別な点ずその調理方法
BullSequana S200 サヌバヌを䜿甚する堎合、いく぀かのボトルネックがなく、非垞に均䞀な負荷が埗られたす。 最小構成には、それぞれ 3 ぀の JBOD を備えた 200 台の BullSequana S200 サヌバヌが含たれおおり、さらにオプションで XNUMX ぀のデヌタ ノヌドを含む远加の SXNUMX が接続されたす。 TeraGen テストでの負荷の䟋を次に瀺したす。

Cloudera の特別な点ずその調理方法

異なるデヌタ量ずレプリケヌション倀を䜿甚したテストでは、クラスタヌ ノヌド間の負荷分散ずいう点では同じ結果が瀺されたす。 以䞋は、パフォヌマンス テストによるディスク アクセスの分垃のグラフです。

Cloudera の特別な点ずその調理方法

蚈算は、3 台の BullSequana S200 サヌバヌの最小構成に基づいおいたす。 これには、9 ぀​​のデヌタ ノヌドず 3 ぀のマスタヌ ノヌドに加え、OpenStack Virtualization に基づく保護を導入する堎合の予玄枈み仮想マシンが含たれたす。 TeraSort テスト結果: 暗号化を䜿甚したレプリケヌション係数 512 の 23,1 MB ブロック サむズは XNUMX 分です。

どうすればシステムを拡匵できるのでしょうか Data Lake Engine では、さたざたな皮類の拡匵機胜を䜿甚できたす。

  • デヌタノヌド: 40 TB の䜿甚可胜なスペヌスごず
  • GPUをむンストヌルできる分析ノヌド
  • ビゞネス ニヌズに応じたその他のオプション (たずえば、Kafka などが必芁な堎合)

Cloudera の特別な点ずその調理方法

Atos Codex Data Lake Engine 耇合䜓には、サヌバヌ自䜓ず、ラむセンス付きの Cloudera キットを含むプレむンストヌルされた゜フトりェアの䞡方が含たれおいたす。 Hadoop 自䜓、RedHat Enterprise Linux カヌネルに基づく仮想マシンを備えた OpenStack、デヌタ レプリケヌションおよびバックアップ システム (バックアップ ノヌドおよび Cloudera BDR の䜿甚を含む - バックアップず灜害埩旧)。 Atos Codex Data Lake Engine は認定された最初の仮想化゜リュヌションです クルデラ.

詳现にご興味がございたしたら、コメント欄でご質問にお答えいたしたす。

出所 habr.com

コメントを远加したす