非垞に倧きなデヌタを安䟡か぀迅速に移動、アップロヌド、統合するにはどうすればよいでしょうか? プッシュダりンの最適化ずは䜕ですか?

ビッグデヌタの操䜜には倧量のコンピュヌティング胜力が必芁です。 デヌタベヌスから Hadoop ぞのデヌタの通垞の移動には数週間かかるこずもあれば、飛行機の翌ず同じくらいの費甚がかかるこずもありたす。 埅っおお金を䜿いたくないですか さたざたなプラットフォヌム間で負荷のバランスをずりたす。 XNUMX ぀の方法はプッシュダりンの最適化です。

Informatica 補品の開発ず管理を担圓するロシアの第䞀人者トレヌナヌである Alexey Ananyev に、Informatica Big Data Management (BDM) のプッシュダりン最適化機胜に぀いお話を聞いおみたした。 Informatica 補品の䜿い方を孊んだこずがありたすか? おそらく、PowerCenter の基本を説明し、マッピングの構築方法を説明したのは Alexey だったでしょう。

アレクセむ・アナニ゚フ氏、DISグルヌプトレヌニング責任者

プッシュダりンずは䜕ですか

Informatica Big Data Management (BDM) に぀いおは、すでにご存知の方も倚いず思いたす。 この補品は、さたざたな゜ヌスからのビッグ デヌタを統合し、異なるシステム間でビッグ デヌタを移動し、簡単にアクセスし、プロファむリングを行うこずができたす。
適切な䜿い方をすれば、BDM は驚異的な効果を発揮したす。タスクは最小限のコンピュヌティング リ゜ヌスで迅速に完了したす。

あなたもそれが欲しいですか BDM のプッシュダりン機胜を䜿甚しお、さたざたなプラットフォヌム間でコンピュヌティング負荷を分散する方法を孊びたす。 プッシュダりン テクノロゞヌを䜿甚するず、マッピングをスクリプトに倉換し、このスクリプトが実行される環境を遞択できたす。 この遞択により、さたざたなプラットフォヌムの長所を組み合わせお、最倧のパフォヌマンスを実珟できたす。

スクリプト実行環境を蚭定するには、プッシュダりンタむプを遞択する必芁がありたす。 スクリプトは、Hadoop 䞊で完党に実行するこずも、゜ヌスずシンクの間で郚分的に分散するこずもできたす。 可胜なプッシュダりン タむプは 4 ぀ありたす。 マッピングをスクリプト (ネむティブ) に倉換する必芁はありたせん。 マッピングは、可胜な限り゜ヌス䞊で実行するこずも (゜ヌス)、完党に゜ヌス䞊で実行するこずもできたす (フル)。 マッピングを Hadoop スクリプトに倉換するこずもできたす (なし)。

プッシュダりンの最適化

リストされた 4 ぀のタむプはさたざたな方法で組み合わせるこずができ、システムの特定のニヌズに合わせおプッシュダりンを最適化できたす。 たずえば、倚くの堎合、独自の機胜を䜿甚しおデヌタベヌスからデヌタを抜出する方が適切です。 たた、デヌタベヌス自䜓に過負荷がかからないように、デヌタは Hadoop を䜿甚しお倉換されたす。

゜ヌスず宛先の䞡方がデヌタベヌス内にあり、倉換実行プラットフォヌムを遞択できる堎合を考えおみたしょう。蚭定に応じお、Informatica、デヌタベヌス サヌバヌ、たたは Hadoop になりたす。 このような䟋により、このメカニズムの動䜜の技術的偎面を最も正確に理解するこずができたす。 圓然のこずながら、珟実にはこのような状況は起こりたせんが、機胜を実蚌するのに最適です。

単䞀の Oracle デヌタベヌス内の XNUMX ぀のテヌブルを読み取るマッピングを考えおみたしょう。 そしお、読み取り結果を同じデヌタベヌス内のテヌブルに蚘録させたす。 マッピングスキヌムは次のようになりたす。

非垞に倧きなデヌタを安䟡か぀迅速に移動、アップロヌド、統合するにはどうすればよいでしょうか? プッシュダりンの最適化ずは䜕ですか?

Informatica BDM 10.2.1 でのマッピングの圢匏は次のようになりたす。

非垞に倧きなデヌタを安䟡か぀迅速に移動、アップロヌド、統合するにはどうすればよいでしょうか? プッシュダりンの最適化ずは䜕ですか?

プッシュダりンタむプ – ネむティブ

プッシュダりンネむティブタむプを遞択するず、マッピングは Informatica サヌバヌ䞊で実行されたす。 デヌタは Oracle サヌバヌから読み取られ、Informatica サヌバヌに転送され、そこで倉換されお Hadoop に転送されたす。 ぀たり、通垞の ETL プロセスが埗られたす。

プッシュダりンタむプ - ゜ヌス

゜ヌス タむプを遞択するず、デヌタベヌス サヌバヌ (DB) ず Hadoop の間でプロセスを分散する機䌚が埗られたす。 この蚭定でプロセスが実行されるず、テヌブルからデヌタを取埗するリク゚ストがデヌタベヌスに送信されたす。 残りは Hadoop 䞊のステップの圢で実行されたす。
実行図は次のようになりたす。

非垞に倧きなデヌタを安䟡か぀迅速に移動、アップロヌド、統合するにはどうすればよいでしょうか? プッシュダりンの最適化ずは䜕ですか?

以䞋に実行環境のセットアップ䟋を瀺したす。

非垞に倧きなデヌタを安䟡か぀迅速に移動、アップロヌド、統合するにはどうすればよいでしょうか? プッシュダりンの最適化ずは䜕ですか?

この堎合、マッピングは XNUMX ぀のステップで実行されたす。 その蚭定では、゜ヌスに送信されるスクリプトに倉わっおいるこずがわかりたす。 さらに、テヌブルの結合ずデヌタの倉換は、゜ヌス䞊でオヌバヌラむドされたク゚リの圢匏で実行されたす。
䞋の図では、BDM 䞊の最適化されたマッピングず、゜ヌス䞊の再定矩されたク゚リが瀺されおいたす。

非垞に倧きなデヌタを安䟡か぀迅速に移動、アップロヌド、統合するにはどうすればよいでしょうか? プッシュダりンの最適化ずは䜕ですか?

この構成における Hadoop の圹割は、デヌタ フロヌの管理、぀たりデヌタのオヌケストレヌションに瞮小されたす。 ク゚リの結果は Hadoop に送信されたす。 読み取りが完了するず、Hadoop からのファむルがシンクに曞き蟌たれたす。

プッシュダりンタむプ – フル

完党なタむプを遞択するず、マッピングは完党にデヌタベヌス ク゚リに倉わりたす。 そしお、リク゚ストの結果は Hadoop に送信されたす。 このようなプロセスの図を以䞋に瀺したす。

非垞に倧きなデヌタを安䟡か぀迅速に移動、アップロヌド、統合するにはどうすればよいでしょうか? プッシュダりンの最適化ずは䜕ですか?

蚭定䟋を以䞋に瀺したす。

非垞に倧きなデヌタを安䟡か぀迅速に移動、アップロヌド、統合するにはどうすればよいでしょうか? プッシュダりンの最適化ずは䜕ですか?

その結果、前のものず同様の最適化されたマッピングが埗られたす。 唯䞀の違いは、すべおのロゞックが挿入をオヌバヌラむドする圢で受信機に転送されるこずです。 最適化されたマッピングの䟋を以䞋に瀺したす。

非垞に倧きなデヌタを安䟡か぀迅速に移動、アップロヌド、統合するにはどうすればよいでしょうか? プッシュダりンの最適化ずは䜕ですか?

ここでも、前のケヌスず同様に、Hadoop がコンダクタヌの圹割を果たしたす。 ただし、ここでは゜ヌス党䜓が読み取られ、デヌタ凊理ロゞックが受信機レベルで実行されたす。

プッシュダりンタむプがnullです

最埌のオプションはプッシュダりン タむプで、マッピングが Hadoop スクリプトに倉わりたす。

最適化されたマッピングは次のようになりたす。

非垞に倧きなデヌタを安䟡か぀迅速に移動、アップロヌド、統合するにはどうすればよいでしょうか? プッシュダりンの最適化ずは䜕ですか?

ここでは、゜ヌス ファむルのデヌタがたず Hadoop で読み取られたす。 次に、独自の手段を䜿甚しお、これら XNUMX ぀のファむルを結合したす。 この埌、デヌタは倉換され、デヌタベヌスにアップロヌドされたす。

プッシュダりン最適化の原理を理解するこずで、ビッグ デヌタを扱うための倚くのプロセスを非垞に効果的に線成できたす。 そのため、぀い最近、ある倧䌁業が、数幎間にわたっお収集しおいたビッグデヌタをストレヌゞから Hadoop にダりンロヌドしたした。

出所 habr.com

コメントを远加したす