Sberスケヌルを持っおいるずき。 Hive および GreenPlum での Ab Initio の䜿甚

少し前、私たちはビッグ デヌタを操䜜するための ETL ツヌルを遞択するずいう問題に盎面したした。 以前に䜿甚しおいた Informatica BDM ゜リュヌションは、機胜が限られおいたため、私たちには合いたせんでした。 その䜿甚は、spark-submit コマンドを起動するためのフレヌムワヌクに瞮小されたした。 原則ずしお、私たちが毎日扱う倧量のデヌタを凊理できる類䌌補品は垂堎にはあたりありたせんでした。 結局、Ab Initioを遞択したした。 パむロット デモンストレヌション䞭、この補品は非垞に高いデヌタ凊理速床を瀺したした。 ロシア語では Ab Initio に関する情報がほずんどないため、Habré での経隓に぀いお話すこずにしたした。

Ab Initio には倚くの叀兞的な倉換ず珍しい倉換があり、そのコヌドは独自の PDL 蚀語を䜿甚しお拡匵できたす。 䞭小䌁業にずっお、このような匷力なツヌルは過剰である可胜性が高く、その機胜のほずんどは高䟡で未䜿甚である可胜性がありたす。 しかし、あなたのスケヌルがスベロフに近い堎合は、Ab Initio に興味があるかもしれたせん。

これは、䌁業が䞖界的に知識を蓄積しお゚コシステムを開発するのに圹立ち、開発者は ETL のスキルを向䞊させ、シェルの知識を向䞊させ、PDL 蚀語を習埗する機䌚を提䟛し、読み蟌みプロセスを芖芚的に把握し、開発を簡玠化するのに圹立ちたす。機胜郚品が豊富に含たれおいるためです。

この投皿では、Ab Initio の機胜に぀いお説明し、Hive および GreenPlum ずの動䜜の比范特性を瀺したす。

  • MDW フレヌムワヌクの説明ず、GreenPlum 向けのカスタマむズに関する䜜業
  • Hive ず GreenPlum の Ab Initio パフォヌマンスの比范
  • GreenPlum を準リアルタむム モヌドで䜿甚した Ab Initio の䜜業


この補品の機胜は非垞に幅広いため、孊習には倚くの時間がかかりたす。 ただし、適切な䜜業スキルず適切なパフォヌマンス蚭定があれば、デヌタ凊理の結果は非垞に優れおいたす。 開発者が Ab Initio を䜿甚するず、興味深い䜓隓が埗られたす。 これは ETL 開発の新しい考え方であり、ビゞュアル環境ずスクリプトのような蚀語によるダりンロヌド開発のハむブリッドです。

䌁業ぱコシステムを開発しおおり、このツヌルはこれたで以䞊に䟿利になっおいたす。 Ab Initio を䜿甚するず、珟圚のビゞネスに関する知識を蓄積し、その知識を䜿甚しお叀いビゞネスや新しいビゞネスを拡倧するこずができたす。 Ab Initio の代替には、ビゞュアル開発環境 Informatica BDM や非ビゞュアル開発環境 Apache Spark がありたす。

Ab Initioの説明

Ab Initio は、他の ETL ツヌルず同様、補品のコレクションです。

Sberスケヌルを持っおいるずき。 Hive および GreenPlum での Ab Initio の䜿甚

Ab Initio GDE (グラフィカル開発環境) は、開発者がデヌタ倉換を構成し、矢印の圢でデヌタ フロヌに接続するための環境です。 この堎合、そのような䞀連の倉換はグラフず呌ばれたす。

Sberスケヌルを持っおいるずき。 Hive および GreenPlum での Ab Initio の䜿甚

機胜コンポヌネントの入力および出力接続はポヌトであり、倉換内で蚈算されるフィヌルドが含たれたす。 実行順に矢印の圢でフロヌで結ばれた耇数のグラフをプランず呌びたす。

機胜コンポヌネントは数癟個ず膚倧です。 その倚くは高床に専門化されおいたす。 Ab Initio の埓来の倉換機胜は、他の ETL ツヌルよりも幅広い機胜を備えおいたす。 たずえば、Join には耇数の出力がありたす。 デヌタセットの接続結果に加えお、キヌを接続できなかった入力デヌタセットの出力レコヌドを取埗できたす。 たた、倉換操䜜の拒吊、゚ラヌ、ログを取埗するこずもできたす。これらはテキスト ファむルず同じ列で読み取っお、他の倉換で凊理できたす。

Sberスケヌルを持っおいるずき。 Hive および GreenPlum での Ab Initio の䜿甚

あるいは、たずえば、デヌタ レシヌバヌをテヌブルの圢匏で実䜓化し、同じ列でそこからデヌタを読み取るこずもできたす。

オリゞナルの倉圢もありたす。 たずえば、スキャン倉換には分析関数ず同様の機胜がありたす。 デヌタの䜜成、Excel の読み取り、正芏化、グルヌプ内での䞊べ替え、プログラムの実行、SQL の実行、DB ずの結合など、わかりやすい名前の倉換がありたす。グラフでは、パラメヌタの受け枡しやグラフぞのパラメヌタの受け枡しなど、実行時パラメヌタを䜿甚できたす。オペレヌティング システム。 グラフに枡される既補のパラメヌタヌのセットを含むファむルは、パラメヌタヌ セット (pset) ず呌ばれたす。

予想通り、Ab Initio GDE には EME (Enterprise Meta Environment) ず呌ばれる独自のリポゞトリがありたす。 開発者はロヌカル バヌゞョンのコヌドを操䜜し、開発結果を䞭倮リポゞトリにチェックむンする機䌚がありたす。

グラフの実行䞭たたは実行埌に、倉換を接続するフロヌをクリックしお、これらの倉換間で枡されるデヌタを確認するこずができたす。

Sberスケヌルを持っおいるずき。 Hive および GreenPlum での Ab Initio の䜿甚

任意のストリヌムをクリックしお、倉換が機胜した䞊列数、どの䞊列にロヌドされた行数ずバむト数など、远跡の詳现を確認するこずもできたす。

Sberスケヌルを持っおいるずき。 Hive および GreenPlum での Ab Initio の䜿甚

グラフの実行をフェヌズに分割し、䞀郚の倉換を最初に (れロフェヌズで) 実行する必芁があり、次の倉換を第 XNUMX フェヌズで実行し、次の倉換を第 XNUMX フェヌズで実行する必芁があるこずをマヌクするこずができたす。

倉換ごずに、いわゆるレむアりト (倉換が実行される堎所) を遞択できたす。䞊列なし、たたは䞊列スレッドで、その数を指定できたす。 同時に、倉換の実行䞭に Ab Initio が䜜成する䞀時ファむルをサヌバヌ ファむル システムず HDFS の䞡方に配眮できたす。

各倉換では、デフォルトのテンプレヌトに基づいお、シェルに䌌た独自のスクリプトを PDL で䜜成できたす。

PDL を䜿甚するず、倉換の機胜を拡匵でき、特に、実行時パラメヌタヌに応じお任意のコヌド フラグメントを (実行時に) 動的に生成できたす。

Ab Initio は、シェルを介した OS ずの統合もよく開発されおいたす。 具䜓的には、Sberbank は Linux ksh を䜿甚したす。 シェルず倉数を亀換し、グラフのパラメヌタヌずしお䜿甚できたす。 シェルから Ab Initio グラフの実行を呌び出し、Ab Initio を管理できたす。

Ab Initio GDE に加えお、他の倚くの補品が配信されたす。 オペレヌティング システムず呌ばれる独自の Co>Operation System がありたす。 ダりンロヌド フロヌをスケゞュヌルおよび監芖できる [コントロヌル] > [センタヌ] がありたす。 Ab Initio GDE よりもさらに原始的なレベルで開発を行うための補品がありたす。

MDW フレヌムワヌクの説明ず、GreenPlum 向けのカスタマむズに関する䜜業

ベンダヌは、自瀟の補品ずずもに、MDW (Metadata Driven Warehouse) 補品を提䟛しおいたす。これは、デヌタ りェアハりスたたはデヌタ ボルトにデヌタを远加する䞀般的なタスクを支揎するように蚭蚈されたグラフ コンフィギュレヌタヌです。

これには、カスタム (プロゞェクト固有) メタデヌタ パヌサヌず、すぐに䜿甚できる既補のコヌド ゞェネレヌタヌが含たれおいたす。

Sberスケヌルを持っおいるずき。 Hive および GreenPlum での Ab Initio の䜿甚
MDW は入力ずしお、デヌタ モデル、デヌタベヌス (Oracle、Teradata、たたは Hive) ぞの接続をセットアップするための構成ファむル、およびその他の蚭定を受け取りたす。 たずえば、プロゞェクト固有の郚分では、モデルをデヌタベヌスにデプロむしたす。 補品のすぐに䜿甚できる郚分では、デヌタをモデル テヌブルにロヌドするこずによっお、グラフずその構成ファむルが生成されたす。 この堎合、グラフ (および pset) は、゚ンティティの曎新に関する初期化および増分䜜業のいく぀かのモヌドに察しお䜜成されたす。

Hive ず RDBMS の堎合、初期化ず増分デヌタ曎新甚に異なるグラフが生成されたす。

Hive の堎合、受信デルタ デヌタは、曎新前にテヌブルにあったデヌタず Ab Initio Join を介しお接続されたす。 MDW のデヌタ ロヌダヌ (Hive ず RDBMS の䞡方) は、デルタから新しいデヌタを挿入するだけでなく、䞻キヌがデルタを受け取ったデヌタの関連期間を閉じたす。 さらに、デヌタの倉曎されおいない郚分を曞き換える必芁がありたす。 ただし、Hive には削陀たたは曎新操䜜がないため、これを行う必芁がありたす。

Sberスケヌルを持っおいるずき。 Hive および GreenPlum での Ab Initio の䜿甚

RDBMS の堎合、RDBMS には実際の曎新機胜があるため、増分デヌタ曎新のグラフがより最適に芋えたす。

Sberスケヌルを持っおいるずき。 Hive および GreenPlum での Ab Initio の䜿甚

受信したデルタはデヌタベヌス内の䞭間テヌブルにロヌドされたす。 この埌、デルタは曎新前にテヌブルにあったデヌタに接続されたす。 これは、生成された SQL ク゚リを䜿甚しお SQL を䜿甚しお実行されたす。 次に、SQL コマンド delete+insert を䜿甚しお、デルタからの新しいデヌタがタヌゲット テヌブルに挿入され、䞻キヌがデルタを受け取ったデヌタの関連期間が閉じられたす。
倉曎されおいないデヌタを曞き盎す必芁はありたせん。

そこで、Hive の堎合、Hive には曎新機胜がないため、MDW がテヌブル党䜓を曞き換える必芁があるずいう結論に達したした。 そしお、曎新時にデヌタを完党に曞き換える以䞊に優れたものはありたせん。 逆に RDBMS の堎合、補品の䜜成者はテヌブルの接続ず曎新を SQL の䜿甚に委ねる必芁があるず考えたした。

Sberbank のプロゞェクトのために、GreenPlum 甚のデヌタベヌス ロヌダヌの新しい再利甚可胜な実装を䜜成したした。 これは、MDW が Teradata 甚に生成したバヌゞョンに基づいお行われたした。 これに最も近くお最適だったのは、Oracle ではなく Teradata でした。なぜなら... も MPP システムです。 Teradata ず GreenPlum の䜜業方法ず構文は類䌌しおいるこずが刀明したした。

異なる RDBMS 間の MDW にずっお重芁な違いの䟋は次のずおりです。 GreenPlum では、Teradata ずは異なり、テヌブルを䜜成するずきに句を蚘述する必芁がありたす。

distributed by

Teradata は次のように曞いおいたす。

delete <table> all

、GreenPlumでは次のように曞きたす。

delete from <table>

Oracle では、最適化の目的で次のように蚘述したす。

delete from t where rowid in (<сПеЎОМеМОе t с ЎельтПй>)

、Teradata ず GreenPlum は次のように曞きたす。

delete from t where exists (select * from delta where delta.pk=t.pk)

たた、Ab Initio が GreenPlum ず連携するには、Ab Initio クラスタヌのすべおのノヌドに GreenPlum クラむアントをむンストヌルする必芁があるこずにも泚意しおください。 これは、クラスタヌ内のすべおのノヌドから同時に GreenPlum に接続したためです。 そしお、GreenPlum からの読み取りを䞊列にしお、各䞊列 Ab Initio スレッドが GreenPlum からデヌタの独自の郚分を読み取るためには、SQL ク゚リの「where」セクションに Ab Initio によっお理解される構造を配眮する必芁がありたした。

where ABLOCAL()

倉換デヌタベヌスから読み取ったパラメヌタを指定しお、この構造の倀を決定したす。

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

、コンパむルするず次のようになりたす

mod(sk,10)=3

、぀たりGreenPlum にパヌティションごずに明瀺的なフィルタヌを芁求する必芁がありたす。 他のデヌタベヌス (Teradata、Oracle) の堎合、Ab Initio はこの䞊列化を自動的に実行できたす。

Hive ず GreenPlum の Ab Initio パフォヌマンスの比范

Sberbank は、MDW で生成されたグラフのパフォヌマンスを Hive ずの関係および GreenPlum ずの関係で比范する実隓を実斜したした。 実隓の䞀環ずしお、Hive の堎合は Ab Initio ず同じクラスタヌ䞊に 5 ぀のノヌドがあり、GreenPlum の堎合は別のクラスタヌ䞊に 4 ぀のノヌドがありたした。 それらの。 Hive には、GreenPlum よりもハヌドりェア䞊の利点がありたした。

Hive ず GreenPlum でデヌタを曎新するずいう同じタスクを実行する XNUMX ぀のグラフのペアを怜蚎したした。 同時に、MDW コンフィギュレヌタヌによっお生成されたグラフが起動されたした。

  • ランダムに生成されたデヌタの Hive テヌブルぞの初期ロヌド + 増分ロヌド
  • 同じ GreenPlum テヌブルぞのランダムに生成されたデヌタの初期ロヌド + 増分ロヌド

どちらの堎合 (Hive ず GreenPlum) も、同じ Ab Initio クラスタヌ䞊の 10 個の䞊列スレッドぞのアップロヌドを実行したした。 Ab Initio では、蚈算甚の䞭間デヌタを HDFS に保存したした (Ab Initio では、HDFS を䜿甚した MFS レむアりトが䜿甚されたした)。 ランダムに生成されたデヌタの 200 行は、どちらの堎合も XNUMX バむトを占めおいたした。

結果は次のようになりたした。

ハむブ

Hive での初期読み蟌み

挿入された行
6 000 000
60 000 000
600 000 000

初期化期間
数秒でダりンロヌド
41
203
1 601

Hive での増分読み蟌み

䜿甚可胜な行数
実隓開始時のタヌゲットテヌブル
6 000 000
60 000 000
600 000 000

適甚されるデルタ ラむンの数
実隓䞭のタヌゲットテヌブル
6 000 000
6 000 000
6 000 000

むンクリメンタルの期間
数秒でダりンロヌド
88
299
2 541

グリヌンプラム:

GreenPlum での初期ロヌド

挿入された行
6 000 000
60 000 000
600 000 000

初期化期間
数秒でダりンロヌド
72
360
3 631

GreenPlum での増分読み蟌み

䜿甚可胜な行数
実隓開始時のタヌゲットテヌブル
6 000 000
60 000 000
600 000 000

適甚されるデルタ ラむンの数
実隓䞭のタヌゲットテヌブル
6 000 000
6 000 000
6 000 000

むンクリメンタルの期間
数秒でダりンロヌド
159
199
321

Hive ず GreenPlum の䞡方の初期読み蟌み速床はデヌタ量に盎線的に䟝存しおおり、ハヌドりェアが優れおいるずいう理由から、Hive の方が GreenPlum よりもわずかに速いこずがわかりたす。

Hive の増分読み蟌みも、タヌゲット テヌブルで利甚可胜な以前に読み蟌たれたデヌタの量に線圢的に䟝存し、ボリュヌムが増加するに぀れお非垞にゆっくりず進行したす。 これは、タヌゲットテヌブルを完党に曞き盎す必芁があるために発生したす。 これは、小さな倉曎を巚倧なテヌブルに適甚するこずは、Hive にずっお適切なナヌスケヌスではないこずを意味したす。

GreenPlum の増分ロヌドは、タヌゲット テヌブルで䜿甚可胜な以前にロヌドされたデヌタの量にほずんど䟝存せず、非垞に迅速に凊理されたす。 これは、SQL 結合ず削陀操䜜を可胜にする GreenPlum アヌキテクチャのおかげで起こりたした。

そのため、GreenPlum は削陀 + 挿入メ゜ッドを䜿甚しおデルタを远加したすが、Hive には削陀たたは曎新操䜜がないため、増分曎新䞭にデヌタ配列党䜓を完党に曞き盎す必芁がありたした。 倪字で匷調衚瀺されたセルの比范は、リ゜ヌスを倧量に消費するダりンロヌドを䜿甚するための最も䞀般的なオプションに察応しおいるため、最も明らかです。 このテストでは、GreenPlum が Hive を 8 倍䞊回っおいるこずがわかりたす。

GreenPlum を準リアルタむム モヌドで䜿甚した Ab Initio の䜜業

この実隓では、ランダムに生成されたデヌタのチャンクを䜿甚しお GreenPlum テヌブルをほがリアルタむムで曎新する Ab Initio の機胜をテストしたす。 これから䜜業する GreenPlum テヌブル dev42_1_db_usl.TESTING_SUBJ_org_finval に぀いお考えおみたしょう。

XNUMX ぀の Ab Initio グラフを䜿甚しお䜜業したす。

1) Graph Create_test_data.mp – 10 個の䞊列スレッドで 6 行のデヌタ ファむルを HDFS に䜜成したす。 デヌタはランダムであり、その構造はテヌブルに挿入できるように線成されおいたす。

Sberスケヌルを持っおいるずき。 Hive および GreenPlum での Ab Initio の䜿甚

Sberスケヌルを持っおいるずき。 Hive および GreenPlum での Ab Initio の䜿甚

2) グラフ mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset – 10 個の䞊列スレッドでテヌブルぞのデヌタ挿入を初期化するこずにより、MDW で生成されたグラフ (グラフ (1) によっお生成されたテスト デヌタが䜿甚されたす)

Sberスケヌルを持っおいるずき。 Hive および GreenPlum での Ab Initio の䜿甚

3) グラフ mdw_load.regulator.current.dev42_1_db_usl_testing_subj_org_finval.pset – グラフ (10) によっお生成された新しく受信したデヌタ (デルタ) の䞀郚を䜿甚しお、1 個の䞊列スレッドでテヌブルを増分曎新するために MDW によっお生成されたグラフ

Sberスケヌルを持っおいるずき。 Hive および GreenPlum での Ab Initio の䜿甚

以䞋のスクリプトを NRT モヌドで実行しおみたしょう。

  • 6 のテスト行を生成
  • 初期ロヌドを実行し、空のテヌブルに 6 のテスト行を挿入したす。
  • 増分ダりンロヌドを 5 回繰り返す
    • 6 のテスト行を生成
    • テヌブルぞの 6 個のテスト行の増分挿入を実行したす (この堎合、valid_to_ts 有効期限は叀いデヌタに蚭定され、同じ䞻キヌを持぀より新しいデヌタが挿入されたす)

このシナリオは、特定のビゞネス システムの実際の運甚モヌドを゚ミュレヌトしたす。新しいデヌタのかなりの郚分がリアルタむムで衚瀺され、すぐに GreenPlum に泚がれたす。

次に、スクリプトのログを芋おみたしょう。

2020-06-04 11:49:11 に Create_test_data.input.pset を開始したす。
2020-06-04 11:49:37 に Create_test_data.input.pset を完了したす
42-1-2020 06:04:11 に mdw_load.day_one.current.dev49_37_db_usl_testing_subj_org_finval.pset を開始したす。
42-1-2020 06:04:11 に mdw_load.day_one.current.dev50_42_db_usl_testing_subj_org_finval.pset を終了したす
2020-06-04 11:50:42 に Create_test_data.input.pset を開始したす。
2020-06-04 11:51:06 に Create_test_data.input.pset を完了したす
42-1-2020 06:04:11 に mdw_load.normal.current.dev51_06_db_usl_testing_subj_org_finval.pset を開始したす。
42-1-2020 06:04:11 に mdw_load.normal.current.dev53_41_db_usl_testing_subj_org_finval.pset を終了したす
2020-06-04 11:53:41 に Create_test_data.input.pset を開始したす。
2020-06-04 11:54:04 に Create_test_data.input.pset を完了したす
42-1-2020 06:04:11 に mdw_load.normal.current.dev54_04_db_usl_testing_subj_org_finval.pset を開始したす。
42-1-2020 06:04:11 に mdw_load.normal.current.dev56_51_db_usl_testing_subj_org_finval.pset を終了したす
2020-06-04 11:56:51 に Create_test_data.input.pset を開始したす。
2020-06-04 11:57:14 に Create_test_data.input.pset を完了したす
42-1-2020 06:04:11 に mdw_load.normal.current.dev57_14_db_usl_testing_subj_org_finval.pset を開始したす。
42-1-2020 06:04:11 に mdw_load.normal.current.dev59_55_db_usl_testing_subj_org_finval.pset を終了したす
2020-06-04 11:59:55 に Create_test_data.input.pset を開始したす。
2020-06-04 12:00:23 に Create_test_data.input.pset を完了したす
42-1-2020 06:04:12 に mdw_load.normal.current.dev00_23_db_usl_testing_subj_org_finval.pset を開始したす。
42-1-2020 06:04:12 に mdw_load.normal.current.dev03_23_db_usl_testing_subj_org_finval.pset を終了したす
2020-06-04 12:03:23 に Create_test_data.input.pset を開始したす。
2020-06-04 12:03:49 に Create_test_data.input.pset を完了したす
42-1-2020 06:04:12 に mdw_load.normal.current.dev03_49_db_usl_testing_subj_org_finval.pset を開始したす。
42-1-2020 06:04:12 に mdw_load.normal.current.dev06_46_db_usl_testing_subj_org_finval.pset を終了したす

この写真は次のようになりたす。

グラフ
開始時刻
終了時間
長さ

Create_test_data.input.pset
04.06.2020 114911
04.06.2020 114937
00:00:26

mdw_load.day_one.current。
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 114937
04.06.2020 115042
00:01:05

Create_test_data.input.pset
04.06.2020 115042
04.06.2020 115106
00:00:24

mdw_load.normal.current。
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 115106
04.06.2020 115341
00:02:35

Create_test_data.input.pset
04.06.2020 115341
04.06.2020 115404
00:00:23

mdw_load.normal.current。
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 115404
04.06.2020 115651
00:02:47

Create_test_data.input.pset
04.06.2020 115651
04.06.2020 115714
00:00:23

mdw_load.normal.current。
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 115714
04.06.2020 115955
00:02:41

Create_test_data.input.pset
04.06.2020 115955
04.06.2020 120023
00:00:28

mdw_load.normal.current。
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 120023
04.06.2020 120323
00:03:00

Create_test_data.input.pset
04.06.2020 120323
04.06.2020 120349
00:00:26

mdw_load.normal.current。
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 120349
04.06.2020 120646
00:02:57

6 増分行が 000 分で凊理されるこずがわかりたす。これは非垞に高速です。
タヌゲットテヌブルのデヌタは次のように分散されおいるこずがわかりたした。

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Sberスケヌルを持っおいるずき。 Hive および GreenPlum での Ab Initio の䜿甚
挿入されたデヌタずグラフの開始時刻ずの察応を確認できたす。
これは、Ab Initio で GreenPlum ぞのデヌタの増分読み蟌みを非垞に高い頻床で実行でき、このデヌタが GreenPlum に高速で挿入されるこずを芳察できるこずを意味したす。 もちろん、Ab Initio は他の ETL ツヌルず同様、起動時に「起動」するのに時間がかかるため、XNUMX 秒に XNUMX 回起動するこずはできたせん。

たずめ

Ab Initio は珟圚、Sberbank で統合セマンティック デヌタ レむダヌ (ESS) を構築するために䜿甚されおいたす。 このプロゞェクトには、さたざたな銀行事業䜓の状態の統䞀バヌゞョンの構築が含たれたす。 情報はさたざたな゜ヌスから取埗され、そのレプリカが Hadoop 䞊に䜜成されたす。 ビゞネス ニヌズに基づいおデヌタ モデルが準備され、デヌタ倉換が蚘述されたす。 Ab Initio は情報を ESN にロヌドしたす。ダりンロヌドされたデヌタは、ビゞネス自䜓にずっお興味深いだけでなく、デヌタ マヌトを構築するための゜ヌスずしおも機胜したす。 同時に、この補品の機胜により、さたざたなシステム (Hive、Greenplum、Teradata、Oracle) を受信偎ずしお䜿甚できるため、ビゞネスに必芁なさたざたな圢匏でデヌタを簡単に準備するこずができたす。

Ab Initio の機胜は幅広く、たずえば、付属の MDW フレヌムワヌクを䜿甚するず、すぐに技術デヌタずビゞネス履歎デヌタを構築できたす。 開発者にずっお、Ab Initio を䜿甚するず、車茪の再発明ではなく、倚くの既存の機胜コンポヌネント (基本的にデヌタを操䜜するずきに必芁なラむブラリ) を䜿甚できるようになりたす。

著者は、Sberbank SberProfi DWH/BigData のプロフェッショナル コミュニティの専門家です。 SberProfi DWH/BigData プロフェッショナル コミュニティは、Hadoop ゚コシステム、Teradata、Oracle DB、GreenPlum、BI ツヌル Qlik、SAP BO、Tableau などの分野でのコンピテンシヌの開発を担圓しおいたす。

出所 habr.com

コメントを远加したす