デヌタレむクは必芁ですか? デヌタ りェアハりスをどうするか?

この蚘事は、mediumに関する私の蚘事の翻蚳です。 デヌタレむクの䜿甚を開始するおそらくそのシンプルさのため、非垞に人気があるこずが刀明したした。 そこで、デヌタ りェアハりス (DW) ずは䜕か、デヌタ レむク (デヌタ レむク) ずは䜕か、そしおそれらがどのように機胜するのかを、デヌタの専門家ではない䞀般の人にわかりやすく説明するために、ロシア語で曞き、少し远加するこずにしたした。䞀緒に仲良くしたしょう。

なぜデヌタレむクに぀いお曞こうず思ったのでしょうか? 私は 10 幎以䞊デヌタず分析に取り組んできたした。珟圚は間違いなくボストンにあるケンブリッゞの Amazon Alexa AI でビッグデヌタを扱っおいたす。ただし、私はバンクヌバヌ島のビクトリアに䜏んでいお、ボストンやシアトルを頻繁に蚪れおいたす。バンクヌバヌ、そしお時にはモスクワでもカンファレンスで講挔したす。 私も時々曞きたすが、䞻に英語で曞いおおり、すでに曞いおいたす いく぀かの本, 私も北米の分析トレンドを共有する必芁があり、時々曞き蟌みたす。 電報.

私は垞にデヌタ りェアハりスを䜿っお仕事をしおきたしたが、2015 幎からアマゟン りェブ サヌビスず密接に連携し始め、通垞はクラりド分析 (AWS、Azure、GCP) に切り替えたした。 私は 2007 幎以来、分析゜リュヌションの進化を芳察しおきたした。さらに、デヌタ りェアハりス ベンダヌの Teradata で働き、Sberbank でそれを実装したした。そのずき、Hadoop を䜿甚したビッグ デヌタが登堎したした。 誰もが、ストレヌゞの時代は過ぎ、今はすべおが Hadoop 䞊にあるず蚀い始め、そしお再びデヌタ レむクに぀いお話し始め、今やデヌタ りェアハりスの終わりは確実に来おいるず蚀い始めたした。 しかし幞いなこずに (Hadoop のセットアップで倧金を皌いだ䞀郚の人にずっおは残念かもしれたせんが)、デヌタ りェアハりスは消滅したせんでした。

この蚘事では、デヌタレむクずは䜕かに぀いお説明したす。 この蚘事は、デヌタ りェアハりスの経隓がほずんどない、たたはたったくない人を察象ずしおいたす。

デヌタレむクは必芁ですか? デヌタ りェアハりスをどうするか?

写真はブレッド湖です。これは私のお気に入りの湖の䞀぀です。䞀床しか行ったこずがないのですが、䞀生芚えおいたす。 ただし、別のタむプのレむクであるデヌタ レむクに぀いお説明したす。 おそらく、この甚語に぀いおすでに䜕床も聞いたこずがある人も倚いでしょうが、もう XNUMX ぀定矩しおも、誰にも害はありたせん。

たず、デヌタ レむクの最も䞀般的な定矩を次に瀺したす。

「組織内の誰もが分析できる、あらゆる皮類の生デヌタのファむル ストレヌゞ」 - Martin Fowler。

「デヌタマヌトが粟補され、消費しやすいようにパッケヌゞ化された氎のボトルだず考えるず、デヌタレむクは自然な圢での氎の巚倧な貯氎池です。 ナヌザヌの皆さん、私は自分で氎を集めたり、深く朜ったり、探怜したりできたす」 - ゞェヌムズ・ディク゜ン。

デヌタ レむクは分析に関するものであり、倧量のデヌタを元の圢匏で保存でき、デヌタに必芁か぀䟿利にアクセスできるこずがわかりたした。

私は物事を単玔化するこずを奜みたす。耇雑な甚語を簡単な蚀葉で説明できれば、それがどのように機胜し、䜕に必芁なのかを自分で理解できたす。 ある日、私は iPhone のフォト ギャラリヌを芗いおいお、これが本物のデヌタ レむクであるこずに気づき、䌚議甚のスラむドも䜜成したした。

デヌタレむクは必芁ですか? デヌタ りェアハりスをどうするか?

すべおがずおもシンプルです。 携垯電話で写真を撮り、その写真は携垯電話に保存され、iCloud (クラりド ファむル ストレヌゞ) に保存できたす。 携垯電話は、衚瀺されおいる内容、地理的タグ、時間などの写真のメタデヌタも収集したす。 その結果、iPhone のナヌザヌフレンドリヌなむンタヌフェむスを䜿甚しお写真を芋぀けるこずができ、むンゞケヌタヌも衚瀺されたす。たずえば、「火」ずいう単語で写真を怜玢するず、火の画像が含たれた写真が 3 枚芋぀かりたす。 私にずっお、これは非垞に迅速か぀明確に機胜するビゞネス むンテリゞェンス ツヌルのようなものです。

そしおもちろん、セキュリティ (認可ず認蚌) を忘れおはなりたせん。そうしないず、デヌタが簡単にパブリック ドメむンになっおしたう可胜性がありたす。 開発者の過倱や簡単なルヌルに埓わなかったためにデヌタが公開された倧䌁業や新興䌁業に関するニュヌスがたくさんありたす。

このような単玔な図でも、デヌタ レむクずは䜕か、埓来のデヌタ りェアハりスずの違い、およびその䞻な芁玠を想像するのに圹立ちたす。

  1. デヌタのロヌド (取り蟌み) はデヌタ レむクの重芁なコンポヌネントです。 デヌタは、バッチ (䞀定間隔での読み蟌み) ずストリヌミング (デヌタ フロヌ) の XNUMX ぀の方法でデヌタ りェアハりスに入力できたす。
  2. ファむルストレヌゞ (ストレヌゞ) はデヌタ レむクの䞻芁コンポヌネントです。 ストレヌゞは簡単に拡匵可胜で、信頌性が高く、䜎コストであるこずが必芁でした。 たずえば、AWS では S3 です。
  3. カタログず怜玢 (カタログず怜玢) - デヌタの沌地 (すべおのデヌタを XNUMX ぀の山にダンプするず、そのデヌタを操䜜できなくなる状態) を避けるために、デヌタを分類するためのメタデヌタ レむダヌを䜜成する必芁がありたす。これにより、ナヌザヌは分析に必芁なデヌタを簡単に芋぀けるこずができたす。 さらに、ElasticSearch などの远加の怜玢゜リュヌションを䜿甚するこずもできたす。 怜玢は、ナヌザヌフレンドリヌなむンタヌフェむスを通じお必芁なデヌタを芋぀けるのに圹立ちたす。
  4. 凊理 (プロセス) - このステップはデヌタの凊理ず倉換を担圓したす。 デヌタの倉換、構造の倉曎、クリヌンアップなどを行うこずができたす。
  5. セキュリティ (セキュリティ) - ゜リュヌションのセキュリティ蚭蚈に時間を費やすこずが重芁です。 たずえば、保存、凊理、ロヌド䞭のデヌタの暗号化です。 認蚌および認可方法を䜿甚するこずが重芁です。 最埌に、監査ツヌルが必芁です。

実甚的な芳点から、デヌタ レむクは次の XNUMX ぀の属性によっお特城付けるこずができたす。

  1. あらゆるものを集めお保管する — デヌタ レむクには、任意の期間の未凊理の生デヌタず、凊理/クリヌンアップされたデヌタの䞡方を含むすべおのデヌタが含たれたす。
  2. ディヌプスキャン — デヌタレむクにより、ナヌザヌはデヌタを探玢および分析できたす。
  3. 柔軟なアクセス — デヌタ レむクは、さたざたなデヌタやさたざたなシナリオぞの柔軟なアクセスを提䟛したす。

ここで、デヌタ りェアハりスずデヌタ レむクの違いに぀いお説明したす。 通垞、人々は次のように尋ねたす。

  • デヌタりェアハりスに぀いおはどうですか?
  • デヌタ りェアハりスをデヌタ レむクに眮き換えるのでしょうか、それずも拡匵するのでしょうか?
  • デヌタレむクなしでも察応できたすか?

芁するに、明確な答えはありたせん。 それはすべお、特定の状況、チヌムのスキル、予算によっお異なりたす。 䟋えば、デヌタりェアハりスをOracleからAWSに移行し、Amazon子䌚瀟でデヌタレむクを構築する - Woot - デヌタ レむクのストヌリヌ: Woot.com が AWS 䞊にサヌバヌレス デヌタ レむクを構築した方法.

䞀方、ベンダヌの Snowflake は、同瀟のデヌタ プラットフォヌム (2020 幎たではデヌタ りェアハりスでした) ではデヌタ レむクずデヌタ りェアハりスの䞡方を組み合わせるこずができるため、デヌタ レむクに぀いお考える必芁がなくなったず述べおいたす。 私は Snowflake をあたり䜿ったこずはありたせんが、これができる本圓にナニヌクな補品です。 発行䟡栌は別問題です。

結論ずしお、私の個人的な意芋は、レポヌト甚の䞻なデヌタ ゜ヌスずしおデヌタ りェアハりスが䟝然ずしお必芁であり、適合しないものはすべおデヌタ レむクに保存するずいうこずです。 分析の党䜓的な圹割は、䌁業が意思決定を行うための簡単なアクセスを提䟛するこずです。 誰が䜕ず蚀おうず、ビゞネス ナヌザヌは、デヌタ レむクよりもデヌタ りェアハりスを䜿甚した方が効率的に䜜業できたす。たずえば、Amazon では、Redshift (分析デヌタ りェアハりス) ず Redshift Spectrum/Athena (S3 のデヌタ レむク甚の SQL むンタヌフェむスに基づく) がありたす。ハむブ/プレスト)。 他の最新の分析デヌタ りェアハりスにも同じこずが圓おはたりたす。

兞型的なデヌタ りェアハりス アヌキテクチャを芋おみたしょう。

デヌタレむクは必芁ですか? デヌタ りェアハりスをどうするか?

これは叀兞的な解決策です。 圓瀟には゜ヌス システムがあり、ETL/ELT を䜿甚しおデヌタを分析デヌタ りェアハりスにコピヌし、ビゞネス むンテリゞェンス ゜リュヌションに接続したす (私のお気に入りは Tableau ですが、あなたのものはどうですか?)。

この解決策には次のような欠点がありたす。

  • ETL/ELT 操䜜には時間ずリ゜ヌスが必芁です。
  • 䞀般に、分析デヌタ りェアハりスにデヌタを保存するためのメモリは、クラスタヌ党䜓を賌入する必芁があるため、安䟡ではありたせん (Redshift、BigQuery、Teradata など)。
  • ビゞネス ナヌザヌは、クリヌンアップされた、倚くの堎合集玄されたデヌタにアクセスできたすが、生デヌタにはアクセスできたせん。

もちろん、それはすべおあなたの堎合によりたす。 デヌタ りェアハりスに問題がない堎合、デヌタ レむクはたったく必芁ありたせん。 ただし、スペヌス䞍足、電力䞍足、たたは䟡栌が重芁な圹割を果たすずいう問題が発生した堎合は、デヌタ レむクのオプションを怜蚎できたす。 これが、デヌタレむクが非垞に人気がある理由です。 デヌタ レむク アヌキテクチャの䟋を次に瀺したす。
デヌタレむクは必芁ですか? デヌタ りェアハりスをどうするか?
デヌタ レむク アプロヌチを䜿甚しお、生デヌタをデヌタ レむク (バッチたたはストリヌミング) にロヌドし、必芁に応じおデヌタを凊理したす。 デヌタ レむクを䜿甚するず、ビゞネス ナヌザヌは独自のデヌタ倉換 (ETL/ELT) を䜜成したり、ビゞネス むンテリゞェンス ゜リュヌションでデヌタを分析したりできたす (必芁なドラむバヌが利甚可胜な堎合)。

分析゜リュヌションの目暙は、ビゞネス ナヌザヌにサヌビスを提䟛するこずです。 したがっお、私たちは垞にビゞネス芁件に埓っお䜜業する必芁がありたす。 (Amazon では、これが原則の XNUMX ぀であり、逆算しお䜜業したす)。

デヌタ りェアハりスずデヌタ レむクの䞡方を䜿甚しお、䞡方の゜リュヌションを比范できたす。

デヌタレむクは必芁ですか? デヌタ りェアハりスをどうするか?

導き出される䞻な結論は、デヌタ りェアハりスはデヌタ レむクず競合するものではなく、デヌタ レむクを補完するものであるずいうこずです。 しかし、あなたの堎合に䜕が正しいかを決めるのはあなた次第です。 自分で詊しお正しい結論を導き出すのは垞に興味深いものです。

私がデヌタレむクアプロヌチを䜿い始めたずきの事䟋もお話したいず思いたす。 すべおは非垞に些现なこずです。私は ELT ツヌル (Matillion ETL がありたした) ず Amazon Redshift を䜿甚しようずしたした。私の゜リュヌションは機胜したしたが、芁件には適合したせんでした。

りェブログを取埗し、倉換しお集玄し、次の 2 ぀のケヌスのデヌタを提䟛する必芁がありたした。

  1. マヌケティング チヌムは SEO のためにボットのアクティビティを分析したいず考えおいたした
  2. IT 郚門は Web サむトのパフォヌマンス指暙を調べたいず考えおいたした

ずおもシンプルな、ずおもシンプルなログです。 以䞋に䟋を瀺したす。

https 2018-07-02T22:23:00.186641Z app/my-loadbalancer/50dc6c495c0c9188 
192.168.131.39:2817 10.0.0.1:80 0.086 0.048 0.037 200 200 0 57 
"GET https://www.example.com:443/ HTTP/1.1" "curl/7.46.0" ECDHE-RSA-AES128-GCM-SHA256 TLSv1.2 
arn:aws:elasticloadbalancing:us-east-2:123456789012:targetgroup/my-targets/73e2d6bc24d8a067
"Root=1-58337281-1d84f3d73c47ec4e58577259" "www.example.com" "arn:aws:acm:us-east-2:123456789012:certificate/12345678-1234-1234-1234-123456789012"
1 2018-07-02T22:22:48.364000Z "authenticate,forward" "-" "-"

1 ぀のファむルの重さは 4  XNUMX メガバむトでした。

しかし、䞀぀難点がありたした。 䞖界䞭に 7 ぀のドメむンがあり、7000 日で 50 䞇個のファむルが䜜成されたした。 これはそれほど倧きなボリュヌムではなく、わずか 4 GB です。 しかし、Redshift クラスタヌのサむズも小さかったです (XNUMX ノヌド)。 埓来の方法で XNUMX ぀のファむルをロヌドするには、玄 XNUMX 分かかりたした。 ぀たり、問題は正面から解決されおいたせんでした。 デヌタ レむク アプロヌチを䜿甚するこずを決めたずきも同様でした。 解決策は次のようになりたす。

デヌタレむクは必芁ですか? デヌタ りェアハりスをどうするか?

これは非垞にシンプルです (クラりドで䜜業する利点はシンプルさであるこずに泚意しおください)。 私が䜿甚したのは

  • AWS Elastic Map Reduce (Hadoop) によるコンピュヌティング胜力の向䞊
  • デヌタを暗号化しアクセスを制限する機胜を備えたファむルストレヌゞずしおの AWS S3
  • InMemory コンピュヌティング胜力ずしおの Spark ず、ロゞックずデヌタ倉換のための PySpark
  • Spark の結果ずしおの寄朚现工
  • 新しいデヌタずパヌティションに関するメタデヌタコレクタヌずしおの AWS Glue クロヌラヌ
  • 既存の Redshift ナヌザヌ向けのデヌタレむクぞの SQL むンタヌフェむスずしおの Redshift Spectrum

最小の EMR+Spark クラスタヌは、ファむルのスタック党䜓を 30 分で凊理したした。 AWS には他にも事䟋があり、特に Alexa 関連の事䟋が倚く、倧量のデヌタが存圚したす。

぀い最近、デヌタレむクの欠点の XNUMX ぀が GDPR であるこずを知りたした。 問題は、クラむアントが削陀を芁求し、デヌタがファむルの XNUMX ぀にある堎合、デヌタベヌスのようなデヌタ操䜜蚀語ず DELETE 操䜜を䜿甚できないこずです。

この蚘事でデヌタ りェアハりスずデヌタ レむクの違いが明確になれば幞いです。 興味があれば、私の蚘事や読んだ専門家の蚘事をさらに翻蚳するこずができたす。 たた、私が取り組んでいる゜リュヌションずそのアヌキテクチャに぀いおも話したす。

出所 habr.com

コメントを远加したす