デヌタ ゚ンゞニアずは䜕者ですか?どうすればデヌタ ゚ンゞニアになるこずができたすか?

たたあったね 蚘事のタむトル自䜓がそれを物語っおいたす。 コヌス開始に向けお デヌタ゚ンゞニア デヌタ ゚ンゞニアずは䜕者なのかを理解しおおくこずをお勧めしたす。 蚘事には圹立぀リンクがたくさんありたす。 幞せな読曞。

デヌタ ゚ンゞニアずは䜕者ですか?どうすればデヌタ ゚ンゞニアになるこずができたすか?

デヌタ ゚ンゞニアリングの波を捉え、深淵に匕きずり蟌たれないようにするための簡単なガむド。

最近では誰もがデヌタサむ゚ンティストになりたいず考えおいるようです。 しかし、デヌタ゚ンゞニアリングに぀いおはどうでしょうか? 本質的に、これはデヌタ アナリストずデヌタ サむ゚ンティストの䞀皮のハむブリッドです。 デヌタ ゚ンゞニアは通垞、ワヌクフロヌ、凊理パむプラむン、ETL プロセスの管理を担圓したす。。 これらの機胜の重芁性により、これは珟圚、掻発に勢いを増しおいるもう XNUMX ぀の人気のある専門甚語です。

高い絊䞎ず膚倧な需芁は、この仕事が非垞に魅力的である理由のほんの䞀郚にすぎたせん。 ヒヌロヌの仲間入りをしたいなら、孊び始めるのに遅すぎるずいうこずはありたせん。 この蚘事では、最初の䞀歩を螏み出すために必芁な情報をすべおたずめたした。

それでは始めたしょう

デヌタ゚ンゞニアリングずは䜕ですか?

正盎に蚀うず、これより適切な説明はありたせん。

「科孊者は新しい星を発芋するこずはできたすが、䜜り出すこずはできたせん。 ゚ンゞニアに頌んでやっおもらう必芁があるだろう。」

–ゎヌドン・リンれむ・グレッグ

したがっお、デヌタ゚ンゞニアの圹割は非垞に重芁です。

名前が瀺すように、デヌタ ゚ンゞニアリングはデヌタ、぀たりデヌタの配信、保存、凊理に関係したす。 したがっお、゚ンゞニアの䞻なタスクは、信頌できるデヌタ むンフラストラクチャを提䟛するこずです。 AI のニヌズの階局を芋るず、デヌタ ゚ンゞニアリングが最初の 2  3 段階を占めたす。 収集、移動ず保管、デヌタの準備.

デヌタ ゚ンゞニアずは䜕者ですか?どうすればデヌタ ゚ンゞニアになるこずができたすか?

デヌタ゚ンゞニアっお䜕をするの

ビッグデヌタの出珟により、責任の範囲は劇的に倉化したした。 以前はこれらの専門家が Informatica ETL、Pentaho ETL、Talend などのツヌルを䜿甚しお倧芏暡な SQL ク゚リを䜜成し、デヌタを抜出しおいたしたが、珟圚ではデヌタ ゚ンゞニアの芁件が増加しおいたす。

デヌタ ゚ンゞニアのポゞションに空きがあるほずんどの䌁業には、次の芁件がありたす。

  • SQL ず Python に関する優れた知識。
  • クラりド プラットフォヌム、特にアマゟン りェブ サヌビスの経隓。
  • Java/Scala の知識があるこずが望たしい。
  • SQL および NoSQL デヌタベヌス (デヌタ モデリング、デヌタ りェアハりゞング) に぀いお十分に理解しおいるこず。

これらは重芁なものにすぎないこずに泚意しおください。 このリストから、デヌタ ゚ンゞニアは゜フトりェア開発ずバック゚ンドの分野の専門家であるず掚枬できたす。
たずえば、䌁業がさたざたな゜ヌスから倧量のデヌタを生成し始めた堎合、デヌタ ゚ンゞニアずしおのタスクは、情報の収集、その凊理、保管を敎理するこずです。

この堎合に䜿甚されるツヌルのリストは異なる堎合がありたす。すべおはデヌタの量、受信速床、異質性によっお異なりたす。 ほずんどの䌁業はビッグ デヌタをたったく扱わないため、集䞭リポゞトリ、いわゆるデヌタ りェアハりスずしお、デヌタをフィヌドする小さなスクリプト セットを備えた SQL デヌタベヌス (PostgreSQL、MySQL など) を䜿甚できたす。倉庫。

Google、Amazon、Facebook、Dropbox などの巚倧 IT 䌁業では、Python、Java、Scala の知識ずいうより高い芁件が求められたす。

  • ビッグ デヌタの経隓: Hadoop、Spark、Kafka。
  • アルゎリズムずデヌタ構造に関する知識。
  • 分散システムの基本を理解する。
  • Tableau や ElasticSearch などのデヌタ芖芚化ツヌルの経隓があれば尚可。

぀たり、ビッグデヌタ、぀たり高負荷での凊理ぞのシフトが明らかです。 これらの䌁業は、システムの耐障害性に察する芁件を匷化しおいたす。

デヌタ ゚ンゞニア vs. デヌタサむ゚ンティスト

デヌタ ゚ンゞニアずは䜕者ですか?どうすればデヌタ ゚ンゞニアになるこずができたすか?
さお、これは単玔で面癜い比范でしたが (個人的なものではありたせん)、実際にはもっず耇雑です。

たず、デヌタ サむ゚ンティストずデヌタ ゚ンゞニアの圹割ずスキルの定矩には倚くのあいたいさがあるこずを知っおおく必芁がありたす。 ぀たり、デヌタ ゚ンゞニアずしお成功するにはどのようなスキルが必芁なのか、混乱しやすいのです。 もちろん、䞡方の圹割に重耇する特定のスキルもありたす。 しかし、正反察のスキルも数倚くありたす。

デヌタ サむ゚ンスは本栌的なビゞネスですが、私たちは実践者が独自の分析を行うこずができる機胜的デヌタ サむ゚ンスの䞖界に向かっお進んでいたす。 デヌタ パむプラむンず統合デヌタ構造を有効にするには、デヌタ サむ゚ンティストではなくデヌタ ゚ンゞニアが必芁です。

デヌタ゚ンゞニアはデヌタサむ゚ンティストよりも需芁が高いのでしょうか?

- はい、キャロットケヌキを䜜る前に、たずニンゞンを集め、皮をむき、ストックする必芁がありたす。

デヌタ ゚ンゞニアはどのデヌタ サむ゚ンティストよりもプログラミングに぀いお理解しおいたすが、統蚈に関しおはその逆が圓おはたりたす。

ただし、デヌタ ゚ンゞニアには次のような利点がありたす。

圌/圌女がいないず、プロトタむプ モデル (デヌタ サむ゚ンティストから入手しお䜕らかの結果を生成した Python ファむル内のひどい品質のコヌドで構成されおいるこずがほずんど) の䟡倀はれロになる傟向がありたす。

デヌタ ゚ンゞニアがいないず、このコヌドはプロゞェクトになるこずはなく、ビゞネス䞊の問題を効果的に解決するこずはできたせん。 デヌタ ゚ンゞニアは、これらすべおを補品に倉えようずしおいたす。

デヌタ゚ンゞニアが知っおおくべき基本情報

デヌタ ゚ンゞニアずは䜕者ですか?どうすればデヌタ ゚ンゞニアになるこずができたすか?

したがっお、この仕事があなたの䞭に光をもたらし、あなたが熱意を持っおいるのであれば、それを孊ぶこずができ、必芁なスキルをすべお習埗しお、デヌタ ゚ンゞニアリングの分野で真のロックスタヌになるこずができたす。 そしお、はい、プログラミングスキルやその他の技術的な知識がなくおも、これを実行できたす。 難しいですが、可胜です

最初のステップは䜕ですか?

䜕が䜕であるかに぀いおの䞀般的なアむデアを持っおいる必芁がありたす。

たず、デヌタ ゚ンゞニアリングずはコンピュヌタヌ サむ゚ンスを指したす。 具䜓的には、効率的なアルゎリズムずデヌタ構造を理解する必芁がありたす。 次に、デヌタ ゚ンゞニアはデヌタを扱うため、デヌタベヌスの原理ずその基瀎ずなる構造を理解する必芁がありたす。

たずえば、埓来の B ツリヌ SQL デヌタベヌスは B ツリヌ デヌタ構造に基づいおおり、最新の分散リポゞトリでは LSM ツリヌやハッシュ テヌブルのその他の倉曎に基づいおいたす。

*これらの手順は玠晎らしい蚘事に基づいおいたす アディリダ・ハシュタモワ。 したがっお、ロシア語がわかる堎合は、この著者をサポヌトしお読んでください 圌の投皿.

1. アルゎリズムずデヌタ構造

適切なデヌタ構造を䜿甚するず、アルゎリズムのパフォヌマンスを倧幅に向䞊させるこずができたす。 理想的には、私たち党員が孊校でデヌタ構造ずアルゎリズムに぀いお孊ぶべきですが、これが取り䞊げられるこずはほずんどありたせん。 いずれにせよ、付き合うのに遅すぎるずいうこずはありたせん。
デヌタ構造ずアルゎリズムを孊ぶための私のお気に入りの無料コヌスは次のずおりです。

さらに、トヌマス コヌマンのアルゎリズムに関する叀兞的な著䜜も忘れないでください。 アルゎリズムの抂芁。 蚘憶をリフレッシュしたいずきに最適な参考曞です。

カヌネギヌ メロン倧孊の YouTube の玠晎らしいビデオでデヌタベヌスの䞖界に飛び蟌むこずもできたす。

2. SQLを孊ぶ

私たちの生掻党䜓がデヌタです。 そしお、このデヌタをデヌタベヌスから抜出するには、そのデヌタず同じ蚀語を「話す」必芁がありたす。

SQL (Structured Query Language) は、デヌタ ドメむンにおける通信蚀語です。 誰が䜕ず蚀おうず、SQL はこれたで生きおきたしたし、これからも非垞に長く生き続けるでしょう。

長い間開発に携わっおいる人なら、SQL が間もなく消滅するずいう噂が定期的に浮䞊しおいるこずにおそらく気づいおいるでしょう。 この蚀語は 70 幎代初頭に開発され、アナリスト、開発者、そしお単なる愛奜家の間で今でも非垞に人気がありたす。
SQL の知識がなければ、デヌタを取埗するために必然的にク゚リを䜜成する必芁があるため、デヌタ ゚ンゞニアリングでは䜕もするこずができたせん。 最新のビッグ デヌタ りェアハりスはすべお SQL をサポヌトしおいたす。

  • Amazonレッドシフト
  • HPバヌティカ
  • オラクル
  • SQLサヌバヌ

...その他にもたくさんありたす。

HDFS などの分散システムに栌玍されおいる倧芏暡なデヌタ局を分析するために、Apache Hive、Impala などの SQL ゚ンゞンが発明されたした。

SQLを孊ぶにはどうすればよいですか? ただ実践でやっおください。

これを行うには、次の優れたチュヌトリアルをチェックするこずをお勧めしたす。ちなみに、このチュヌトリアルは無料です。 モヌド分析.

  1. 侭間SQL
  2. SQL でのデヌタの結合

これらのコヌスが特別なのは、ブラりザヌで盎接 SQL ク゚リを䜜成しお実行できる察話型環境があるこずです。 リ゜ヌス 最新のSQL 䜙蚈なものにはならないだろう。 そしお、この知識を次のこずに応甚できたす。 リヌトコヌドのタスク デヌタベヌスセクションにありたす。

3. Python および Java/Scala でのプログラミング

なぜPythonプログラミング蚀語を孊ぶべきなのかに぀いおは、すでに蚘事に曞きたした Python vs R. AI、ML、デヌタサむ゚ンスに最適なツヌルの遞択。 Java ず Scala に関しおは、膚倧な量のデヌタを保存および凊理するツヌルのほずんどがこれらの蚀語で曞かれおいたす。 䟋えば

  • Apache Kafka (Scala)
  • Hadoop、HDFS (Java)
  • Apache Spark (Scala)
  • Apache Cassandra (Java)
  • HBase (Java)
  • Apache ハむブ (Java)

これらのツヌルがどのように機胜するかを理解するには、ツヌルが蚘述されおいる蚀語を知る必芁がありたす。 Scala の関数型アプロヌチを䜿甚するず、䞊列デヌタ凊理の問題を効果的に解決できたす。 残念ながら、Python は速床ず䞊列凊理を誇るこずができたせん。 䞀般に、耇数の蚀語ずプログラミング パラダむムの知識は、問題を解決するための幅広いアプロヌチに圹立ちたす。

Scala 蚀語に぀いお詳しく知るには、以䞋を読んでください。 Scala でのプログラミング 蚀語の䜜者から。 Twitter では優れた入門ガむドも公開しおいたす - スカラスクヌル.

Pythonに関しおは、私はそう思いたす 流暢なPython 最高の䞭玚レベルの本。

4. ビッグデヌタを扱うためのツヌル

以䞋は、ビッグ デヌタの䞖界で最も人気のあるツヌルのリストです。

  • Apache Spark
  • アパッチカフカ
  • Apache Hadoop (HDFS、HBase、Hive)
  • Apache Cassandra

倧芏暡なデヌタ ブロックの構築に関する詳现に぀いおは、この玠晎らしいドキュメントを参照しおください。 むンタラクティブな環境。 最も人気のあるツヌルは Spark ず Kafka です。 これらは間違いなく研究する䟡倀があり、内郚からどのように機胜するかを理解するこずをお勧めしたす。 ゞェむ・クレプス (『カフカ』の共著者) は 2013 幎に蚘念碑的な䜜品を出版したした ログ: リアルタむム デヌタ集玄の抜象化に぀いおすべおの゜フトりェア開発者が知っおおくべきこずちなみに、このタルムヌドの䞻なアむデアは、Apache Kafka の䜜成に䜿甚されたした。

5. クラりドプラットフォヌム

デヌタ ゚ンゞニアずは䜕者ですか?どうすればデヌタ ゚ンゞニアになるこずができたすか?

デヌタ ゚ンゞニアのポゞションぞの応募者の基本芁件のリストには、少なくずも XNUMX ぀のクラりド プラットフォヌムに関する知識が含たれおいたす。 雇甚䞻は Amazon Web Services を奜み、Google のクラりド プラットフォヌムが XNUMX 䜍、Microsoft Azure がトップ XNUMX を締めくくりたした。

Amazon EC2、AWS Lambda、Amazon S3、DynamoDB に぀いおの十分な知識が必芁です。

6. 分散システム

ビッグ デヌタを扱うずいうこずは、独立しお動䜜するコンピュヌタヌのクラスタヌが存圚し、クラスタヌ間の通信がネットワヌク経由で行われるこずを意味したす。 クラスタヌが倧きくなるほど、そのメンバヌ ノヌドで障害が発生する可胜性が高くなりたす。 優れたデヌタ サむ゚ンティストになるには、分散システムの問題ず既存の゜リュヌションを理解する必芁がありたす。 この地域は叀くお耇雑です。

アンドリュヌ・タネンバりムは、この分野の先駆者ずみなされおいたす。 理論を恐れない人には圌の本をお勧めしたす 「分散システム」、初心者にずっおは難しく思えるかもしれたせんが、スキルを磚くのに非垞に圹立ちたす。

私が考える デヌタ集玄型アプリケヌションの蚭蚈 (Martin Kleppmann 著) 最高の入門曞。 ずころで、マヌティンは玠晎らしいものを持っおいたす ブログ。 圌の研究は、ビッグデヌタを保存および凊理するための最新のむンフラストラクチャの構築に関する知識を䜓系化するのに圹立ちたす。
動画を芋たい方にはYoutubeの講座もありたす 分散型コンピュヌタシステム.

7. デヌタパむプラむン

デヌタ ゚ンゞニアずは䜕者ですか?どうすればデヌタ ゚ンゞニアになるこずができたすか?

デヌタ パむプラむンは、デヌタ ゚ンゞニアにずっお欠かすこずのできないものです。

ほずんどの堎合、デヌタ ゚ンゞニアはいわゆるデヌタ パむプラむンを構築したす。぀たり、デヌタをある堎所から別の堎所に配信するプロセスを䜜成したす。 これらは、倖郚サヌビスの API にアクセスしたり、SQL ク゚リを䜜成したり、デヌタを増匷しお、集䞭ストア (デヌタ りェアハりス) たたは非構造化デヌタ ストア (デヌタ レむク) に保存したりするカスタム スクリプトである可胜性がありたす。

芁玄するず、デヌタ ゚ンゞニアのための基本的なチェックリストです。

デヌタ ゚ンゞニアずは䜕者ですか?どうすればデヌタ ゚ンゞニアになるこずができたすか?

芁玄するず、次のこずをよく理解する必芁がありたす。

  • 情報システム;
  • ゜フトりェア開発 (アゞャむル、DevOps、蚭蚈手法、SOA);
  • 分散システムず䞊列プログラミング。
  • デヌタベヌスの基瀎 - 蚈画、蚭蚈、運甚、トラブルシュヌティング。
  • 実隓蚈画 - A/B テストを行っおコンセプトを蚌明し、信頌性、システム パフォヌマンスを刀断し、優れた゜リュヌションを迅速に提䟛するための信頌できるパスを開発したす。

これらはデヌタ ゚ンゞニアになるための芁件のほんの䞀郚です。そのため、デヌタ システム、情報システム、継続的デリバリヌ/展開/統合、プログラミング蚀語、およびその他のコンピュヌタヌ サむ゚ンスのトピック (すべおの分野ではありたせん) を孊び、理解しおください。

そしお最埌に、最埌に非垞に重芁なこずを蚀いたいず思いたす。

デヌタ ゚ンゞニアリングになるための道は、思っおいるほど簡単ではありたせん。 圌は蚱したせん、むラむラしたす、そしおあなたはこれに察しお準備ができおいなければなりたせん。 この旅の䞭には、諊めそうになる瞬間もあるかもしれたせん。 しかし、これは実際の䜜業であり、孊習のプロセスです。

最初からシュガヌコヌティングしないでください。 旅行の芁点は、できるだけ倚くのこずを孊び、新しい挑戊に備えるこずです。
この点をよく瀺しおいる玠晎らしい写真を芋぀けたした。

デヌタ ゚ンゞニアずは䜕者ですか?どうすればデヌタ ゚ンゞニアになるこずができたすか?

そしおはい、燃え尜き症候矀を避けお䌑むこずを忘れないでください。 これも非垞に重芁です。 幞運を

友達、この蚘事に぀いおどう思いたすか ご招埅したす 無料りェビナヌ、今日の20.00時に開催されたす。 りェビナヌでは、小芏暡䌁業たたは新興䌁業向けに効果的でスケヌラブルなデヌタ凊理システムを最小限のコストで構築する方法に぀いお説明したす。 挔習ずしお、Google Cloud デヌタ凊理ツヌルに぀いお孊びたす。 たたね

出所 habr.com

コメントを远加したす