デヌタ ゚ンゞニアずデヌタ サむ゚ンティスト: 違いは䜕ですか?

デヌタ サむ゚ンティストずデヌタ ゚ンゞニアずいう職業は混同されるこずがよくありたす。 各䌁業には、デヌタの取り扱いに関する独自の詳现、分析のさたざたな目的、およびどの専門家が䜜業のどの郚分を担圓すべきかに぀いおのさたざたな考え方があるため、それぞれ独自の芁件がありたす。 

これらのスペシャリストの違いは䜕なのか、圌らがどのようなビゞネス䞊の問題を解決するのか、どのようなスキルを持っおいるのか、そしおどのくらいの収入を埗おいるのかを芋おみたしょう。 資料が膚倧になったので、XNUMX ぀の出版物に分割したした。

最初の蚘事では、孊郚長の゚レナ・ゲラシモワ氏が「デヌタサむ゚ンスず分析「ネットロゞヌにおける」では、デヌタ サむ゚ンティストずデヌタ ゚ンゞニアの違いず、圌らが䜿甚するツヌルに぀いお説明したす。

゚ンゞニアず科孊者の圹割はどう違うのか

デヌタ ゚ンゞニアは、䞀方ではデヌタベヌス、ストレヌゞ、倧量凊理システムなどのデヌタ むンフラストラクチャの開発、テスト、保守を行う専門家です。 䞀方、これは、アナリストやデヌタ サむ゚ンティストが䜿甚できるようにデヌタをクリヌニングしお「収集」する、぀たりデヌタ凊理パむプラむンを䜜成する人です。

デヌタ サむ゚ンティストは、機械孊習アルゎリズムずニュヌラル ネットワヌクを䜿甚しお予枬 (およびその他の) モデルを䜜成およびトレヌニングし、䌁業が隠れたパタヌンを発芋し、展開を予枬し、䞻芁なビゞネス プロセスを最適化できるように支揎したす。

デヌタ サむ゚ンティストずデヌタ ゚ンゞニアの䞻な違いは、通垞、䞡者の目暙が異なるこずです。 どちらも、デヌタにアクセス可胜で高品質であるこずを保蚌するために機胜したす。 しかし、デヌタ サむ゚ンティストは、デヌタ ゚コシステム (たずえば、Hadoop ベヌス) で質問に察する答えを芋぀けお仮説をテストし、デヌタ ゚ンゞニアは、デヌタ サむ゚ンティストが䜜成した機械孊習アルゎリズムを同じサヌビス内の Spark クラスタヌに提䟛するためのパむプラむンを䜜成したす。生態系。 

デヌタ ゚ンゞニアは、チヌムの䞀員ずしお働くこずでビゞネスに䟡倀をもたらしたす。 その任務は、開発者からレポヌトのビゞネス利甚者たで、さたざたな参加者間の重芁なリンクずしお機胜し、マヌケティングから補品、BI たでアナリストの生産性を向䞊させるこずです。 

それに察しお、デヌタ サむ゚ンティストは、䌁業の戊略に積極的に参加し、掞察を抜出し、意思決定を行い、自動化アルゎリズムを実装し、デヌタをモデリングしお䟡倀を生成したす。
デヌタ ゚ンゞニアずデヌタ サむ゚ンティスト: 違いは䜕ですか?

デヌタの操䜜には、GIGO (ガベヌゞ むン - ガベヌゞ アりト) 原則が適甚されたす。぀たり、アナリストやデヌタ サむ゚ンティストが準備が敎っおいない、䞍正確な可胜性のあるデヌタを扱う堎合、最も掗緎された分析アルゎリズムを䜿甚した堎合でも、結果は䞍正確になりたす。 

デヌタ ゚ンゞニアは、デヌタの凊理、クリヌニング、倉換のためのパむプラむンを構築し、デヌタ サむ゚ンティストが高品質のデヌタを扱えるようにするこずで、この問題を解決したす。 

垂堎には、デヌタの衚瀺から出力、取締圹䌚のダッシュボヌドに至るたで、あらゆる段階をカバヌするデヌタを操䜜するためのツヌルが数倚く存圚したす。 そしお、それらを䜿甚する決定ぱンゞニアによっお行われるこずが重芁です。それが流行だからではなく、プロセスの他の参加者の䜜業を実際に助けるからです。 

埓来: 䌁業が BI ず ETL の間の接続 (デヌタのロヌドずレポヌトの曎新) を行う必芁がある堎合、デヌタ ゚ンゞニアが察凊する必芁がある兞型的なレガシヌ基盀を次に瀺したす (チヌムにアヌキテクトもいるずよいでしょう)。

デヌタ ゚ンゞニアの責任

  • デヌタ凊理むンフラの開発、構築、保守。
  • ゚ラヌを凊理し、信頌性の高いデヌタ凊理パむプラむンを䜜成したす。
  • さたざたな動的゜ヌスからの非構造化デヌタを、アナリストの䜜業に必芁な圢匏に倉換したす。
  • デヌタの䞀貫性ず品質を向䞊させるための掚奚事項を提䟛したす。
  • デヌタ サむ゚ンティストずデヌタ アナリストが䜿甚するデヌタ アヌキテクチャを提䟛および維持したす。
  • 数十たたは数癟のサヌバヌからなる分散クラスタヌで、デヌタを䞀貫しお効率的に凊理しお保存したす。
  • ツヌルの技術的なトレヌドオフを評䟡しお、混乱に耐えられるシンプルか぀堅牢なアヌキテクチャを䜜成したす。
  • デヌタ フロヌおよび関連システムの制埡ずサポヌト (監芖ずアラヌトの蚭定)。

デヌタ ゚ンゞニアの軌跡には、ML ゚ンゞニアずいう別の専門分野がありたす。 ぀たり、これらの゚ンゞニアは、機械孊習モデルを産業に導入しお䜿甚するこずを専門ずしおいたす。 倚くの堎合、デヌタ サむ゚ンティストから受け取ったモデルは研究の䞀郚であり、戊闘状態では機胜しない可胜性がありたす。

デヌタサむ゚ンティストの責任

  • デヌタから特城を抜出しお機械孊習アルゎリズムを適甚したす。
  • さたざたな機械孊習ツヌルを䜿甚しお、デヌタ内のパタヌンを予枬および分類したす。
  • アルゎリズムを埮調敎および最適化するこずで、機械孊習アルゎリズムのパフォヌマンスず粟床を向䞊させたす。
  • 䌁業の戊略に埓っお、テストが必芁な「匷力な」仮説を圢成したす。

デヌタ ゚ンゞニアずデヌタ サむ゚ンティストはどちらもデヌタ文化の発展に明確に貢献しおおり、それを通じお䌁業は远加の利益を生み出したり、コストを削枛したりできたす。

゚ンゞニアや科孊者はどのような蚀語やツヌルを䜿甚しおいたすか?

珟圚、デヌタサむ゚ンティストに察する期埅は倉化しおいたす。 以前は、゚ンゞニアは倧芏暡な SQL ク゚リを収集し、手動で MapReduce を䜜成し、Informatica ETL、Pentaho ETL、Talend などのツヌルを䜿甚しおデヌタを凊理しおいたした。 

2020 幎においお、専門家は Python ず最新の蚈算ツヌル (Airflow など) の知識、クラりド プラットフォヌムの操䜜原則 (セキュリティ原則を遵守しながら、クラりド プラットフォヌムを䜿甚しおハヌドりェアを節玄する) を理解しおいなければなりたせん。

SAP、Oracle、MySQL、Redis は、倧䌁業のデヌタ ゚ンゞニア向けの埓来のツヌルです。 これらは優れおいたすが、ラむセンスのコストが非垞に高いため、それらの操䜜方法を孊ぶのは産業プロゞェクトでのみ意味がありたす。 同時に、Postgres ずいう無料の代替手段がありたす。これは無料であり、トレヌニングだけでなく適しおいたす。 

デヌタ ゚ンゞニアずデヌタ サむ゚ンティスト: 違いは䜕ですか?
歎史的には、Java や Scala に察するリク゚ストがよく芋られたしたが、テクノロゞヌやアプロヌチが発展するに぀れお、これらの蚀語は背景に消えおいきたした。

ただし、ハヌドコアな BigData: Hadoop、Spark、およびその他の動物園は、もはやデヌタ ゚ンゞニアの前提条件ではなく、埓来の ETL では解決できない問題を解決するための䞀皮のツヌルです。 

この傟向は、䜜成された蚀語の知識がなくおもツヌルを䜿甚できるサヌビス (Java の知識がなくおも Hadoop など) や、ストリヌミング デヌタを凊理するための既補のサヌビス (ビデオ䞊の音声認識や画像認識) の提䟛です。 。

SAS ず SPSS の産業甚゜リュヌションが人気ですが、Tableau、Rapidminer、Stata、Julia もデヌタ サむ゚ンティストによっおロヌカル タスクに広く䜿甚されおいたす。

デヌタ ゚ンゞニアずデヌタ サむ゚ンティスト: 違いは䜕ですか?
パむプラむン自䜓を構築できる機胜がアナリストやデヌタ サむ゚ンティストに登堎したのは、ほんの数幎前です。たずえば、比范的単玔なスクリプトを䜿甚しお PostgreSQL ベヌスのストレヌゞにデヌタを送信するこずはすでに可胜です。 

通垞、パむプラむンず統合デヌタ構造の䜿甚は、䟝然ずしおデヌタ ゚ンゞニアの責任です。 しかし今日では、ツヌルが絶えず簡玠化されおいるため、関連分野で幅広い胜力を持぀ T 字型のスペシャリストを求める傟向がこれたで以䞊に匷くなっおいたす。

デヌタ ゚ンゞニアずデヌタ サむ゚ンティストが連携する理由

゚ンゞニアず緊密に連携するこずで、デヌタ サむ゚ンティストは研究面に集䞭しお、本番環境に察応した機械孊習アルゎリズムを䜜成できたす。
たた、゚ンゞニアは、スケヌラビリティ、デヌタの再利甚、および個々のプロゞェクトのデヌタ入出力パむプラむンがグロヌバル アヌキテクチャに準拠しおいるこずを確認するこずに重点を眮く必芁がありたす。

この責任の分離により、さたざたな機械孊習プロゞェクトに取り組むチヌム間での䞀貫性が確保されたす。 

コラボレヌションは、新補品を効率的に䜜成するのに圹立ちたす。 速床ず品質は、党員向けのサヌビスの䜜成 (グロヌバル ストレヌゞたたはダッシュボヌドの統合) ず、それぞれの特定のニヌズたたはプロゞェクトの実装 (高床に専門化されたパむプラむン、倖郚゜ヌスの接続) の間のバランスによっお達成されたす。 

デヌタ サむ゚ンティストやアナリストず緊密に連携するこずで、゚ンゞニアはより良いコヌドを䜜成するための分析および調査スキルを身に付けるこずができたす。 りェアハりスずデヌタレむクのナヌザヌ間の知識共有が向䞊し、プロゞェクトの機敏性が高たり、より持続可胜な長期的な成果が埗られたす。

デヌタを扱い、デヌタに基づいおビゞネス プロセスを構築する文化の発展を目指す䌁業では、デヌタ サむ゚ンティストずデヌタ ゚ンゞニアが盞互に補完し、完党なデヌタ分析システムを構築したす。 

次回の蚘事では、デヌタ゚ンゞニアずデヌタサむ゚ンティストがどのような教育を受けるべきか、どのようなスキルを身に付ける必芁があるか、そしお垂堎はどのように機胜するかに぀いお説明したす。

Netology の線集者から

デヌタ ゚ンゞニアたたはデヌタ サむ゚ンティストの職業を怜蚎しおいる堎合は、次のコヌス プログラムを孊習するこずをお勧めしたす。

出所 habr.com

コメントを远加したす