デヌタ ゚ンゞニアの職業で最も需芁の高いスキル

による 2019幎の統蚈, デヌタ゚ンゞニアは珟圚、他の職業よりも急速に需芁が高たっおいる職業です。 デヌタ ゚ンゞニアは、デヌタの凊理、倉換、保存に䜿甚されるパむプラむンずデヌタベヌスを䜜成および維持するずいう、組織内で重芁な圹割を果たしたす。 この職業の代衚者にはたずどのようなスキルが必芁ですか このリストはデヌタサむ゚ンティストに求められるものず異なりたすか? これらすべおに぀いおは、私の蚘事から孊ぶこずができたす。

どのテクノロゞヌ スキルが最も人気があるかを理解するために、2020 幎 XNUMX 月珟圚のデヌタ ゚ンゞニアのポゞションの求人を分析したした。 次に、その結​​果をデヌタ サむ゚ンティストの求人に関する統蚈ず比范したずころ、いく぀かの興味深い違いが明らかになりたした。

前眮きはこのくらいにしお、求人情報で最も頻繁に蚀及されるテクノロゞヌのトップ XNUMX を以䞋に瀺したす。

デヌタ ゚ンゞニアの職業で最も需芁の高いスキル

2020 幎のデヌタ ゚ンゞニアのポゞションで欠員䞭のテクノロゞヌに぀いおの蚀及

それを考えおみたしょう。

デヌタ゚ンゞニアの責任

今日、デヌタ ゚ンゞニアの仕事は組織にずっお非垞に重芁です。デヌタ ゚ンゞニアは、情報を保存し、他の埓業員が䜜業できる圢匏に倉換する責任を負いたす。 デヌタ ゚ンゞニアは、耇数の゜ヌスからデヌタをストリヌミングたたはバッチ凊理するためのパむプラむンを構築したす。 その埌、パむプラむンは抜出、倉換、読み蟌み操䜜 (぀たり ETL プロセス) を実行し、デヌタをさらなる䜿甚に適したものにしたす。 この埌、デヌタはより詳现な凊理のためにアナリストやデヌタ サむ゚ンティストに送信されたす。 最埌に、デヌタはダッシュボヌド、レポヌト、機械孊習モデルでその旅を終えたす。

私は、珟時点でデヌタ ゚ンゞニアの仕事においおどのテクノロゞヌが最も需芁があるかに぀いお結論を導くための情報を探しおいたした。

メ゜ッド

XNUMX぀の求人サむトから情報を集めたした。 SimplyHired, 確かに О モンスタヌ そしお、米囜居䜏者を察象ずした求人文の䞭で、「デヌタ ゚ンゞニア」に関連しおどのようなキヌワヌドが芋぀かったのかを調べたした。 このタスクのために、私はXNUMX぀のPythonラむブラリを䜿甚したした- ぀ながり申請 О 矎しいスヌプ。 キヌワヌドの䞭には、デヌタ サむ゚ンティストの求人を分析するための以前のリストに含たれおいたキヌワヌドず、デヌタ ゚ンゞニアの求人を読んで手動で遞択したキヌワヌドの䞡方を含めたした。 LinkedIn は、最埌にデヌタを収集しようずした埌に犁止されたため、゜ヌスのリストには含たれおいたせんでした。

キヌワヌドごずに、各サむトのテキスト総数からヒットする割合を個別に蚈算し、XNUMX ぀の゜ヌスの平均を蚈算したした。

結果

以䞋は、XNUMX ぀の珟堎すべおで最高スコアを獲埗した XNUMX の技術デヌタ ゚ンゞニアリング甚語です。

デヌタ ゚ンゞニアの職業で最も需芁の高いスキル

同じ数字を衚圢匏で瀺したす。

デヌタ ゚ンゞニアの職業で最も需芁の高いスキル

順番に行きたしょう。

結果の抂芁

調査察象の求人の XNUMX 分の XNUMX 以䞊に SQL ず Python の䞡方が含たれおいたす。 最初に勉匷するのはこれら XNUMX ぀のテクノロゞヌです。 Python は、デヌタの操䜜、Web サむトの䜜成、スクリプトの䜜成に䜿甚される非垞に人気のあるプログラミング蚀語です。 SQL Structured Query Language の略です。 これには、蚀語グルヌプによっお実装された暙準が含たれおおり、リレヌショナル デヌタベヌスからデヌタを取埗するために䜿甚されたす。 それはずっず前に出珟し、高い耐性があるこずが蚌明されおいたす。

求人の玄半数で Spark の名前が挙げられおいたす。 Apache Spark は、「ストリヌミング、SQL、機械孊習、グラフ凊理甚のモゞュヌルが組み蟌たれた統合ビッグデヌタ分析゚ンゞン」です。 これは、倧芏暡なデヌタベヌスを扱う人の間で特に人気がありたす。

AWS は求人情報の玄 45% に掲茉されおいたす。 これは、Amazon によっお補造されたクラりド コンピュヌティング プラットフォヌムです。 すべおのクラりド プラットフォヌムの䞭で最倧の垂堎シェアを持っおいたす。
次に Java ず Hadoop が続き、兄匟の割合は 40% を少し超えおいたす。 Java 広く話されおいる、実戊でテストされた蚀語です。 2019 幎スタック オヌバヌフロヌ開発者アンケヌト プログラマの間で恐怖を匕き起こす蚀語の䞭で2020䜍に遞ばれたした。 察照的に、Python は XNUMX 番目に愛されおいる蚀語でした。 Java 蚀語は Oracle によっお運営されおおり、Java 蚀語に぀いお知っおおくべきこずはすべお、XNUMX 幎 XNUMX 月の公匏ペヌゞのスクリヌンショットから理解できたす。

デヌタ ゚ンゞニアの職業で最も需芁の高いスキル

たるでタむムマシンに乗っおいるような気分だ
Apache Hadoopの ビッグ デヌタ甚のサヌバヌ クラスタヌで MapReduce プログラミング モデルを䜿甚したす。 珟圚、このモデルはたすたす廃止されおいたす。

次に、Hive、Scala、Kafka、NoSQL が衚瀺されたす。これらのテクノロゞヌはそれぞれ、提出された求人情報の XNUMX 分の XNUMX で蚀及されおいたす。 Apache Hive は、「SQL を䜿甚しお、分散ストアに存圚する倧芏暡なデヌタセットの読み取り、曞き蟌み、管理を容易にする」デヌタ りェアハりス ゜フトりェアです。 スカラ – ビッグデヌタを扱うずきに積極的に䜿甚されるプログラミング蚀語。 特に、Spark は Scala で䜜成されたした。 すでに述べた、恐れられおいる蚀語のランキングでは、Scala は XNUMX 䜍にランクされおいたす。 アパッチカフカ – ストリヌミング メッセヌゞを凊理するための分散プラットフォヌム。 デヌタをストリヌミングする手段ずしお非垞に人気がありたす。

NoSQLデヌタベヌス SQL ず察比しおください。 これらは、非リレヌショナル、非構造化、氎平スケヌラブルであるずいう点で異なりたす。 NoSQL はある皋床の人気を埗おいたすが、このアプロヌチの流行は、SQL に取っお代わる䞻芁なストレヌゞ パラダむムになるずの予蚀に至るたで、すでに終わったようです。

デヌタサむ゚ンティストの求人条件ずの比范

ここでは、デヌタ サむ゚ンスの雇甚者の間で最も䞀般的な XNUMX のテクノロゞヌ甚語を玹介したす。 このリストは、デヌタ ゚ンゞニアリングに関しお䞊で説明したのず同じ方法で取埗したした。

デヌタ ゚ンゞニアの職業で最も需芁の高いスキル

2020 幎のデヌタ サむ゚ンティストの求人におけるテクノロゞヌに関する蚀及

総数に぀いお蚀えば、以前に怜蚎されおいた採甚ず比范しお、欠員数は 28% 増加したした (12 察 013)。 デヌタ サむ゚ンティストの求人がデヌタ ゚ンゞニアよりも䞀般的ではないテクノロゞヌを芋おみたしょう。

デヌタ゚ンゞニアリングでより人気のある

以䞋のグラフは、平均差が 10% を超える、たたは -10% 未満であるキヌワヌドを瀺しおいたす。

デヌタ ゚ンゞニアの職業で最も需芁の高いスキル

デヌタ ゚ンゞニアずデヌタ サむ゚ンティストのキヌワヌド頻床における最倧の違い

AWS は最も顕著な増加を瀺しおいたす。デヌタ ゚ンゞニアリングでは、デヌタ サむ゚ンスよりも 25% 定期的に出珟しおいたす (それぞれ、求人総数の玄 45% ず 20%)。 違いは顕著です

同じデヌタを少し異なるプレれンテヌションで瀺したす。グラフでは、デヌタ ゚ンゞニアずデヌタ サむ゚ンティストの求人における同じキヌワヌドの結果が䞊べお衚瀺されおいたす。

デヌタ ゚ンゞニアの職業で最も需芁の高いスキル

デヌタ ゚ンゞニアずデヌタ サむ゚ンティストのキヌワヌド頻床における最倧の違い

私が泚目した次に倧きな飛躍は Spark でした。デヌタ ゚ンゞニアはビッグ デヌタを扱うこずがよくありたす。 カフカ たた、デヌタサむ゚ンティストの求人結果ず比范するず、20% 増加し、ほが 15 倍になりたす。 デヌタ転送は、デヌタ ゚ンゞニアの重芁な責務の XNUMX ぀です。 最埌に、Java、NoSQL、Redshift、SQL、Hadoop のデヌタ ゚ンゞニアリングの分野での蚀及数は XNUMX% 増加したした。

デヌタ゚ンゞニアリングではあたり人気がありたせん

次に、デヌタ ゚ンゞニアの求人でどのテクノロゞヌが人気が䜎いかを芋おみたしょう。
デヌタサむ゚ンス分野ず比范しお最も急激な枛少が芋られたのは、 Rそこでは圌は欠員の玄56に珟れたしたが、ここではわずか17でした。 印象的な。 R は科孊者や統蚈孊者が奜むプログラミング蚀語であり、䞖界で XNUMX 番目に恐れられおいる蚀語です。

SAS たた、デヌタ ゚ンゞニアの求人で芋぀かる頻床は倧幅に䜎く、その差は 14% です。 SAS は、統蚈ずデヌタを操䜜するために蚭蚈された独自の蚀語です。 興味深い点: 結果から刀断するず デヌタサむ゚ンティストの求人に関する私の調査、最近、他のどのテクノロゞヌよりも倚くの地䜍を倱いたした。

デヌタ゚ンゞニアリングずデヌタサむ゚ンスの䞡方で需芁がある

䞡方のセットの最初の XNUMX 䜍のうち XNUMX 䜍が同じであるこずに泚意しおください。 SQL、Python、Spark、AWS、Java、Hadoop、Hive、Scala が、デヌタ ゚ンゞニアリング業界ずデヌタ サむ゚ンス業界の䞡方でトップ XNUMX に入っおいたす。 以䞋のグラフでは、デヌタ ゚ンゞニアの雇甚䞻の間で最も人気のある XNUMX のテクノロゞヌが瀺されおおり、その隣にはデヌタ サむ゚ンティストの欠員率が瀺されおいたす。

デヌタ ゚ンゞニアの職業で最も需芁の高いスキル

提蚀

デヌタ ゚ンゞニアリングに興味がある堎合は、次のテクノロゞを習埗するこずをお勧めしたす。おおよその優先順䜍の順にリストしおいたす。

SQLを孊びたしょう。 私が PostgreSQL に傟いおいるのは、PostgreSQL がオヌプン゜ヌスであり、コミュニティで非垞に人気があり、成長段階にあるためです。 この蚀語の䜿甚方法は、曞籍『My Memorable SQL』から孊ぶこずができたす。パむロット版が入手可胜です。 ここで.

たずえ最もハヌドコアなレベルではなくおも、Python をマスタヌしおください。 My Memorable Python は初心者向けに特別に蚭蚈されおいたす。 で賌入できたす Amazon、電子コピヌたたは物理コピヌを遞択するか、pdf たたは epub 圢匏でダりンロヌドしたす このサむトに掲茉.

Python に慣れたら、デヌタのクリヌニングず凊理に䜿甚される Python ラむブラリである pandas に進みたす。 Python で蚘述できる胜力を必芁ずする䌁業 (そしおその倧郚分がこれです) で働くこずを目指しおいる堎合、デフォルトでパンダの知識があるものずみなされるこずは間違いありたせん。 珟圚、パンダを扱うための入門ガむドを完成させおいたす。 賌読するリリヌスの瞬間を逃さないために。

マスタヌAWS。 デヌタ ゚ンゞニアになりたいのであれば、クラりド プラットフォヌムが欠かせたせん。その䞭でも AWS が最も人気がありたす。 コヌスはずおも圹に立ちたした Linuxアカデミヌ勉匷しおいたずき Google Cloud でのデヌタ ゚ンゞニアリング, AWSでも良い玠材が揃っおいるず思いたす。

すでにこのリスト党䜓を完了しおいお、デヌタ ゚ンゞニアずしお雇甚䞻の目からさらに成長したいず考えおいる堎合は、ビッグ デヌタを扱うために Apache Spark を远加するこずをお勧めしたす。 デヌタ サむ゚ンティストの欠員に関する私の調査では関心が䜎䞋しおいるこずが瀺されたしたが、デヌタ ゚ンゞニアの間では䟝然ずしおほが XNUMX 番目の欠員にその関心が珟れおいたす。

最埌に

デヌタ ゚ンゞニアにずっお最も需芁の高いテクノロゞに関するこの抂芁がお圹に立おば幞いです。 アナリストの仕事がどうなっおいるのか気になる堎合は、こちらをお読みください。 私の他の蚘事。 幞せな゚ンゞニアリングを

出所 habr.com

コメントを远加したす