根據
我分析了 2020 年 XNUMX 月資料工程師職位的空缺,以了解哪些技術技能最受歡迎。 然後,我將結果與資料科學家職缺的統計數據進行了比較,發現了一些有趣的差異。
無需多言,以下是招聘啟事中最常提及的十大技術:
2020年資料工程師職缺中提及技術
資料工程師的職責
如今,資料工程師所做的工作對於組織來說非常重要 - 這些人負責儲存資訊並將其轉化為其他員工可以使用的形式。 資料工程師建立管道來串流或批次來自多個來源的資料。 然後管道執行提取、轉換和載入操作(即 ETL 過程),使資料更適合進一步使用。 之後,數據被提交給分析師和數據科學家進行更深入的處理。 最後,數據在儀表板、報告和機器學習模型中結束其旅程。
我正在尋找信息,以便我得出結論,了解目前資料工程師的工作中最需要哪些技術。
方法
我從三個求職網站收集了資訊 -
對於每個關鍵字,我分別計算了每個網站上文字總數的點擊率百分比,然後計算三個來源的平均值。
Результаты
以下是在所有三個工作網站中得分最高的 XNUMX 個技術資料工程術語。
以下是相同的數字,但以表格呈現:
我們按順序走吧。
結果審查
SQL 和 Python 出現在超過三分之二的所審查的職缺中。 首先研究這兩項技術才有意義。
大約一半的職位空缺提到了 Spark。
AWS 出現在大約 45% 的職缺發布中。 它是亞馬遜製造的雲端運算平台; 它在所有雲端平台中擁有最大的市場份額。
接下來是 Java 和 Hadoop——它們的兄弟佔 40% 多一點。
就像乘坐時光機
然後我們看到 Hive、Scala、Kafka 和 NoSQL——這些技術中的每一項都在提交的職缺的四分之一中被提及。 Apache Hive 是一款資料倉儲軟體,“可以輕鬆地使用 SQL 讀取、寫入和管理駐留在分散式儲存中的大型資料集。”
與資料科學家職缺術語的比較
以下是資料科學雇主中最常見的 XNUMX 個技術術語。 我以與上述數據工程相同的方式獲得了此列表。
2020 年資料科學家職缺提及技術
如果我們談論總數,與先前考慮的招聘相比,空缺職位數量增加了 28%(12 比 013)。 讓我們看看哪些技術在資料科學家的職缺中比資料工程師的空缺中不太常見。
在數據工程中更受歡迎
下圖顯示了平均差異大於 10% 或小於 -10% 的關鍵字。
資料工程師和資料科學家之間關鍵字頻率的最大差異
AWS 的增幅最為顯著:資料工程領域的出現頻率比資料科學領域高出 25%(分別約佔職缺總數的 45% 和 20%)。 差異是顯而易見的!
這是相同的數據,但呈現方式略有不同 - 在圖表中,數據工程師和數據科學家職位空缺中相同關鍵字的結果並排放置。
資料工程師和資料科學家之間關鍵字頻率的最大差異
我注意到的下一個最大的飛躍是 Spark——資料工程師經常需要處理大數據。
在數據工程中不太受歡迎
現在讓我們看看哪些技術在資料工程師職位中不太受歡迎。
與資料科學領域相比,下降幅度最大的時期是
數據工程和數據科學領域都有需求
值得注意的是,兩組的前十個位置中有八個是相同的。 SQL、Python、Spark、AWS、Java、Hadoop、Hive 和 Scala 均進入資料工程和資料科學產業前十名。 在下圖中,您可以看到資料工程師雇主中最受歡迎的十五種技術,旁邊是資料科學家的空缺率。
建議
如果你想進入資料工程,我建議你掌握以下技術——我按照大概的優先順序列出了它們。
學習 SQL。 我傾向於 PostgreSQL,因為它是開源的,在社群中非常受歡迎,並且處於成長階段。 您可以從《My Memorable SQL》一書中學習如何使用該語言 - 其試用版本已推出
掌握 Python,即使不是最核心的層次。 My Memorable Python 是專門為初學者設計的。 可在以下位置購買:
熟悉 Python 後,請繼續使用 pandas,這是一個用於資料清理和處理的 Python 庫。 如果您的目標是在一家需要 Python 編寫能力的公司工作(這是其中的大多數),那麼您可以確信預設情況下會假定您具備 pandas 知識。 我目前正在完成有關使用 pandas 的介紹指南 - 你可以
掌握AWS。 如果你想成為資料工程師,你就離不開雲端平台,而AWS是其中最受歡迎的。 課程對我幫助很大
如果您已經完成了整個列表,並且希望在雇主眼中進一步成長為資料工程師,我建議添加 Apache Spark 來處理大數據。 儘管我對資料科學家職缺的研究表明人們對資料科學家職位的興趣有所下降,但在資料工程師中,幾乎每隔一個職缺就會出現這個職位。
終於
我希望您發現資料工程師最需要的技術概述很有用。 如果您想知道分析師的工作進展如何,請閱讀
來源: www.habr.com