資料工程師職業中最受歡迎的技能

根據 2019年統計數據目前,資料工程師是一個需求成長速度比其他任何職業都快的職業。 資料工程師在組織中發揮關鍵作用 - 建立和維護用於處理、轉換和儲存資料的管道和資料庫。 這個職業的代表首先需要什麼技能? 這份清單與資料科學家的要求是否不同? 您將從我的文章中了解這一切。

我分析了 2020 年 XNUMX 月資料工程師職位的空缺,以了解哪些技術技能最受歡迎。 然後,我將結果與資料科學家職缺的統計數據進行了比較,發現了一些有趣的差異。

無需多言,以下是招聘啟事中最常提及的十大技術:

資料工程師職業中最受歡迎的技能

2020年資料工程師職缺中提及技術

讓我們弄明白。

資料工程師的職責

如今,資料工程師所做的工作對於組織來說非常重要 - 這些人負責儲存資訊並將其轉化為其他員工可以使用的形式。 資料工程師建立管道來串流或批次來自多個來源的資料。 然後管道執行提取、轉換和載入操作(即 ETL 過程),使資料更適合進一步使用。 之後,數據被提交給分析師和數據科學家進行更深入的處理。 最後,數據在儀表板、報告和機器學習模型中結束其旅程。

我正在尋找信息,以便我得出結論,了解目前資料工程師的工作中最需要哪些技術。

方法

我從三個求職網站收集了資訊 - SimplyHired, 確實 и Monster 並研究了針對美國居民的職缺文本中與「資料工程師」相關的關鍵字。 這個任務,我使用了兩個 Python 函式庫 - 要求 и 美麗的湯。 在關鍵字中,我既包含了先前用於分析資料科學家職缺的清單中包含的關鍵字,也包含了我在閱讀資料工程師職缺時手動選擇的關鍵字。 LinkedIn 沒有包含在來源清單中,因為我在上次嘗試收集資料後被禁止在那裡。

對於每個關鍵字,我分別計算了每個網站上文字總數的點擊率百分比,然後計算三個來源的平均值。

Результаты

以下是在所有三個工作網站中得分最高的 XNUMX 個技術資料工程術語。

資料工程師職業中最受歡迎的技能

以下是相同的數字,但以表格呈現:

資料工程師職業中最受歡迎的技能

我們按順序走吧。

結果審查

SQL 和 Python 出現在超過三分之二的所審查的職缺中。 首先研究這兩項技術才有意義。 蟒蛇 是一種非常流行的程式語言,用於處理資料、建立網站和編寫腳本。 的SQL 代表結構化查詢語言; 它涉及一組語言實現的標準,用於從關聯式資料庫中檢索資料。 它很久以前就出現了,並且已經證明了自己具有很強的抵抗力。

大約一半的職位空缺提到了 Spark。 Apache Spark 是一個“統一的大數據分析引擎,具有用於串流、SQL、機器學習和圖形處理的內建模組。” 它在使用大型資料庫的人員中尤其受歡迎。

AWS 出現在大約 45% 的職缺發布中。 它是亞馬遜製造的雲端運算平台; 它在所有雲端平台中擁有最大的市場份額。
接下來是 Java 和 Hadoop——它們的兄弟佔 40% 多一點。 Java的 是一種被廣泛使用、經過考驗的語言 2019 年 Stack Overflow 開發者調查 在引起程式設計師恐懼的語言中被評為第十名。 相比之下,Python 是第二受歡迎的語言。 Java 語言由 Oracle 運行,您需要了解的所有資訊都可以從 2020 年 XNUMX 月的官方頁面截圖中了解。

資料工程師職業中最受歡迎的技能

就像乘坐時光機
阿帕奇Hadoop 使用 MapReduce 程式設計模型和伺服器叢集來處理大數據。 現在這種模式越來越被拋棄。

然後我們看到 Hive、Scala、Kafka 和 NoSQL——這些技術中的每一項都在提交的職缺的四分之一中被提及。 Apache Hive 是一款資料倉儲軟體,“可以輕鬆地使用 SQL 讀取、寫入和管理駐留在分散式儲存中的大型資料集。” 斯卡拉 – 一種在處理大數據時積極使用的程式語言。 特別是,Spark 是用 Scala 創建的。 在已經提到的令人畏懼的語言排名中,Scala 排名第十一位。 阿帕奇卡夫卡 – 用於處理串流訊息的分散式平台。 作為串流資料的一種方式非常流行。

NoSQL 數據庫 與 SQL 進行比較。 它們的不同之處在於它們是非關係型、非結構化的和水平可擴展的。 NoSQL 已經獲得了一定的流行度,但這種方法的熱潮,甚至預言它將取代 SQL 成為主導儲存範例,似乎已經結束。

與資料科學家職缺術語的比較

以下是資料科學雇主中最常見的 XNUMX 個技術術語。 我以與上述數據工程相同的方式獲得了此列表。

資料工程師職業中最受歡迎的技能

2020 年資料科學家職缺提及技術

如果我們談論總數,與先前考慮的招聘相比,空缺職位數量增加了 28%(12 比 013)。 讓我們看看哪些技術在資料科學家的職缺中比資料工程師的空缺中不太常見。

在數據工程中更受歡迎

下圖顯示了平均差異大於 10% 或小於 -10% 的關鍵字。

資料工程師職業中最受歡迎的技能

資料工程師和資料科學家之間關鍵字頻率的最大差異

AWS 的增幅最為顯著:資料工程領域的出現頻率比資料科學領域高出 25%(分別約佔職缺總數的 45% 和 20%)。 差異是顯而易見的!

這是相同的數據,但呈現方式略有不同 - 在圖表中,數據工程師和數據科學家職位空缺中相同關鍵字的結果並排放置。

資料工程師職業中最受歡迎的技能

資料工程師和資料科學家之間關鍵字頻率的最大差異

我注意到的下一個最大的飛躍是 Spark——資料工程師經常需要處理大數據。 卡夫卡 也增加了 20%,幾乎是資料科學家職缺結果的四倍。 資料傳輸是資料工程師的主要職責之一。 最後,Java、NoSQL、Redshift、SQL 和 Hadoop 資料工程領域的提及次數增加了 15%。

在數據工程中不太受歡迎

現在讓我們看看哪些技術在資料工程師職位中不太受歡迎。
與資料科學領域相比,下降幅度最大的時期是 R:在那裡,他出現在大約 56% 的職位空缺中,而在這裡,只有 17%。 感人的。 R是一種深受科學家和統計學家青睞的程式語言,是世界上第八大最令人恐懼的語言。

SAS 資料工程師職缺的頻率也顯著降低 - 差異為 14%。 SAS 是一種專為處理統計和資料而設計的專有語言。 有趣的一點:從結果來看 我對資料科學家職位空缺的研究,它最近失去了很多基礎——比任何其他技術都要多。

數據工程和數據科學領域都有需求

值得注意的是,兩組的前十個位置中有八個是相同的。 SQL、Python、Spark、AWS、Java、Hadoop、Hive 和 Scala 均進入資料工程和資料科學產業前十名。 在下圖中,您可以看到資料工程師雇主中最受歡迎的十五種技術,旁邊是資料科學家的空缺率。

資料工程師職業中最受歡迎的技能

建議

如果你想進入資料工程,我建議你掌握以下技術——我按照大概的優先順序列出了它們。

學習 SQL。 我傾向於 PostgreSQL,因為它是開源的,在社群中非常受歡迎,並且處於成長階段。 您可以從《My Memorable SQL》一書中學習如何使用該語言 - 其試用版本已推出 這裡.

掌握 Python,即使不是最核心的層次。 My Memorable Python 是專門為初學者設計的。 可在以下位置購買: Amazon,電子版或實體版,您可以選擇,或以 pdf 或 epub 格式下載 在那個網站上.

熟悉 Python 後,請繼續使用 pandas,這是一個用於資料清理和處理的 Python 庫。 如果您的目標是在一家需要 Python 編寫能力的公司工作(這是其中的大多數),那麼您可以確信預設情況下會假定您具備 pandas 知識。 我目前正在完成有關使用 pandas 的介紹指南 - 你可以 訂閱以免錯過釋放的時刻。

掌握AWS。 如果你想成為資料工程師,你就離不開雲端平台,而AWS是其中最受歡迎的。 課程對我幫助很大 Linux學院當我學習的時候 Google Cloud 上的資料工程,我認為他們在AWS上也會有很好的材料。

如果您已經完成了整個列表,並且希望在雇主眼中進一步成長為資料工程師,我建議添加 Apache Spark 來處理大數據。 儘管我對資料科學家職缺的研究表明人們對資料科學家職位的興趣有所下降,但在資料工程師中,幾乎每隔一個職缺就會出現這個職位。

終於

我希望您發現資料工程師最需要的技術概述很有用。 如果您想知道分析師的工作進展如何,請閱讀 我的另一篇文章。 快樂工程!

來源: www.habr.com

添加評論