数据工程师职业中最受欢迎的技能

根据 2019年统计数据目前,数据工程师是一个需求增长速度比其他任何职业都快的职业。 数据工程师在组织中发挥着关键作用 - 创建和维护用于处理、转换和存储数据的管道和数据库。 这个职业的代表首先需要什么技能? 该列表与数据科学家的要求是否不同? 您将从我的文章中了解这一切。

我分析了 2020 年 XNUMX 月数据工程师职位的空缺,以了解哪些技术技能最受欢迎。 然后,我将结果与数据科学家职位空缺的统计数据进行了比较,发现了一些有趣的差异。

无需多言,以下是招聘启事中最常提及的十大技术:

数据工程师职业中最受欢迎的技能

2020年数据工程师职位空缺中提及技术

让我们理解。

数据工程师的职责

如今,数据工程师所做的工作对于组织来说非常重要 - 这些人负责存储信息并将其转化为其他员工可以使用的形式。 数据工程师构建管道来流式传输或批处理来自多个来源的数据。 然后管道执行提取、转换和加载操作(即 ETL 过程),使数据更适合进一步使用。 之后,数据被提交给分析师和数据科学家进行更深入的处理。 最后,数据在仪表板、报告和机器学习模型中结束其旅程。

我正在寻找信息,以便我得出结论,了解目前数据工程师的工作中最需要哪些技术。

方法

我从三个求职网站收集了信息 - SimplyHired, 的确 и 怪物 并研究了针对美国居民的职位空缺文本中与“数据工程师”相关的关键词。 对于这个任务,我使用了两个 Python 库 - 要求 и 美丽的汤。 在关键词中,我既包含了之前分析数据科学家职位空缺的列表中包含的关键词,也包含了我在阅读数据工程师职位空缺时手动选择的关键词。 LinkedIn 没有包含在来源列表中,因为我在上次尝试收集数据后被禁止在那里。

对于每个关键字,我分别计算了每个网站上文本总数的点击率百分比,然后计算三个来源的平均值。

结果

以下是在所有三个工作网站中得分最高的 XNUMX 个技术数据工程术语。

数据工程师职业中最受欢迎的技能

以下是相同的数字,但以表格形式呈现:

数据工程师职业中最受欢迎的技能

我们按顺序吧。

结果概述

SQL 和 Python 出现在超过三分之二的所审查的职位空缺中。 首先研究这两项技术才有意义。 蟒蛇 是一种非常流行的编程语言,用于处理数据、创建网站和编写脚本。 SQL 代表结构化查询语言; 它涉及一组语言实现的标准,用于从关系数据库中检索数据。 它很久以前就出现了,并且已经证明了自己具有很强的抵抗力。

大约一半的职位空缺提到了 Spark。 Apache Spark 是一个“统一的大数据分析引擎,具有用于流、SQL、机器学习和图形处理的内置模块。” 它在使用大型数据库的人员中尤其受欢迎。

AWS 出现在大约 45% 的职位发布中。 它是亚马逊制造的云计算平台; 它在所有云平台中拥有最大的市场份额。
接下来是 Java 和 Hadoop——它们的兄弟占 40% 多一点。 爪哇岛 是一种被广泛使用、经过考验的语言 2019 年 Stack Overflow 开发者调查 在引起程序员恐惧的语言中被评为第十名。 相比之下,Python 是第二受欢迎的语言。 Java 语言由 Oracle 运行,您需要了解的所有信息都可以从 2020 年 XNUMX 月的官方页面截图中了解。

数据工程师职业中最受欢迎的技能

就像乘坐时光机器
Apache Hadoop 使用 MapReduce 编程模型和服务器集群来处理大数据。 现在这种模式越来越被抛弃。

然后我们看到 Hive、Scala、Kafka 和 NoSQL——这些技术中的每一项都在提交的职位空缺的四分之一中被提及。 Apache Hive 是一种数据仓库软件,“可以轻松地使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。” 斯卡拉 – 一种在处理大数据时积极使用的编程语言。 特别是,Spark 是用 Scala 创建的。 在已经提到的令人畏惧的语言排名中,Scala 排名第十一位。 阿帕奇卡夫卡 – 用于处理流消息的分布式平台。 作为流数据的一种方式非常流行。

NoSQL 数据库 与 SQL 进行对比。 它们的不同之处在于它们是非关系型、非结构化的和水平可扩展的。 NoSQL 已经获得了一定的流行度,但这种方法的热潮,甚至预言它将取代 SQL 成为主导存储范例,似乎已经结束。

与数据科学家职位空缺术语的比较

以下是数据科学雇主中最常见的 XNUMX 个技术术语。 我以与上述数据工程相同的方式获得了此列表。

数据工程师职业中最受欢迎的技能

2020 年数据科学家职位空缺中提及技术

如果我们谈论总数,与之前考虑的招聘相比,空缺职位数量增加了 28%(12 比 013)。 让我们看看哪些技术在数据科学家的职位空缺中比数据工程师的空缺中不太常见。

在数据工程中更受欢迎

下图显示了平均差异大于 10% 或小于 -10% 的关键字。

数据工程师职业中最受欢迎的技能

数据工程师和数据科学家之间关键词频率的最大差异

AWS 的增幅最为显着:数据工程领域的出现频率比数据科学领域高出 25%(分别约占职位空缺总数的 45% 和 20%)。 差异是显而易见的!

这是相同的数据,但呈现方式略有不同 - 在图表中,数据工程师和数据科学家职位空缺中相同关键字的结果并排放置。

数据工程师职业中最受欢迎的技能

数据工程师和数据科学家之间关键词频率的最大差异

我注意到的下一个最大的飞跃是 Spark——数据工程师经常需要处理大数据。 卡夫卡 也增加了 20%,几乎是数据科学家职位空缺结果的四倍。 数据传输是数据工程师的主要职责之一。 最后,Java、NoSQL、Redshift、SQL 和 Hadoop 数据工程领域的提及次数增加了 15%。

在数据工程中不太受欢迎

现在让我们看看哪些技术在数据工程师职位中不太受欢迎。
与数据科学领域相比,下降幅度最大的时期是 R:在那里,他出现在大约 56% 的职位空缺中,而在这里,只有 17%。 感人的。 R是一种深受科学家和统计学家青睐的编程语言,是世界上第八大最令人恐惧的语言。

SAS 数据工程师职位空缺的频率也显着降低 - 差异为 14%。 SAS 是一种专为处理统计和数据而设计的专有语言。 有趣的一点:从结果来看 我对数据科学家职位空缺的研究,它最近失去了很多基础——比任何其他技术都要多。

数据工程和数据科学领域都有需求

值得注意的是,两组的前十个位置中有八个是相同的。 SQL、Python、Spark、AWS、Java、Hadoop、Hive 和 Scala 均进入数据工程和数据科学行业前十名。 在下图中,您可以看到数据工程师雇主中最流行的十五种技术,旁边是数据科学家的空缺率。

数据工程师职业中最受欢迎的技能

建议

如果你想进入数据工程,我建议你掌握以下技术——我按照大概的优先级顺序列出了它们。

学习 SQL。 我倾向于 PostgreSQL,因为它是开源的,在社区中非常受欢迎,并且正处于增长阶段。 您可以从《My Memorable SQL》一书中学习如何使用该语言 - 其试用版本已推出 这里.

掌握 Python,即使不是最核心的水平。 My Memorable Python 是专门为初学者设计的。 可以在以下位置购买: Amazon,电子版或实体版,您可以选择,或以 pdf 或 epub 格式下载 在这个网站上.

熟悉 Python 后,请继续使用 pandas,这是一个用于数据清理和处理的 Python 库。 如果您的目标是在一家需要 Python 编写能力的公司工作(这是其中的大多数),那么您可以确信默认情况下会假定您具备 pandas 知识。 我目前正在完成有关使用 pandas 的介绍性指南 - 你可以 订阅以免错过释放的时刻。

掌握AWS。 如果你想成为一名数据工程师,你就离不开云平台,而AWS是其中最受欢迎的。 课程对我帮助很大 Linux学院当我学习的时候 Google Cloud 上的数据工程,我认为他们在AWS上也会有很好的材料。

如果您已经完成了整个列表,并且希望在雇主眼中进一步成长为数据工程师,我建议添加 Apache Spark 来处理大数据。 尽管我对数据科学家职位空缺的研究表明人们对数据科学家职位的兴趣有所下降,但在数据工程师中,几乎每隔一个职位空缺就会出现这个职位。

终于

我希望您发现数据工程师最需要的技术概述很有用。 如果您想知道分析师的工作进展如何,请阅读 我的另一篇文章。 快乐工程!

来源: habr.com

添加评论