根据
我分析了 2020 年 XNUMX 月数据工程师职位的空缺,以了解哪些技术技能最受欢迎。 然后,我将结果与数据科学家职位空缺的统计数据进行了比较,发现了一些有趣的差异。
无需多言,以下是招聘启事中最常提及的十大技术:
2020年数据工程师职位空缺中提及技术
数据工程师的职责
如今,数据工程师所做的工作对于组织来说非常重要 - 这些人负责存储信息并将其转化为其他员工可以使用的形式。 数据工程师构建管道来流式传输或批处理来自多个来源的数据。 然后管道执行提取、转换和加载操作(即 ETL 过程),使数据更适合进一步使用。 之后,数据被提交给分析师和数据科学家进行更深入的处理。 最后,数据在仪表板、报告和机器学习模型中结束其旅程。
我正在寻找信息,以便我得出结论,了解目前数据工程师的工作中最需要哪些技术。
方法
我从三个求职网站收集了信息 -
对于每个关键字,我分别计算了每个网站上文本总数的点击率百分比,然后计算三个来源的平均值。
结果
以下是在所有三个工作网站中得分最高的 XNUMX 个技术数据工程术语。
以下是相同的数字,但以表格形式呈现:
我们按顺序吧。
结果概述
SQL 和 Python 出现在超过三分之二的所审查的职位空缺中。 首先研究这两项技术才有意义。
大约一半的职位空缺提到了 Spark。
AWS 出现在大约 45% 的职位发布中。 它是亚马逊制造的云计算平台; 它在所有云平台中拥有最大的市场份额。
接下来是 Java 和 Hadoop——它们的兄弟占 40% 多一点。
就像乘坐时光机器
然后我们看到 Hive、Scala、Kafka 和 NoSQL——这些技术中的每一项都在提交的职位空缺的四分之一中被提及。 Apache Hive 是一种数据仓库软件,“可以轻松地使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。”
与数据科学家职位空缺术语的比较
以下是数据科学雇主中最常见的 XNUMX 个技术术语。 我以与上述数据工程相同的方式获得了此列表。
2020 年数据科学家职位空缺中提及技术
如果我们谈论总数,与之前考虑的招聘相比,空缺职位数量增加了 28%(12 比 013)。 让我们看看哪些技术在数据科学家的职位空缺中比数据工程师的空缺中不太常见。
在数据工程中更受欢迎
下图显示了平均差异大于 10% 或小于 -10% 的关键字。
数据工程师和数据科学家之间关键词频率的最大差异
AWS 的增幅最为显着:数据工程领域的出现频率比数据科学领域高出 25%(分别约占职位空缺总数的 45% 和 20%)。 差异是显而易见的!
这是相同的数据,但呈现方式略有不同 - 在图表中,数据工程师和数据科学家职位空缺中相同关键字的结果并排放置。
数据工程师和数据科学家之间关键词频率的最大差异
我注意到的下一个最大的飞跃是 Spark——数据工程师经常需要处理大数据。
在数据工程中不太受欢迎
现在让我们看看哪些技术在数据工程师职位中不太受欢迎。
与数据科学领域相比,下降幅度最大的时期是
数据工程和数据科学领域都有需求
值得注意的是,两组的前十个位置中有八个是相同的。 SQL、Python、Spark、AWS、Java、Hadoop、Hive 和 Scala 均进入数据工程和数据科学行业前十名。 在下图中,您可以看到数据工程师雇主中最流行的十五种技术,旁边是数据科学家的空缺率。
建议
如果你想进入数据工程,我建议你掌握以下技术——我按照大概的优先级顺序列出了它们。
学习 SQL。 我倾向于 PostgreSQL,因为它是开源的,在社区中非常受欢迎,并且正处于增长阶段。 您可以从《My Memorable SQL》一书中学习如何使用该语言 - 其试用版本已推出
掌握 Python,即使不是最核心的水平。 My Memorable Python 是专门为初学者设计的。 可以在以下位置购买:
熟悉 Python 后,请继续使用 pandas,这是一个用于数据清理和处理的 Python 库。 如果您的目标是在一家需要 Python 编写能力的公司工作(这是其中的大多数),那么您可以确信默认情况下会假定您具备 pandas 知识。 我目前正在完成有关使用 pandas 的介绍性指南 - 你可以
掌握AWS。 如果你想成为一名数据工程师,你就离不开云平台,而AWS是其中最受欢迎的。 课程对我帮助很大
如果您已经完成了整个列表,并且希望在雇主眼中进一步成长为数据工程师,我建议添加 Apache Spark 来处理大数据。 尽管我对数据科学家职位空缺的研究表明人们对数据科学家职位的兴趣有所下降,但在数据工程师中,几乎每隔一个职位空缺就会出现这个职位。
终于
我希望您发现数据工程师最需要的技术概述很有用。 如果您想知道分析师的工作进展如何,请阅读
来源: habr.com