Згідно з
Я проаналізував вакансії на позицію data engineer у тому вигляді, в якому вони перебувають у січні 2020 року, щоб зрозуміти, які вміння в галузі технологій користуються найбільшою популярністю. Потім я порівняв отримані результати зі статистикою з вакансій на позиції data scientist - при цьому відкрилися деякі цікаві відмінності.
Обійдемося без довгих передмов – ось топ-десять технологій, які згадуються у текстах вакансій найчастіше:
Згадування технологій у вакансіях на позицію data engineer у 2020 році
Обов'язки data engineer
На сьогоднішній день робота, яку виконують data engineers, має величезне значення для організацій – саме ці люди відповідають за зберігання інформації та наводять її у такий вигляд, щоб з іншими працівниками могли з нею працювати. Data engineers вибудовують пайплайни, щоб налагодити отримання даних, потоком чи пакетами, з багатьох джерел. Далі пайплайни здійснюють операції з вилучення, трансформації та завантаження (іншими словами, ETL-процеси), роблячи дані більш придатними для подальшого використання. Після цього дані віддаються аналітикам та data scientists для більш глибокої обробки. Нарешті, дані закінчують свою подорож інформаційними панелями, у звітах і моделях для машинного навчання.
Я шукав інформацію, яка дозволила б зробити висновок про те, які технології найбільш потрібні в роботі data engineer на даний момент.
Методи
Я збирав інформацію з трьох сайтів для пошуку роботи.
Для кожного ключового слова я підрахував відсоток попадань від загальної кількості текстів на кожному із сайтів окремо, а потім обчислив середнє значення за трьома джерелами.
Результати
Нижче представлено тридцять технічних термінів зі сфери data engineering із найвищими показниками по всіх трьох сайтах вакансій.
А ось ті самі цифри, але оформлені у вигляді таблиці:
Підемо по порядку.
Огляд результатів
І SQL, і Python фігурують у більш ніж двох третинах розглянутих вакансій. Саме ці дві технології мають сенс вивчати насамперед.
Про Spark йдеться приблизно о половині вакансій.
AWS потрапляє приблизно до 45% текстів вакансій. Це хмарна обчислювальна платформа виробництва Amazon; їй належить найбільша частка ринку серед усіх хмарних платформ.
Слідом йдуть Java та Hadoop – трохи більше 40% на брата.
Неначе на машині часу прокотився
Далі ми бачимо Hive, Scala, Kafka та NoSQL – кожна з цих технологій згадується у чверті представлених вакансій. Apache Hive – це програма-сховище даних, яка «спрощує читання, написання та керування великими наборами даних, що знаходяться в розподілених сховищах за допомогою SQL».
Порівняння з термінами у вакансіях data scientist
Ось тридцять технологічних термінів, найпоширеніших у роботодавців у сфері data science. Цей список я отримав тим же шляхом, що описував вище для data engineering.
Згадування технологій у вакансіях на позицію data scientist у 2020 році
Якщо говорити про загальну кількість, порівняно з розглянутим раннім набором, вакансій виявилося більше на 28% (12 проти 013). Давайте подивимося, які технології зустрічаються у вакансіях для data scientists рідше, ніж для data engineers.
Більш популярні у data engineering
На графіці нижче показані ключові слова із середньою відмінністю у значеннях більше 10% або менше -10%.
Найбільші відмінності у частотності ключових слів у data engineer та data scientist
Найбільший приріст виявляє AWS: у data engineering він з'являється на 25% регулярніше, ніж у data science (приблизно 45% і 20% від загальної кількості вакансій відповідно). Різниця відчутна!
Ось ті ж дані в трохи іншому уявленні - на графіку результати для одного і того ж ключового слова у вакансіях на позицію data engineer та data scientist розташовані пліч-о-пліч.
Найбільші відмінності у частотності ключових слів у data engineer та data scientist
Наступний за величиною стрибок я відзначив у Spark - data engineer часто доводиться працювати з великими даними.
Менш популярні у data engineering
Тепер давайте подивимося, які технології менш популярні у вакансіях для data engineer.
Найбільш різкий спад у порівнянні зі сферою data science стався у
Затребувані і в data engineering, і data science
Потрібно зауважити, що вісім із десяти перших позицій в обох наборах збігаються. SQL, Python, Spark, AWS, Java, Hadoop, Hive та Scala увійшли до десятки як для галузі data engineering, так і для data science. На графіку нижче ви можете побачити п'ятнадцять найпопулярніших технологій у роботодавців data engineers, а поряд – їхній показник по вакансіях для data scienctists.
Рекомендації
Якщо ви хочете займатися data engineering, я порадив би освоїти наступні технології – перераховую їх у порядку приблизної пріоритетності.
Вивчіть SQL. Я схиляю вас саме до PostgreSQL, тому що у нього відкритий код, велика популярність у співтоваристві і він перебуває у фазі зростання. Як користуватися мовою, можна дізнатися з книги My Memorable SQL – її пілотна версія доступна
Освойте Python, нехай не на хардкорному рівні. Книга My Memorable Python розрахована якраз на новачків. Її можна купити на
Як тільки познайомитеся з Python, переходьте до pandas – бібліотеки Python, яка застосовується для очищення та обробки даних. Якщо ви націлені на роботу в компанії, де потрібне вміння писати на Python (а таких більшість), можете бути впевнені, що знання pandas буде передбачатися за умовчанням. Я зараз закінчую вступний посібник для роботи з pandas – можете
Освойте AWS. Якщо хочете стати data engineer, без хмарної платформи у загашнику вам не обійтися, а AWS – найпопулярніша з них. Мені дуже допомогли курси
Якщо ви вже подужали весь цей список і хочете ще вирости в очах роботодавців як data engineer, пропоную додати Apache Spark для роботи з великими даними. Хоча моє дослідження з вакансій data science і показало спад інтересу, у data engineer-ів він все-таки з'являється майже в кожній другій вакансії.
Наостанок
Сподіваюся, цей огляд найпопулярніших технологій для data engineer здався вам корисним. Якщо вам цікаво, як справи у вакансіях у аналітиків, прочитайте
Джерело: habr.com