Найпопулярніші навички у професії data engineer

Згідно з статистиці 2019 року, data engineer на даний момент є професією, попит на яку зростає швидше за всіх інших. Data engineer відіграє в організації критично важливу роль – створює та підтримує в робочому стані пайплайни та бази даних, які використовуються для обробки, трансформації та зберігання даних. Які навички потрібні представникам цієї професії насамперед? Чи відрізняється список того, що потрібно від data scientists? Про все це ви дізнаєтесь із моєї статті.

Я проаналізував вакансії на позицію data engineer у тому вигляді, в якому вони перебувають у січні 2020 року, щоб зрозуміти, які вміння в галузі технологій користуються найбільшою популярністю. Потім я порівняв отримані результати зі статистикою з вакансій на позиції data scientist - при цьому відкрилися деякі цікаві відмінності.

Обійдемося без довгих передмов – ось топ-десять технологій, які згадуються у текстах вакансій найчастіше:

Найпопулярніші навички у професії data engineer

Згадування технологій у вакансіях на позицію data engineer у 2020 році

Давайте розбиратися.

Обов'язки data engineer

На сьогоднішній день робота, яку виконують data engineers, має величезне значення для організацій – саме ці люди відповідають за зберігання інформації та наводять її у такий вигляд, щоб з іншими працівниками могли з нею працювати. Data engineers вибудовують пайплайни, щоб налагодити отримання даних, потоком чи пакетами, з багатьох джерел. Далі пайплайни здійснюють операції з вилучення, трансформації та завантаження (іншими словами, ETL-процеси), роблячи дані більш придатними для подальшого використання. Після цього дані віддаються аналітикам та data scientists для більш глибокої обробки. Нарешті, дані закінчують свою подорож інформаційними панелями, у звітах і моделях для машинного навчання.

Я шукав інформацію, яка дозволила б зробити висновок про те, які технології найбільш потрібні в роботі data engineer на даний момент.

Методи

Я збирав інформацію з трьох сайтів для пошуку роботи. SimplyHired, Дійсно и монстр і дивився, які ключові слова трапляються у зв'язці з data engineer в текстах вакансій, розрахованих на жителів США. Для цього завдання я використовував дві бібліотеки Python. Запити и Гарний суп. До ключових слів я включав як ті, які входили до попереднього списку для аналізу вакансій на позицію data scientist, так і ті, які вручну відібрав, читаючи пропозиції про роботу для data engineers. LinkedIn до джерел не увійшов, оскільки мене там забанили після минулої спроби зібрати дані.

Для кожного ключового слова я підрахував відсоток попадань від загальної кількості текстів на кожному із сайтів окремо, а потім обчислив середнє значення за трьома джерелами.

Результати

Нижче представлено тридцять технічних термінів зі сфери data engineering із найвищими показниками по всіх трьох сайтах вакансій.

Найпопулярніші навички у професії data engineer

А ось ті самі цифри, але оформлені у вигляді таблиці:

Найпопулярніші навички у професії data engineer

Підемо по порядку.

Огляд результатів

І SQL, і Python фігурують у більш ніж двох третинах розглянутих вакансій. Саме ці дві технології мають сенс вивчати насамперед. Python – дуже популярна мова програмування, що використовується для роботи з даними, створення веб-сайтів та написання сценаріїв. SQL розшифровується як Structured Query Language (мова структурованих запитів); він передбачає стандарт, реалізований групою мов, і застосовується для отримання даних з реляційних баз. Він з'явився вже давно та зарекомендував себе високою стійкістю.

Про Spark йдеться приблизно о половині вакансій. Apache Spark - Це «об'єднаний аналітичний двигун для обробки великих даних з вбудованими модулями для потокової передачі, SQL, машинного навчання та обробки графів». Він користується особливою популярністю у тих, хто працює з базами даних великих розмірів.

AWS потрапляє приблизно до 45% текстів вакансій. Це хмарна обчислювальна платформа виробництва Amazon; їй належить найбільша частка ринку серед усіх хмарних платформ.
Слідом йдуть Java та Hadoop – трохи більше 40% на брата. Java – широко поширена, перевірена в боях мова, яка в опитування розробників на Stack Overflow 2019 року удостоївся десятого місця серед мов, що викликають жах у програмістів. На противагу йому, Python виявився другою з мов, які користуються найбільшою любов'ю. Мовою Java заправляє Oracle, і все, що про нього взагалі потрібно знати, можна зрозуміти з цього скріншота офіційної сторінки від січня 2020 року.

Найпопулярніші навички у професії data engineer

Неначе на машині часу прокотився
Apache Hadoop використовує програмну модель MapReduce із кластерами серверів для великих даних. Зараз від цієї моделі все частіше починають відмовлятися.

Далі ми бачимо Hive, Scala, Kafka та NoSQL – кожна з цих технологій згадується у чверті представлених вакансій. Apache Hive – це програма-сховище даних, яка «спрощує читання, написання та керування великими наборами даних, що знаходяться в розподілених сховищах за допомогою SQL». масштаб - мова програмування, що активно використовується при роботі з великими даними. Зокрема на Scala створювався Spark. У рейтингу, що вже згадувався, наводять страх мов Scala займає одинадцятий рядок. Апач Кафка - Розподілена платформа для обробки потокових повідомлень. Дуже популярна як потокової передачі даних.

Бази даних NoSQL протиставляють себе SQL. Вони відрізняються тим, що не реляційні, не структуровані і мають горизонтальну масштабованість. NoSQL завоював деяку популярність, проте гарячкове захоплення цим підходом, аж до пророцтв, що він змінить SQL як домінантну парадигму зберігання, схоже, вже позаду.

Порівняння з термінами у вакансіях data scientist

Ось тридцять технологічних термінів, найпоширеніших у роботодавців у сфері data science. Цей список я отримав тим же шляхом, що описував вище для data engineering.

Найпопулярніші навички у професії data engineer

Згадування технологій у вакансіях на позицію data scientist у 2020 році

Якщо говорити про загальну кількість, порівняно з розглянутим раннім набором, вакансій виявилося більше на 28% (12 проти 013). Давайте подивимося, які технології зустрічаються у вакансіях для data scientists рідше, ніж для data engineers.

Більш популярні у data engineering

На графіці нижче показані ключові слова із середньою відмінністю у значеннях більше 10% або менше -10%.

Найпопулярніші навички у професії data engineer

Найбільші відмінності у частотності ключових слів у data engineer та data scientist

Найбільший приріст виявляє AWS: у data engineering він з'являється на 25% регулярніше, ніж у data science (приблизно 45% і 20% від загальної кількості вакансій відповідно). Різниця відчутна!

Ось ті ж дані в трохи іншому уявленні - на графіку результати для одного і того ж ключового слова у вакансіях на позицію data engineer та data scientist розташовані пліч-о-пліч.

Найпопулярніші навички у професії data engineer

Найбільші відмінності у частотності ключових слів у data engineer та data scientist

Наступний за величиною стрибок я відзначив у Spark - data engineer часто доводиться працювати з великими даними. Кафка теж підріс на 20%, тобто майже вчетверо в порівнянні з результатом по вакансіях data scientist. Передача даних – один із ключових обов'язків data engineer. Нарешті, кількість згадок виявилася на 15% більшою у сфері data engineering у Java, NoSQL, Redshift, SQL та Hadoop.

Менш популярні у data engineering

Тепер давайте подивимося, які технології менш популярні у вакансіях для data engineer.
Найбільш різкий спад у порівнянні зі сферою data science стався у R: там він фігурував приблизно у 56% вакансій, тут – лише у 17%. Вражає. R – мова програмування, яка має успіх у вчених і статистиків, а також володар восьмого місця в рейтингу мов, що викликають жах.

ПАР також зустрічається у вакансіях на позицію data engineer відчутно рідше – різниця становить 14%. SAS є патентованою мовою, розрахованою на роботу зі статистикою та даними. Цікавий момент: судячи з результатів мого дослідження вакансій для data scientists, Останнім часом він сильно втратив позиції - сильніше, ніж будь-яка інша технологія.

Затребувані і в data engineering, і data science

Потрібно зауважити, що вісім із десяти перших позицій в обох наборах збігаються. SQL, Python, Spark, AWS, Java, Hadoop, Hive та Scala увійшли до десятки як для галузі data engineering, так і для data science. На графіку нижче ви можете побачити п'ятнадцять найпопулярніших технологій у роботодавців data engineers, а поряд – їхній показник по вакансіях для data scienctists.

Найпопулярніші навички у професії data engineer

Рекомендації

Якщо ви хочете займатися data engineering, я порадив би освоїти наступні технології – перераховую їх у порядку приблизної пріоритетності.

Вивчіть SQL. Я схиляю вас саме до PostgreSQL, тому що у нього відкритий код, велика популярність у співтоваристві і він перебуває у фазі зростання. Як користуватися мовою, можна дізнатися з книги My Memorable SQL – її пілотна версія доступна тут.

Освойте Python, нехай не на хардкорному рівні. Книга My Memorable Python розрахована якраз на новачків. Її можна купити на Amazon, електронну копію або фізичну, на ваш вибір, або скачати у форматі pdf або epub на цьому сайті.

Як тільки познайомитеся з Python, переходьте до pandas – бібліотеки Python, яка застосовується для очищення та обробки даних. Якщо ви націлені на роботу в компанії, де потрібне вміння писати на Python (а таких більшість), можете бути впевнені, що знання pandas буде передбачатися за умовчанням. Я зараз закінчую вступний посібник для роботи з pandas – можете підписатисящоб не пропустити момент виходу.

Освойте AWS. Якщо хочете стати data engineer, без хмарної платформи у загашнику вам не обійтися, а AWS – найпопулярніша з них. Мені дуже допомогли курси Академія Linux, коли я вивчав data engineering на Google Cloud, Думаю, що і по AWS у них знайдуться хороші матеріали.

Якщо ви вже подужали весь цей список і хочете ще вирости в очах роботодавців як data engineer, пропоную додати Apache Spark для роботи з великими даними. Хоча моє дослідження з вакансій data science і показало спад інтересу, у data engineer-ів він все-таки з'являється майже в кожній другій вакансії.

Наостанок

Сподіваюся, цей огляд найпопулярніших технологій для data engineer здався вам корисним. Якщо вам цікаво, як справи у вакансіях у аналітиків, прочитайте іншу мою статтю. Успішного інженерства!

Джерело: habr.com

Додати коментар або відгук