Според
Анализирах работните места за позицията инженер по данни, каквито са през януари 2020 г., за да разбера кои умения в областта на технологиите са най-популярни. След това сравних резултатите със статистиката за свободните работни места за позицията data scientist - като същевременно разкрих някои интересни разлики.
Без дълги въведения, ето десетте най-често споменавани технологии в обявите за работа:
Технологични справки в работните места на инженери по данни през 2020 г
Отговорности на инженер по данни
Днес работата, която вършат инженерите по данни, е от голямо значение за организациите – именно тези хора са отговорни за съхраняването на информацията и поставянето й в такава форма, че другите служители да могат да работят с нея. Инженерите по данни изграждат тръбопроводи за получаване на данни, поточно или групово, от множество източници. След това тръбопроводите извършват операции по извличане, трансформиране и зареждане (с други думи, ETL процеси), което прави данните по-подходящи за по-нататъшна употреба. След това данните се предават на анализатори и специалисти по данни за по-задълбочена обработка. И накрая, данните завършват своето пътуване в табла за управление, отчети и модели за машинно обучение.
Търсех информация, която да ми позволи да заключа кои технологии са най-търсени в работата на инженера по данни в момента.
методи
Събрах информация от три сайта за търсене на работа -
За всяка ключова дума изчислих процента на попадения от общия брой текстове на всеки от сайтовете поотделно, след което изчислих средната стойност за три източника.
резултати
По-долу са XNUMX-те най-добри термина за инженеринг на данни от най-ефективните термини за инженеринг на данни във всичките три сайта за работа.
И ето същите числа, но подредени под формата на таблица:
Да вървим по ред.
Преглед на резултатите
Както SQL, така и Python са в повече от две трети от прегледаните работни места. Именно тези две технологии има смисъл да се изучават на първо място.
Спарк се споменава в около половината от свободните позиции.
AWS присъства в около 45% от обявите за работа. Това е платформа за облачни изчисления, произведена от Amazon; тя има най-големия пазарен дял сред всички облачни платформи.
Следват Java и Hadoop - малко над 40% на брат.
Все едно караш машина на времето
След това виждаме Hive, Scala, Kafka и NoSQL – всяка от тези технологии се споменава в една четвърт от подадените свободни позиции. Apache Hive е програма за съхранение на данни, която „улеснява четенето, писането и управлението на големи масиви от данни, разположени в разпределени магазини, използващи SQL“.
Сравнение с условията в свободните работни места за учени по данни
Ето тридесет технологични термина, които най-често се използват от работодателите в областта на науката за данни. Получих този списък по същия начин, който описах по-горе за инженеринг на данни.
Технологии се споменават в свободни работни места за позицията учен по данни през 2020 г
Ако говорим за общия брой, в сравнение с предишния набор, имаше 28% повече свободни работни места (12 013 срещу 9396). Нека да видим кои технологии са по-рядко срещани в свободните позиции за специалисти по данни, отколкото за инженери по данни.
По-популярен в инженерството на данни
Диаграмата по-долу показва ключови думи със средна разлика в стойността, по-голяма от 10% или по-малка от -10%.
Най-големите разлики в честотата на ключовите думи между инженера по данни и специалиста по данни
AWS показва най-значително увеличение: в инженеринга на данни се появява 25% по-редовно, отколкото в науката за данни (съответно приблизително 45% и 20% от общия брой свободни работни места). Разликата е осезаема!
Ето едни и същи данни в малко по-различен изглед – в графиката резултатите за една и съща ключова дума в свободни работни места за позиция инженер по данни и учен по данни са разположени един до друг.
Най-големите разлики в честотата на ключовите думи между инженера по данни и специалиста по данни
Следващият най-голям скок, който забелязах, беше със Spark - инженерът на данни често трябва да работи с големи данни.
По-малко популярни в инженерството на данни
Сега нека видим кои технологии са по-малко популярни в работните места на инженери по данни.
Най-резкият спад в сравнение с областта на науката за данни се случи през
Търсен както в инженерството на данни, така и в науката за данни
Трябва да се отбележи, че осем от първите десет позиции и в двата сета са еднакви. SQL, Python, Spark, AWS, Java, Hadoop, Hive и Scala попаднаха в челната десетка както за инженеринг на данни, така и за наука за данни. В графиката по-долу можете да видите петнадесетте най-популярни технологии за работодателите на инженери по данни, а до тях е техният показател за работа за учени по данни.
препоръки
Ако искате да се занимавате с инженеринг на данни, бих ви посъветвал да усвоите следните технологии – изброявам ги по приблизителен ред на приоритет.
Научете SQL. Склонен съм към PostgreSQL, защото е с отворен код, много популярен в общността и във фаза на растеж. Как да използвате езика можете да намерите в книгата My Memorable SQL - нейната пилотна версия е налична
Овладейте Python, дори и да не е на най-хардкор ниво. Книгата My Memorable Python е предназначена само за начинаещи. Може да се купи на
След като се запознаете с Python, преминете към pandas, библиотека на Python, използвана за почистване и манипулиране на данни. Ако се стремите към работа в компания, която изисква умение да пишете на Python (което е мнозинството), можете да сте сигурни, че познанията за панди ще се приемат по подразбиране. В момента завършвам въвеждащ урок за работа с панди - можете
Главен AWS. Ако искате да станете инженер по данни, не можете без облачна платформа в задния си двор, а AWS е най-популярната от тях. Курсовете ми помогнаха много.
Ако вече сте усвоили целия този списък и искате да израснете допълнително в очите на работодателите като инженер по данни, предлагам да добавите Apache Spark за работа с големи данни. Въпреки че моето проучване за свободни позиции в областта на науката за данни показа спад в интереса, за инженерите по данни той все още трепти в почти всяко второ свободно място.
Най-после
Надявам се, че сте намерили този преглед на най-търсените технологии за инженерите на данни за полезен. Ако се чудите какво се случва със свободните позиции за анализатори, прочетете
Източник: www.habr.com