Най-търсените умения в професията инженер на данни

Според статистика 2019г, инженерът на данни в момента е професията, търсенето на която расте по-бързо от всички останали. Инженерът по данни играе критична роля в една организация - той създава и поддържа конвейери и бази данни, които се използват за обработка, трансформиране и съхраняване на данни. От какви умения на първо място се нуждаят представителите на тази професия? Различава ли се списъкът от това, което се изисква от специалистите по данни? Ще научите за всичко това от моята статия.

Анализирах работните места за позицията инженер по данни, каквито са през януари 2020 г., за да разбера кои умения в областта на технологиите са най-популярни. След това сравних резултатите със статистиката за свободните работни места за позицията data scientist - като същевременно разкрих някои интересни разлики.

Без дълги въведения, ето десетте най-често споменавани технологии в обявите за работа:

Най-търсените умения в професията инженер на данни

Технологични справки в работните места на инженери по данни през 2020 г

Нека го разберем.

Отговорности на инженер по данни

Днес работата, която вършат инженерите по данни, е от голямо значение за организациите – именно тези хора са отговорни за съхраняването на информацията и поставянето й в такава форма, че другите служители да могат да работят с нея. Инженерите по данни изграждат тръбопроводи за получаване на данни, поточно или групово, от множество източници. След това тръбопроводите извършват операции по извличане, трансформиране и зареждане (с други думи, ETL процеси), което прави данните по-подходящи за по-нататъшна употреба. След това данните се предават на анализатори и специалисти по данни за по-задълбочена обработка. И накрая, данните завършват своето пътуване в табла за управление, отчети и модели за машинно обучение.

Търсех информация, която да ми позволи да заключа кои технологии са най-търсени в работата на инженера по данни в момента.

методи

Събрах информация от три сайта за търсене на работа - SimplyHired, Наистина и Чудовище и разгледа какви ключови думи се срещат във връзка с „инженер по данни“ в текстовете на свободни позиции, предназначени за жители на САЩ. За тази задача използвах две библиотеки на Python - Исканията и Красива супа. Сред ключовите думи включих както тези, които бяха включени в предишния списък за анализ на свободни работни места за позиция data scientist, така и тези, които ръчно избрах, като прочетох оферти за работа на data engineers. LinkedIn не беше включен в броя на източниците, тъй като бях баннат там след последния опит за събиране на данни.

За всяка ключова дума изчислих процента на попадения от общия брой текстове на всеки от сайтовете поотделно, след което изчислих средната стойност за три източника.

резултати

По-долу са XNUMX-те най-добри термина за инженеринг на данни от най-ефективните термини за инженеринг на данни във всичките три сайта за работа.

Най-търсените умения в професията инженер на данни

И ето същите числа, но подредени под формата на таблица:

Най-търсените умения в професията инженер на данни

Да вървим по ред.

Преглед на резултатите

Както SQL, така и Python са в повече от две трети от прегледаните работни места. Именно тези две технологии има смисъл да се изучават на първо място. Питон е много популярен език за програмиране, използван за работа с данни, създаване на уебсайтове и писане на скриптове. SQL означава Structured Query Language (структуриран език за заявки); той приема стандарт, реализиран от група езици и се използва за извличане на данни от релационни бази данни. Появи се отдавна и се оказа висока устойчивост.

Спарк се споменава в около половината от свободните позиции. Апачи Спарк е "обединен двигател за анализ на големи данни с вградени модули за стрийминг, SQL, машинно обучение и обработка на графики." Особено популярен е сред тези, които работят с големи бази данни.

AWS присъства в около 45% от обявите за работа. Това е платформа за облачни изчисления, произведена от Amazon; тя има най-големия пазарен дял сред всички облачни платформи.
Следват Java и Hadoop - малко над 40% на брат. Ява е широко разпространен, изпитан в битки език, който Проучване за разработчици на Stack Overflow за 2019 г беше награден с десето място сред езиците, които предизвикват ужас у програмистите. За разлика от тях Python беше вторият най-популярен език. Java се управлява от Oracle и всичко, което трябва да знаете за него, можете да разберете от тази екранна снимка на официалната страница от януари 2020 г.

Най-търсените умения в професията инженер на данни

Все едно караш машина на времето
Apache Hadoop използва модела за програмиране MapReduce със сървърни клъстери за големи данни. Сега този модел се изоставя все повече и повече.

След това виждаме Hive, Scala, Kafka и NoSQL – всяка от тези технологии се споменава в една четвърт от подадените свободни позиции. Apache Hive е програма за съхранение на данни, която „улеснява четенето, писането и управлението на големи масиви от данни, разположени в разпределени магазини, използващи SQL“. Scala е език за програмиране, който се използва активно при работа с големи данни. По-специално, Spark е създаден на Scala. В вече споменатата класация на страховитите езици Scala заема единадесето място. Апачи Кафка е разпределена платформа за обработка на поточни съобщения. Много популярен като средство за поточно предаване на данни.

NoSQL бази данни се противопоставят на SQL. Те се различават по това, че не са релационни, неструктурирани и хоризонтално мащабируеми. NoSQL придоби известна популярност, но лудостта по този подход, до степен да се пророкува, че ще замени SQL като доминираща парадигма за съхранение, изглежда приключи.

Сравнение с условията в свободните работни места за учени по данни

Ето тридесет технологични термина, които най-често се използват от работодателите в областта на науката за данни. Получих този списък по същия начин, който описах по-горе за инженеринг на данни.

Най-търсените умения в професията инженер на данни

Технологии се споменават в свободни работни места за позицията учен по данни през 2020 г

Ако говорим за общия брой, в сравнение с предишния набор, имаше 28% повече свободни работни места (12 013 срещу 9396). Нека да видим кои технологии са по-рядко срещани в свободните позиции за специалисти по данни, отколкото за инженери по данни.

По-популярен в инженерството на данни

Диаграмата по-долу показва ключови думи със средна разлика в стойността, по-голяма от 10% или по-малка от -10%.

Най-търсените умения в професията инженер на данни

Най-големите разлики в честотата на ключовите думи между инженера по данни и специалиста по данни

AWS показва най-значително увеличение: в инженеринга на данни се появява 25% по-редовно, отколкото в науката за данни (съответно приблизително 45% и 20% от общия брой свободни работни места). Разликата е осезаема!

Ето едни и същи данни в малко по-различен изглед – в графиката резултатите за една и съща ключова дума в свободни работни места за позиция инженер по данни и учен по данни са разположени един до друг.

Най-търсените умения в професията инженер на данни

Най-големите разлики в честотата на ключовите думи между инженера по данни и специалиста по данни

Следващият най-голям скок, който забелязах, беше със Spark - инженерът на данни често трябва да работи с големи данни. Кафка също е нараснал с 20%, тоест почти четири пъти в сравнение с резултата за свободните работни места за специалисти по данни. Комуникацията на данни е една от ключовите отговорности на инженера по данни. И накрая, броят на споменаванията беше с 15% по-висок в инженеринга на данни за Java, NoSQL, Redshift, SQL и Hadoop.

По-малко популярни в инженерството на данни

Сега нека видим кои технологии са по-малко популярни в работните места на инженери по данни.
Най-резкият спад в сравнение с областта на науката за данни се случи през R: там той се появява в приблизително 56% от свободните работни места, тук - само в 17%. Впечатляващо. R е език за програмиране, който е популярен сред учените и статистиците, както и осмото място в рейтинга на ужасните езици.

SAS значително по-рядко се срещат и в свободните позиции за позиция data engineer – разликата е 14%. SAS е патентован език, предназначен да работи със статистика и данни. Интересен момент: съдейки по резултатите моята работа проучване за учени по данни, напоследък тя загуби много позиции - повече от всяка друга технология.

Търсен както в инженерството на данни, така и в науката за данни

Трябва да се отбележи, че осем от първите десет позиции и в двата сета са еднакви. SQL, Python, Spark, AWS, Java, Hadoop, Hive и Scala попаднаха в челната десетка както за инженеринг на данни, така и за наука за данни. В графиката по-долу можете да видите петнадесетте най-популярни технологии за работодателите на инженери по данни, а до тях е техният показател за работа за учени по данни.

Най-търсените умения в професията инженер на данни

препоръки

Ако искате да се занимавате с инженеринг на данни, бих ви посъветвал да усвоите следните технологии – изброявам ги по приблизителен ред на приоритет.

Научете SQL. Склонен съм към PostgreSQL, защото е с отворен код, много популярен в общността и във фаза на растеж. Как да използвате езика можете да намерите в книгата My Memorable SQL - нейната пилотна версия е налична тук.

Овладейте Python, дори и да не е на най-хардкор ниво. Книгата My Memorable Python е предназначена само за начинаещи. Може да се купи на Амазонка, електронно копие или физическо копие по ваш избор или изтегляне в pdf или epub формат на този сайт.

След като се запознаете с Python, преминете към pandas, библиотека на Python, използвана за почистване и манипулиране на данни. Ако се стремите към работа в компания, която изисква умение да пишете на Python (което е мнозинството), можете да сте сигурни, че познанията за панди ще се приемат по подразбиране. В момента завършвам въвеждащ урок за работа с панди - можете Абонирай сеза да не пропуснете момента на излизане.

Главен AWS. Ако искате да станете инженер по данни, не можете без облачна платформа в задния си двор, а AWS е най-популярната от тях. Курсовете ми помогнаха много. Linux академиякогато учех инженеринг на данни в Google Cloud, мисля, че и на AWS имат добри материали.

Ако вече сте усвоили целия този списък и искате да израснете допълнително в очите на работодателите като инженер по данни, предлагам да добавите Apache Spark за работа с големи данни. Въпреки че моето проучване за свободни позиции в областта на науката за данни показа спад в интереса, за инженерите по данни той все още трепти в почти всяко второ свободно място.

Най-после

Надявам се, че сте намерили този преглед на най-търсените технологии за инженерите на данни за полезен. Ако се чудите какво се случва със свободните позиции за анализатори, прочетете другата ми статия. Успешно инженерство!

Източник: www.habr.com

Добавяне на нов коментар