Според
Ги анализирав слободните работни места за позицијата инженер за податоци како што се во јануари 2020 година за да разберам кои технолошки вештини се најпопуларни. Потоа ги споредив резултатите со статистиката за слободните работни места за позицијата научник за податоци - и се појавија некои интересни разлики.
Без многу преамбула, еве ги првите десет технологии кои најчесто се споменуваат во огласите за работа:
Спомнување технологии на слободни работни места за работно место инженер за податоци во 2020 година
Одговорности на инженер за податоци
Денес, работата што ја вршат инженерите за податоци е од големо значење за организациите - тоа се луѓето кои се одговорни за складирање на информации и нивно доведување во таква форма што другите вработени можат да работат со нив. Инженерите за податоци градат цевководи за проследување или сериски податоци од повеќе извори. Цевководите потоа вршат операции за извлекување, трансформација и вчитување (со други зборови, ETL процеси), што ги прави податоците посоодветни за понатамошна употреба. По ова, податоците се доставуваат до аналитичарите и научниците за податоци за подлабока обработка. Конечно, податоците го завршуваат своето патување во контролни табли, извештаи и модели за машинско учење.
Барав информации што ќе ми овозможат да извлечам заклучок за тоа кои технологии се најмногу барани во работата на инженер за податоци во моментот.
Методи
Собрав информации од три страници за барање работа −
За секој клучен збор, го пресметав процентот на хитови од вкупниот број текстови на секоја страница посебно, а потоа го пресметав просекот за трите извори.
Наоди
Подолу се триесетте термини за инженерство за технички податоци со највисоки оценки на сите три работни места.
И тука се истите бројки, но претставени во форма на табела:
Ајде да одиме по ред.
Преглед на резултатите
И SQL и Python се појавуваат на повеќе од две третини од прегледаните работни места. Токму овие две технологии имаат смисла прво да се изучуваат.
Искра се споменува на околу половина од слободните работни места.
AWS се појавува во приближно 45% од огласите за работа. Тоа е облак компјутерска платформа произведена од Amazon; има најголем удел на пазарот меѓу сите облак платформи.
Следуваат Java и Hadoop - нешто повеќе од 40% за нивниот брат.
Тоа е како возење во временска машина
Потоа ги гледаме Hive, Scala, Kafka и NoSQL - секоја од овие технологии е спомната во четвртина од поднесените слободни работни места. Apache Hive е софтвер за складиште на податоци што „го олеснува читањето, пишувањето и управувањето со големи сетови на податоци кои живеат во дистрибуирани продавници користејќи SQL“.
Споредба со термини во слободните работни места за научници за податоци
Еве триесет технолошки термини кои се најчести кај работодавците на науката за податоци. Ја добив оваа листа на ист начин како што е опишано погоре за инженерство на податоци.
Спомнува технологија на слободни работни места за позицијата научник за податоци во 2020 година
Ако зборуваме за вкупниот број, во однос на претходно разгледуваното вработување, имало 28% повеќе слободни работни места (12 наспроти 013). Ајде да видиме кои технологии се поретки на слободни работни места за научници за податоци отколку за инженери за податоци.
Попопуларен во инженерството на податоци
Графиконот подолу покажува клучни зборови со просечна разлика поголема од 10% или помала од -10%.
Најголеми разлики во фреквенцијата на клучни зборови помеѓу инженерот за податоци и научникот за податоци
AWS покажува најзначајно зголемување: во инженерството на податоци се појавува 25% поредовно отколку во науката за податоци (приближно 45% и 20% од вкупниот број слободни работни места, соодветно). Разликата е забележлива!
Еве ги истите податоци во малку поинаква презентација - на графиконот рамо до рамо се наоѓаат резултатите за ист клучен збор на слободните работни места за позицијата инженер за податоци и научник за податоци.
Најголеми разлики во фреквенцијата на клучни зборови помеѓу инженерот за податоци и научникот за податоци
Следниот најголем скок што го забележав беше во Spark - инженерот за податоци често мора да работи со големи податоци.
Помалку популарен во инженерството на податоци
Сега да видиме кои технологии се помалку популарни во работните места за инженери за податоци.
Најостриот пад во споредба со секторот за наука за податоци се случи во
На побарувачката и во инженерството на податоци и во науката за податоци
Треба да се напомене дека осум од првите десет позиции во двата сета се исти. SQL, Python, Spark, AWS, Java, Hadoop, Hive и Scala влегоа во првите десет и за индустријата за инженерство на податоци и за наука за податоци. На графиконот подолу можете да ги видите петнаесетте најпопуларни технологии меѓу работодавците за инженери за податоци, а веднаш до нив е нивната стапка на слободни работни места за научници за податоци.
Препораки
Ако сакате да се впуштите во инженерството на податоци, би ве советувал да ги совладате следните технологии - ги наведувам по приближен приоритет.
Научете SQL. Јас се приклонувам кон PostgreSQL бидејќи е со отворен код, многу популарен во заедницата и е во фаза на раст. Можете да научите како да го користите јазикот од книгата My Memorable SQL - достапна е нејзината пилот верзија
Господар на Python, дури и ако не е на најхардкор ниво. My Memorable Python е дизајниран специјално за почетници. Може да се купи на
Откако ќе се запознаете со Python, преминете на пандите, библиотека на Python што се користи за чистење и обработка на податоци. Ако имате за цел да работите во компанија која бара способност да пишува во Python (а ова е мнозинството од нив), можете да бидете сигурни дека познавањето на пандите ќе се претпоставува стандардно. Во моментов го завршувам воведниот водич за работа со панди - можеш
Господар AWS. Ако сакате да станете инженер за податоци, не можете без облак платформа во скривањето, а AWS е најпопуларниот од нив. Курсевите ми помогнаа многу
Ако веќе сте ја комплетирале целата оваа листа и сакате дополнително да растете во очите на работодавците како инженер за податоци, предлагам да додадете Apache Spark за работа со големи податоци. Иако моето истражување за слободните работни места за научници за податоци покажа пад на интересот, меѓу инженерите за податоци тој сè уште се појавува на речиси секое второ слободно работно место.
Во последно
Се надевам дека ви беше корисен овој преглед на најбарани технологии за инженери за податоци. Ако се прашувате како се одвиваат работните места на аналитичарите, прочитајте
Извор: www.habr.com