Најбарани вештини во професијата инженер за податоци

Според статистика 2019 година, инженерот за податоци моментално е професија чија побарувачка расте побрзо од која било друга. Инженерот за податоци игра клучна улога во организацијата - креирање и одржување на цевководи и бази на податоци кои се користат за обработка, трансформирање и складирање на податоци. Кои вештини им се потребни пред сè на претставниците на оваа професија? Дали списокот се разликува од она што се бара од научниците за податоци? Ќе дознаете за сето ова од мојата статија.

Ги анализирав слободните работни места за позицијата инженер за податоци како што се во јануари 2020 година за да разберам кои технолошки вештини се најпопуларни. Потоа ги споредив резултатите со статистиката за слободните работни места за позицијата научник за податоци - и се појавија некои интересни разлики.

Без многу преамбула, еве ги првите десет технологии кои најчесто се споменуваат во огласите за работа:

Најбарани вештини во професијата инженер за податоци

Спомнување технологии на слободни работни места за работно место инженер за податоци во 2020 година

Ајде да сфатиме.

Одговорности на инженер за податоци

Денес, работата што ја вршат инженерите за податоци е од големо значење за организациите - тоа се луѓето кои се одговорни за складирање на информации и нивно доведување во таква форма што другите вработени можат да работат со нив. Инженерите за податоци градат цевководи за проследување или сериски податоци од повеќе извори. Цевководите потоа вршат операции за извлекување, трансформација и вчитување (со други зборови, ETL процеси), што ги прави податоците посоодветни за понатамошна употреба. По ова, податоците се доставуваат до аналитичарите и научниците за податоци за подлабока обработка. Конечно, податоците го завршуваат своето патување во контролни табли, извештаи и модели за машинско учење.

Барав информации што ќе ми овозможат да извлечам заклучок за тоа кои технологии се најмногу барани во работата на инженер за податоци во моментот.

Методи

Собрав информации од три страници за барање работа − Едноставно изнајмување, Навистина и чудовиште и погледна на кои клучни зборови се среќаваат во врска со „инженер за податоци“ во текстовите на слободните работни места наменети за жителите на САД. За оваа задача користев две библиотеки на Python − барања и Прекрасна супа. Меѓу клучните зборови, ги вклучив и оние кои беа вклучени во претходната листа за анализа на слободни работни места за позицијата научник за податоци, и оние што рачно ги избрав додека ги читав понудите за работа за инженери за податоци. LinkedIn не беше вклучен во листата на извори, бидејќи бев забранет таму по мојот последен обид да собирам податоци.

За секој клучен збор, го пресметав процентот на хитови од вкупниот број текстови на секоја страница посебно, а потоа го пресметав просекот за трите извори.

Наоди

Подолу се триесетте термини за инженерство за технички податоци со највисоки оценки на сите три работни места.

Најбарани вештини во професијата инженер за податоци

И тука се истите бројки, но претставени во форма на табела:

Најбарани вештини во професијата инженер за податоци

Ајде да одиме по ред.

Преглед на резултатите

И SQL и Python се појавуваат на повеќе од две третини од прегледаните работни места. Токму овие две технологии имаат смисла прво да се изучуваат. Пајтон е многу популарен програмски јазик кој се користи за работа со податоци, креирање веб-страници и пишување скрипти. SQL се залага за Структурен јазик за пребарување; вклучува стандард имплементиран од група јазици и се користи за преземање податоци од релациони бази на податоци. Се појави многу одамна и се покажа како високо отпорна.

Искра се споменува на околу половина од слободните работни места. Apache Spark е „унифициран мотор за анализа на големи податоци со вградени модули за стриминг, SQL, машинско учење и обработка на графикони“. Особено е популарен меѓу оние кои работат со големи бази на податоци.

AWS се појавува во приближно 45% од огласите за работа. Тоа е облак компјутерска платформа произведена од Amazon; има најголем удел на пазарот меѓу сите облак платформи.
Следуваат Java и Hadoop - нешто повеќе од 40% за нивниот брат. Јава е широко говорен јазик, тестиран во битка кој Анкета за програмери на Stack Overflow од 2019 година беше награден со десетто место меѓу јазиците што предизвикуваат ужас кај програмерите. Спротивно на тоа, Python беше вториот најомилен јазик. Јазикот Јава го води Oracle, а сè што треба да знаете за него може да се разбере од оваа слика од екранот на официјалната страница од јануари 2020 година.

Најбарани вештини во професијата инженер за податоци

Тоа е како возење во временска машина
Апачи Хадооп го користи програмскиот модел MapReduce со кластери на сервери за големи податоци. Сега овој модел се повеќе се напушта.

Потоа ги гледаме Hive, Scala, Kafka и NoSQL - секоја од овие технологии е спомната во четвртина од поднесените слободни работни места. Apache Hive е софтвер за складиште на податоци што „го олеснува читањето, пишувањето и управувањето со големи сетови на податоци кои живеат во дистрибуирани продавници користејќи SQL“. Скала – програмски јазик кој активно се користи при работа со големи податоци. Особено, Spark беше создаден во Скала. Во веќе споменатото рангирање на застрашувачки јазици, Скала се наоѓа на единаесеттото место. Апачи Кафка – дистрибуирана платформа за обработка на стриминг пораки. Многу популарен како средство за пренос на податоци.

NoSQL бази на податоци се контрастираат со SQL. Тие се разликуваат по тоа што се нерелациски, неструктурирани и хоризонтално скалабилни. NoSQL се здоби со одредена популарност, но лудилото за пристапот, дури и до степен на пророштва дека ќе го замени SQL како доминантна парадигма за складирање, се чини дека е завршена.

Споредба со термини во слободните работни места за научници за податоци

Еве триесет технолошки термини кои се најчести кај работодавците на науката за податоци. Ја добив оваа листа на ист начин како што е опишано погоре за инженерство на податоци.

Најбарани вештини во професијата инженер за податоци

Спомнува технологија на слободни работни места за позицијата научник за податоци во 2020 година

Ако зборуваме за вкупниот број, во однос на претходно разгледуваното вработување, имало 28% повеќе слободни работни места (12 наспроти 013). Ајде да видиме кои технологии се поретки на слободни работни места за научници за податоци отколку за инженери за податоци.

Попопуларен во инженерството на податоци

Графиконот подолу покажува клучни зборови со просечна разлика поголема од 10% или помала од -10%.

Најбарани вештини во професијата инженер за податоци

Најголеми разлики во фреквенцијата на клучни зборови помеѓу инженерот за податоци и научникот за податоци

AWS покажува најзначајно зголемување: во инженерството на податоци се појавува 25% поредовно отколку во науката за податоци (приближно 45% и 20% од вкупниот број слободни работни места, соодветно). Разликата е забележлива!

Еве ги истите податоци во малку поинаква презентација - на графиконот рамо до рамо се наоѓаат резултатите за ист клучен збор на слободните работни места за позицијата инженер за податоци и научник за податоци.

Најбарани вештини во професијата инженер за податоци

Најголеми разлики во фреквенцијата на клучни зборови помеѓу инженерот за податоци и научникот за податоци

Следниот најголем скок што го забележав беше во Spark - инженерот за податоци често мора да работи со големи податоци. Кафка исто така се зголеми за 20%, односно речиси четири пати во споредба со резултатот за слободни работни места за научник за податоци. Преносот на податоци е една од клучните обврски на инженерот за податоци. Конечно, бројот на споменувања беше 15% поголем во областа на инженерството на податоци за Java, NoSQL, Redshift, SQL и Hadoop.

Помалку популарен во инженерството на податоци

Сега да видиме кои технологии се помалку популарни во работните места за инженери за податоци.
Најостриот пад во споредба со секторот за наука за податоци се случи во R: таму се појавил на приближно 56% од слободните работни места, овде - само во 17%. Импресивно. R е програмски јазик кој е фаворизиран од научниците и статистичарите и е осми најстрашен јазик во светот.

САС значително поретко се среќава и на слободните работни места за инженер за податоци - разликата е 14%. SAS е комерцијален јазик дизајниран за работа со статистика и податоци. Интересна точка: судејќи според резултатите моето истражување за работни места за научници за податоци, неодамна изгуби многу земја — повеќе од која било друга технологија.

На побарувачката и во инженерството на податоци и во науката за податоци

Треба да се напомене дека осум од првите десет позиции во двата сета се исти. SQL, Python, Spark, AWS, Java, Hadoop, Hive и Scala влегоа во првите десет и за индустријата за инженерство на податоци и за наука за податоци. На графиконот подолу можете да ги видите петнаесетте најпопуларни технологии меѓу работодавците за инженери за податоци, а веднаш до нив е нивната стапка на слободни работни места за научници за податоци.

Најбарани вештини во професијата инженер за податоци

Препораки

Ако сакате да се впуштите во инженерството на податоци, би ве советувал да ги совладате следните технологии - ги наведувам по приближен приоритет.

Научете SQL. Јас се приклонувам кон PostgreSQL бидејќи е со отворен код, многу популарен во заедницата и е во фаза на раст. Можете да научите како да го користите јазикот од книгата My Memorable SQL - достапна е нејзината пилот верзија тука.

Господар на Python, дури и ако не е на најхардкор ниво. My Memorable Python е дизајниран специјално за почетници. Може да се купи на Амазон, електронска или физичка копија, по ваш избор, или преземете во pdf или epub формат на оваа страница.

Откако ќе се запознаете со Python, преминете на пандите, библиотека на Python што се користи за чистење и обработка на податоци. Ако имате за цел да работите во компанија која бара способност да пишува во Python (а ова е мнозинството од нив), можете да бидете сигурни дека познавањето на пандите ќе се претпоставува стандардно. Во моментов го завршувам воведниот водич за работа со панди - можеш претплатете сеза да не се пропушти моментот на ослободување.

Господар AWS. Ако сакате да станете инженер за податоци, не можете без облак платформа во скривањето, а AWS е најпопуларниот од нив. Курсевите ми помогнаа многу Линукс академијакога студирав инженеринг на податоци на Google Cloud, мислам дека ќе имаат и добри материјали на AWS.

Ако веќе сте ја комплетирале целата оваа листа и сакате дополнително да растете во очите на работодавците како инженер за податоци, предлагам да додадете Apache Spark за работа со големи податоци. Иако моето истражување за слободните работни места за научници за податоци покажа пад на интересот, меѓу инженерите за податоци тој сè уште се појавува на речиси секое второ слободно работно место.

Во последно

Се надевам дека ви беше корисен овој преглед на најбарани технологии за инженери за податоци. Ако се прашувате како се одвиваат работните места на аналитичарите, прочитајте мојата друга статија. Среќен инженеринг!

Извор: www.habr.com

Додадете коментар