Деректер инженері мамандығындағы ең сұранысқа ие дағдылар

бойынша статистика 2019 ж, деректер инженері қазіргі уақытта сұранысы басқаларға қарағанда тез өсіп келе жатқан мамандық. Деректер инженері ұйымда маңызды рөл атқарады - деректерді өңдеу, түрлендіру және сақтау үшін пайдаланылатын конвейерлер мен дерекқорларды жасау және қолдау. Бұл мамандық өкілдеріне ең алдымен қандай дағдылар қажет? Тізім деректер ғалымдары талап ететіннен өзгеше ме? Мұның бәрі туралы сіз менің мақаламнан біле аласыз.

Мен қай технологиялық дағдылар ең танымал екенін түсіну үшін 2020 жылдың қаңтарындағы деректер инженері лауазымына бос жұмыс орындарын талдадым. Содан кейін мен нәтижелерді зерттеуші лауазымына бос орындар туралы статистикамен салыстырдым - және кейбір қызықты айырмашылықтар пайда болды.

Көп кіріспесіз, жұмыс туралы хабарландыруларда жиі айтылатын он технология:

Деректер инженері мамандығындағы ең сұранысқа ие дағдылар

2020 жылы мәліметтер инженері лауазымына бос орындардағы технологияларды атап өту

Келіңіздер, түсінеміз.

Деректер инженерінің міндеттері

Бүгінгі күні деректер инженерлері жасайтын жұмыс ұйымдар үшін үлкен маңызға ие - бұл ақпаратты сақтауға және оны басқа қызметкерлер онымен жұмыс істей алатындай пішінге келтіруге жауапты адамдар. Деректер инженерлері бірнеше көздерден деректерді ағынға немесе топтамаға жіберу үшін құбырларды құрастырады. Содан кейін құбырлар шығару, түрлендіру және жүктеу операцияларын (басқаша айтқанда, ETL процестерін) орындайды, бұл деректерді одан әрі пайдалану үшін қолайлы етеді. Осыдан кейін деректер аналитиктер мен деректер ғалымдарына тереңірек өңдеу үшін жіберіледі. Соңында, деректер бақылау тақталарында, есептер мен машиналық оқыту үлгілерінде саяхатын аяқтайды.

Мен қазіргі уақытта деректер инженерінің жұмысында қандай технологиялар көбірек сұранысқа ие екендігі туралы қорытынды жасауға мүмкіндік беретін ақпаратты іздедім.

Әдістері

Мен үш жұмыс іздеу сайтынан ақпарат жинадым - Қарапайым, шынында и құбыжық және АҚШ тұрғындарына бағытталған бос жұмыс орындарының мәтіндерінде «деректер инженері» деген сөзбен қандай түйінді сөздер кездесетінін қарастырды. Бұл тапсырма үшін мен екі Python кітапханасын қолдандым - сұрау салулар и Әдемі сорпа. Түйінді сөздердің ішінде мен алдыңғы тізімге деректанушы лауазымына арналған бос жұмыс орындарын талдау үшін енгізілгендерді де, деректер инженерлеріне арналған жұмыс ұсыныстарын оқу кезінде қолмен таңдағандарды да қостым. LinkedIn дереккөздер тізіміне кірмеді, өйткені менің деректер жинауға соңғы әрекетімнен кейін маған тыйым салынды.

Әрбір кілт сөз үшін мен әрбір сайттағы мәтіндердің жалпы санынан жеке-жеке хиттердің пайызын есептедім, содан кейін үш дереккөздің орташа мәнін есептедім.

нәтижелері

Төменде барлық үш жұмыс орнында ең жоғары ұпай жинаған отыз техникалық деректер инженериясы термині берілген.

Деректер инженері мамандығындағы ең сұранысқа ие дағдылар

Міне, бірдей сандар, бірақ кесте түрінде ұсынылған:

Деректер инженері мамандығындағы ең сұранысқа ие дағдылар

Келіңіздер, кезекпен.

Нәтижелерге шолу

SQL де, Python да қаралған бос орындардың үштен екісінен астамында пайда болады. Дәл осы екі технологияны алдымен зерттеудің мәні бар. Python деректермен жұмыс істеу, веб-сайттарды жасау және сценарийлер жазу үшін қолданылатын өте танымал бағдарламалау тілі. SQL Structured Query Language дегенді білдіреді; ол тілдер тобымен жүзеге асырылатын стандартты қамтиды және реляциялық деректер қорынан деректерді алу үшін қолданылады. Ол ұзақ уақыт бұрын пайда болды және өзін жоғары төзімділікпен дәлелдеді.

Spark бос орындардың жартысына жуығында айтылған. Apache Spark бұл «ағындық, SQL, машиналық оқыту және графиктерді өңдеуге арналған кірістірілген модульдері бар біртұтас үлкен деректерді талдау қозғалтқышы». Бұл әсіресе үлкен деректер базасымен жұмыс істейтіндер арасында танымал.

AWS жұмыс туралы хабарландырулардың шамамен 45% пайда болады. Бұл Amazon шығарған бұлтты есептеу платформасы; ол барлық бұлттық платформалар арасындағы ең үлкен нарық үлесіне ие.
Келесі кезекте Java және Hadoop - олардың ағасы үшін 40% -дан сәл астам. Java кең тараған, шайқаста сыналған тіл 2019 жылғы Stack Overflow әзірлеушілер сауалнамасы бағдарламашылар арасында үрей тудыратын тілдер арасында оныншы орынға ие болды. Керісінше, Python екінші ең сүйікті тіл болды. Java тілін Oracle басқарады және ол туралы білуіңіз керек барлық нәрсені 2020 жылдың қаңтарынан бастап ресми беттің осы скриншотынан түсінуге болады.

Деректер инженері мамандығындағы ең сұранысқа ие дағдылар

Бұл уақыт машинасына мінгендей
Apache Hadoop үлкен деректер үшін сервер кластерлері бар MapReduce бағдарламалау үлгісін пайдаланады. Қазір бұл модель барған сайын жойылуда.

Содан кейін біз Hive, Scala, Kafka және NoSQL-ді көреміз - бұл технологиялардың әрқайсысы ұсынылған бос орындардың төрттен бірінде айтылған. Apache Hive – бұл «SQL арқылы таратылған дүкендерде орналасқан үлкен деректер жиынын оқуды, жазуды және басқаруды жеңілдететін» деректер қоймасының бағдарламалық құралы. Scala – үлкен деректермен жұмыс істеу кезінде белсенді қолданылатын бағдарламалау тілі. Атап айтқанда, Spark Scala-да құрылды. Жоғарыда айтылған қорқынышты тілдер рейтингінде Скала он бірінші орында. Apache Kafka – ағынды хабарламаларды өңдеуге арналған бөлінген платформа. Деректер ағынының құралы ретінде өте танымал.

NoSQL деректер базасы SQL-ге қарама-қайшы. Олар қатынассыз, құрылымсыз және көлденең масштабталатындығымен ерекшеленеді. NoSQL белгілі бір танымалдылыққа ие болды, бірақ бұл тәсілге деген құмарлық, тіпті ол SQL-ті сақтаудың басым парадигмасы ретінде алмастырады деген болжамға дейін аяқталды.

Деректерді зерттеуші бос орындардағы терминдермен салыстыру

Мұнда деректер ғылымының жұмыс берушілері арасында жиі кездесетін отыз технология термині берілген. Мен бұл тізімді деректер инженериясы үшін жоғарыда сипатталғандай алдым.

Деректер инженері мамандығындағы ең сұранысқа ие дағдылар

2020 жылы деректер жөніндегі ғалым лауазымына арналған бос орындардағы технология туралы ескертулер

Жалпы саны туралы айтатын болсақ, бұрын қарастырылған жұмысқа қабылдаумен салыстырғанда бос орындар 28%-ға көп (12-ға қарсы 013). Келіңіздер, деректер инженерлерінен гөрі деректер ғалымдары үшін бос орындарда қай технологиялар азырақ болатынын көрейік.

Деректер инженериясында көбірек танымал

Төмендегі графикте орташа айырмашылығы 10%-дан асатын немесе -10%-дан аз кілт сөздер көрсетілген.

Деректер инженері мамандығындағы ең сұранысқа ие дағдылар

Деректер инженері мен деректер зерттеушісі арасындағы кілт сөз жиілігіндегі ең үлкен айырмашылықтар

AWS ең елеулі өсуді көрсетеді: деректер инженериясында ол деректер ғылымына қарағанда 25% жиі пайда болады (шамамен бос орындар санының сәйкесінше 45% және 20%). Айырмашылық байқалады!

Міне, сол деректер аздап басқа презентацияда - графикте деректер инженері мен деректер зерттеушісі лауазымына арналған бос орындардағы бірдей кілт сөздің нәтижелері қатар орналасқан.

Деректер инженері мамандығындағы ең сұранысқа ие дағдылар

Деректер инженері мен деректер зерттеушісі арасындағы кілт сөз жиілігіндегі ең үлкен айырмашылықтар

Мен атап өткен келесі ең үлкен секіріс Spark-те болды - деректер инженері жиі үлкен деректермен жұмыс істеуге тура келеді. Кафка Сондай-ақ 20%-ға өсті, яғни деректанушының бос орындарының нәтижесімен салыстырғанда төрт есеге жуық. Деректерді тасымалдау деректер инженерінің негізгі міндеттерінің бірі болып табылады. Ақырында, Java, NoSQL, Redshift, SQL және Hadoop үшін деректер инженериясы саласында аталғандардың саны 15%-ға жоғары болды.

Деректер инженериясында танымал емес

Енді деректер инженері бос орындарда қай технологиялар азырақ танымал екенін көрейік.
Деректер ғылымы секторымен салыстырғанда ең күрт төмендеу жылы болды R: онда ол шамамен 56% бос жұмыс орындарында пайда болды, мұнда - тек 17%. Әсерлі. R - ғалымдар мен статистиктер ұнататын бағдарламалау тілі және әлемдегі сегізінші ең қорқынышты тіл.

SAS деректер инженері лауазымына бос орындарда да жиі кездеседі – айырмашылық 14% құрайды. SAS – статистикамен және деректермен жұмыс істеуге арналған меншікті тіл. Қызықты жері: нәтижелері бойынша бағалау деректер ғалымдары үшін бос жұмыс орындары туралы менің зерттеулерім, ол жақында басқа технологияға қарағанда көп жерін жоғалтты.

Деректер инженериясында да, деректер ғылымында да сұранысқа ие

Айта кету керек, екі жиынтықтағы алғашқы он позицияның сегізі бірдей. SQL, Python, Spark, AWS, Java, Hadoop, Hive және Scala оны деректер инженериясы және деректер ғылымы салалары үшін алғашқы ондыққа кірді. Төмендегі графикте деректер инженері жұмыс берушілері арасында ең танымал он бес технологияны көре аласыз және олардың жанында деректер ғалымдары үшін олардың бос орындарының деңгейі көрсетілген.

Деректер инженері мамандығындағы ең сұранысқа ие дағдылар

ұсынымдар

Егер сіз деректер инженериясымен айналысқыңыз келсе, мен сізге келесі технологияларды меңгеруге кеңес берер едім - мен оларды шамамен басымдық ретімен тізімдеймін.

SQL тілін үйреніңіз. Мен PostgreSQL-ге бейіммін, себебі ол ашық бастапқы код, қоғамда өте танымал және өсу сатысында. Тілді пайдалануды My Memorable SQL кітабынан білуге ​​болады - оның пилоттық нұсқасы қол жетімді осында.

Мастер Python, тіпті ең қатты деңгейде болмаса да. Менің есте қаларлық Python жаңадан бастаушыларға арналған. Оны сатып алуға болады Amazon, электрондық немесе физикалық көшірме, таңдауыңыз немесе pdf немесе epub пішімінде жүктеп алу Бұл сайтта.

Python-мен танысқаннан кейін деректерді тазалау және өңдеу үшін пайдаланылатын Python кітапханасы пандаларға өтіңіз. Егер сіз Python тілінде жазу мүмкіндігін талап ететін компанияда жұмыс істегіңіз келсе (және бұл олардың көпшілігі), пандалар туралы білім әдепкі бойынша қабылданатынына сенімді бола аласыз. Мен қазір пандалармен жұмыс істеуге арналған кіріспе нұсқауды аяқтап жатырмын - сіз жасай аласыз жазылубосату сәтін жіберіп алмау үшін.

Master AWS. Егер сіз деректер инженері болғыңыз келсе, қоймадағы бұлттық платформасыз жұмыс істей алмайсыз және AWS олардың ең танымалы болып табылады. Курстар маған көп көмектесті Linux академиясымен оқып жүргенде Google Cloud жүйесіндегі деректер инженериясы, Менің ойымша, оларда AWS-те жақсы материалдар болады.

Егер сіз осы тізімді толығымен аяқтаған болсаңыз және жұмыс берушілердің алдында деректер инженері ретінде одан әрі өскіңіз келсе, үлкен деректермен жұмыс істеу үшін Apache Spark қосуды ұсынамын. Деректер зерттеушісінің бос орындары туралы менің зерттеулерім қызығушылықтың төмендегенін көрсеткенімен, деректер инженерлері арасында бұл әлі де әрбір екінші бос орындарда пайда болады.

Соңында

Деректер инженерлері үшін ең көп сұранысқа ие технологиялардың шолуын пайдалы деп таптыңыз деп үміттенемін. Аналитиктердің жұмысы қалай жүріп жатқанын білгіңіз келсе, оқыңыз менің басқа мақалам. Бақытты инженерлік!

Ақпарат көзі: www.habr.com

пікір қалдыру