бойынша
Мен қай технологиялық дағдылар ең танымал екенін түсіну үшін 2020 жылдың қаңтарындағы деректер инженері лауазымына бос жұмыс орындарын талдадым. Содан кейін мен нәтижелерді зерттеуші лауазымына бос орындар туралы статистикамен салыстырдым - және кейбір қызықты айырмашылықтар пайда болды.
Көп кіріспесіз, жұмыс туралы хабарландыруларда жиі айтылатын он технология:
2020 жылы мәліметтер инженері лауазымына бос орындардағы технологияларды атап өту
Деректер инженерінің міндеттері
Бүгінгі күні деректер инженерлері жасайтын жұмыс ұйымдар үшін үлкен маңызға ие - бұл ақпаратты сақтауға және оны басқа қызметкерлер онымен жұмыс істей алатындай пішінге келтіруге жауапты адамдар. Деректер инженерлері бірнеше көздерден деректерді ағынға немесе топтамаға жіберу үшін құбырларды құрастырады. Содан кейін құбырлар шығару, түрлендіру және жүктеу операцияларын (басқаша айтқанда, ETL процестерін) орындайды, бұл деректерді одан әрі пайдалану үшін қолайлы етеді. Осыдан кейін деректер аналитиктер мен деректер ғалымдарына тереңірек өңдеу үшін жіберіледі. Соңында, деректер бақылау тақталарында, есептер мен машиналық оқыту үлгілерінде саяхатын аяқтайды.
Мен қазіргі уақытта деректер инженерінің жұмысында қандай технологиялар көбірек сұранысқа ие екендігі туралы қорытынды жасауға мүмкіндік беретін ақпаратты іздедім.
Әдістері
Мен үш жұмыс іздеу сайтынан ақпарат жинадым -
Әрбір кілт сөз үшін мен әрбір сайттағы мәтіндердің жалпы санынан жеке-жеке хиттердің пайызын есептедім, содан кейін үш дереккөздің орташа мәнін есептедім.
нәтижелері
Төменде барлық үш жұмыс орнында ең жоғары ұпай жинаған отыз техникалық деректер инженериясы термині берілген.
Міне, бірдей сандар, бірақ кесте түрінде ұсынылған:
Келіңіздер, кезекпен.
Нәтижелерге шолу
SQL де, Python да қаралған бос орындардың үштен екісінен астамында пайда болады. Дәл осы екі технологияны алдымен зерттеудің мәні бар.
Spark бос орындардың жартысына жуығында айтылған.
AWS жұмыс туралы хабарландырулардың шамамен 45% пайда болады. Бұл Amazon шығарған бұлтты есептеу платформасы; ол барлық бұлттық платформалар арасындағы ең үлкен нарық үлесіне ие.
Келесі кезекте Java және Hadoop - олардың ағасы үшін 40% -дан сәл астам.
Бұл уақыт машинасына мінгендей
Содан кейін біз Hive, Scala, Kafka және NoSQL-ді көреміз - бұл технологиялардың әрқайсысы ұсынылған бос орындардың төрттен бірінде айтылған. Apache Hive – бұл «SQL арқылы таратылған дүкендерде орналасқан үлкен деректер жиынын оқуды, жазуды және басқаруды жеңілдететін» деректер қоймасының бағдарламалық құралы.
Деректерді зерттеуші бос орындардағы терминдермен салыстыру
Мұнда деректер ғылымының жұмыс берушілері арасында жиі кездесетін отыз технология термині берілген. Мен бұл тізімді деректер инженериясы үшін жоғарыда сипатталғандай алдым.
2020 жылы деректер жөніндегі ғалым лауазымына арналған бос орындардағы технология туралы ескертулер
Жалпы саны туралы айтатын болсақ, бұрын қарастырылған жұмысқа қабылдаумен салыстырғанда бос орындар 28%-ға көп (12-ға қарсы 013). Келіңіздер, деректер инженерлерінен гөрі деректер ғалымдары үшін бос орындарда қай технологиялар азырақ болатынын көрейік.
Деректер инженериясында көбірек танымал
Төмендегі графикте орташа айырмашылығы 10%-дан асатын немесе -10%-дан аз кілт сөздер көрсетілген.
Деректер инженері мен деректер зерттеушісі арасындағы кілт сөз жиілігіндегі ең үлкен айырмашылықтар
AWS ең елеулі өсуді көрсетеді: деректер инженериясында ол деректер ғылымына қарағанда 25% жиі пайда болады (шамамен бос орындар санының сәйкесінше 45% және 20%). Айырмашылық байқалады!
Міне, сол деректер аздап басқа презентацияда - графикте деректер инженері мен деректер зерттеушісі лауазымына арналған бос орындардағы бірдей кілт сөздің нәтижелері қатар орналасқан.
Деректер инженері мен деректер зерттеушісі арасындағы кілт сөз жиілігіндегі ең үлкен айырмашылықтар
Мен атап өткен келесі ең үлкен секіріс Spark-те болды - деректер инженері жиі үлкен деректермен жұмыс істеуге тура келеді.
Деректер инженериясында танымал емес
Енді деректер инженері бос орындарда қай технологиялар азырақ танымал екенін көрейік.
Деректер ғылымы секторымен салыстырғанда ең күрт төмендеу жылы болды
Деректер инженериясында да, деректер ғылымында да сұранысқа ие
Айта кету керек, екі жиынтықтағы алғашқы он позицияның сегізі бірдей. SQL, Python, Spark, AWS, Java, Hadoop, Hive және Scala оны деректер инженериясы және деректер ғылымы салалары үшін алғашқы ондыққа кірді. Төмендегі графикте деректер инженері жұмыс берушілері арасында ең танымал он бес технологияны көре аласыз және олардың жанында деректер ғалымдары үшін олардың бос орындарының деңгейі көрсетілген.
ұсынымдар
Егер сіз деректер инженериясымен айналысқыңыз келсе, мен сізге келесі технологияларды меңгеруге кеңес берер едім - мен оларды шамамен басымдық ретімен тізімдеймін.
SQL тілін үйреніңіз. Мен PostgreSQL-ге бейіммін, себебі ол ашық бастапқы код, қоғамда өте танымал және өсу сатысында. Тілді пайдалануды My Memorable SQL кітабынан білуге болады - оның пилоттық нұсқасы қол жетімді
Мастер Python, тіпті ең қатты деңгейде болмаса да. Менің есте қаларлық Python жаңадан бастаушыларға арналған. Оны сатып алуға болады
Python-мен танысқаннан кейін деректерді тазалау және өңдеу үшін пайдаланылатын Python кітапханасы пандаларға өтіңіз. Егер сіз Python тілінде жазу мүмкіндігін талап ететін компанияда жұмыс істегіңіз келсе (және бұл олардың көпшілігі), пандалар туралы білім әдепкі бойынша қабылданатынына сенімді бола аласыз. Мен қазір пандалармен жұмыс істеуге арналған кіріспе нұсқауды аяқтап жатырмын - сіз жасай аласыз
Master AWS. Егер сіз деректер инженері болғыңыз келсе, қоймадағы бұлттық платформасыз жұмыс істей алмайсыз және AWS олардың ең танымалы болып табылады. Курстар маған көп көмектесті
Егер сіз осы тізімді толығымен аяқтаған болсаңыз және жұмыс берушілердің алдында деректер инженері ретінде одан әрі өскіңіз келсе, үлкен деректермен жұмыс істеу үшін Apache Spark қосуды ұсынамын. Деректер зерттеушісінің бос орындары туралы менің зерттеулерім қызығушылықтың төмендегенін көрсеткенімен, деректер инженерлері арасында бұл әлі де әрбір екінші бос орындарда пайда болады.
Соңында
Деректер инженерлері үшін ең көп сұранысқа ие технологиялардың шолуын пайдалы деп таптыңыз деп үміттенемін. Аналитиктердің жұмысы қалай жүріп жатқанын білгіңіз келсе, оқыңыз
Ақпарат көзі: www.habr.com