Ma'lumotlar muhandisi kasbida eng ko'p talab qilinadigan ko'nikmalar

Shunga ko'ra statistika 2019, ma'lumotlar muhandisi hozirda talab boshqa har qanday kasbga qaraganda tezroq o'sib borayotgan kasb. Ma'lumotlar muhandisi tashkilotda muhim rol o'ynaydi - ma'lumotlarni qayta ishlash, o'zgartirish va saqlash uchun ishlatiladigan quvurlar va ma'lumotlar bazalarini yaratish va saqlash. Ushbu kasb vakillariga birinchi navbatda qanday ko'nikmalar kerak? Ro'yxat ma'lumotlar olimlari talab qiladigan narsadan farq qiladimi? Bularning barchasi haqida mening maqolamdan bilib olasiz.

Qaysi texnologiya ko'nikmalari eng mashhur ekanligini tushunish uchun men 2020 yil yanvar oyida ma'lumotlar muhandisi lavozimiga bo'sh ish o'rinlarini tahlil qildim. Keyin men natijalarni ma'lumot olimi lavozimiga bo'sh ish o'rinlari haqidagi statistik ma'lumotlar bilan solishtirdim - va ba'zi qiziqarli farqlar paydo bo'ldi.

Ko'p muqaddimasiz, ish e'lonlarida eng ko'p tilga olinadigan o'nta texnologiya:

Ma'lumotlar muhandisi kasbida eng ko'p talab qilinadigan ko'nikmalar

2020 yilda ma'lumotlar muhandisi lavozimiga bo'sh ish o'rinlaridagi texnologiyalarni eslatib o'tish

Keling, tushunaylik.

Ma'lumotlar muhandisining majburiyatlari

Bugungi kunda ma'lumotlar muhandislari qiladigan ish tashkilotlar uchun katta ahamiyatga ega - bu ma'lumotlarni saqlash va uni boshqa xodimlar u bilan ishlashi mumkin bo'lgan shaklga keltirish uchun mas'ul bo'lgan odamlardir. Ma'lumotlar muhandislari bir nechta manbalardan ma'lumotlarni uzatish yoki to'plash uchun quvurlarni quradilar. Keyin quvurlar qazib olish, o'zgartirish va yuklash operatsiyalarini (boshqacha aytganda, ETL jarayonlarini) amalga oshiradi, bu esa ma'lumotlarni keyingi foydalanish uchun qulayroq qiladi. Shundan so'ng, ma'lumotlar chuqurroq qayta ishlash uchun tahlilchilar va ma'lumotlar olimlariga topshiriladi. Va nihoyat, ma'lumotlar o'z sayohatini asboblar panelida, hisobotlarda va mashinani o'rganish modellarida yakunlaydi.

Men hozirda ma'lumotlar muhandisi ishida qaysi texnologiyalar eng ko'p talab qilinayotgani haqida xulosa chiqarishga imkon beradigan ma'lumotni qidirayotgan edim.

Usullari

Men uchta ish qidirish saytidan ma'lumot to'pladim - SimplyHired, Haqiqatdan ham и mahluq va AQSh rezidentlariga mo'ljallangan bo'sh ish o'rinlari matnlarida "ma'lumotlar muhandisi" bilan birgalikda qanday kalit so'zlar paydo bo'lganini ko'rib chiqdi. Ushbu vazifa uchun men ikkita Python kutubxonasidan foydalandim - so'rovlari и Chiroyli sho'rva. Kalit so'zlar orasida men ma'lumotlar olimi lavozimiga bo'sh ish o'rinlarini tahlil qilish uchun oldingi ro'yxatga kiritilganlarni ham, ma'lumotlar muhandislari uchun ish takliflarini o'qish paytida qo'lda tanlaganlarni ham kiritdim. LinkedIn manbalar ro'yxatiga kiritilmadi, chunki ma'lumot to'plashga oxirgi urinishimdan keyin u erda taqiqlangan edim.

Har bir kalit so'z uchun men har bir saytdagi matnlarning umumiy sonidan xitlar foizini alohida hisoblab chiqdim, so'ngra uchta manba uchun o'rtacha ko'rsatkichni hisoblab chiqdim.

Natijalar

Quyida barcha uchta ish joyida eng yuqori ballga ega bo'lgan o'ttizta texnik ma'lumotlar muhandisligi shartlari keltirilgan.

Ma'lumotlar muhandisi kasbida eng ko'p talab qilinadigan ko'nikmalar

Va bu erda bir xil raqamlar, ammo jadval shaklida taqdim etilgan:

Ma'lumotlar muhandisi kasbida eng ko'p talab qilinadigan ko'nikmalar

Keling, tartibda boraylik.

Natijalarni ko'rib chiqish

SQL ham, Python ham ko'rib chiqilgan ish o'rinlarining uchdan ikki qismidan ko'prog'ida ko'rinadi. Aynan shu ikki texnologiya birinchi navbatda o'rganish mantiqiy. Python ma'lumotlar bilan ishlash, veb-saytlar yaratish va skriptlarni yozish uchun ishlatiladigan juda mashhur dasturlash tili. SQL Strukturaviy so'rovlar tilini anglatadi; u tillar guruhi tomonidan amalga oshirilgan standartni o'z ichiga oladi va relyatsion ma'lumotlar bazalaridan ma'lumotlarni olish uchun ishlatiladi. U uzoq vaqt oldin paydo bo'lgan va o'zini juda chidamliligini isbotladi.

Spark bo'sh ish o'rinlarining taxminan yarmida qayd etilgan. Apache Spark bu "oqim, SQL, mashinani o'rganish va grafiklarni qayta ishlash uchun o'rnatilgan modullarga ega bo'lgan yagona katta ma'lumotlarni tahlil qilish mexanizmi". Bu, ayniqsa, katta ma'lumotlar bazalari bilan ishlaydiganlar orasida mashhur.

AWS ish e'lonlarining taxminan 45% da paydo bo'ladi. Bu Amazon tomonidan ishlab chiqarilgan bulutli hisoblash platformasi; u barcha bulutli platformalar orasida eng katta bozor ulushiga ega.
Keyingi o'rinlarda Java va Hadoop - ularning ukasi uchun 40% dan bir oz ko'proq. Java keng tarqalgan, jangovar sinovdan o'tgan tildir 2019 Stack Overflow Developer tadqiqoti dasturchilar orasida dahshatga olib keladigan tillar orasida o'ninchi o'ringa sazovor bo'ldi. Aksincha, Python ikkinchi eng sevimli til edi. Java tili Oracle tomonidan boshqariladi va u haqida bilishingiz kerak bo'lgan hamma narsani 2020 yil yanvaridan boshlab rasmiy sahifaning ushbu skrinshotidan tushunish mumkin.

Ma'lumotlar muhandisi kasbida eng ko'p talab qilinadigan ko'nikmalar

Bu vaqt mashinasida yurishga o'xshaydi
Apache Hadoop katta ma'lumotlar uchun server klasterlari bilan MapReduce dasturlash modelidan foydalanadi. Endi bu model tobora ko'proq tark etilmoqda.

Keyin biz Hive, Scala, Kafka va NoSQL-ni ko'ramiz - bu texnologiyalarning har biri taqdim etilgan bo'sh ish o'rinlarining to'rtdan birida qayd etilgan. Apache Hive - bu "SQL yordamida taqsimlangan do'konlarda joylashgan katta ma'lumotlar to'plamlarini o'qish, yozish va boshqarishni osonlashtiradigan" ma'lumotlar ombori dasturi. Scala – katta ma’lumotlar bilan ishlashda faol foydalaniladigan dasturlash tili. Xususan, Spark Scala-da yaratilgan. Yuqorida aytib o'tilgan qo'rqinchli tillar reytingida Scala o'n birinchi o'rinni egallaydi. Apache Kafka – oqimli xabarlarni qayta ishlash uchun taqsimlangan platforma. Ma'lumotlarni uzatish vositasi sifatida juda mashhur.

NoSQL ma'lumotlar bazalari o'zlarini SQL bilan taqqoslang. Ular aloqador emasligi, tuzilmaganligi va gorizontal ravishda kengaytirilishi bilan farqlanadi. NoSQL ma'lum darajada mashhurlikka erishdi, biroq yondashuv uchun g'ayritabiiylik, hatto u SQLni dominant saqlash paradigmasi sifatida almashtirishi haqidagi bashoratlarga qadar ham tugadi.

Ma'lumot olimi bo'sh ish o'rinlaridagi atamalar bilan taqqoslash

Bu erda ma'lumotlar fanlari bo'yicha ish beruvchilar orasida eng keng tarqalgan o'ttiz texnologik atama mavjud. Men ushbu ro'yxatni ma'lumotlar muhandisligi uchun yuqorida tavsiflangan tarzda oldim.

Ma'lumotlar muhandisi kasbida eng ko'p talab qilinadigan ko'nikmalar

2020-yilda maʼlumotlar boʻyicha mutaxassis lavozimiga boʻsh ish oʻrinlaridagi texnologiyalar haqida eslatmalar

Agar umumiy son haqida gapiradigan bo'lsak, ilgari ko'rib chiqilgan ishga qabul qilish bilan solishtirganda, bo'sh ish o'rinlari 28 foizga ko'p bo'lgan (12 013 ga nisbatan 9396 XNUMX). Keling, ma'lumotlar muhandislari uchun bo'sh ish o'rinlarida ma'lumotlar muhandislariga qaraganda qaysi texnologiyalar kamroq tarqalganligini ko'rib chiqaylik.

Ma'lumotlar muhandisligida ko'proq mashhur

Quyidagi grafikda o'rtacha farqi 10% dan katta yoki -10% dan kam bo'lgan kalit so'zlar ko'rsatilgan.

Ma'lumotlar muhandisi kasbida eng ko'p talab qilinadigan ko'nikmalar

Ma'lumotlar muhandisi va ma'lumotlar olimi o'rtasidagi kalit so'z chastotasidagi eng katta farqlar

AWS eng sezilarli o'sishni ko'rsatmoqda: ma'lumotlar muhandisligida u ma'lumotlar faniga qaraganda 25% muntazam ravishda paydo bo'ladi (mos ravishda bo'sh ish o'rinlarining umumiy sonining taxminan 45% va 20%). Farqi sezilarli!

Mana bir xil ma'lumotlar biroz boshqacha taqdimotda - grafikda ma'lumotlar muhandisi va ma'lumotlar olimi lavozimlari uchun bo'sh ish o'rinlaridagi bir xil kalit so'z bo'yicha natijalar yonma-yon joylashgan.

Ma'lumotlar muhandisi kasbida eng ko'p talab qilinadigan ko'nikmalar

Ma'lumotlar muhandisi va ma'lumotlar olimi o'rtasidagi kalit so'z chastotasidagi eng katta farqlar

Men ta'kidlagan navbatdagi eng katta sakrash Sparkda bo'ldi - ma'lumotlar muhandisi ko'pincha katta ma'lumotlar bilan ishlashi kerak. Kafka Shuningdek, 20% ga oshdi, ya'ni ma'lumotlar bo'yicha bo'sh ish o'rinlari bo'yicha natijaga nisbatan deyarli to'rt baravar ko'paydi. Ma'lumotlarni uzatish ma'lumotlar muhandisining asosiy vazifalaridan biridir. Va nihoyat, Java, NoSQL, Redshift, SQL va Hadoop uchun ma'lumotlar muhandisligi sohasida eslatmalar soni 15% ga ko'p bo'ldi.

Ma'lumotlar muhandisligida kamroq mashhur

Keling, ma'lumotlar muhandisi bo'sh o'rinlarida qaysi texnologiyalar kamroq mashhurligini ko'rib chiqaylik.
Ma'lumotlar fanlari sektoriga nisbatan eng keskin pasayish yiliga yuz berdi R: u erda u bo'sh ish o'rinlarining taxminan 56 foizida paydo bo'ldi, bu erda - atigi 17%. Ta'sirli. R - bu olimlar va statistiklar tomonidan ma'qullanadigan dasturlash tili bo'lib, dunyodagi eng qo'rqinchli tillar orasida sakkizinchi o'rinda turadi.

SAS ma'lumotlar muhandisi lavozimi uchun bo'sh ish o'rinlarida ham kamroq uchraydi - farq 14% ni tashkil qiladi. SAS - bu statistik ma'lumotlar va ma'lumotlar bilan ishlash uchun mo'ljallangan xususiy til. Qiziqarli nuqta: natijalarga qarab ma'lumotlar olimlari uchun ish joylari bo'yicha mening tadqiqotim, u so'nggi paytlarda juda ko'p joyni yo'qotdi - boshqa texnologiyalarga qaraganda.

Ma'lumotlar muhandisligi va ma'lumotlar fanida talab mavjud

Shuni ta'kidlash kerakki, ikkala to'plamdagi dastlabki o'nta pozitsiyadan sakkiztasi bir xil. SQL, Python, Spark, AWS, Java, Hadoop, Hive va Scala maʼlumotlar muhandisligi va maʼlumotlar fanlari sohalari uchun birinchi oʻntalikka kirdi. Quyidagi grafikda siz ma'lumotlar muhandislari ish beruvchilari orasida eng mashhur o'n beshta texnologiyani ko'rishingiz mumkin va ularning yonida ma'lumotlar bo'yicha olimlar uchun bo'sh ish o'rinlari darajasi ko'rsatilgan.

Ma'lumotlar muhandisi kasbida eng ko'p talab qilinadigan ko'nikmalar

tavsiyalar

Agar siz ma'lumotlar muhandisligi bilan shug'ullanmoqchi bo'lsangiz, men sizga quyidagi texnologiyalarni o'zlashtirishingizni maslahat beraman - men ularni taxminiy ustuvorlik tartibida sanab o'taman.

SQL ni o'rganing. Men PostgreSQLga moyilman, chunki u ochiq manba, jamiyatda juda mashhur va rivojlanish bosqichida. Tildan qanday foydalanishni My Memorable SQL kitobidan o'rganishingiz mumkin - uning pilot versiyasi mavjud shu yerda.

Master Python, hatto eng qattiq darajada bo'lmasa ham. My Memorable Python yangi boshlanuvchilar uchun maxsus ishlab chiqilgan. dan sotib olish mumkin Amazon, elektron yoki jismoniy nusxa, sizning tanlovingiz yoki pdf yoki epub formatida yuklab oling Ushbu saytda.

Python bilan tanishganingizdan so'ng, ma'lumotlarni tozalash va qayta ishlash uchun ishlatiladigan Python kutubxonasi - pandalarga o'ting. Agar siz Python-da yozish qobiliyatini talab qiladigan kompaniyada ishlashni maqsad qilgan bo'lsangiz (va bu ularning aksariyati), pandalar haqidagi bilim sukut bo'yicha qabul qilinishiga amin bo'lishingiz mumkin. Men hozirda pandalar bilan ishlash bo'yicha kirish qo'llanmasini tayyorlayapman - mumkin obuna bo'lishozod qilish vaqtini o'tkazib yubormaslik uchun.

Master AWS. Agar siz ma'lumotlar muhandisi bo'lishni istasangiz, bulutli platformasiz ishlay olmaysiz va AWS ularning eng mashhuri. Kurslar menga juda yordam berdi Linux akademiyasimen o'qiyotganimda Google Cloud-da ma'lumotlar muhandisligi, O'ylaymanki, ularda AWS-da yaxshi materiallar ham bo'ladi.

Agar siz ushbu ro'yxatni allaqachon to'ldirgan bo'lsangiz va ish beruvchilar nazarida ma'lumotlar muhandisi sifatida o'sishni istasangiz, men katta ma'lumotlar bilan ishlash uchun Apache Spark-ni qo'shishni taklif qilaman. Ma'lumotlar bo'yicha bo'sh ish o'rinlari bo'yicha mening tadqiqotim qiziqishning pasayishini ko'rsatgan bo'lsa-da, ma'lumotlar muhandislari orasida bu deyarli har ikkinchi vakansiyada paydo bo'ladi.

Nihoyat

Umid qilamanki, siz ma'lumotlar muhandislari uchun eng ko'p talab qilinadigan texnologiyalarning umumiy sharhini foydali deb topdingiz. Agar siz tahlilchilarning ishlari qanday ketayotganiga qiziqsangiz, o'qing mening boshqa maqolam. Baxtli muhandislik!

Manba: www.habr.com

a Izoh qo'shish