Дата инженерийн мэргэжлээр хамгийн эрэлт хэрэгцээтэй ур чадварууд

Дагуу статистик 2019, өгөгдлийн инженер нь одоогоор эрэлт хэрэгцээ нь бусад бүхнээс илүү хурдацтай өсч буй мэргэжил юм. Өгөгдлийн инженер нь аливаа байгууллагад чухал үүрэг гүйцэтгэдэг - өгөгдлийг боловсруулах, хувиргах, хадгалахад ашигладаг дамжуулах хоолой, мэдээллийн санг бий болгох, хадгалах. Энэ мэргэжлийн төлөөлөгчдөд юуны өмнө ямар ур чадвар хэрэгтэй вэ? Жагсаалт нь мэдээлэл судлаачдаас шаарддаг зүйлээс ялгаатай юу? Та миний нийтлэлээс энэ бүхний талаар мэдэх болно.

Би 2020 оны XNUMX-р сард байгаа мэдээллийн инженерийн сул орон тоонд дүн шинжилгээ хийж, ямар технологийн ур чадвар хамгийн алдартай болохыг ойлгох болно. Дараа нь би үр дүнг мэдээллийн судлаачийн ажлын байрны талаарх статистик мэдээлэлтэй харьцуулж үзээд зарим нэг сонирхолтой ялгаа гарч ирэв.

Нэмэлт оршилгүйгээр ажлын заруудад хамгийн их дурдагддаг шилдэг арван технологийг энд оруулав.

Дата инженерийн мэргэжлээр хамгийн эрэлт хэрэгцээтэй ур чадварууд

2020 онд мэдээллийн инженерийн ажлын байрны сул орон тоонд технологийн талаар дурдъя

Үүнийг зөв болгоё.

Мэдээллийн инженерийн үүрэг хариуцлага

Өнөөдөр мэдээллийн инженерүүдийн хийдэг ажил нь байгууллагуудын хувьд маш чухал бөгөөд эдгээр нь мэдээллийг хадгалах, бусад ажилтнуудтай ажиллах боломжтой хэлбэрт оруулах үүрэгтэй хүмүүс юм. Өгөгдлийн инженерүүд олон эх сурвалжаас өгөгдлийг дамжуулах эсвэл багцлахын тулд дамжуулах шугамыг бүтээдэг. Дараа нь дамжуулах хоолой нь олборлох, хувиргах, ачаалах үйлдлүүдийг (өөрөөр хэлбэл, ETL процесс) гүйцэтгэдэг бөгөөд ингэснээр өгөгдлийг цаашид ашиглахад илүү тохиромжтой болгодог. Үүний дараа өгөгдлийг илүү гүнзгий боловсруулахын тулд шинжээчид болон өгөгдөл судлаачдад өгдөг. Эцэст нь, өгөгдөл нь хяналтын самбар, тайлан, машин сургалтын загварт аяллаа дуусгадаг.

Одоогийн байдлаар өгөгдлийн инженерийн ажилд ямар технологи хамгийн их эрэлт хэрэгцээтэй байгаа талаар дүгнэлт хийх боломжтой мэдээллийг би хайж байсан.

Арга зүй

Би ажил хайх гурван сайтаас мэдээлэл цуглуулсан Энгийн хүн, Үнэндээ и Monster АНУ-ын оршин суугчдад зориулсан сул ажлын байрны бичвэрүүдэд "өгөгдлийн инженер" гэсэн үгтэй хамт ямар түлхүүр үгс гарч ирснийг харав. Энэ даалгаварт би хоёр Python номын санг ашигласан хүсэлт и Сайхан шөл. Түлхүүр үгсийн дунд би өгөгдөл судлаачийн ажлын байрны сул орон тоонд дүн шинжилгээ хийх өмнөх жагсаалтад орсон болон мэдээллийн инженерийн ажлын саналыг уншиж байхдаа гараар сонгосон үгсийг хоёуланг нь оруулсан. Хамгийн сүүлд мэдээлэл цуглуулах оролдлого хийснийхээ дараа би тэнд хориглогдсон тул LinkedIn эх сурвалжийн жагсаалтад ороогүй.

Түлхүүр үг бүрийн хувьд би сайт тус бүрийн нийт текстийн тооноос хандалтын хувийг тооцож, дараа нь гурван эх сурвалжийн дундажийг тооцоолсон.

Результаты

Гурван ажлын байранд хамгийн өндөр оноо авсан техникийн мэдээллийн инженерийн гучин нэр томъёог доор харуулав.

Дата инженерийн мэргэжлээр хамгийн эрэлт хэрэгцээтэй ур чадварууд

Энд ижил тоонууд байгаа боловч хүснэгт хэлбэрээр үзүүлэв.

Дата инженерийн мэргэжлээр хамгийн эрэлт хэрэгцээтэй ур чадварууд

За тэгээд дарааллаар нь явцгаая.

Үр дүнгийн тойм

SQL болон Python аль аль нь шалгагдсан нээлттэй ажлын байрны гуравны хоёроос илүү хувийг эзэлдэг. Энэ хоёр технологи нь эхлээд судлах нь утга учиртай. Python нь өгөгдөлтэй ажиллах, вэб сайт үүсгэх, скрипт бичихэд ашигладаг маш алдартай програмчлалын хэл юм. SQL Structured Query Language гэсэн үгийн товчлол; Энэ нь хэд хэдэн хэлээр хэрэгждэг стандартыг хамардаг бөгөөд харилцааны мэдээллийн сангаас мэдээлэл авахад ашиглагддаг. Энэ нь удаан хугацааны өмнө гарч ирсэн бөгөөд маш их тэсвэртэй гэдгээ баталсан.

Спаркийг сул орон тооны тал орчимд дурдсан байдаг. Apache Spark Энэ нь "стриминг, SQL, машин суралцах, график боловсруулахад зориулагдсан модулиуд бүхий нэгдсэн том өгөгдлийн аналитик хөдөлгүүр" юм. Энэ нь ялангуяа том мэдээллийн сантай ажилладаг хүмүүсийн дунд түгээмэл байдаг.

AWS нь ажлын зарын ойролцоогоор 45% -д гарч ирдэг. Энэ нь Amazon-оос үйлдвэрлэсэн үүлэн тооцооллын платформ юм; Энэ нь бүх үүлэн платформуудын дунд зах зээлд хамгийн их хувийг эзэлдэг.
Дараа нь Java болон Hadoop - 40% -иас бага зэрэг ахдаа. Java бол өргөн хэрэглэгддэг, тулалдаанд шалгагдсан хэл юм 2019 оны Stack Overflow хөгжүүлэгчдийн судалгаа программистуудын дунд аймшигт хэлээр аравдугаар байр эзэлсэн. Үүний эсрэгээр Python нь хамгийн дуртай хоёр дахь хэл байв. Java хэлийг Oracle ажиллуулдаг бөгөөд энэ талаар мэдэх шаардлагатай бүх зүйлийг 2020 оны XNUMX-р сарын албан ёсны хуудасны энэ дэлгэцийн агшнаас ойлгох боломжтой.

Дата инженерийн мэргэжлээр хамгийн эрэлт хэрэгцээтэй ур чадварууд

Яг л цаг хугацааны машинд сууж байгаа юм шиг
Апачи Хадуп том өгөгдлийн хувьд серверийн кластер бүхий MapReduce програмчлалын загварыг ашигладаг. Одоо энэ загвар улам бүр орхигдож байна.

Дараа нь бид Hive, Scala, Kafka болон NoSQL-ийг харж байна - эдгээр технологи бүрийг ирүүлсэн сул орон тооны дөрөвний нэгд дурдсан болно. Apache Hive нь "SQL ашиглан тархсан дэлгүүрт байрлах том өгөгдлийн багцыг унших, бичих, удирдахад хялбар болгодог" мэдээллийн агуулах програм хангамж юм. Scala – том өгөгдөлтэй ажиллахад идэвхтэй ашиглагддаг програмчлалын хэл. Ялангуяа Spark-ийг Скала хотод бүтээсэн. Өмнө дурьдсан аймшигт хэлүүдийн зэрэглэлд Скала арваннэгдүгээрт ордог. Apache Kafka – урсгал мессежийг боловсруулах түгээсэн платформ. Мэдээлэл дамжуулах хэрэгсэл болгон маш их алдартай.

NoSQL мэдээллийн сан өөрсдийгөө SQL-тэй харьцуулна. Тэдгээр нь харилцан хамааралгүй, бүтэцгүй, хэвтээ байдлаар өргөжүүлэх боломжтой гэдгээрээ ялгаатай. NoSQL тодорхой хэмжээгээр алдаршсан ч энэ нь SQL-г зонхилох хадгалалтын парадигм болгон орлох болно гэсэн зөгнөл хүртэл дуусч байгаа бололтой.

Мэдээлэл судлаачдын сул орон тоонуудын нэр томъёотой харьцуулах

Мэдээллийн шинжлэх ухааны ажил олгогчдын дунд хамгийн түгээмэл хэрэглэгддэг гучин технологийн нэр томъёо энд байна. Би энэ жагсаалтыг өгөгдлийн инженерчлэлийн талаар дээр дурдсантай ижил аргаар олж авсан.

Дата инженерийн мэргэжлээр хамгийн эрэлт хэрэгцээтэй ур чадварууд

2020 онд мэдээлэл судлаачийн ажлын байрны сул орон тоонд технологийн талаар дурдсан байна

Хэрэв бид нийт тооны талаар ярих юм бол өмнө нь авч үзсэн сонгон шалгаруулалттай харьцуулахад 28% илүү сул орон тоо (12, 013) байсан. Өгөгдлийн инженерүүдийнхээс илүү мэдээлэл судлаачдын сул орон тоонд ямар технологи бага түгээмэл байдгийг харцгаая.

Өгөгдлийн инженерчлэлд илүү алдартай

Доорх графикт дунджаар 10%-иас их буюу -10%-иас бага зөрүүтэй түлхүүр үгсийг харуулав.

Дата инженерийн мэргэжлээр хамгийн эрэлт хэрэгцээтэй ур чадварууд

Өгөгдлийн инженер ба өгөгдөл судлаачийн хоорондох түлхүүр үгийн давтамжийн хамгийн том ялгаа

AWS нь хамгийн их өсөлтийг харуулж байна: өгөгдлийн инженерчлэлд энэ нь өгөгдлийн шинжлэх ухаанаас 25% илүү тогтмол гарч ирдэг (нийт сул ажлын байрны ойролцоогоор 45% ба 20%). Ялгаа нь мэдэгдэхүйц юм!

Энд арай өөр танилцуулгад ижил өгөгдөл байна - график дээр мэдээллийн инженер, өгөгдөл судлаачийн сул орон тоон дахь ижил түлхүүр үгийн үр дүнг зэрэгцүүлэн байрлуулсан болно.

Дата инженерийн мэргэжлээр хамгийн эрэлт хэрэгцээтэй ур чадварууд

Өгөгдлийн инженер ба өгөгдөл судлаачийн хоорондох түлхүүр үгийн давтамжийн хамгийн том ялгаа

Миний тэмдэглэсэн дараагийн хамгийн том үсрэлт бол Spark-д байсан - өгөгдлийн инженер ихэвчлэн том өгөгдөлтэй ажиллах шаардлагатай болдог. Kaфка мөн 20% -иар, өөрөөр хэлбэл мэдээлэл судлаачийн сул орон тоотой харьцуулахад бараг дөрөв дахин өссөн байна. Өгөгдөл дамжуулах нь өгөгдлийн инженерийн гол үүрэг хариуцлагын нэг юм. Эцэст нь Java, NoSQL, Redshift, SQL болон Hadoop-ын өгөгдлийн инженерчлэлийн салбарт дурдагдсан хүмүүсийн тоо 15%-иар илүү байв.

Өгөгдлийн инженерчлэлд бага алдартай

Дата инженерийн сул орон тоонд ямар технологи бага түгээмэл байгааг харцгаая.
Мэдээллийн шинжлэх ухааны салбартай харьцуулахад хамгийн огцом уналт онд гарсан R: тэнд тэр сул орон тооны ойролцоогоор 56% -д, энд ердөө 17% -д гарч ирэв. Сэтгэл хөдөлгөм. R бол эрдэмтэд, статистикчдийн дуртай програмчлалын хэл бөгөөд дэлхийн хамгийн айдаг хэлээр наймдугаарт ордог.

SAS Мэдээллийн инженерийн сул орон тоонд бас бага байдаг - ялгаа нь 14% байна. SAS нь статистик болон өгөгдөлтэй ажиллахад зориулагдсан өмчийн хэл юм. Сонирхолтой зүйл: үр дүнгээс нь шүүнэ мэдээлэл судлаачдад зориулсан ажлын байрны талаарх миний судалгаа, энэ нь сүүлийн үед маш их байр сууриа алдсан нь бусад технологиос илүү.

Өгөгдлийн инженерчлэл болон мэдээллийн шинжлэх ухаанд эрэлт хэрэгцээтэй

Хоёр багцын эхний арван байрлалын найм нь ижил байгааг тэмдэглэх нь зүйтэй. SQL, Python, Spark, AWS, Java, Hadoop, Hive болон Scala нь өгөгдлийн инженерчлэл болон мэдээллийн шинжлэх ухааны салбарын аль алиных нь эхний аравт багтжээ. Доорх графикаас та өгөгдлийн инженерийн ажил олгогчдын дунд хамгийн алдартай арван таван технологийг харж болно, тэдгээрийн хажууд өгөгдөл судлаачдын сул орон тоо байгаа.

Дата инженерийн мэргэжлээр хамгийн эрэлт хэрэгцээтэй ур чадварууд

зөвлөмж

Хэрэв та өгөгдлийн инженерчлэлд орохыг хүсч байвал дараах технологиудыг эзэмшихийг зөвлөж байна - Би тэдгээрийг ойролцоо дарааллаар жагсаав.

SQL сурах. Би PostgreSQL-д найдаж байна, учир нь энэ нь нээлттэй эх сурвалж, нийгэмд маш их алдартай, өсөлтийн шатандаа байгаа. Та энэ хэлийг хэрхэн ашиглах талаар "My Memorable SQL" номноос сурах боломжтой - түүний туршилтын хувилбар бэлэн байна энд.

Мастер Python, хамгийн хатуу түвшинд биш ч гэсэн. My Memorable Python нь анхлан суралцагчдад зориулагдсан. хаягаар худалдан авч болно Амазоны, цахим болон биет хуулбар, таны сонголт, эсвэл pdf эсвэл epub форматаар татаж авах энэ сайтад.

Python-ийг мэддэг болсны дараа өгөгдөл цэвэрлэх, боловсруулахад ашигладаг Python номын сан болох pandas руу шилжинэ үү. Хэрэв та Python хэл дээр бичих чадвартай компанид ажиллахаар зорьж байгаа бол (мөн энэ нь тэдний ихэнх нь) пандагийн тухай мэдлэгийг анхдагч байдлаар авна гэдэгт итгэлтэй байж болно. Би одоогоор пандатай ажиллах танилцуулах гарын авлагыг дуусгаж байна - та чадна захиалахсуллах мөчийг алдахгүйн тулд.

Мастер AWS. Хэрэв та өгөгдлийн инженер болохыг хүсч байвал үүлэн платформгүйгээр хийх боломжгүй бөгөөд AWS бол тэдний хамгийн алдартай нь юм. Курсууд надад маш их тусалсан Линукс Академинамайг сурч байхдаа Google Cloud дээрх өгөгдлийн инженерчлэл, Тэд бас AWS дээр сайн материалтай болно гэж би бодож байна.

Хэрэв та энэ бүх жагсаалтыг аль хэдийн дуусгасан бөгөөд өгөгдлийн инженерийн хувьд ажил олгогчдын нүдэн дээр цаашид өсөхийг хүсч байвал би том өгөгдөлтэй ажиллахын тулд Apache Spark-ийг нэмэхийг санал болгож байна. Дата судлаачдын сул орон тоонуудын талаарх миний судалгаа сонирхол буурч байгааг харуулсан ч өгөгдлийн инженерүүдийн дунд энэ нь бараг хоёр дахь сул орон тоо тутамд гарч ирдэг.

Эцэст нь хэлэхэд

Өгөгдлийн инженерүүдэд хамгийн их эрэлт хэрэгцээтэй байгаа технологийн тойм танд хэрэг болсон гэж найдаж байна. Хэрэв та шинжээчийн ажил хэрхэн явагдаж байгааг сонирхож байгаа бол уншина уу миний нөгөө нийтлэл. Аз жаргалтай инженер!

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх