Дагуу
Би 2020 оны XNUMX-р сард байгаа мэдээллийн инженерийн сул орон тоонд дүн шинжилгээ хийж, ямар технологийн ур чадвар хамгийн алдартай болохыг ойлгох болно. Дараа нь би үр дүнг мэдээллийн судлаачийн ажлын байрны талаарх статистик мэдээлэлтэй харьцуулж үзээд зарим нэг сонирхолтой ялгаа гарч ирэв.
Нэмэлт оршилгүйгээр ажлын заруудад хамгийн их дурдагддаг шилдэг арван технологийг энд оруулав.
2020 онд мэдээллийн инженерийн ажлын байрны сул орон тоонд технологийн талаар дурдъя
Мэдээллийн инженерийн үүрэг хариуцлага
Өнөөдөр мэдээллийн инженерүүдийн хийдэг ажил нь байгууллагуудын хувьд маш чухал бөгөөд эдгээр нь мэдээллийг хадгалах, бусад ажилтнуудтай ажиллах боломжтой хэлбэрт оруулах үүрэгтэй хүмүүс юм. Өгөгдлийн инженерүүд олон эх сурвалжаас өгөгдлийг дамжуулах эсвэл багцлахын тулд дамжуулах шугамыг бүтээдэг. Дараа нь дамжуулах хоолой нь олборлох, хувиргах, ачаалах үйлдлүүдийг (өөрөөр хэлбэл, ETL процесс) гүйцэтгэдэг бөгөөд ингэснээр өгөгдлийг цаашид ашиглахад илүү тохиромжтой болгодог. Үүний дараа өгөгдлийг илүү гүнзгий боловсруулахын тулд шинжээчид болон өгөгдөл судлаачдад өгдөг. Эцэст нь, өгөгдөл нь хяналтын самбар, тайлан, машин сургалтын загварт аяллаа дуусгадаг.
Одоогийн байдлаар өгөгдлийн инженерийн ажилд ямар технологи хамгийн их эрэлт хэрэгцээтэй байгаа талаар дүгнэлт хийх боломжтой мэдээллийг би хайж байсан.
Арга зүй
Би ажил хайх гурван сайтаас мэдээлэл цуглуулсан
Түлхүүр үг бүрийн хувьд би сайт тус бүрийн нийт текстийн тооноос хандалтын хувийг тооцож, дараа нь гурван эх сурвалжийн дундажийг тооцоолсон.
Результаты
Гурван ажлын байранд хамгийн өндөр оноо авсан техникийн мэдээллийн инженерийн гучин нэр томъёог доор харуулав.
Энд ижил тоонууд байгаа боловч хүснэгт хэлбэрээр үзүүлэв.
За тэгээд дарааллаар нь явцгаая.
Үр дүнгийн тойм
SQL болон Python аль аль нь шалгагдсан нээлттэй ажлын байрны гуравны хоёроос илүү хувийг эзэлдэг. Энэ хоёр технологи нь эхлээд судлах нь утга учиртай.
Спаркийг сул орон тооны тал орчимд дурдсан байдаг.
AWS нь ажлын зарын ойролцоогоор 45% -д гарч ирдэг. Энэ нь Amazon-оос үйлдвэрлэсэн үүлэн тооцооллын платформ юм; Энэ нь бүх үүлэн платформуудын дунд зах зээлд хамгийн их хувийг эзэлдэг.
Дараа нь Java болон Hadoop - 40% -иас бага зэрэг ахдаа.
Яг л цаг хугацааны машинд сууж байгаа юм шиг
Дараа нь бид Hive, Scala, Kafka болон NoSQL-ийг харж байна - эдгээр технологи бүрийг ирүүлсэн сул орон тооны дөрөвний нэгд дурдсан болно. Apache Hive нь "SQL ашиглан тархсан дэлгүүрт байрлах том өгөгдлийн багцыг унших, бичих, удирдахад хялбар болгодог" мэдээллийн агуулах програм хангамж юм.
Мэдээлэл судлаачдын сул орон тоонуудын нэр томъёотой харьцуулах
Мэдээллийн шинжлэх ухааны ажил олгогчдын дунд хамгийн түгээмэл хэрэглэгддэг гучин технологийн нэр томъёо энд байна. Би энэ жагсаалтыг өгөгдлийн инженерчлэлийн талаар дээр дурдсантай ижил аргаар олж авсан.
2020 онд мэдээлэл судлаачийн ажлын байрны сул орон тоонд технологийн талаар дурдсан байна
Хэрэв бид нийт тооны талаар ярих юм бол өмнө нь авч үзсэн сонгон шалгаруулалттай харьцуулахад 28% илүү сул орон тоо (12, 013) байсан. Өгөгдлийн инженерүүдийнхээс илүү мэдээлэл судлаачдын сул орон тоонд ямар технологи бага түгээмэл байдгийг харцгаая.
Өгөгдлийн инженерчлэлд илүү алдартай
Доорх графикт дунджаар 10%-иас их буюу -10%-иас бага зөрүүтэй түлхүүр үгсийг харуулав.
Өгөгдлийн инженер ба өгөгдөл судлаачийн хоорондох түлхүүр үгийн давтамжийн хамгийн том ялгаа
AWS нь хамгийн их өсөлтийг харуулж байна: өгөгдлийн инженерчлэлд энэ нь өгөгдлийн шинжлэх ухаанаас 25% илүү тогтмол гарч ирдэг (нийт сул ажлын байрны ойролцоогоор 45% ба 20%). Ялгаа нь мэдэгдэхүйц юм!
Энд арай өөр танилцуулгад ижил өгөгдөл байна - график дээр мэдээллийн инженер, өгөгдөл судлаачийн сул орон тоон дахь ижил түлхүүр үгийн үр дүнг зэрэгцүүлэн байрлуулсан болно.
Өгөгдлийн инженер ба өгөгдөл судлаачийн хоорондох түлхүүр үгийн давтамжийн хамгийн том ялгаа
Миний тэмдэглэсэн дараагийн хамгийн том үсрэлт бол Spark-д байсан - өгөгдлийн инженер ихэвчлэн том өгөгдөлтэй ажиллах шаардлагатай болдог.
Өгөгдлийн инженерчлэлд бага алдартай
Дата инженерийн сул орон тоонд ямар технологи бага түгээмэл байгааг харцгаая.
Мэдээллийн шинжлэх ухааны салбартай харьцуулахад хамгийн огцом уналт онд гарсан
Өгөгдлийн инженерчлэл болон мэдээллийн шинжлэх ухаанд эрэлт хэрэгцээтэй
Хоёр багцын эхний арван байрлалын найм нь ижил байгааг тэмдэглэх нь зүйтэй. SQL, Python, Spark, AWS, Java, Hadoop, Hive болон Scala нь өгөгдлийн инженерчлэл болон мэдээллийн шинжлэх ухааны салбарын аль алиных нь эхний аравт багтжээ. Доорх графикаас та өгөгдлийн инженерийн ажил олгогчдын дунд хамгийн алдартай арван таван технологийг харж болно, тэдгээрийн хажууд өгөгдөл судлаачдын сул орон тоо байгаа.
зөвлөмж
Хэрэв та өгөгдлийн инженерчлэлд орохыг хүсч байвал дараах технологиудыг эзэмшихийг зөвлөж байна - Би тэдгээрийг ойролцоо дарааллаар жагсаав.
SQL сурах. Би PostgreSQL-д найдаж байна, учир нь энэ нь нээлттэй эх сурвалж, нийгэмд маш их алдартай, өсөлтийн шатандаа байгаа. Та энэ хэлийг хэрхэн ашиглах талаар "My Memorable SQL" номноос сурах боломжтой - түүний туршилтын хувилбар бэлэн байна
Мастер Python, хамгийн хатуу түвшинд биш ч гэсэн. My Memorable Python нь анхлан суралцагчдад зориулагдсан. хаягаар худалдан авч болно
Python-ийг мэддэг болсны дараа өгөгдөл цэвэрлэх, боловсруулахад ашигладаг Python номын сан болох pandas руу шилжинэ үү. Хэрэв та Python хэл дээр бичих чадвартай компанид ажиллахаар зорьж байгаа бол (мөн энэ нь тэдний ихэнх нь) пандагийн тухай мэдлэгийг анхдагч байдлаар авна гэдэгт итгэлтэй байж болно. Би одоогоор пандатай ажиллах танилцуулах гарын авлагыг дуусгаж байна - та чадна
Мастер AWS. Хэрэв та өгөгдлийн инженер болохыг хүсч байвал үүлэн платформгүйгээр хийх боломжгүй бөгөөд AWS бол тэдний хамгийн алдартай нь юм. Курсууд надад маш их тусалсан
Хэрэв та энэ бүх жагсаалтыг аль хэдийн дуусгасан бөгөөд өгөгдлийн инженерийн хувьд ажил олгогчдын нүдэн дээр цаашид өсөхийг хүсч байвал би том өгөгдөлтэй ажиллахын тулд Apache Spark-ийг нэмэхийг санал болгож байна. Дата судлаачдын сул орон тоонуудын талаарх миний судалгаа сонирхол буурч байгааг харуулсан ч өгөгдлийн инженерүүдийн дунд энэ нь бараг хоёр дахь сул орон тоо тутамд гарч ирдэг.
Эцэст нь хэлэхэд
Өгөгдлийн инженерүүдэд хамгийн их эрэлт хэрэгцээтэй байгаа технологийн тойм танд хэрэг болсон гэж найдаж байна. Хэрэв та шинжээчийн ажил хэрхэн явагдаж байгааг сонирхож байгаа бол уншина уу
Эх сурвалж: www.habr.com