Menurut
Saya menganalisis kekosongan jawatan jurutera data kerana pada Januari 2020 untuk memahami kemahiran teknologi yang paling popular. Kemudian saya membandingkan keputusan dengan statistik mengenai kekosongan jawatan saintis data - dan beberapa perbezaan menarik muncul.
Tanpa banyak mukadimah, berikut ialah sepuluh teknologi teratas yang paling kerap disebut dalam siaran pekerjaan:
Sebutkan teknologi dalam kekosongan jawatan jurutera data pada tahun 2020
Tanggungjawab seorang jurutera data
Hari ini, kerja yang dilakukan oleh jurutera data adalah sangat penting untuk organisasi - mereka adalah orang yang bertanggungjawab untuk menyimpan maklumat dan membawanya ke dalam bentuk sedemikian sehingga pekerja lain boleh bekerja dengannya. Jurutera data membina saluran paip untuk menstrim atau membatch data daripada pelbagai sumber. Saluran paip kemudian melakukan operasi pengekstrakan, transformasi dan pemuatan (dengan kata lain, proses ETL), menjadikan data lebih sesuai untuk kegunaan selanjutnya. Selepas ini, data diserahkan kepada penganalisis dan saintis data untuk pemprosesan yang lebih mendalam. Akhir sekali, data menamatkan perjalanannya dalam papan pemuka, laporan dan model pembelajaran mesin.
Saya sedang mencari maklumat yang membolehkan saya membuat kesimpulan tentang teknologi yang paling diperlukan dalam kerja jurutera data pada masa ini.
Kaedah
Saya mengumpul maklumat daripada tiga tapak carian kerja β
Untuk setiap kata kunci, saya mengira peratusan hits daripada jumlah bilangan teks pada setiap tapak secara berasingan, dan kemudian mengira purata untuk tiga sumber.
Penemuan
Di bawah ialah tiga puluh istilah kejuruteraan data teknikal dengan markah tertinggi merentas ketiga-tiga tapak kerja.
Dan berikut adalah nombor yang sama, tetapi dibentangkan dalam bentuk jadual:
Jom ikut tertib.
Semakan keputusan
Kedua-dua SQL dan Python muncul dalam lebih daripada dua pertiga daripada peluang pekerjaan yang disemak. Kedua-dua teknologi inilah yang masuk akal untuk dikaji terlebih dahulu.
Spark disebut dalam kira-kira separuh daripada kekosongan.
AWS muncul dalam kira-kira 45% daripada siaran kerja. Ia adalah platform pengkomputeran awan yang dihasilkan oleh Amazon; ia mempunyai bahagian pasaran terbesar antara semua platform awan.
Seterusnya datang Java dan Hadoop - lebih sedikit daripada 40% untuk abang mereka.
Ia seperti menaiki mesin masa
Kemudian kita melihat Hive, Scala, Kafka dan NoSQL - setiap satu daripada teknologi ini disebut dalam satu perempat daripada kekosongan yang dikemukakan. Apache Hive ialah perisian gudang data yang "membuatnya mudah untuk membaca, menulis dan mengurus set data besar yang berada di kedai teragih menggunakan SQL."
Perbandingan dengan syarat dalam jawatan kosong saintis data
Berikut ialah tiga puluh istilah teknologi yang paling biasa dalam kalangan majikan sains data. Saya memperoleh senarai ini dengan cara yang sama seperti yang diterangkan di atas untuk kejuruteraan data.
Sebutan teknologi dalam kekosongan jawatan data scientist pada tahun 2020
Jika kita bercakap tentang jumlah keseluruhan, berbanding dengan pengambilan yang dipertimbangkan sebelum ini, terdapat 28% lebih banyak kekosongan (12 berbanding 013). Mari lihat teknologi mana yang kurang biasa dalam kekosongan saintis data berbanding jurutera data.
Lebih popular dalam kejuruteraan data
Graf di bawah menunjukkan kata kunci dengan purata perbezaan lebih besar daripada 10% atau kurang daripada -10%.
Perbezaan terbesar dalam kekerapan kata kunci antara jurutera data dan saintis data
AWS menunjukkan peningkatan paling ketara: dalam kejuruteraan data ia kelihatan 25% lebih kerap daripada dalam sains data (masing-masing kira-kira 45% dan 20% daripada jumlah kekosongan). Perbezaannya adalah ketara!
Berikut ialah data yang sama dalam pembentangan yang sedikit berbeza - dalam graf, keputusan untuk kata kunci yang sama dalam kekosongan jawatan jurutera data dan saintis data terletak bersebelahan.
Perbezaan terbesar dalam kekerapan kata kunci antara jurutera data dan saintis data
Lonjakan terbesar seterusnya yang saya perhatikan adalah di Spark - seorang jurutera data selalunya perlu bekerja dengan data besar.
Kurang popular dalam kejuruteraan data
Sekarang mari kita lihat teknologi mana yang kurang popular dalam jawatan kosong jurutera data.
Penurunan paling ketara berbanding sektor sains data berlaku pada
Dalam permintaan dalam kedua-dua kejuruteraan data dan sains data
Perlu diingatkan bahawa lapan daripada sepuluh kedudukan pertama dalam kedua-dua set adalah sama. SQL, Python, Spark, AWS, Java, Hadoop, Hive dan Scala berjaya masuk ke dalam sepuluh teratas untuk kedua-dua industri kejuruteraan data dan sains data. Dalam graf di bawah, anda boleh melihat lima belas teknologi paling popular di kalangan majikan jurutera data, dan di sebelahnya ialah kadar kekosongan mereka untuk saintis data.
Cadangan
Jika anda ingin menceburi bidang kejuruteraan data, saya akan menasihati anda untuk menguasai teknologi berikut - saya menyenaraikannya mengikut keutamaan anggaran.
Belajar SQL. Saya cenderung kepada PostgreSQL kerana ia adalah sumber terbuka, sangat popular dalam komuniti, dan berada dalam fasa pertumbuhan. Anda boleh mempelajari cara menggunakan bahasa daripada buku My Memorable SQL - versi perintisnya tersedia
Kuasai Python, walaupun tidak pada tahap paling tegar. My Memorable Python direka khusus untuk pemula. Ia boleh dibeli di
Sebaik sahaja anda sudah biasa dengan Python, teruskan ke panda, perpustakaan Python yang digunakan untuk pembersihan dan pemprosesan data. Jika anda berhasrat untuk bekerja di syarikat yang memerlukan keupayaan untuk menulis dalam Python (dan ini adalah majoriti daripada mereka), anda boleh yakin bahawa pengetahuan tentang panda akan diandaikan secara lalai. Saya sedang menyiapkan panduan pengenalan untuk bekerja dengan panda - anda boleh
Kuasai AWS. Jika anda ingin menjadi seorang jurutera data, anda tidak boleh melakukannya tanpa platform awan dalam simpanan, dan AWS adalah yang paling popular daripada mereka. Kursus-kursus itu banyak membantu saya
Jika anda telah melengkapkan keseluruhan senarai ini dan ingin berkembang lagi di mata majikan sebagai jurutera data, saya cadangkan menambah Apache Spark untuk bekerja dengan data besar. Walaupun penyelidikan saya mengenai kekosongan saintis data menunjukkan penurunan minat, dalam kalangan jurutera data ia masih muncul dalam hampir setiap kekosongan kedua.
akhirnya
Saya harap anda mendapati gambaran keseluruhan teknologi yang paling banyak permintaan untuk jurutera data ini berguna. Jika anda tertanya-tanya bagaimana pekerjaan penganalisis, baca
Sumber: www.habr.com