Kemahiran yang paling diminati dalam profesion jurutera data

Menurut perangkaan 2019, jurutera data kini merupakan profesion yang permintaannya berkembang lebih cepat daripada yang lain. Jurutera data memainkan peranan penting dalam organisasi - mencipta dan menyelenggara saluran paip dan pangkalan data yang digunakan untuk memproses, mengubah dan menyimpan data. Apakah kemahiran yang diperlukan oleh wakil profesion ini terlebih dahulu? Adakah senarai itu berbeza daripada apa yang diperlukan oleh saintis data? Anda akan belajar tentang semua ini dari artikel saya.

Saya menganalisis kekosongan jawatan jurutera data kerana pada Januari 2020 untuk memahami kemahiran teknologi yang paling popular. Kemudian saya membandingkan keputusan dengan statistik mengenai kekosongan jawatan saintis data - dan beberapa perbezaan menarik muncul.

Tanpa banyak mukadimah, berikut ialah sepuluh teknologi teratas yang paling kerap disebut dalam siaran pekerjaan:

Kemahiran yang paling diminati dalam profesion jurutera data

Sebutkan teknologi dalam kekosongan jawatan jurutera data pada tahun 2020

Katakanlah.

Tanggungjawab seorang jurutera data

Hari ini, kerja yang dilakukan oleh jurutera data adalah sangat penting untuk organisasi - mereka adalah orang yang bertanggungjawab untuk menyimpan maklumat dan membawanya ke dalam bentuk sedemikian sehingga pekerja lain boleh bekerja dengannya. Jurutera data membina saluran paip untuk menstrim atau membatch data daripada pelbagai sumber. Saluran paip kemudian melakukan operasi pengekstrakan, transformasi dan pemuatan (dengan kata lain, proses ETL), menjadikan data lebih sesuai untuk kegunaan selanjutnya. Selepas ini, data diserahkan kepada penganalisis dan saintis data untuk pemprosesan yang lebih mendalam. Akhir sekali, data menamatkan perjalanannya dalam papan pemuka, laporan dan model pembelajaran mesin.

Saya sedang mencari maklumat yang membolehkan saya membuat kesimpulan tentang teknologi yang paling diperlukan dalam kerja jurutera data pada masa ini.

Kaedah

Saya mengumpul maklumat daripada tiga tapak carian kerja βˆ’ SimplyHired, Sungguh benar ΠΈ Raksasa dan melihat kata kunci yang ditemui bersama "jurutera data" dalam teks kekosongan yang ditujukan kepada penduduk AS. Untuk tugas ini saya menggunakan dua perpustakaan Python βˆ’ permintaan ΠΈ Sup Cantik. Di antara kata kunci, saya memasukkan kedua-dua kata kunci yang disertakan dalam senarai sebelumnya untuk menganalisis kekosongan jawatan saintis data, dan kata kunci yang saya pilih secara manual semasa membaca tawaran kerja untuk jurutera data. LinkedIn tidak termasuk dalam senarai sumber, kerana saya diharamkan di sana selepas percubaan terakhir saya untuk mengumpul data.

Untuk setiap kata kunci, saya mengira peratusan hits daripada jumlah bilangan teks pada setiap tapak secara berasingan, dan kemudian mengira purata untuk tiga sumber.

Penemuan

Di bawah ialah tiga puluh istilah kejuruteraan data teknikal dengan markah tertinggi merentas ketiga-tiga tapak kerja.

Kemahiran yang paling diminati dalam profesion jurutera data

Dan berikut adalah nombor yang sama, tetapi dibentangkan dalam bentuk jadual:

Kemahiran yang paling diminati dalam profesion jurutera data

Jom ikut tertib.

Semakan keputusan

Kedua-dua SQL dan Python muncul dalam lebih daripada dua pertiga daripada peluang pekerjaan yang disemak. Kedua-dua teknologi inilah yang masuk akal untuk dikaji terlebih dahulu. Python ialah bahasa pengaturcaraan yang sangat popular digunakan untuk bekerja dengan data, mencipta laman web dan menulis skrip. SQL bermaksud Bahasa Pertanyaan Berstruktur; ia melibatkan standard yang dilaksanakan oleh sekumpulan bahasa dan digunakan untuk mendapatkan semula data daripada pangkalan data hubungan. Ia muncul lama dahulu dan telah membuktikan dirinya sangat tahan.

Spark disebut dalam kira-kira separuh daripada kekosongan. Apache Spark ialah "enjin analitik data besar bersatu dengan modul terbina dalam untuk penstriman, SQL, pembelajaran mesin dan pemprosesan graf." Ia amat popular di kalangan mereka yang bekerja dengan pangkalan data yang besar.

AWS muncul dalam kira-kira 45% daripada siaran kerja. Ia adalah platform pengkomputeran awan yang dihasilkan oleh Amazon; ia mempunyai bahagian pasaran terbesar antara semua platform awan.
Seterusnya datang Java dan Hadoop - lebih sedikit daripada 40% untuk abang mereka. Java ialah bahasa yang dituturkan secara meluas dan diuji pertempuran itu Tinjauan Pembangun Limpahan Tindanan 2019 telah dianugerahkan tempat kesepuluh dalam kalangan bahasa yang menyebabkan seram di kalangan pengaturcara. Sebaliknya, Python adalah bahasa kedua yang paling disukai. Bahasa Java dikendalikan oleh Oracle, dan semua yang anda perlu tahu mengenainya boleh difahami daripada tangkapan skrin halaman rasmi ini mulai Januari 2020.

Kemahiran yang paling diminati dalam profesion jurutera data

Ia seperti menaiki mesin masa
Apache Hadoop menggunakan model pengaturcaraan MapReduce dengan kluster pelayan untuk data besar. Kini model ini semakin ditinggalkan.

Kemudian kita melihat Hive, Scala, Kafka dan NoSQL - setiap satu daripada teknologi ini disebut dalam satu perempat daripada kekosongan yang dikemukakan. Apache Hive ialah perisian gudang data yang "membuatnya mudah untuk membaca, menulis dan mengurus set data besar yang berada di kedai teragih menggunakan SQL." Scala – bahasa pengaturcaraan yang digunakan secara aktif apabila bekerja dengan data besar. Khususnya, Spark telah dicipta dalam Scala. Dalam ranking bahasa yang digeruni yang telah disebutkan, Scala menduduki tempat kesebelas. Apache Kafka – platform yang diedarkan untuk memproses mesej penstriman. Sangat popular sebagai alat penstriman data.

Pangkalan Data NoSQL membezakan diri mereka dengan SQL. Ia berbeza kerana ia tidak berkaitan, tidak berstruktur dan boleh berskala secara mendatar. NoSQL telah mendapat sedikit populariti, tetapi kegilaan terhadap pendekatan itu, malah sehingga ke tahap ramalan bahawa ia akan menggantikan SQL sebagai paradigma storan yang dominan, nampaknya telah berakhir.

Perbandingan dengan syarat dalam jawatan kosong saintis data

Berikut ialah tiga puluh istilah teknologi yang paling biasa dalam kalangan majikan sains data. Saya memperoleh senarai ini dengan cara yang sama seperti yang diterangkan di atas untuk kejuruteraan data.

Kemahiran yang paling diminati dalam profesion jurutera data

Sebutan teknologi dalam kekosongan jawatan data scientist pada tahun 2020

Jika kita bercakap tentang jumlah keseluruhan, berbanding dengan pengambilan yang dipertimbangkan sebelum ini, terdapat 28% lebih banyak kekosongan (12 berbanding 013). Mari lihat teknologi mana yang kurang biasa dalam kekosongan saintis data berbanding jurutera data.

Lebih popular dalam kejuruteraan data

Graf di bawah menunjukkan kata kunci dengan purata perbezaan lebih besar daripada 10% atau kurang daripada -10%.

Kemahiran yang paling diminati dalam profesion jurutera data

Perbezaan terbesar dalam kekerapan kata kunci antara jurutera data dan saintis data

AWS menunjukkan peningkatan paling ketara: dalam kejuruteraan data ia kelihatan 25% lebih kerap daripada dalam sains data (masing-masing kira-kira 45% dan 20% daripada jumlah kekosongan). Perbezaannya adalah ketara!

Berikut ialah data yang sama dalam pembentangan yang sedikit berbeza - dalam graf, keputusan untuk kata kunci yang sama dalam kekosongan jawatan jurutera data dan saintis data terletak bersebelahan.

Kemahiran yang paling diminati dalam profesion jurutera data

Perbezaan terbesar dalam kekerapan kata kunci antara jurutera data dan saintis data

Lonjakan terbesar seterusnya yang saya perhatikan adalah di Spark - seorang jurutera data selalunya perlu bekerja dengan data besar. Kafka juga meningkat sebanyak 20%, iaitu hampir empat kali ganda berbanding keputusan untuk kekosongan data saintis. Pemindahan data adalah salah satu tanggungjawab utama seorang jurutera data. Akhir sekali, bilangan sebutan adalah 15% lebih tinggi dalam bidang kejuruteraan data untuk Java, NoSQL, Redshift, SQL dan Hadoop.

Kurang popular dalam kejuruteraan data

Sekarang mari kita lihat teknologi mana yang kurang popular dalam jawatan kosong jurutera data.
Penurunan paling ketara berbanding sektor sains data berlaku pada R: di sana dia muncul dalam kira-kira 56% daripada kekosongan, di sini - hanya dalam 17%. Mengagumkan. R ialah bahasa pengaturcaraan yang digemari oleh saintis dan ahli statistik, dan merupakan bahasa kelapan paling digeruni di dunia.

SAS juga didapati dalam kekosongan jawatan jurutera data dengan ketara kurang kerap - perbezaannya ialah 14%. SAS ialah bahasa proprietari yang direka untuk bekerja dengan statistik dan data. Perkara yang menarik: berdasarkan keputusan penyelidikan saya tentang peluang pekerjaan untuk saintis data, ia telah kehilangan banyak tempat baru-baru iniβ€”lebih banyak daripada teknologi lain.

Dalam permintaan dalam kedua-dua kejuruteraan data dan sains data

Perlu diingatkan bahawa lapan daripada sepuluh kedudukan pertama dalam kedua-dua set adalah sama. SQL, Python, Spark, AWS, Java, Hadoop, Hive dan Scala berjaya masuk ke dalam sepuluh teratas untuk kedua-dua industri kejuruteraan data dan sains data. Dalam graf di bawah, anda boleh melihat lima belas teknologi paling popular di kalangan majikan jurutera data, dan di sebelahnya ialah kadar kekosongan mereka untuk saintis data.

Kemahiran yang paling diminati dalam profesion jurutera data

Cadangan

Jika anda ingin menceburi bidang kejuruteraan data, saya akan menasihati anda untuk menguasai teknologi berikut - saya menyenaraikannya mengikut keutamaan anggaran.

Belajar SQL. Saya cenderung kepada PostgreSQL kerana ia adalah sumber terbuka, sangat popular dalam komuniti, dan berada dalam fasa pertumbuhan. Anda boleh mempelajari cara menggunakan bahasa daripada buku My Memorable SQL - versi perintisnya tersedia di sini.

Kuasai Python, walaupun tidak pada tahap paling tegar. My Memorable Python direka khusus untuk pemula. Ia boleh dibeli di Amazon, salinan elektronik atau fizikal, pilihan anda, atau muat turun dalam format pdf atau epub di laman web ini.

Sebaik sahaja anda sudah biasa dengan Python, teruskan ke panda, perpustakaan Python yang digunakan untuk pembersihan dan pemprosesan data. Jika anda berhasrat untuk bekerja di syarikat yang memerlukan keupayaan untuk menulis dalam Python (dan ini adalah majoriti daripada mereka), anda boleh yakin bahawa pengetahuan tentang panda akan diandaikan secara lalai. Saya sedang menyiapkan panduan pengenalan untuk bekerja dengan panda - anda boleh melanggansupaya tidak terlepas saat pelepasan.

Kuasai AWS. Jika anda ingin menjadi seorang jurutera data, anda tidak boleh melakukannya tanpa platform awan dalam simpanan, dan AWS adalah yang paling popular daripada mereka. Kursus-kursus itu banyak membantu saya Akademi Linuxsemasa saya belajar kejuruteraan data di Google Cloud, saya fikir mereka juga akan mempunyai bahan yang bagus di AWS.

Jika anda telah melengkapkan keseluruhan senarai ini dan ingin berkembang lagi di mata majikan sebagai jurutera data, saya cadangkan menambah Apache Spark untuk bekerja dengan data besar. Walaupun penyelidikan saya mengenai kekosongan saintis data menunjukkan penurunan minat, dalam kalangan jurutera data ia masih muncul dalam hampir setiap kekosongan kedua.

akhirnya

Saya harap anda mendapati gambaran keseluruhan teknologi yang paling banyak permintaan untuk jurutera data ini berguna. Jika anda tertanya-tanya bagaimana pekerjaan penganalisis, baca artikel saya yang lain. Selamat kejuruteraan!

Sumber: www.habr.com

Tambah komen