Menurut
Saya menganalisis lowongan untuk posisi data engineer pada Januari 2020 untuk memahami keterampilan teknologi mana yang paling populer. Kemudian saya membandingkan hasilnya dengan statistik lowongan untuk posisi data scientist - dan muncul beberapa perbedaan menarik.
Tanpa banyak basa-basi, berikut sepuluh teknologi teratas yang paling sering disebutkan dalam lowongan pekerjaan:
Sebutkan teknologi dalam lowongan untuk posisi data engineer pada tahun 2020
Tanggung jawab seorang insinyur data
Saat ini, pekerjaan yang dilakukan para insinyur data sangat penting bagi organisasi - mereka adalah orang-orang yang bertanggung jawab untuk menyimpan informasi dan membawanya ke dalam bentuk yang dapat digunakan oleh karyawan lain. Insinyur data membangun saluran untuk melakukan streaming atau mengelompokkan data dari berbagai sumber. Pipeline kemudian melakukan operasi ekstraksi, transformasi, dan pemuatan (dengan kata lain, proses ETL), sehingga data lebih cocok untuk digunakan lebih lanjut. Setelah itu, data tersebut diserahkan kepada analis dan ilmuwan data untuk diproses lebih dalam. Terakhir, data mengakhiri perjalanannya di dasbor, laporan, dan model pembelajaran mesin.
Saya sedang mencari informasi yang memungkinkan saya menarik kesimpulan tentang teknologi mana yang paling diminati dalam pekerjaan seorang data engineer saat ini.
Metode
Saya mengumpulkan informasi dari tiga situs pencarian kerja -
Untuk setiap kata kunci, saya menghitung persentase hit dari jumlah total teks di setiap situs secara terpisah, dan kemudian menghitung rata-rata untuk ketiga sumber tersebut.
Temuan
Di bawah ini adalah tiga puluh istilah rekayasa data teknis dengan skor tertinggi di ketiga lokasi kerja.
Dan berikut angkanya sama, namun disajikan dalam bentuk tabel:
Mari kita pergi secara berurutan.
Tinjauan hasil
Baik SQL dan Python muncul di lebih dari dua pertiga lowongan pekerjaan yang ditinjau. Kedua teknologi inilah yang masuk akal untuk dipelajari terlebih dahulu.
Spark disebutkan di sekitar setengah dari lowongan.
AWS muncul di sekitar 45% postingan pekerjaan. Ini adalah platform komputasi awan yang diproduksi oleh Amazon; ia memiliki pangsa pasar terbesar di antara semua platform cloud.
Berikutnya adalah Java dan Hadoop - sedikit lebih dari 40% untuk saudaranya.
Ini seperti mengendarai mesin waktu
Lalu kita melihat Hive, Scala, Kafka dan NoSQL - masing-masing teknologi ini disebutkan dalam seperempat lowongan yang dikirimkan. Apache Hive adalah perangkat lunak gudang data yang “memudahkan membaca, menulis, dan mengelola kumpulan data besar yang berada di penyimpanan terdistribusi menggunakan SQL.”
Perbandingan dengan istilah lowongan data scientist
Berikut adalah tiga puluh istilah teknologi yang paling umum di kalangan perusahaan ilmu data. Saya memperoleh daftar ini dengan cara yang sama seperti dijelaskan di atas untuk rekayasa data.
Penyebutan teknologi dalam lowongan posisi data scientist pada tahun 2020
Jika kita berbicara tentang jumlah total, dibandingkan dengan rekrutmen yang dipertimbangkan sebelumnya, terdapat 28% lebih banyak lowongan (12 berbanding 013). Mari kita lihat teknologi mana yang kurang umum dalam lowongan data scientist dibandingkan data engineer.
Lebih populer di bidang rekayasa data
Grafik di bawah menunjukkan kata kunci dengan perbedaan rata-rata lebih dari 10% atau kurang dari -10%.
Perbedaan terbesar dalam frekuensi kata kunci antara data engineer dan data scientist
AWS menunjukkan peningkatan paling signifikan: di bidang rekayasa data, AWS muncul 25% lebih sering dibandingkan di bidang ilmu data (masing-masing sekitar 45% dan 20% dari total jumlah lowongan). Perbedaannya terlihat jelas!
Berikut data yang sama dalam penyajian yang sedikit berbeda - pada grafik, hasil untuk kata kunci yang sama pada lowongan posisi data engineer dan data scientist terletak bersebelahan.
Perbedaan terbesar dalam frekuensi kata kunci antara data engineer dan data scientist
Lompatan terbesar berikutnya yang saya catat terjadi di Spark - seorang insinyur data sering kali harus bekerja dengan data besar.
Kurang populer dalam rekayasa data
Sekarang mari kita lihat teknologi mana yang kurang populer di lowongan data engineer.
Penurunan paling tajam dibandingkan sektor ilmu data terjadi pada
Dibutuhkan dalam bidang teknik data dan ilmu data
Perlu dicatat bahwa delapan dari sepuluh posisi pertama di kedua set adalah sama. SQL, Python, Spark, AWS, Java, Hadoop, Hive, dan Scala berhasil masuk sepuluh besar untuk industri teknik data dan ilmu data. Pada grafik di bawah ini Anda dapat melihat lima belas teknologi paling populer di kalangan perusahaan data engineer, dan di sebelahnya adalah tingkat lowongan untuk data scientist.
Rekomendasi
Jika Anda ingin masuk ke bidang rekayasa data, saya menyarankan Anda untuk menguasai teknologi berikut - saya mencantumkannya dalam urutan perkiraan prioritas.
Pelajari SQL. Saya condong ke PostgreSQL karena open source, sangat populer di komunitas, dan sedang dalam fase pertumbuhan. Anda dapat mempelajari cara menggunakan bahasa ini dari buku My Memorable SQL - versi percontohannya tersedia
Kuasai Python, meskipun bukan pada level paling ekstrim. My Memorable Python dirancang khusus untuk pemula. Itu dapat dibeli di
Setelah Anda terbiasa dengan Python, lanjutkan ke pandas, pustaka Python yang digunakan untuk pembersihan dan pemrosesan data. Jika Anda ingin bekerja di perusahaan yang membutuhkan kemampuan menulis dengan Python (dan ini adalah mayoritas dari mereka), Anda dapat yakin bahwa pengetahuan tentang panda akan diasumsikan secara default. Saat ini saya sedang menyelesaikan panduan pengantar untuk bekerja dengan panda - Anda bisa
Kuasai AWS. Jika Anda ingin menjadi insinyur data, Anda tidak dapat hidup tanpa platform cloud, dan AWS adalah yang paling populer. Kursus ini banyak membantu saya
Jika Anda telah menyelesaikan seluruh daftar ini dan ingin lebih berkembang di mata pemberi kerja sebagai insinyur data, saya sarankan menambahkan Apache Spark untuk bekerja dengan data besar. Meskipun penelitian saya tentang lowongan data scientist menunjukkan penurunan minat, namun di kalangan data engineer, lowongan tersebut masih muncul di hampir setiap detik lowongan.
Akhirnya
Saya harap ikhtisar tentang teknologi yang paling banyak diminati oleh para insinyur data ini bermanfaat bagi Anda. Jika Anda bertanya-tanya bagaimana nasib pekerjaan analis, bacalah
Sumber: www.habr.com