Keterampilan yang paling dibutuhkan dalam profesi insinyur data

Menurut statistik 2019, insinyur data saat ini merupakan profesi yang permintaannya tumbuh lebih cepat dibandingkan profesi lainnya. Seorang insinyur data memainkan peran penting dalam sebuah organisasi - menciptakan dan memelihara saluran pipa dan database yang digunakan untuk memproses, mengubah, dan menyimpan data. Keterampilan apa yang pertama-tama dibutuhkan oleh perwakilan profesi ini? Apakah daftar tersebut berbeda dari apa yang dibutuhkan oleh data scientist? Anda akan mempelajari semua ini dari artikel saya.

Saya menganalisis lowongan untuk posisi data engineer pada Januari 2020 untuk memahami keterampilan teknologi mana yang paling populer. Kemudian saya membandingkan hasilnya dengan statistik lowongan untuk posisi data scientist - dan muncul beberapa perbedaan menarik.

Tanpa banyak basa-basi, berikut sepuluh teknologi teratas yang paling sering disebutkan dalam lowongan pekerjaan:

Keterampilan yang paling dibutuhkan dalam profesi insinyur data

Sebutkan teknologi dalam lowongan untuk posisi data engineer pada tahun 2020

Mari kita cari tahu.

Tanggung jawab seorang insinyur data

Saat ini, pekerjaan yang dilakukan para insinyur data sangat penting bagi organisasi - mereka adalah orang-orang yang bertanggung jawab untuk menyimpan informasi dan membawanya ke dalam bentuk yang dapat digunakan oleh karyawan lain. Insinyur data membangun saluran untuk melakukan streaming atau mengelompokkan data dari berbagai sumber. Pipeline kemudian melakukan operasi ekstraksi, transformasi, dan pemuatan (dengan kata lain, proses ETL), sehingga data lebih cocok untuk digunakan lebih lanjut. Setelah itu, data tersebut diserahkan kepada analis dan ilmuwan data untuk diproses lebih dalam. Terakhir, data mengakhiri perjalanannya di dasbor, laporan, dan model pembelajaran mesin.

Saya sedang mencari informasi yang memungkinkan saya menarik kesimpulan tentang teknologi mana yang paling diminati dalam pekerjaan seorang data engineer saat ini.

Metode

Saya mengumpulkan informasi dari tiga situs pencarian kerja - Cukup disewa, Memang и Rakasa dan melihat kata kunci apa yang ditemukan bersama dengan “insinyur data” dalam teks lowongan yang ditujukan untuk penduduk AS. Untuk tugas ini saya menggunakan dua perpustakaan Python - Permintaan и Sup yang Indah. Di antara kata kunci tersebut, saya menyertakan kata kunci yang termasuk dalam daftar sebelumnya untuk menganalisis lowongan untuk posisi data scientist, dan kata kunci yang saya pilih secara manual saat membaca tawaran pekerjaan untuk data engineer. LinkedIn tidak termasuk dalam daftar sumber, karena saya dilarang di sana setelah upaya terakhir saya mengumpulkan data.

Untuk setiap kata kunci, saya menghitung persentase hit dari jumlah total teks di setiap situs secara terpisah, dan kemudian menghitung rata-rata untuk ketiga sumber tersebut.

Temuan

Di bawah ini adalah tiga puluh istilah rekayasa data teknis dengan skor tertinggi di ketiga lokasi kerja.

Keterampilan yang paling dibutuhkan dalam profesi insinyur data

Dan berikut angkanya sama, namun disajikan dalam bentuk tabel:

Keterampilan yang paling dibutuhkan dalam profesi insinyur data

Mari kita pergi secara berurutan.

Tinjauan hasil

Baik SQL dan Python muncul di lebih dari dua pertiga lowongan pekerjaan yang ditinjau. Kedua teknologi inilah yang masuk akal untuk dipelajari terlebih dahulu. Ular sanca adalah bahasa pemrograman yang sangat populer digunakan untuk bekerja dengan data, membuat situs web, dan menulis skrip. SQL singkatan dari Structured Query Language; ini melibatkan standar yang diterapkan oleh sekelompok bahasa dan digunakan untuk mengambil data dari database relasional. Itu muncul sejak lama dan telah membuktikan dirinya sangat tahan.

Spark disebutkan di sekitar setengah dari lowongan. Apache Spark adalah “mesin analisis data besar terpadu dengan modul bawaan untuk streaming, SQL, pembelajaran mesin, dan pemrosesan grafik.” Ini sangat populer di kalangan mereka yang bekerja dengan database besar.

AWS muncul di sekitar 45% postingan pekerjaan. Ini adalah platform komputasi awan yang diproduksi oleh Amazon; ia memiliki pangsa pasar terbesar di antara semua platform cloud.
Berikutnya adalah Java dan Hadoop - sedikit lebih dari 40% untuk saudaranya. Jawa adalah bahasa yang digunakan secara luas dan telah teruji dalam pertempuran Survei Pengembang Stack Overflow 2019 dianugerahi tempat kesepuluh di antara bahasa-bahasa yang menyebabkan kengerian di kalangan programmer. Sebaliknya, Python adalah bahasa kedua yang paling disukai. Bahasa Java dijalankan oleh Oracle, dan semua yang perlu Anda ketahui tentangnya dapat dipahami dari tangkapan layar halaman resmi Januari 2020 ini.

Keterampilan yang paling dibutuhkan dalam profesi insinyur data

Ini seperti mengendarai mesin waktu
Apache Hadoop menggunakan model pemrograman MapReduce dengan cluster server untuk big data. Kini model ini semakin banyak ditinggalkan.

Lalu kita melihat Hive, Scala, Kafka dan NoSQL - masing-masing teknologi ini disebutkan dalam seperempat lowongan yang dikirimkan. Apache Hive adalah perangkat lunak gudang data yang “memudahkan membaca, menulis, dan mengelola kumpulan data besar yang berada di penyimpanan terdistribusi menggunakan SQL.” Scala – bahasa pemrograman yang aktif digunakan saat bekerja dengan data besar. Secara khusus, Spark dibuat di Scala. Dalam peringkat bahasa-bahasa yang ditakuti, Scala berada di peringkat kesebelas. Apache Kafka – platform terdistribusi untuk memproses pesan streaming. Sangat populer sebagai sarana streaming data.

database NoSQL kontraskan diri mereka dengan SQL. Perbedaannya adalah mereka tidak bersifat relasional, tidak terstruktur, dan dapat diskalakan secara horizontal. NoSQL telah mendapatkan popularitas, namun kegemaran akan pendekatan ini, bahkan sampai pada titik ramalan bahwa ini akan menggantikan SQL sebagai paradigma penyimpanan yang dominan, tampaknya sudah berakhir.

Perbandingan dengan istilah lowongan data scientist

Berikut adalah tiga puluh istilah teknologi yang paling umum di kalangan perusahaan ilmu data. Saya memperoleh daftar ini dengan cara yang sama seperti dijelaskan di atas untuk rekayasa data.

Keterampilan yang paling dibutuhkan dalam profesi insinyur data

Penyebutan teknologi dalam lowongan posisi data scientist pada tahun 2020

Jika kita berbicara tentang jumlah total, dibandingkan dengan rekrutmen yang dipertimbangkan sebelumnya, terdapat 28% lebih banyak lowongan (12 berbanding 013). Mari kita lihat teknologi mana yang kurang umum dalam lowongan data scientist dibandingkan data engineer.

Lebih populer di bidang rekayasa data

Grafik di bawah menunjukkan kata kunci dengan perbedaan rata-rata lebih dari 10% atau kurang dari -10%.

Keterampilan yang paling dibutuhkan dalam profesi insinyur data

Perbedaan terbesar dalam frekuensi kata kunci antara data engineer dan data scientist

AWS menunjukkan peningkatan paling signifikan: di bidang rekayasa data, AWS muncul 25% lebih sering dibandingkan di bidang ilmu data (masing-masing sekitar 45% dan 20% dari total jumlah lowongan). Perbedaannya terlihat jelas!

Berikut data yang sama dalam penyajian yang sedikit berbeda - pada grafik, hasil untuk kata kunci yang sama pada lowongan posisi data engineer dan data scientist terletak bersebelahan.

Keterampilan yang paling dibutuhkan dalam profesi insinyur data

Perbedaan terbesar dalam frekuensi kata kunci antara data engineer dan data scientist

Lompatan terbesar berikutnya yang saya catat terjadi di Spark - seorang insinyur data sering kali harus bekerja dengan data besar. Kafka juga meningkat sebesar 20%, yaitu hampir empat kali lipat dibandingkan dengan hasil lowongan data scientist. Transfer data adalah salah satu tanggung jawab utama seorang insinyur data. Terakhir, jumlah penyebutan 15% lebih tinggi di bidang rekayasa data untuk Java, NoSQL, Redshift, SQL, dan Hadoop.

Kurang populer dalam rekayasa data

Sekarang mari kita lihat teknologi mana yang kurang populer di lowongan data engineer.
Penurunan paling tajam dibandingkan sektor ilmu data terjadi pada R: di sana dia muncul di sekitar 56% lowongan, di sini - hanya di 17%. Menakjubkan. R merupakan bahasa pemrograman yang disukai oleh para ilmuwan dan ahli statistik, serta merupakan bahasa kedelapan yang paling ditakuti di dunia.

SAS juga lebih jarang ditemukan dalam lowongan untuk posisi insinyur data - perbedaannya adalah 14%. SAS adalah bahasa eksklusif yang dirancang untuk bekerja dengan statistik dan data. Hal menarik: dilihat dari hasilnya penelitian saya tentang lowongan pekerjaan bagi ilmuwan data, teknologi telah kehilangan banyak pengaruh akhir-akhir ini—lebih banyak dibandingkan teknologi lainnya.

Dibutuhkan dalam bidang teknik data dan ilmu data

Perlu dicatat bahwa delapan dari sepuluh posisi pertama di kedua set adalah sama. SQL, Python, Spark, AWS, Java, Hadoop, Hive, dan Scala berhasil masuk sepuluh besar untuk industri teknik data dan ilmu data. Pada grafik di bawah ini Anda dapat melihat lima belas teknologi paling populer di kalangan perusahaan data engineer, dan di sebelahnya adalah tingkat lowongan untuk data scientist.

Keterampilan yang paling dibutuhkan dalam profesi insinyur data

Rekomendasi

Jika Anda ingin masuk ke bidang rekayasa data, saya menyarankan Anda untuk menguasai teknologi berikut - saya mencantumkannya dalam urutan perkiraan prioritas.

Pelajari SQL. Saya condong ke PostgreSQL karena open source, sangat populer di komunitas, dan sedang dalam fase pertumbuhan. Anda dapat mempelajari cara menggunakan bahasa ini dari buku My Memorable SQL - versi percontohannya tersedia di sini.

Kuasai Python, meskipun bukan pada level paling ekstrim. My Memorable Python dirancang khusus untuk pemula. Itu dapat dibeli di Amazon, salinan elektronik atau fisik, pilihan Anda, atau unduh dalam format pdf atau epub di situs ini.

Setelah Anda terbiasa dengan Python, lanjutkan ke pandas, pustaka Python yang digunakan untuk pembersihan dan pemrosesan data. Jika Anda ingin bekerja di perusahaan yang membutuhkan kemampuan menulis dengan Python (dan ini adalah mayoritas dari mereka), Anda dapat yakin bahwa pengetahuan tentang panda akan diasumsikan secara default. Saat ini saya sedang menyelesaikan panduan pengantar untuk bekerja dengan panda - Anda bisa langgananagar tidak ketinggalan momen pelepasannya.

Kuasai AWS. Jika Anda ingin menjadi insinyur data, Anda tidak dapat hidup tanpa platform cloud, dan AWS adalah yang paling populer. Kursus ini banyak membantu saya Akademi Linuxketika saya sedang belajar rekayasa data di Google Cloud, menurut saya mereka juga akan memiliki materi bagus di AWS.

Jika Anda telah menyelesaikan seluruh daftar ini dan ingin lebih berkembang di mata pemberi kerja sebagai insinyur data, saya sarankan menambahkan Apache Spark untuk bekerja dengan data besar. Meskipun penelitian saya tentang lowongan data scientist menunjukkan penurunan minat, namun di kalangan data engineer, lowongan tersebut masih muncul di hampir setiap detik lowongan.

Akhirnya

Saya harap ikhtisar tentang teknologi yang paling banyak diminati oleh para insinyur data ini bermanfaat bagi Anda. Jika Anda bertanya-tanya bagaimana nasib pekerjaan analis, bacalah artikel saya yang lain. Selamat rekayasa!

Sumber: www.habr.com

Tambah komentar