Insinyur Data dan Ilmuwan Data: Apa bedanya?

Profesi Data Scientist dan Data Engineer seringkali membingungkan. Setiap perusahaan memiliki kekhasan tersendiri dalam bekerja dengan data, tujuan analisis yang berbeda, dan gagasan berbeda tentang spesialis mana yang harus menangani bagian pekerjaan mana, oleh karena itu masing-masing memiliki persyaratannya sendiri. 

Mari kita cari tahu apa perbedaan antara para spesialis ini, masalah bisnis apa yang mereka selesaikan, keterampilan apa yang mereka miliki, dan berapa penghasilan mereka. Materinya ternyata banyak, jadi kami membaginya menjadi dua publikasi.

Pada artikel pertama, Elena Gerasimova, kepala fakultas “Ilmu Data dan Analisis" di Netology, menjelaskan perbedaan antara Data Scientist dan Data Engineer serta alat apa yang mereka gunakan.

Perbedaan peran insinyur dan ilmuwan

Insinyur data adalah spesialis yang, di satu sisi, mengembangkan, menguji, dan memelihara infrastruktur data: database, penyimpanan, dan sistem pemrosesan massal. Di sisi lain, merekalah yang membersihkan dan “menyisir” data untuk digunakan oleh analis dan ilmuwan data, yaitu menciptakan jalur pemrosesan data.

Data Scientist membuat dan melatih model prediktif (dan lainnya) menggunakan algoritma pembelajaran mesin dan jaringan saraf, membantu bisnis menemukan pola tersembunyi, memprediksi perkembangan, dan mengoptimalkan proses bisnis utama.

Perbedaan utama antara Data Scientist dan Data Engineer adalah mereka biasanya memiliki tujuan yang berbeda. Keduanya berfungsi untuk memastikan bahwa data dapat diakses dan berkualitas tinggi. Namun Ilmuwan Data menemukan jawaban atas pertanyaannya dan menguji hipotesis dalam ekosistem data (misalnya, berdasarkan Hadoop), dan Insinyur Data membuat saluran untuk melayani algoritme pembelajaran mesin yang ditulis oleh ilmuwan data di kluster Spark dalam ekosistem yang sama. ekosistem. 

Seorang insinyur data memberikan nilai pada bisnis dengan bekerja sebagai bagian dari tim. Tugasnya adalah bertindak sebagai penghubung penting antara berbagai peserta: dari pengembang hingga konsumen bisnis pelaporan, dan untuk meningkatkan produktivitas analis, dari pemasaran dan produk hingga BI. 

Sebaliknya, seorang Data Scientist mengambil bagian aktif dalam strategi perusahaan dan mengekstraksi wawasan, membuat keputusan, menerapkan algoritma otomatisasi, membuat model, dan menghasilkan nilai dari data.
Insinyur Data dan Ilmuwan Data: Apa bedanya?

Bekerja dengan data tunduk pada prinsip GIGO (sampah masuk - sampah keluar): jika analis dan ilmuwan data menangani data yang tidak siap dan berpotensi salah, maka hasilnya bahkan menggunakan algoritma analisis yang paling canggih pun akan salah. 

Insinyur data memecahkan masalah ini dengan membangun jalur pipa untuk memproses, membersihkan, dan mengubah data serta memungkinkan ilmuwan data bekerja dengan data berkualitas tinggi. 

Ada banyak alat di pasaran untuk bekerja dengan data yang mencakup setiap tahap: mulai dari tampilan data hingga keluaran hingga dasbor untuk dewan direksi. Dan penting bahwa keputusan untuk menggunakannya dibuat oleh seorang insinyur - bukan karena itu modis, tetapi karena dia akan sangat membantu pekerjaan peserta lain dalam proses tersebut. 

Secara konvensional: jika sebuah perusahaan perlu membuat koneksi antara BI dan ETL - memuat data dan memperbarui laporan, berikut adalah fondasi warisan yang harus ditangani oleh Data Engineer (ada baiknya jika ada juga arsitek di tim).

Tanggung jawab Insinyur Data

  • Pengembangan, pembangunan dan pemeliharaan infrastruktur pemrosesan data.
  • Menangani kesalahan dan membuat jalur pemrosesan data yang andal.
  • Membawa data tidak terstruktur dari berbagai sumber dinamis ke dalam bentuk yang diperlukan untuk pekerjaan analis.
  • Memberikan rekomendasi untuk meningkatkan konsistensi dan kualitas data.
  • Menyediakan dan memelihara arsitektur data yang digunakan oleh ilmuwan data dan analis data.
  • Memproses dan menyimpan data secara konsisten dan efisien dalam cluster terdistribusi yang terdiri dari puluhan atau ratusan server.
  • Evaluasi trade-off teknis dari alat untuk menciptakan arsitektur sederhana namun kuat yang dapat bertahan dari gangguan.
  • Kontrol dan dukungan aliran data dan sistem terkait (menyiapkan pemantauan dan peringatan).

Ada spesialisasi lain dalam lintasan Data Engineer - insinyur ML. Singkatnya, para insinyur ini berspesialisasi dalam menghadirkan model pembelajaran mesin ke implementasi dan penggunaan industri. Seringkali, model yang diterima dari data scientist merupakan bagian dari penelitian dan mungkin tidak berfungsi dalam kondisi pertempuran.

Tanggung Jawab Ilmuwan Data

  • Mengekstraksi fitur dari data untuk menerapkan algoritma pembelajaran mesin.
  • Menggunakan berbagai alat pembelajaran mesin untuk memprediksi dan mengklasifikasikan pola dalam data.
  • Meningkatkan performa dan akurasi algoritme pembelajaran mesin dengan menyempurnakan dan mengoptimalkan algoritme.
  • Pembentukan hipotesis “kuat” sesuai dengan strategi perusahaan yang perlu diuji.

Baik Data Engineer maupun Data Scientist sama-sama memberikan kontribusi nyata terhadap pengembangan budaya data, sehingga perusahaan dapat menghasilkan keuntungan tambahan atau mengurangi biaya.

Bahasa dan alat apa yang digunakan para insinyur dan ilmuwan?

Saat ini, ekspektasi terhadap data scientist telah berubah. Sebelumnya, para insinyur mengumpulkan kueri SQL dalam jumlah besar, menulis MapReduce secara manual, dan memproses data menggunakan alat seperti Informatica ETL, Pentaho ETL, Talend. 

Pada tahun 2020, seorang spesialis tidak dapat hidup tanpa pengetahuan tentang Python dan alat perhitungan modern (misalnya, Airflow), pemahaman tentang prinsip-prinsip bekerja dengan platform cloud (menggunakannya untuk menghemat perangkat keras, sambil memperhatikan prinsip-prinsip keamanan).

SAP, Oracle, MySQL, Redis adalah alat tradisional untuk insinyur data di perusahaan besar. Mereka bagus, tapi biaya lisensinya sangat tinggi sehingga belajar bekerja dengan mereka hanya masuk akal dalam proyek industri. Pada saat yang sama, ada alternatif gratis dalam bentuk Postgres - gratis dan tidak hanya cocok untuk pelatihan. 

Insinyur Data dan Ilmuwan Data: Apa bedanya?
Secara historis, permintaan untuk Java dan Scala sering ditemukan, meskipun seiring berkembangnya teknologi dan pendekatan, bahasa-bahasa ini memudar ke latar belakang.

Namun, BigData hardcore: Hadoop, Spark, dan lainnya tidak lagi menjadi prasyarat bagi seorang insinyur data, tetapi semacam alat untuk memecahkan masalah yang tidak dapat diselesaikan oleh ETL tradisional. 

Trennya adalah layanan untuk menggunakan alat tanpa pengetahuan bahasa penulisannya (misalnya, Hadoop tanpa pengetahuan Java), serta penyediaan layanan siap pakai untuk memproses data streaming (pengenalan suara atau pengenalan gambar di video ).

Solusi industri dari SAS dan SPSS sangat populer, sementara Tableau, Rapidminer, Stata, dan Julia juga banyak digunakan oleh data scientist untuk tugas-tugas lokal.

Insinyur Data dan Ilmuwan Data: Apa bedanya?
Kemampuan untuk membangun saluran pipa sendiri baru terlihat oleh para analis dan ilmuwan data beberapa tahun yang lalu: misalnya, pengiriman data ke penyimpanan berbasis PostgreSQL sudah dimungkinkan menggunakan skrip yang relatif sederhana. 

Biasanya, penggunaan saluran pipa dan struktur data terintegrasi tetap menjadi tanggung jawab teknisi data. Namun saat ini, tren spesialis berbentuk T dengan kompetensi luas di bidang terkait lebih kuat dari sebelumnya, karena alat terus disederhanakan.

Mengapa Insinyur Data dan Ilmuwan Data Bekerja Sama

Dengan bekerja sama dengan para insinyur, Data Scientist dapat fokus pada sisi penelitian, menciptakan algoritma pembelajaran mesin yang siap produksi.
Dan para insinyur perlu fokus pada skalabilitas, penggunaan kembali data, dan memastikan bahwa jalur input dan output data di setiap proyek mematuhi arsitektur global.

Pemisahan tanggung jawab ini memastikan konsistensi antar tim yang mengerjakan proyek pembelajaran mesin yang berbeda. 

Kolaborasi membantu menciptakan produk baru secara efisien. Kecepatan dan kualitas dicapai melalui keseimbangan antara menciptakan layanan untuk semua orang (penyimpanan global atau integrasi dasbor) dan mengimplementasikan setiap kebutuhan atau proyek spesifik (saluran pipa yang sangat terspesialisasi, menghubungkan sumber eksternal). 

Bekerja sama dengan ilmuwan dan analis data membantu para insinyur mengembangkan keterampilan analitis dan penelitian untuk menulis kode yang lebih baik. Berbagi pengetahuan di antara pengguna gudang dan data lake semakin baik, menjadikan proyek lebih gesit dan memberikan hasil jangka panjang yang lebih berkelanjutan.

Di perusahaan yang bertujuan untuk mengembangkan budaya bekerja dengan data dan membangun proses bisnis berdasarkan data tersebut, Ilmuwan Data dan Insinyur Data saling melengkapi dan menciptakan sistem analisis data yang lengkap. 

Pada artikel berikutnya kita akan membahas tentang jenis pendidikan apa yang harus dimiliki oleh Data Engineer dan Data Scientist, keterampilan apa yang mereka perlukan untuk dikembangkan, dan bagaimana pasar bekerja.

Dari editor Netology

Jika Anda mencari profesi Data Engineer atau Data Scientist, kami mengundang Anda untuk mempelajari program kursus kami:

Sumber: www.habr.com

Tambah komentar