Jurutera Data dan Saintis Data: Apakah perbezaannya?

Profesion Saintis Data dan Jurutera Data sering keliru. Setiap syarikat mempunyai spesifikasinya sendiri untuk bekerja dengan data, tujuan yang berbeza untuk analisis mereka dan idea yang berbeza tentang pakar mana yang harus menangani bahagian kerja mana, oleh itu masing-masing mempunyai keperluan sendiri. 

Mari kita fikirkan apakah perbezaan antara pakar ini, masalah perniagaan yang mereka selesaikan, kemahiran yang mereka ada dan jumlah pendapatan mereka. Bahannya ternyata besar, jadi kami membahagikannya kepada dua penerbitan.

Dalam artikel pertama, Elena Gerasimova, ketua fakulti "Sains Data dan Analitis" dalam Netology, memberitahu apa perbezaan antara Saintis Data dan Jurutera Data dan alat yang mereka gunakan.

Bagaimana peranan jurutera dan saintis berbeza

Jurutera data ialah pakar yang, dalam satu pihak, membangun, menguji dan menyelenggara infrastruktur data: pangkalan data, penyimpanan dan sistem pemprosesan massa. Sebaliknya, ini adalah orang yang membersihkan dan "menyikat" data untuk digunakan oleh penganalisis dan saintis data, iaitu, mencipta saluran paip pemprosesan data.

Data Scientist mencipta dan melatih model ramalan (dan lain-lain) menggunakan algoritma pembelajaran mesin dan rangkaian saraf, membantu perniagaan mencari corak tersembunyi, meramalkan perkembangan dan mengoptimumkan proses perniagaan utama.

Perbezaan utama antara Saintis Data dan Jurutera Data ialah mereka biasanya mempunyai matlamat yang berbeza. Kedua-duanya berfungsi untuk memastikan data boleh diakses dan berkualiti tinggi. Tetapi Saintis Data menemui jawapan kepada soalannya dan menguji hipotesis dalam ekosistem data (contohnya, berdasarkan Hadoop), dan Jurutera Data mencipta saluran paip untuk menyelenggara algoritma pembelajaran mesin yang ditulis oleh saintis data dalam gugusan Spark dalam kumpulan yang sama. ekosistem. 

Jurutera data membawa nilai kepada perniagaan dengan bekerja sebagai sebahagian daripada pasukan. Tugasnya adalah untuk bertindak sebagai penghubung penting antara peserta yang berbeza: daripada pembangun kepada pengguna perniagaan pelaporan, dan untuk meningkatkan produktiviti penganalisis, daripada pemasaran dan produk kepada BI. 

Seorang Saintis Data, sebaliknya, mengambil bahagian aktif dalam strategi syarikat dan mengekstrak pandangan, membuat keputusan, melaksanakan algoritma automasi, memodelkan dan menjana nilai daripada data.
Jurutera Data dan Saintis Data: Apakah perbezaannya?

Bekerja dengan data tertakluk kepada prinsip GIGO (sampah masuk - keluar sampah): jika penganalisis dan saintis data berurusan dengan data yang tidak bersedia dan berpotensi tidak betul, maka keputusan walaupun menggunakan algoritma analisis yang paling canggih akan menjadi tidak betul. 

Jurutera data menyelesaikan masalah ini dengan membina saluran paip untuk memproses, membersihkan dan mengubah data serta membenarkan saintis data bekerja dengan data berkualiti tinggi. 

Terdapat banyak alat di pasaran untuk bekerja dengan data yang merangkumi setiap peringkat: daripada penampilan data hingga output kepada papan pemuka untuk lembaga pengarah. Dan adalah penting bahawa keputusan untuk menggunakannya dibuat oleh seorang jurutera - bukan kerana ia bergaya, tetapi kerana dia akan benar-benar membantu kerja peserta lain dalam proses itu. 

Secara konvensional: jika syarikat perlu membuat hubungan antara BI dan ETL - memuatkan data dan mengemas kini laporan, berikut ialah asas warisan biasa yang perlu ditangani oleh Jurutera Data (adalah bagus jika terdapat juga arkitek dalam pasukan).

Tanggungjawab Jurutera Data

  • Pembangunan, pembinaan dan penyelenggaraan infrastruktur pemprosesan data.
  • Mengendalikan ralat dan mencipta saluran paip pemprosesan data yang boleh dipercayai.
  • Membawa data tidak berstruktur daripada pelbagai sumber dinamik kepada bentuk yang diperlukan untuk kerja penganalisis.
  • Menyediakan cadangan untuk meningkatkan ketekalan dan kualiti data.
  • Menyediakan dan mengekalkan seni bina data yang digunakan oleh saintis data dan penganalisis data.
  • Memproses dan menyimpan data secara konsisten dan cekap dalam kelompok yang diedarkan berpuluh atau ratusan pelayan.
  • Nilaikan pertukaran teknikal alatan untuk mencipta seni bina yang ringkas tetapi teguh yang boleh bertahan daripada gangguan.
  • Kawalan dan sokongan aliran data dan sistem berkaitan (menyediakan pemantauan dan makluman).

Terdapat satu lagi pengkhususan dalam trajektori Jurutera Data - jurutera ML. Pendek kata, jurutera ini pakar dalam membawa model pembelajaran mesin kepada pelaksanaan dan penggunaan industri. Selalunya, model yang diterima daripada saintis data adalah sebahagian daripada kajian dan mungkin tidak berfungsi dalam keadaan pertempuran.

Tanggungjawab Seorang Saintis Data

  • Mengekstrak ciri daripada data untuk menggunakan algoritma pembelajaran mesin.
  • Menggunakan pelbagai alatan pembelajaran mesin untuk meramal dan mengklasifikasikan corak dalam data.
  • Meningkatkan prestasi dan ketepatan algoritma pembelajaran mesin dengan menala halus dan mengoptimumkan algoritma.
  • Pembentukan hipotesis "kuat" sesuai dengan strategi syarikat yang perlu diuji.

Kedua-dua Jurutera Data dan Saintis Data berkongsi sumbangan ketara kepada pembangunan budaya data, yang melaluinya syarikat boleh menjana keuntungan tambahan atau mengurangkan kos.

Apakah bahasa dan alat yang digunakan oleh jurutera dan saintis?

Hari ini, jangkaan untuk saintis data telah berubah. Sebelum ini, jurutera mengumpul pertanyaan SQL yang besar, menulis MapReduce secara manual dan memproses data menggunakan alatan seperti Informatica ETL, Pentaho ETL, Talend. 

Pada tahun 2020, pakar tidak boleh melakukannya tanpa pengetahuan Python dan alat pengiraan moden (contohnya, Aliran Udara), memahami prinsip bekerja dengan platform awan (menggunakannya untuk menjimatkan perkakasan, sambil mematuhi prinsip keselamatan).

SAP, Oracle, MySQL, Redis ialah alat tradisional untuk jurutera data dalam syarikat besar. Mereka bagus, tetapi kos lesen sangat tinggi sehingga belajar bekerja dengan mereka hanya masuk akal dalam projek perindustrian. Pada masa yang sama, terdapat alternatif percuma dalam bentuk Postgres - ia percuma dan sesuai bukan sahaja untuk latihan. 

Jurutera Data dan Saintis Data: Apakah perbezaannya?
Dari segi sejarah, permintaan untuk Java dan Scala sering dijumpai, walaupun apabila teknologi dan pendekatan berkembang, bahasa-bahasa ini memudar ke latar belakang.

Walau bagaimanapun, BigData tegar: Hadoop, Spark dan seluruh zoo bukan lagi prasyarat untuk jurutera data, tetapi sejenis alat untuk menyelesaikan masalah yang tidak dapat diselesaikan oleh ETL tradisional. 

Trend ialah perkhidmatan untuk menggunakan alat tanpa pengetahuan bahasa di mana ia ditulis (contohnya, Hadoop tanpa pengetahuan tentang Java), serta penyediaan perkhidmatan siap sedia untuk memproses data penstriman (pengecaman suara atau pengecaman imej pada video ).

Penyelesaian industri daripada SAS dan SPSS adalah popular, manakala Tableau, Rapidminer, Stata dan Julia juga digunakan secara meluas oleh saintis data untuk tugasan tempatan.

Jurutera Data dan Saintis Data: Apakah perbezaannya?
Keupayaan untuk membina saluran paip itu sendiri muncul kepada penganalisis dan saintis data hanya beberapa tahun yang lalu: sebagai contoh, sudah mungkin untuk menghantar data ke storan berasaskan PostgreSQL menggunakan skrip yang agak mudah. 

Biasanya, penggunaan saluran paip dan struktur data bersepadu tetap menjadi tanggungjawab jurutera data. Tetapi hari ini, trend untuk pakar berbentuk T dengan kecekapan luas dalam bidang berkaitan adalah lebih kuat berbanding sebelum ini, kerana alatan sentiasa dipermudahkan.

Mengapa Jurutera Data dan Saintis Data Bekerjasama

Dengan bekerjasama rapat dengan jurutera, Saintis Data boleh menumpukan pada bahagian penyelidikan, mencipta algoritma pembelajaran mesin sedia pengeluaran.
Dan jurutera perlu menumpukan pada kebolehskalaan, penggunaan semula data dan memastikan saluran paip input dan output data dalam setiap projek individu mematuhi seni bina global.

Pengasingan tanggungjawab ini memastikan konsistensi merentas pasukan yang bekerja pada projek pembelajaran mesin yang berbeza. 

Kerjasama membantu mencipta produk baharu dengan cekap. Kepantasan dan kualiti dicapai melalui keseimbangan antara mewujudkan perkhidmatan untuk semua orang (storan global atau penyepaduan papan pemuka) dan melaksanakan setiap keperluan atau projek tertentu (talian paip yang sangat khusus, menyambungkan sumber luaran). 

Bekerja rapat dengan saintis data dan penganalisis membantu jurutera membangunkan kemahiran analisis dan penyelidikan untuk menulis kod yang lebih baik. Perkongsian pengetahuan dalam kalangan pengguna gudang dan tasik data bertambah baik, menjadikan projek lebih tangkas dan memberikan hasil jangka panjang yang lebih mampan.

Dalam syarikat yang bertujuan untuk membangunkan budaya bekerja dengan data dan membina proses perniagaan berdasarkannya, Saintis Data dan Jurutera Data saling melengkapi dan mencipta sistem analisis data yang lengkap. 

Dalam artikel seterusnya kita akan bercakap tentang jenis pendidikan yang sepatutnya dimiliki oleh Jurutera Data dan Saintis Data, kemahiran yang mereka perlukan untuk membangunkan dan cara pasaran berfungsi.

Daripada editor Netology

Jika anda melihat pada profesion Jurutera Data atau Saintis Data, kami menjemput anda untuk mengkaji program kursus kami:

Sumber: www.habr.com

Tambah komen