Insinyur Data sareng Élmuwan Data: naon bédana?

Profési Ilmuwan Data sareng Insinyur Data sering bingung. Masing-masing perusahaan gaduh spésifik sorangan pikeun damel sareng data, tujuan anu béda pikeun analisana sareng ideu anu béda ngeunaan spesialis mana anu kedah ngurus bagian mana tina padamelan, ku kituna masing-masing gaduh syarat sorangan. 

Hayu urang terang naon bédana antara spesialis ieu, naon masalah bisnis aranjeunna ngajawab, naon kaahlian maranéhna mibanda tur sabaraha aranjeunna earn. Bahanna tétéla ageung, janten kami ngabagi kana dua publikasi.

Dina artikel munggaran, Elena Gerasimova, kapala fakultas "Élmu Data jeung Analytics"Dina Netology, nyarioskeun naon bédana antara Élmuwan Data sareng Insinyur Data sareng alat naon anu aranjeunna damel.

Kumaha peran insinyur sareng ilmuwan béda

Insinyur data mangrupikeun spesialis anu, di hiji sisi, ngembangkeun, nguji sareng ngajaga infrastruktur data: pangkalan data, neundeun sareng sistem ngolah massa. Di sisi anu sanés, ieu mangrupikeun anu ngabersihkeun sareng "nyisiran" data pikeun dianggo ku analis sareng élmuwan data, nyaéta, nyiptakeun saluran pipa ngolah data.

Data Scientist nyiptakeun sareng ngalatih modél duga (sareng sanésna) nganggo algoritma pembelajaran mesin sareng jaringan saraf, ngabantosan usaha mendakan pola anu disumputkeun, ngaramalkeun kamajuan sareng ngaoptimalkeun prosés bisnis konci.

Beda utama antara Élmuwan Data sareng Insinyur Data nyaéta aranjeunna biasana gaduh tujuan anu béda. Duanana dianggo pikeun mastikeun yén data tiasa diaksés sareng kualitas luhur. Tapi Ilmuwan Data mendakan jawaban kana patarosan na sareng nguji hipotesis dina ékosistem data (contona, dumasar kana Hadoop), sareng Insinyur Data nyiptakeun jalur pipa pikeun ngalayanan algoritma pembelajaran mesin anu ditulis ku élmuwan data dina kluster Spark anu sami. ékosistem. 

Insinyur data nyayogikeun nilai pikeun bisnis ku damel salaku bagian tina tim. Tugasna nyaéta pikeun ngahubungkeun penting antara pamilon anu béda: ti pamekar ka konsumén bisnis ngalaporkeun, sareng ningkatkeun produktivitas analis, tina pamasaran sareng produk ka BI. 

A Data Scientist, sabalikna, nyandak bagian aktip dina strategi parusahaan jeung extracting wawasan, nyieun kaputusan, nerapkeun algoritma automation, modeling jeung ngahasilkeun nilai tina data.
Insinyur Data sareng Élmuwan Data: naon bédana?

Gawe sareng data tunduk kana prinsip GIGO (sampah asup - sampah kaluar): lamun analis jeung data élmuwan nungkulan data unprepared sarta berpotensi lepat, lajeng hasilna malah ngagunakeun algoritma analisis paling canggih bakal lepat. 

Insinyur data ngabéréskeun masalah ieu ku ngawangun saluran pipa pikeun ngolah, ngabersihkeun sareng ngarobih data sareng ngamungkinkeun para ilmuwan data damel sareng data kualitas luhur. 

Aya seueur alat di pasar pikeun damel sareng data anu nutupan unggal tahapan: tina penampilan data dugi ka kaluaran ka dasbor pikeun dewan direksi. Sareng penting yén kaputusan pikeun ngagunakeunana dilakukeun ku insinyur - sanés kusabab éta modis, tapi kusabab anjeunna leres-leres bakal ngabantosan karya pamilon sanés dina prosés éta. 

Sacara konvensional: upami perusahaan kedah ngadamel sambungan antara BI sareng ETL - ngamuat data sareng ngapdet laporan, ieu mangrupikeun yayasan warisan anu kedah diurus ku Insinyur Data (saé upami aya ogé arsiték dina tim).

Tanggung jawab Insinyur Data

  • Pangwangunan, pangwangunan sareng pangropéa infrastruktur ngolah data.
  • Nanganan kasalahan sarta nyieun pipelines ngolah data dipercaya.
  • Nyangking data anu henteu terstruktur tina sababaraha sumber dinamis kana bentuk anu dipikabutuh pikeun karya analis.
  • Nyadiakeun saran pikeun ngaronjatkeun konsistensi jeung kualitas data.
  • Nyayogikeun sareng ngajaga arsitéktur data anu dianggo ku élmuwan data sareng analis data.
  • Ngolah sareng nyimpen data sacara konsistén sareng éfisién dina klaster anu disebarkeun tina puluhan atanapi ratusan server.
  • Evaluasi perdagangan téknis alat pikeun nyiptakeun arsitéktur anu sederhana tapi kuat anu tiasa salamet tina gangguan.
  • Kontrol sareng pangrojong aliran data sareng sistem anu aya hubunganana (nyetél pangimeutan sareng panggeuing).

Aya spésialisasi sanés dina lintasan Data Insinyur - insinyur ML. Pondokna, insinyur ieu ngahususkeun dina nyangking model pembelajaran mesin pikeun palaksanaan sareng panggunaan industri. Seringna, modél anu ditampi ti élmuwan data mangrupikeun bagian tina kajian sareng henteu tiasa dianggo dina kaayaan tempur.

Tanggung jawab hiji Élmuwan Data

  • Ékstrak fitur tina data pikeun nerapkeun algoritma pembelajaran mesin.
  • Ngagunakeun rupa-rupa alat pembelajaran mesin pikeun ngaduga sareng ngagolongkeun pola dina data.
  • Ningkatkeun kinerja sareng akurasi algoritma pembelajaran mesin ku cara nyaluyukeun sareng ngaoptimalkeun algoritma.
  • Pembentukan hipotesis anu "kuat" luyu sareng strategi perusahaan anu kedah diuji.

Insinyur Data sareng Élmuwan Data ngabagi kontribusi anu nyata pikeun ngembangkeun budaya data, dimana perusahaan tiasa ngahasilkeun kauntungan tambahan atanapi ngirangan biaya.

Naon basa sareng alat anu dianggo ku insinyur sareng ilmuwan?

Kiwari, ekspektasi pikeun élmuwan data parantos robih. Saméméhna, insinyur ngumpulkeun queries SQL badag, nulis MapReduce sacara manual tur diolah data ngagunakeun parabot kayaning Informatica ETL, Pentaho ETL, Talend. 

Dina 2020, spesialis a teu bisa ngalakukeun tanpa pangaweruh Python jeung alat itungan modern (contona, Airflow), pamahaman prinsip gawé bareng platform awan (ngagunakeun aranjeunna pikeun ngahemat hardware, bari observasi prinsip kaamanan).

SAP, Oracle, MySQL, Redis mangrupikeun alat tradisional pikeun insinyur data di perusahaan ageung. Éta saé, tapi biaya lisénsina ageung sahingga diajar damel sareng aranjeunna ngan ukur masuk akal dina proyék industri. Dina waktos anu sami, aya alternatif gratis dina bentuk Postgres - éta gratis sareng cocog henteu ngan ukur pikeun latihan. 

Insinyur Data sareng Élmuwan Data: naon bédana?
Dina sajarahna, paménta pikeun Java sareng Scala sering kapendak, sanaos nalika téknologi sareng pendekatan berkembang, basa-basa ieu luntur kana latar tukang.

Nanging, hardcore BigData: Hadoop, Spark sareng kebon binatang sanés sanés janten prasyarat pikeun insinyur data, tapi mangrupikeun alat pikeun ngarengsekeun masalah anu henteu tiasa direngsekeun ku ETL tradisional. 

Tren nyaéta jasa pikeun ngagunakeun alat tanpa pangaweruh basa anu ditulisna (contona, Hadoop tanpa pangaweruh ngeunaan Java), ogé nyayogikeun jasa anu siap pikeun ngolah data streaming (pangenal sora atanapi pangenal gambar dina pidéo. ).

Solusi industri tina SAS sareng SPSS populer, sedengkeun Tableau, Rapidminer, Stata sareng Julia ogé seueur dianggo ku élmuwan data pikeun tugas lokal.

Insinyur Data sareng Élmuwan Data: naon bédana?
Kamampuhan pikeun ngawangun pipelines sorangan mucunghul ka analis jeung élmuwan data ngan sababaraha taun ka pengker: contona, geus mungkin pikeun ngirim data ka gudang basis PostgreSQL ngagunakeun Aksara basajan. 

Ilaharna, pamakéan pipelines sarta struktur data terpadu tetep tanggung jawab insinyur data. Tapi kiwari, trend pikeun spesialis T ngawangun kalawan kompetensi lega dina widang patali leuwih kuat ti kantos, sabab parabot terus disederhanakeun.

Naha Insinyur Data sareng Élmuwan Data Gawé Babarengan

Ku gawé raket jeung insinyur, Data Élmuwan bisa difokuskeun sisi panalungtikan, nyieun produksi-siap mesin learning algoritma.
Sareng insinyur kedah fokus kana skalabilitas, pamakean deui data, sareng mastikeun yén input data sareng saluran kaluaran dina unggal proyék individu sasuai sareng arsitektur global.

Pemisahan tanggung jawab ieu ngajamin konsistensi dina tim anu damel dina proyék pembelajaran mesin anu béda. 

Kolaborasi mantuan nyieun produk anyar éfisién. Kagancangan sareng kualitas dihontal ku kasaimbangan antara nyiptakeun jasa pikeun sadayana (panyimpenan global atanapi integrasi dasbor) sareng ngalaksanakeun unggal kabutuhan atanapi proyék khusus (pipa khusus khusus, nyambungkeun sumber éksternal). 

Gawe bareng raket jeung élmuwan data sarta analis mantuan insinyur ngamekarkeun kaahlian analitik jeung panalungtikan nulis kode hadé. Ngabagikeun pangaweruh diantara pangguna gudang sareng danau data ningkat, ngajantenkeun proyék langkung lincah sareng nganteurkeun hasil jangka panjang anu langkung sustainable.

Dina perusahaan anu tujuanana pikeun ngembangkeun budaya gawé bareng data sareng ngawangun prosés bisnis dumasar kana éta, Data Scientist sareng Insinyur Data silih ngalengkepan sareng nyiptakeun sistem analisis data anu lengkep. 

Dina artikel salajengna urang bakal ngobrol ngeunaan jenis atikan a Data Insinyur jeung Data Élmuwan kudu boga, kaahlian naon maranéhna kudu ngamekarkeun jeung kumaha pasar jalan.

Ti redaksi Netology

Upami anjeun milarian profési Insinyur Data atanapi Élmuwan Data, kami ngajak anjeun diajar program kursus kami:

sumber: www.habr.com

Tambahkeun komentar