Data Engineer ug Data Scientist: Unsa ang kalainan?

Ang mga propesyon sa Data Scientist ug Data Engineer kanunay nga naglibog. Ang matag kompanya adunay kaugalingon nga mga detalye sa pagtrabaho sa datos, lainlaing katuyoan alang sa ilang pag-analisar ug usa ka lainlaing ideya kung unsang espesyalista ang kinahanglan mag-atubang kung unsang bahin sa trabaho, busa ang matag usa adunay kaugalingon nga mga kinahanglanon. 

Atong mahibal-an kung unsa ang kalainan tali niining mga espesyalista, unsa nga mga problema sa negosyo ang ilang nasulbad, unsa nga mga kahanas ang anaa kanila ug unsa ka dako ang ilang kinitaan. Dako kaayo ang materyal, mao nga gibahin namo kini sa duha ka publikasyon.

Sa unang artikulo, si Elena Gerasimova, pangulo sa faculty "Data Science ug Analytics" sa Netology, nagsulti kung unsa ang kalainan tali sa usa ka Data Scientist ug usa ka Data Engineer ug kung unsang mga himan ang ilang gigamit.

Sa unsang paagi magkalahi ang mga tahas sa mga inhenyero ug siyentista

Ang usa ka inhenyero sa datos usa ka espesyalista nga, sa usa ka bahin, nagpalambo, nagsulay ug nagmintinar sa imprastraktura sa datos: mga database, pagtipig ug mga sistema sa pagproseso sa masa. Sa laing bahin, kini ang naglimpyo ug "nagsuklay" sa datos aron magamit sa mga analista ug mga siyentipiko sa datos, nga mao, nagmugna sa mga pipeline sa pagproseso sa datos.

Ang Data Scientist nagmugna ug nagbansay sa mga predictive (ug uban pa) nga mga modelo gamit ang mga algorithm sa pagkat-on sa makina ug mga neural network, nga nagtabang sa mga negosyo sa pagpangita sa mga tinago nga mga sumbanan, pagtagna sa mga kalamboan ug pag-optimize sa mga importanteng proseso sa negosyo.

Ang panguna nga kalainan tali sa usa ka Data Scientist ug usa ka Data Engineer mao nga sila kasagaran adunay lainlaing mga katuyoan. Ang duha nagtrabaho aron masiguro nga ang datos ma-access ug adunay taas nga kalidad. Apan ang usa ka Data Scientist nakit-an ang mga tubag sa iyang mga pangutana ug gisulayan ang mga hypotheses sa usa ka ekosistema sa datos (pananglitan, gibase sa Hadoop), ug ang usa ka Data Engineer nagmugna usa ka pipeline alang sa pag-alagad sa usa ka algorithm sa pagkat-on sa makina nga gisulat sa usa ka data scientist sa usa ka kumpol sa Spark sulod sa parehas. ekosistema. 

Ang usa ka inhenyero sa datos nagdala og bili sa usa ka negosyo pinaagi sa pagtrabaho isip kabahin sa usa ka team. Ang tahas niini mao ang paglihok ingon usa ka hinungdanon nga sumpay tali sa lainlaing mga partisipante: gikan sa mga developer hangtod sa mga konsumedor sa negosyo sa pagreport, ug aron madugangan ang pagka-produktibo sa mga analista, gikan sa pagpamaligya ug produkto hangtod sa BI. 

Ang usa ka Data Scientist, sa sukwahi, adunay aktibong bahin sa estratehiya sa kompanya ug pagkuha sa mga panabut, paghimo og mga desisyon, pagpatuman sa mga algorithm sa automation, pagmodelo ug pagmugna og bili gikan sa datos.
Data Engineer ug Data Scientist: Unsa ang kalainan?

Ang pagtrabaho gamit ang datos gipailalom sa GIGO (garbage in - garbage out) nga prinsipyo: kung ang mga analista ug data scientist mag-atubang sa dili andam ug posibleng dili husto nga datos, nan ang mga resulta bisan sa paggamit sa labing sopistikado nga mga algorithm sa pag-analisar mahimong dili husto. 

Gisulbad sa mga inhenyero sa datos kini nga problema pinaagi sa paghimo og mga pipeline alang sa pagproseso, paglimpyo ug pagbag-o sa datos ug pagtugot sa mga siyentipiko sa datos nga magtrabaho nga adunay taas nga kalidad nga datos. 

Adunay daghang mga himan sa merkado alang sa pagtrabaho sa mga datos nga naglangkob sa matag yugto: gikan sa dagway sa datos ngadto sa output ngadto sa usa ka dashboard alang sa board of directors. Ug hinungdanon nga ang desisyon sa paggamit niini gihimo sa usa ka inhenyero - dili tungod kay kini uso, apan tungod kay makatabang gyud siya sa trabaho sa ubang mga partisipante sa proseso. 

Sa naandan: kung ang usa ka kompanya kinahanglan nga maghimo mga koneksyon tali sa BI ug ETL - pag-load sa datos ug pag-update sa mga taho, ania ang usa ka tipikal nga pundasyon sa kabilin nga kinahanglan atubangon sa usa ka Data Engineer (maayo kung adunay usa usab ka arkitekto sa team).

Mga Responsibilidad sa usa ka Data Engineer

  • Pag-uswag, pagtukod ug pagmentinar sa imprastraktura sa pagproseso sa datos.
  • Pagdumala sa mga kasaypanan ug paghimo sa kasaligan nga mga linya sa pagproseso sa datos.
  • Pagdala sa wala'y istruktura nga datos gikan sa nagkalain-laing dinamikong tinubdan ngadto sa porma nga gikinahanglan alang sa trabaho sa mga analista.
  • Paghatag mga rekomendasyon aron mapauswag ang pagkamakanunayon ug kalidad sa datos.
  • Paghatag ug pagmentinar sa arkitektura sa datos nga gigamit sa mga data scientist ug data analyst.
  • Pagproseso ug pagtipig sa datos nga makanunayon ug episyente sa usa ka gipang-apod-apod nga pundok sa napulo o gatusan ka mga server.
  • Timbang-timbanga ang mga teknikal nga trade-off sa mga himan aron makahimo og yano apan lig-on nga mga arkitektura nga makalahutay sa pagkabalda.
  • Pagkontrol ug pagsuporta sa mga dagan sa datos ug mga may kalabutan nga sistema (pag-set up sa pagmonitor ug mga alerto).

Adunay laing espesyalisasyon sulod sa Data Engineer trajectory - ML engineer. Sa laktud, kini nga mga inhenyero espesyalista sa pagdala sa mga modelo sa pagkat-on sa makina sa pagpatuman ug paggamit sa industriya. Kasagaran, ang usa ka modelo nga nadawat gikan sa usa ka data scientist bahin sa usa ka pagtuon ug mahimong dili molihok sa mga kondisyon sa kombat.

Mga Responsibilidad sa usa ka Data Scientist

  • Pagkuha sa mga bahin gikan sa datos aron magamit ang mga algorithm sa pagkat-on sa makina.
  • Paggamit sa lainlaing mga himan sa pagkat-on sa makina aron matagna ug pagklasipikar ang mga pattern sa datos.
  • Pagpauswag sa pasundayag ug katukma sa mga algorithm sa pagkat-on sa makina pinaagi sa pag-ayo ug pag-optimize sa mga algorithm.
  • Pagporma sa "lig-on" nga mga pangagpas pinauyon sa estratehiya sa kompanya nga kinahanglan sulayan.

Parehong Data Engineer ug Data Scientist nag-ambit sa usa ka mahikap nga kontribusyon sa pag-uswag sa usa ka kultura sa datos, diin ang usa ka kompanya makahimo og dugang nga kita o makunhuran ang mga gasto.

Unsang mga pinulongan ug himan ang gigamit sa mga inhenyero ug siyentista?

Karon, ang mga gilauman alang sa mga siyentipiko sa datos nausab. Kaniadto, ang mga inhenyero nagkolekta daghang mga pangutana sa SQL, mano-mano nga gisulat ang MapReduce ug giproseso nga datos gamit ang mga himan sama sa Informatica ETL, Pentaho ETL, Talend. 

Sa 2020, ang usa ka espesyalista dili makahimo nga walay kahibalo sa Python ug modernong mga himan sa pagkalkula (pananglitan, Airflow), pagsabut sa mga prinsipyo sa pagtrabaho sa mga cloud platform (paggamit niini aron makadaginot sa hardware, samtang nag-obserbar sa mga prinsipyo sa seguridad).

Ang SAP, Oracle, MySQL, Redis mga tradisyonal nga himan alang sa mga inhenyero sa datos sa dagkong kompanya. Maayo sila, apan ang gasto sa mga lisensya taas kaayo nga ang pagkat-on sa pagtrabaho uban kanila makatarunganon lamang sa mga proyekto sa industriya. Sa samang higayon, adunay usa ka libre nga alternatibo sa porma sa Postgres - kini libre ug angay dili lamang alang sa pagbansay. 

Data Engineer ug Data Scientist: Unsa ang kalainan?
Sa kasaysayan, ang mga hangyo alang sa Java ug Scala kanunay nga makit-an, bisan kung nag-uswag ang mga teknolohiya ug pamaagi, kini nga mga lengguwahe nawala sa background.

Bisan pa, ang hardcore BigData: Hadoop, Spark ug ang nahabilin sa zoo dili na kinahanglanon alang sa usa ka inhenyero sa datos, apan usa ka klase nga himan alang sa pagsulbad sa mga problema nga dili masulbad sa tradisyonal nga ETL. 

Ang uso mao ang mga serbisyo alang sa paggamit sa mga himan nga walay kahibalo sa pinulongan diin sila nahisulat (pananglitan, Hadoop nga walay kahibalo sa Java), ingon man ang paghatag sa mga andam nga serbisyo alang sa pagproseso sa streaming data (pag-ila sa tingog o pag-ila sa imahe sa video. ).

Ang mga solusyon sa industriya gikan sa SAS ug SPSS popular, samtang ang Tableau, Rapidminer, Stata ug Julia kaylap nga gigamit sa mga data scientist alang sa lokal nga mga buluhaton.

Data Engineer ug Data Scientist: Unsa ang kalainan?
Ang katakus sa paghimo sa mga pipeline sa ilang kaugalingon nagpakita sa mga analista ug data scientist pipila lang ka tuig ang milabay: pananglitan, posible na nga ipadala ang datos sa usa ka pagtipig nga nakabase sa PostgreSQL gamit ang medyo yano nga mga script. 

Kasagaran, ang paggamit sa mga pipeline ug integrated data structures nagpabilin nga responsibilidad sa mga data engineer. Apan karon, ang uso alang sa T-shaped nga mga espesyalista nga adunay halapad nga mga kompetensya sa may kalabutan nga mga natad mas kusgan kaysa kaniadto, tungod kay ang mga himan kanunay nga gipasimple.

Ngano nga ang Data Engineer ug Data Scientist Magtinabangay

Pinaagi sa pagtrabaho pag-ayo sa mga inhenyero, ang Data Scientist mahimong mag-focus sa bahin sa panukiduki, nga maghimo mga algorithm sa pagkat-on sa makina nga andam sa produksiyon.
Ug ang mga inhenyero kinahanglan nga mag-focus sa scalability, paggamit pag-usab sa datos, ug pagsiguro nga ang data input ug output pipelines sa matag indibidwal nga proyekto nagsunod sa global nga arkitektura.

Kini nga panagbulag sa mga responsibilidad nagsiguro sa pagkamakanunayon sa mga team nga nagtrabaho sa lainlaing mga proyekto sa pagkat-on sa makina. 

Ang kolaborasyon makatabang sa paghimo og bag-ong mga produkto nga epektibo. Ang katulin ug kalidad makab-ot pinaagi sa usa ka balanse tali sa paghimo sa usa ka serbisyo alang sa tanan (global nga pagtipig o panagsama sa mga dashboard) ug pagpatuman sa matag piho nga panginahanglan o proyekto (labing espesyal nga pipeline, nagkonektar sa gawas nga mga gigikanan). 

Ang pagtrabaho og maayo sa mga data scientist ug analista makatabang sa mga inhenyero sa pagpalambo sa analytical ug research kahanas sa pagsulat sa mas maayo nga code. Ang pagpaambit sa kahibalo sa mga tiggamit sa bodega ug data lake nag-uswag, nga naghimo sa mga proyekto nga mas abtik ug naghatud sa mas malungtarong mga long-term nga resulta.

Sa mga kompanya nga nagtumong sa pagpalambo sa usa ka kultura sa pagtrabaho uban sa datos ug pagtukod sa mga proseso sa negosyo base sa kanila, ang Data Scientist ug Data Engineer nagtinabangay sa usag usa ug naghimo sa usa ka kompleto nga sistema sa pagtuki sa datos. 

Sa sunod nga artikulo atong hisgutan kung unsa nga klase sa edukasyon ang kinahanglan adunay usa ka Data Engineer ug Data Scientist, unsa nga mga kahanas ang kinahanglan nila nga mapalambo ug kung giunsa ang paglihok sa merkado.

Gikan sa mga editor sa Netology

Kung nagtan-aw ka sa propesyon sa Data Engineer o Data Scientist, gidapit ka namo sa pagtuon sa among mga programa sa kurso:

Source: www.habr.com

Idugang sa usa ka comment