Inġinier tad-Data u Xjentist tad-Data: X'inhi d-differenza?

Il-professjonijiet ta' Xjentist tad-Data u Inġinier tad-Data ħafna drabi huma konfużi. Kull kumpanija għandha l-ispeċifiċitajiet tagħha ta’ kif taħdem bid-dejta, skopijiet differenti għall-analiżi tagħhom u idea differenti ta’ liema speċjalista għandu jittratta liema parti tax-xogħol, għalhekk kull waħda għandha r-rekwiżiti tagħha. 

Ejja naraw x'inhi d-differenza bejn dawn l-ispeċjalisti, liema problemi tan-negozju jsolvu, liema ħiliet għandhom u kemm jaqilgħu. Il-materjal irriżulta li kien kbir, għalhekk qsamnieh f'żewġ pubblikazzjonijiet.

Fl-ewwel artiklu, Elena Gerasimova, kap tal-fakultà "Xjenza tad-Data u Analitika" fin-Netoloġija, tgħid x'inhi d-differenza bejn Xjentist tad-Data u Inġinier tad-Data u liema għodod jaħdmu magħhom.

Kif ivarjaw ir-rwoli tal-inġiniera u x-xjenzati

Inġinier tad-dejta huwa speċjalista li, minn naħa waħda, jiżviluppa, jittestja u jżomm infrastruttura tad-dejta: databases, ħażna u sistemi ta 'proċessar tal-massa. Min-naħa l-oħra, dan huwa dak li jnaddaf u "jimxnet" id-dejta għall-użu minn analisti u xjentisti tad-dejta, jiġifieri, joħloq pipelines tal-ipproċessar tad-dejta.

Data Scientist joħloq u jħarreġ mudelli ta’ tbassir (u oħrajn) bl-użu ta’ algoritmi ta’ tagħlim tal-magni u netwerks newrali, u jgħin lin-negozji jsibu mudelli moħbija, ibassru żviluppi u jottimizzaw il-proċessi ewlenin tan-negozju.

Id-differenza ewlenija bejn Xjentist tad-Data u Inġinier tad-Data hija li ġeneralment ikollhom għanijiet differenti. It-tnejn jaħdmu biex jiżguraw li d-dejta tkun aċċessibbli u ta’ kwalità għolja. Iżda Xjentist tad-Dejta jsib tweġibiet għall-mistoqsijiet tiegħu u jittestja l-ipoteżi f'ekosistema tad-dejta (pereżempju, ibbażata fuq Hadoop), u Inġinier tad-Data joħloq pipeline għall-manutenzjoni ta' algoritmu ta' tagħlim tal-magni miktub minn xjenzat tad-dejta fi cluster Spark fl-istess ekosistema. 

Inġinier tad-dejta jġib valur għal negozju billi jaħdem bħala parti minn tim. Il-kompitu tiegħu huwa li jaġixxi bħala rabta importanti bejn parteċipanti differenti: mill-iżviluppaturi għal konsumaturi tan-negozju ta 'rappurtar, u li żżid il-produttività tal-analisti, mill-marketing u l-prodott għall-BI. 

Xjentist tad-Data, għall-kuntrarju, jieħu sehem attiv fl-istrateġija tal-kumpanija u jiġbed l-għarfien, jieħu deċiżjonijiet, jimplimenta algoritmi ta 'awtomazzjoni, jimmudella u jiġġenera valur mid-dejta.
Inġinier tad-Data u Xjentist tad-Data: X'inhi d-differenza?

Il-ħidma bid-dejta hija suġġetta għall-prinċipju GIGO (żibel ġewwa - żibel barra): jekk l-analisti u x-xjentisti tad-dejta jittrattaw data mhux ippreparata u potenzjalment mhux korretta, allura r-riżultati anki bl-użu tal-algoritmi tal-analiżi l-aktar sofistikati ma jkunux korretti. 

L-inġiniera tad-dejta jsolvu din il-problema billi jibnu pipelines għall-ipproċessar, it-tindif u t-trasformazzjoni tad-dejta u jippermettu lix-xjenzati tad-dejta jaħdmu b'dejta ta 'kwalità għolja. 

Hemm ħafna għodod fis-suq biex taħdem bid-dejta li tkopri kull stadju: mid-dehra tad-dejta sal-output sa dashboard għall-bord tad-diretturi. U huwa importanti li d-deċiżjoni li tużahom tittieħed minn inġinier - mhux għax hija moda, iżda għax tassew jgħin ix-xogħol ta 'parteċipanti oħra fil-proċess. 

B'mod konvenzjonali: jekk kumpanija teħtieġ li tagħmel konnessjonijiet bejn BI u ETL - tagħbija tad-dejta u taġġorna r-rapporti, hawnhekk hija pedament wirt tipiku li Inġinier tad-Data jkollu jittratta magħha (huwa tajjeb jekk ikun hemm ukoll perit fit-tim).

Responsabbiltajiet ta' Inġinier tad-Data

  • Żvilupp, kostruzzjoni u manutenzjoni ta 'infrastruttura għall-ipproċessar tad-data.
  • Immaniġġjar ta 'żbalji u ħolqien ta' pipelines affidabbli għall-ipproċessar tad-dejta.
  • Ġib data mhux strutturata minn sorsi dinamiċi varji fil-forma meħtieġa għax-xogħol tal-analisti.
  • Jipprovdu rakkomandazzjonijiet biex itejbu l-konsistenza u l-kwalità tad-dejta.
  • Il-provvista u ż-żamma tal-arkitettura tad-dejta użata minn xjentisti tad-dejta u analisti tad-dejta.
  • Ipproċessa u aħżen id-dejta b'mod konsistenti u effiċjenti f'grupp distribwit ta' għexieren jew mijiet ta' servers.
  • Evalwa l-kompromessi tekniċi tal-għodod biex toħloq arkitetturi sempliċi iżda robusti li jistgħu jsalvaw it-tfixkil.
  • Kontroll u appoġġ tal-flussi tad-dejta u sistemi relatati (twaqqif ta’ monitoraġġ u twissijiet).

Hemm speċjalizzazzjoni oħra fi ħdan it-trajettorja tal-Inġinier tad-Data - inġinier ML. Fil-qosor, dawn l-inġiniera jispeċjalizzaw biex iġibu mudelli ta 'tagħlim tal-magni għall-implimentazzjoni u l-użu industrijali. Ħafna drabi, mudell riċevut minn xjenzat tad-dejta huwa parti minn studju u jista 'ma jaħdimx f'kundizzjonijiet ta' ġlieda.

Responsabbiltajiet ta' Xjentist tad-Data

  • L-estrazzjoni ta' karatteristiċi mid-dejta biex tapplika algoritmi ta' tagħlim tal-magni.
  • L-użu ta 'diversi għodod ta' tagħlim tal-magni biex ibassar u jikklassifika mudelli fid-dejta.
  • It-titjib tal-prestazzjoni u l-eżattezza tal-algoritmi tat-tagħlim tal-magni billi jiġu rfinati u ottimizzati l-algoritmi.
  • Formazzjoni ta 'ipoteżi "b'saħħithom" skond l-istrateġija tal-kumpanija li jeħtieġ li jiġu ttestjati.

Kemm l-Inġinier tad-Data kif ukoll ix-Xjentist tad-Data jaqsmu kontribut tanġibbli għall-iżvilupp ta’ kultura tad-dejta, li permezz tagħha kumpanija tista’ tiġġenera profitti addizzjonali jew tnaqqas l-ispejjeż.

Ma' liema lingwi u għodod jaħdmu l-inġiniera u x-xjenzati?

Illum, l-aspettattivi għax-xjenzati tad-dejta nbidlu. Preċedentement, l-inġiniera ġabru mistoqsijiet SQL kbar, kitbu manwalment MapReduce u pproċessaw id-dejta bl-użu ta 'għodod bħal Informatica ETL, Pentaho ETL, Talend. 

Fl-2020, speċjalista ma jistax jgħaddi mingħajr għarfien ta 'Python u għodod moderni ta' kalkolu (per eżempju, Airflow), fehim tal-prinċipji ta 'ħidma ma' pjattaformi sħab (bl-użu tagħhom biex jiffranka l-ħardwer, filwaqt li josserva l-prinċipji tas-sigurtà).

SAP, Oracle, MySQL, Redis huma għodod tradizzjonali għall-inġiniera tad-dejta f'kumpaniji kbar. Huma tajbin, iżda l-ispiża tal-liċenzji hija tant għolja li t-tagħlim biex taħdem magħhom jagħmel sens biss fi proġetti industrijali. Fl-istess ħin, hemm alternattiva ħielsa fil-forma ta 'Postgres - hija ħielsa u adattata mhux biss għat-taħriġ. 

Inġinier tad-Data u Xjentist tad-Data: X'inhi d-differenza?
Storikament, ħafna drabi jinstabu talbiet għal Java u Scala, għalkemm hekk kif jiżviluppaw it-teknoloġiji u l-approċċi, dawn il-lingwi jisparixxu fl-isfond.

Madankollu, il-BigData iebsa: Hadoop, Spark u l-bqija taż-żoo m'għadhomx prerekwiżit għal inġinier tad-dejta, iżda tip ta 'għodda biex isolvu problemi li ma jistgħux jiġu solvuti mill-ETL tradizzjonali. 

It-tendenza hija servizzi għall-użu ta 'għodod mingħajr għarfien tal-lingwa li biha huma miktuba (per eżempju, Hadoop mingħajr għarfien ta' Java), kif ukoll il-provvista ta 'servizzi lesti għall-ipproċessar ta' data streaming (rikonoxximent tal-vuċi jew rikonoxximent tal-immaġni fuq vidjo ).

Is-soluzzjonijiet industrijali minn SAS u SPSS huma popolari, filwaqt li Tableau, Rapidminer, Stata u Julia jintużaw ħafna wkoll minn xjentisti tad-dejta għal ħidmiet lokali.

Inġinier tad-Data u Xjentist tad-Data: X'inhi d-differenza?
Il-ħila li jinbnew pipelines infushom dehret lill-analisti u x-xjenzati tad-dejta ftit ta 'snin ilu biss: pereżempju, diġà huwa possibbli li tintbagħat dejta lil ħażna bbażata fuq PostgreSQL billi tuża skripts relattivament sempliċi. 

Tipikament, l-użu ta 'pipelines u strutturi tad-dejta integrati jibqa' r-responsabbiltà tal-inġiniera tad-dejta. Iżda llum, ix-xejra għal speċjalisti f'forma ta 'T b'kompetenzi wesgħin f'oqsma relatati hija aktar b'saħħitha minn qatt qabel, minħabba li l-għodod qed jiġu ssimplifikati kontinwament.

Għaliex l-Inġinier tad-Data u x-Xjentist tad-Data Jaħdmu Flimkien

Billi jaħdmu mill-qrib ma 'inġiniera, ix-Xjentisti tad-Data jistgħu jiffokaw fuq in-naħa tar-riċerka, u joħolqu algoritmi ta' tagħlim tal-magni lesti għall-produzzjoni.
U l-inġiniera jeħtieġ li jiffokaw fuq l-iskalabbiltà, l-użu mill-ġdid tad-dejta, u jiżguraw li l-pipelines tad-dħul u tal-ħruġ tad-dejta f'kull proġett individwali jikkonformaw mal-arkitettura globali.

Din is-separazzjoni tar-responsabbiltajiet tiżgura konsistenza bejn it-timijiet li jaħdmu fuq proġetti differenti ta’ tagħlim tal-magni. 

Il-kollaborazzjoni tgħin biex jinħolqu prodotti ġodda b'mod effiċjenti. Il-veloċità u l-kwalità jinkisbu permezz ta’ bilanċ bejn il-ħolqien ta’ servizz għal kulħadd (ħażna globali jew integrazzjoni ta’ dashboards) u l-implimentazzjoni ta’ kull ħtieġa jew proġett speċifiku (pipeline speċjalizzat ħafna, konnessjoni ta’ sorsi esterni). 

Il-ħidma mill-qrib ma 'xjentisti u analisti tad-dejta tgħin lill-inġiniera jiżviluppaw ħiliet analitiċi u ta' riċerka biex jiktbu kodiċi aħjar. Il-kondiviżjoni tal-għarfien fost l-utenti tal-maħżen u tal-lagi tad-dejta titjieb, tagħmel il-proġetti aktar b'aġilità u tagħti riżultati aktar sostenibbli fit-tul.

F'kumpaniji li għandhom l-għan li jiżviluppaw kultura ta 'ħidma mad-dejta u l-bini ta' proċessi tan-negozju bbażati fuqhom, Data Scientist u Data Engineer jikkumplimentaw lil xulxin u joħolqu sistema kompluta ta 'analiżi tad-dejta. 

Fl-artiklu li jmiss se nitkellmu dwar x'tip ta' edukazzjoni għandu jkollhom Inġinier tad-Data u Xjentisti tad-Data, liema ħiliet għandhom bżonn jiżviluppaw u kif jaħdem is-suq.

Mill-edituri tan-Netology

Jekk qed tħares lejn il-professjoni ta' Inġinier tad-Data jew Xjentist tad-Data, aħna nistednuk tistudja l-programmi tal-kors tagħna:

Sors: www.habr.com

Żid kumment