Datuma Inĝeniero kaj Datuma Sciencisto: kio estas la diferenco?

La profesioj de Datumsciencisto kaj Datuma Inĝeniero ofte estas konfuzitaj. Ĉiu kompanio havas siajn proprajn specifojn pri laboro kun datumoj, malsamaj celoj por ilia analizo kaj malsama ideo pri kiu specialisto devas trakti kiun parton de la laboro, do ĉiu havas siajn proprajn postulojn. 

Ni eltrovu, kia estas la diferenco inter ĉi tiuj specialistoj, kiajn komercajn problemojn ili solvas, kiajn kapablojn ili havas kaj kiom ili gajnas. La materialo montriĝis granda, do ni dividis ĝin en du eldonaĵojn.

En la unua artikolo, Elena Gerasimova, estro de la fakultato "Datuma Scienco kaj Analitiko" en Netologio, rakontas, kia estas la diferenco inter Datuma Sciencisto kaj Datuma Inĝeniero kaj kun kiuj iloj ili laboras.

Kiel la roloj de inĝenieroj kaj sciencistoj diferencas

Datuma inĝeniero estas specialisto, kiu unuflanke disvolvas, testas kaj prizorgas datumajn infrastrukturojn: datumbazojn, stokadon kaj amastraktadsistemojn. Aliflanke, ĉi tiu estas tiu, kiu purigas kaj "kobas" datumojn por uzo de analizistoj kaj datumsciencistoj, tio estas, kreas datumtraktadduktoj.

Data Scientist kreas kaj trejnas prognozajn (kaj aliajn) modelojn per maŝinlernado-algoritmoj kaj neŭralaj retoj, helpante entreprenojn trovi kaŝitajn ŝablonojn, antaŭdiri evoluojn kaj optimumigi ŝlosilajn komercajn procezojn.

La ĉefa diferenco inter Datuma Sciencisto kaj Datuma Inĝeniero estas, ke ili kutime havas malsamajn celojn. Ambaŭ funkcias por certigi, ke datumoj estas alireblaj kaj altkvalitaj. Sed Datum-Sciencisto trovas respondojn al siaj demandoj kaj testas hipotezojn en datuma ekosistemo (ekzemple, bazita sur Hadoop), kaj Datuma Inĝeniero kreas dukton por priservado de maŝinlernado-algoritmo skribita de datumsciencisto en Spark-areto ene de la sama. ekosistemo. 

Datuma inĝeniero alportas valoron al komerco laborante kiel parto de teamo. Ĝia tasko estas agi kiel grava ligo inter malsamaj partoprenantoj: de programistoj ĝis komercaj konsumantoj de raportado, kaj pliigi la produktivecon de analizistoj, de merkatado kaj produkto ĝis BI. 

Datumsciencisto, male, aktive partoprenas en la strategio de la firmao kaj ĉerpas komprenojn, farante decidojn, efektivigante aŭtomatigajn algoritmojn, modeligante kaj generante valoron el datumoj.
Datuma Inĝeniero kaj Datuma Sciencisto: kio estas la diferenco?

Labori kun datumoj estas submetita al la principo GIGO (rubage in - garbage out) principo: se analizistoj kaj datumsciencistoj traktas nepreparitajn kaj eble malĝustajn datumojn, tiam la rezultoj eĉ uzante la plej kompleksajn analizajn algoritmojn estos malĝustaj. 

Datumaj inĝenieroj solvas ĉi tiun problemon konstruante duktojn por prilaborado, purigado kaj transformado de datumoj kaj permesante al datumsciencistoj labori kun altkvalitaj datumoj. 

Estas multaj iloj sur la merkato por labori kun datumoj, kiuj kovras ĉiun etapon: de la apero de datumoj ĝis eligo ĝis panelo por la estraro de direktoroj. Kaj gravas, ke la decido uzi ilin estas farita de inĝeniero - ne ĉar ĝi estas moda, sed ĉar li vere helpos la laboron de aliaj partoprenantoj en la procezo. 

Konvencie: se kompanio bezonas fari ligojn inter BI kaj ETL - ŝarĝi datumojn kaj ĝisdatigi raportojn, jen tipa hereda fundamento, pri kiu Data Engineer devos trakti (estas bone, se ankaŭ estas arkitekto en la teamo).

Respondecoj de Datuma Inĝeniero

  • Disvolviĝo, konstruo kaj prizorgado de datumprilabora infrastrukturo.
  • Pritraktado de eraroj kaj kreado de fidindaj pritraktadduktoj.
  • Alportante nestrukturitajn datumojn de diversaj dinamikaj fontoj al la formo necesa por la laboro de analizistoj.
  • Provizante rekomendojn por plibonigi datumkonsekvencon kaj kvaliton.
  • Provizante kaj konservante la datuman arkitekturon uzatan de datumsciencistoj kaj datumaj analizistoj.
  • Prilaboru kaj konservu datumojn konstante kaj efike en distribuita areto de dekoj aŭ centoj da serviloj.
  • Taksi la teknikajn kompromisojn de iloj por krei simplajn sed fortikajn arkitekturojn, kiuj povas postvivi interrompon.
  • Kontrolo kaj subteno de datumfluoj kaj rilataj sistemoj (agordado de monitorado kaj atentigoj).

Estas alia specialiĝo ene de la trajektorio de Data Engineer - ML-inĝeniero. Mallonge, ĉi tiuj inĝenieroj specialiĝas pri alporti maŝinlernajn modelojn al industria efektivigo kaj uzo. Ofte, modelo ricevita de datuma sciencisto estas parto de studo kaj eble ne funkcias en batalkondiĉoj.

Respondecoj de Datuma Sciencisto

  • Ĉerpi funkciojn el datumoj por apliki maŝinlernajn algoritmojn.
  • Uzante diversajn maŝinlernajn ilojn por antaŭdiri kaj klasifiki ŝablonojn en datumoj.
  • Plibonigi la rendimenton kaj precizecon de maŝinlernado-algoritmoj per fajnagordado kaj optimumigado de la algoritmoj.
  • Formado de "fortaj" hipotezoj laŭ la strategio de la kompanio, kiuj devas esti provitaj.

Kaj Data Engineer kaj Data Scientist dividas palpeblan kontribuon al la evoluo de datumkulturo, per kiu firmao povas generi pliajn profitojn aŭ redukti kostojn.

Kun kiuj lingvoj kaj iloj laboras inĝenieroj kaj sciencistoj?

Hodiaŭ, la atendoj por datumsciencistoj ŝanĝiĝis. Antaŭe, inĝenieroj kolektis grandajn SQL-demandojn, mane skribis MapReduce kaj prilaboris datumojn uzante ilojn kiel Informatica ETL, Pentaho ETL, Talend. 

En 2020, specialisto ne povas fari sen kono de Python kaj modernaj kalkuliloj (ekzemple, Airflow), kompreno de la principoj de laboro kun nubaj platformoj (uzante ilin por ŝpari aparataron, observante sekurecajn principojn).

SAP, Oracle, MySQL, Redis estas tradiciaj iloj por datumaj inĝenieroj en grandaj kompanioj. Ili estas bonaj, sed la kosto de licencoj estas tiel alta, ke lerni labori kun ili nur havas sencon en industriaj projektoj. Samtempe ekzistas senpaga alternativo en la formo de Postgres - ĝi estas senpaga kaj taŭga ne nur por trejnado. 

Datuma Inĝeniero kaj Datuma Sciencisto: kio estas la diferenco?
Historie, petoj por Java kaj Scala estas ofte trovitaj, kvankam dum teknologioj kaj aliroj evoluas, ĉi tiuj lingvoj paliĝas en la fonon.

Tamen, hardcore BigData: Hadoop, Spark kaj la resto de la zoo ne plu estas antaŭkondiĉo por datuma inĝeniero, sed speco de iloj por solvi problemojn, kiuj ne povas esti solvitaj de tradicia ETL. 

La tendenco estas servoj por uzi ilojn sen scio pri la lingvo en kiu ili estas skribitaj (ekzemple Hadoop sen scio pri Java), kaj ankaŭ la liverado de pretaj servoj por prilaborado de fluantaj datumoj (voĉrekono aŭ bildrekono en video). ).

Industriaj solvoj de SAS kaj SPSS estas popularaj, dum Tableau, Rapidminer, Stata kaj Julia ankaŭ estas vaste uzataj de datumsciencistoj por lokaj taskoj.

Datuma Inĝeniero kaj Datuma Sciencisto: kio estas la diferenco?
La kapablo mem konstrui duktoj aperis al analizistoj kaj datumsciencistoj antaŭ nur kelkaj jaroj: ekzemple, jam eblas sendi datumojn al PostgreSQL-bazita stokado uzante relative simplajn skriptojn. 

Tipe, la uzo de duktoj kaj integraj datenstrukturoj restas la respondeco de dateninĝenieroj. Sed hodiaŭ, la tendenco por specialistoj en T-formaj kun larĝaj kompetentecoj en rilataj kampoj estas pli forta ol iam ajn, ĉar iloj estas konstante simpligitaj.

Kial Datuma Inĝeniero kaj Datuma Sciencisto Laboras Kune

Kunlaborante proksime kun inĝenieroj, Datumaj Sciencistoj povas koncentriĝi pri la esplora flanko, kreante produktadpretajn maŝinlernajn algoritmojn.
Kaj inĝenieroj devas koncentriĝi pri skaleblo, reuzo de datumoj kaj certigi, ke datumoj enigo kaj eligo en ĉiu individua projekto konformas al la tutmonda arkitekturo.

Ĉi tiu disiĝo de respondecoj certigas konsistencon inter teamoj laborantaj pri malsamaj maŝinlernadaj projektoj. 

Kunlaboro helpas krei novajn produktojn efike. Rapido kaj kvalito estas atingitaj per ekvilibro inter kreado de servo por ĉiuj (tutmonda stokado aŭ integriĝo de paneloj) kaj efektivigo de ĉiu specifa bezono aŭ projekto (tre specialigita dukto, konektanta eksterajn fontojn). 

Kunlabori proksime kun datumsciencistoj kaj analizistoj helpas inĝenierojn evoluigi analizajn kaj esplorajn kapablojn por skribi pli bonan kodon. Kundivido de scio inter uzantoj de magazenoj kaj datumlagoj pliboniĝas, farante projektojn pli lertaj kaj liverante pli daŭrigeblajn longdaŭrajn rezultojn.

En kompanioj, kiuj celas evoluigi kulturon labori kun datumoj kaj konstrui komercajn procezojn surbaze de ili, Data Scientist kaj Data Engineer kompletigas unu la alian kaj kreas kompletan datuman analizsistemon. 

En la sekva artikolo ni parolos pri kian edukadon devus havi Datuma Inĝeniero kaj Datumsciencistoj, kiajn kapablojn ili bezonas disvolvi kaj kiel funkcias la merkato.

De la redaktoroj de Netology

Se vi rigardas la profesion de Datuma Inĝeniero aŭ Datuma Sciencisto, ni invitas vin studi niajn kursprogramojn:

fonto: www.habr.com

Aldoni komenton