Datuen ingeniaria eta datu zientzialaria: zein da aldea?

Datu Zientzialariaren eta Datuen Ingeniariaren lanbideak askotan nahastu egiten dira. Enpresa bakoitzak bere datuekin lan egiteko berezitasunak ditu, haien analisirako helburu desberdinak eta zein espezialistak lanaren zein atal jorratu behar duen ideia ezberdina, beraz, bakoitzak bere eskakizunak ditu. 

Azter dezagun zein den espezialista hauen arteko aldea, zer negozio-arazo konpontzen dituzten, zer gaitasun dituzten eta zenbat irabazten duten. Materiala handia izan zen, beraz, bi argitalpenetan banatu genuen.

Lehenengo artikuluan, Elena Gerasimova, fakultateko burua "Datuen Zientzia eta Analitika"Netology-n, datu-zientzialari eta datu-ingeniari baten arteko aldea zein den eta zer tresnekin lan egiten duten kontatzen du.

Nola desberdintzen diren ingeniarien eta zientzialarien rolak

Datu-ingeniaria espezialista bat da, batetik, datu-azpiegiturak garatzen, probatzen eta mantentzen dituena: datu-baseak, biltegiratze- eta prozesaketa masiboko sistemak. Bestalde, hau da datuak garbitu eta β€œorraztu” egiten dituena, analistek eta datu-zientzialariek erabiltzeko, hau da, datuak prozesatzeko kanalizazioak sortzen dituena.

Data Scientist-ek eredu prediktiboak (eta bestelakoak) sortzen eta entrenatzen ditu ikaskuntza automatikoko algoritmoak eta neurona-sareak erabiliz, enpresei ezkutuko ereduak aurkitzen, garapenak aurreikusten eta negozio-prozesu nagusiak optimizatzen laguntzen die.

Data Scientist eta Data Engineer baten arteko desberdintasun nagusia normalean helburu desberdinak izaten dituzte. Biek lan egiten dute datuak eskuragarriak eta kalitate handikoak izan daitezen. Baina datu-zientzialari batek bere galderen erantzunak aurkitzen ditu eta hipotesiak probatzen ditu datu-ekosistema batean (adibidez, Hadoop-en oinarrituta), eta datu-ingeniari batek datu-zientzialari batek Spark kluster batean idatzitako ikaskuntza automatikoko algoritmo bati zerbitzua emateko kanalizazioa sortzen du. ekosistema. 

Datu-ingeniari batek balioa ekartzen dio negozio bati talde baten parte gisa lan eginez. Bere zeregina parte hartzaile ezberdinen arteko lotura garrantzitsu gisa jardutea da: erreportajeen garatzaileetatik hasi eta negozio kontsumitzaileetaraino, eta analisten produktibitatea areagotzea, marketinetik eta produktutik BIraino. 

Data Scientist batek, aitzitik, aktiboki parte hartzen du konpainiaren estrategian eta ikuspegiak ateratzen, erabakiak hartzen, automatizazio algoritmoak ezarri, modelatu eta datuetatik balioa sortzen.
Datuen ingeniaria eta datu zientzialaria: zein da aldea?

Datuekin lan egitea GIGO (garbage in - garbage out) printzipioaren menpe dago: analistek eta datu-zientzialariek prestatu gabeko eta potentzialki okerreko datuekin lan egiten badute, orduan emaitzak analisi algoritmo sofistikatuenak erabiliz ere okerrak izango dira. 

Datu-ingeniariek arazo hau konpontzen dute datuak prozesatzeko, garbitzeko eta eraldatzeko kanalizazioak eraikiz eta datu-zientzialariei kalitate handiko datuekin lan egiteko aukera emanez. 

Etapa guztiak hartzen dituzten datuekin lan egiteko tresna ugari daude merkatuan: datuen agerpenetik irteerara arte, administrazio kontseilurako aginte-panel bateraino. Eta garrantzitsua da horiek erabiltzeko erabakia ingeniari batek hartzea, ez modan dagoelako, prozesuan beste parte-hartzaileen lana benetan lagunduko duelako baizik. 

Ohikoki: enpresa batek BI eta ETL arteko konexioak egin behar baditu - datuak kargatu eta txostenak eguneratu, hona hemen datu-ingeniari batek aurre egin beharko dion ondare-oinarri tipiko bat (ona da taldean arkitekto bat ere badago).

Datu-ingeniari baten erantzukizunak

  • Datuak tratatzeko azpiegiturak garatzea, eraikitzea eta mantentzea.
  • Akatsak kudeatzea eta datuak prozesatzeko kanalizazio fidagarriak sortzea.
  • Hainbat iturri dinamikotako datu egituratu gabeak analisten lanerako beharrezkoa den formara ekartzea.
  • Datuen koherentzia eta kalitatea hobetzeko gomendioak ematea.
  • Datu-zientzialariek eta datu-analistek erabiltzen duten datu-arkitektura hornitzea eta mantentzea.
  • Prozesatu eta gorde datuak koherentziaz eta eraginkortasunez hamarnaka edo ehunka zerbitzariko multzo banatu batean.
  • Ebaluatu tresnen truke teknikoak etenari bizirik iraun dezaketen arkitektura sinple baina sendoak sortzeko.
  • Datu-fluxuen eta lotutako sistemen kontrola eta laguntza (jarraipena eta alertak konfiguratzea).

Data Engineer ibilbidearen barruan beste espezializazio bat dago - ML ingeniaria. Laburbilduz, ingeniari hauek ikaskuntza automatikoko ereduak industri inplementaziora eta erabilerara eramaten espezializatuta daude. Askotan, datu-zientzialari batengandik jasotako eredu bat ikerketa baten parte da eta baliteke borroka-baldintzetan ez funtzionatzea.

Data Scientist baten erantzukizunak

  • Datuetatik eginbideak ateratzea ikaskuntza automatikoko algoritmoak aplikatzeko.
  • Ikaskuntza automatikoko hainbat tresna erabiltzea datuetan ereduak aurreikusteko eta sailkatzeko.
  • Ikaskuntza automatikoko algoritmoen errendimendua eta zehaztasuna hobetzea algoritmoak doituz eta optimizatuz.
  • Hipotesi β€œsendoak” eratzea, probatu beharreko enpresaren estrategiaren arabera.

Datu-ingeniariek eta datu-zientzialariek datuen kultura garatzeko ekarpen ukigarria partekatzen dute, zeinaren bidez enpresa batek irabazi gehigarriak sor ditzake edo kostuak murrizteko.

Zein hizkuntza eta tresnarekin lan egiten dute ingeniariek eta zientzialariek?

Gaur egun, datu-zientzialarien itxaropenak aldatu egin dira. Aurretik, ingeniariek SQL kontsulta handiak biltzen zituzten, MapReduce eskuz idatzi eta datuak prozesatzen zituzten Informatica ETL, Pentaho ETL, Talend bezalako tresnak erabiliz. 

2020an, espezialista batek ezin du Python eta kalkulu tresna modernoen ezagutzarik gabe (adibidez, Airflow), hodeiko plataformekin lan egiteko printzipioak ulertzea (hardwarea aurrezteko erabiltzea, segurtasun printzipioak errespetatuz).

SAP, Oracle, MySQL, Redis enpresa handietako datu-ingeniarientzako tresna tradizionalak dira. Onak dira, baina lizentzien kostua hain da altua, non haiekin lan egiten ikasteak industria-proiektuetan baino ez du zentzua. Aldi berean, doako alternatiba bat dago Postgres moduan - doakoa da eta entrenatzeko ez ezik egokia da. 

Datuen ingeniaria eta datu zientzialaria: zein da aldea?
Historikoki, Java eta Scala eskaerak aurkitu ohi dira, nahiz eta teknologiak eta planteamenduak garatzen diren heinean, hizkuntza hauek bigarren planoan desagertzen diren.

Hala ere, BigData hardcore: Hadoop, Spark eta gainerako zoologikoak ez dira datu-ingeniari baten aurrebaldintza, ETL tradizionalak konpondu ezin dituen arazoak konpontzeko tresna moduko bat baizik. 

Joera, tresnak idazten diren hizkuntza ezagutu gabe erabiltzeko zerbitzuak dira (adibidez, Hadoop Java-ren ezagutzarik gabe), bai eta streaming datuak prozesatzeko prest egindako zerbitzuak eskaintzea ere (ahots-ezagutzea edo irudi-ezagutzea bideoan). ).

SAS eta SPSS-ren soluzio industrialak ezagunak dira, eta Tableau, Rapidminer, Stata eta Julia ere oso erabiliak dira datu-zientzialariek tokiko zereginetarako.

Datuen ingeniaria eta datu zientzialaria: zein da aldea?
Hodiak beraiek eraikitzeko gaitasuna orain dela pare bat urte agertu zitzaien analistei eta datu-zientzialariei: adibidez, dagoeneko posible da datuak PostgreSQL-n oinarritutako biltegi batera bidaltzea script nahiko sinpleak erabiliz. 

Normalean, kanalizazioak eta datu-egitura integratuak erabiltzea datu-ingeniarien ardura izaten jarraitzen du. Baina gaur egun, erlazionatutako arloetan gaitasun zabalak dituzten T formako espezialisten joera inoiz baino indartsuagoa da, tresnak etengabe sinplifikatzen ari direlako.

Zergatik lan egiten dute datu-ingeniariak eta datu-zientzialariak elkarrekin

Ingeniariekin lankidetza estuan lan eginez, Data Scientists-ek ikerketan zentratu daitezke, ekoizpenerako prest dauden makina ikasteko algoritmoak sortuz.
Eta ingeniariek eskalagarritasunari, datuak berrerabiltzeari eta proiektu indibidual bakoitzeko datuen sarrera eta irteera kanalizazioak arkitektura globalarekin bat datozela ziurtatu behar dute.

Erantzukizunen banaketa honek ikaskuntza automatikoko proiektu ezberdinetan lan egiten duten taldeen arteko koherentzia bermatzen du. 

Elkarlanak produktu berriak modu eraginkorrean sortzen laguntzen du. Abiadura eta kalitatea denontzako zerbitzu bat sortzearen (biltegiratze globala edo aginte-panelen integrazioa) eta behar edo proiektu zehatz bakoitzaren ezarpenaren (odibide oso espezializatua, kanpoko iturriak konektatzea) oreka baten bidez lortzen dira. 

Datu-zientzialari eta analistarekin estuki lan egiteak ingeniariei analisi eta ikerketarako trebetasunak garatzen laguntzen die kode hobea idazteko. Biltegien eta datu-lakuaren erabiltzaileen artean ezagutza partekatzea hobetzen da, proiektuak arinagoak bihurtuz eta epe luzerako emaitza jasangarriagoak emanez.

Datuekin lan egiteko eta haietan oinarritutako negozio-prozesuak eraikitzeko kultura garatzea helburu duten enpresetan, Data Scientist eta Data Engineer elkarren osagarri dira eta datuen analisi sistema osoa sortzen dute. 

Hurrengo artikuluan hitz egingo dugu zer nolako hezkuntza izan behar duten Datu Ingeniariek eta Datu Zientzialariek, zer gaitasun garatu behar duten eta merkatuak nola funtzionatzen duen.

Netology-ko editoreen eskutik

Datu-ingeniariaren edo datu-zientzialariaren lanbidea aztertzen ari bazara, gure ikastaro-programak aztertzera gonbidatzen zaitugu:

Iturria: www.habr.com

Gehitu iruzkin berria