Gagnaverkfræðingur og gagnafræðingur: hver er munurinn?

Starf gagnafræðings og gagnaverkfræðings er oft ruglað saman. Hvert fyrirtæki hefur sínar eigin sérstöður um að vinna með gögn, mismunandi markmið fyrir greiningu þeirra og mismunandi hugmynd um hver af sérfræðingunum ætti að taka þátt í hvaða hluta vinnunnar, þess vegna hefur hvert sínar kröfur. 

Við reiknum út hver er munurinn á þessum sérfræðingum, hvaða viðskiptaverkefni þeir leysa, hvaða færni þeir búa yfir og hversu mikið þeir vinna sér inn. Efnið reyndist stórt og var því skipt í tvö rit.

Í fyrstu greininni, Elena Gerasimova, yfirmaður deildarinnar "Gagnafræði og greining“ í Netology, segir hver er munurinn á gagnafræðingi og gagnaverkfræðingi og hvaða verkfæri þeir vinna með.

Hvernig er hlutverk verkfræðinga og vísindamanna ólíkt?

Gagnaverkfræðingur er sérfræðingur sem annars vegar þróar, prófar og viðheldur innviðum til að vinna með gögn: gagnagrunna, geymslur og fjöldavinnslukerfi. Aftur á móti er þetta sá sem hreinsar og „greiðir“ gögn til notkunar fyrir sérfræðinga og gagnafræðinga, það er að segja býr til gagnavinnsluleiðslur.

Data Scientist býr til og þjálfar forspár (og fleiri) líkön með því að nota vélræna reiknirit og tauganet, sem hjálpar fyrirtækjum að finna falin mynstur, spá fyrir um þróun og fínstilla helstu viðskiptaferli.

Helsti munurinn á gagnafræðingi og gagnafræðingi er að þeir hafa venjulega mismunandi markmið. Bæði vinna að því að halda gögnum aðgengilegum og hágæða. En Gagnafræðingurinn finnur svör við spurningum sínum og prófar tilgátur í gagnavistkerfinu (til dæmis byggt á Hadoop), og Gagnaverkfræðingurinn býr til þjónustuleiðslu fyrir vélnámsreikniritið skrifað af gagnafræðingnum í Spark klasa innan sama vistkerfi. 

Gagnaverkfræðingur færir fyrirtæki gildi með því að vinna sem teymi. Hlutverk þess er að virka sem mikilvægur hlekkur milli mismunandi þátttakenda - frá þróunaraðilum til viðskiptanotenda skýrslugerðar - og að auka framleiðni greinenda - frá markaðssetningu og vöru til BI. 

Gagnafræðingurinn tekur hins vegar virkan þátt í stefnu fyrirtækisins og dregur fram innsýn, tekur ákvarðanir, innleiðir sjálfvirkni reiknirit, líkönum og öðlast verðmæti úr gögnum.
Gagnaverkfræðingur og gagnafræðingur: hver er munurinn?

Vinna með gögn er háð GIGO (sorp in - garbage out) meginreglunni: ef sérfræðingar og gagnafræðingar takast á við óundirbúin og hugsanlega röng gögn, þá verða niðurstöður jafnvel flóknustu greiningaralgrímanna rangar. 

Gagnaverkfræðingar leysa þetta vandamál með því að byggja leiðslur til að vinna, hreinsa og umbreyta gögnum og leyfa gagnafræðingnum að vinna með hágæða gögn. 

Það eru mörg gagnaverkfæri á markaðnum sem ná yfir hvert stig: frá útliti gagna til úttaks til mælaborðsins fyrir stjórnina. Og það er mikilvægt að ákvörðun um notkun þeirra sé tekin af verkfræðingnum, ekki vegna þess að það er í tísku, heldur vegna þess að hann mun virkilega hjálpa öðrum þátttakendum í ferlinu í starfi þeirra. 

Skilyrt: ef fyrirtæki þarf að eignast vini með BI og ETL - að hlaða gögnum og uppfæra skýrslur, þá er hér dæmigerður grunnur sem gagnaverkfræðingur þarf að takast á við (það er gott ef það er líka arkitekt í teyminu fyrir utan hann) .

Ábyrgð gagnaverkfræðings

  • Þróun, uppbygging og viðhald innviða til að vinna með gögn.
  • Villumeðferð og uppbygging öflugra gagnavinnsluleiðslur.
  • Að koma óskipulögðum gögnum frá ýmsum kraftmiklum aðilum í það form sem nauðsynlegt er fyrir vinnu greiningaraðila.
  • Að koma með tillögur til að bæta samræmi og gæði gagna.
  • Að útvega og viðhalda gagnaarkitektúrnum sem gagnafræðingar og gagnafræðingar nota.
  • Vinnsla og geymsla gagna á samfelldri og skilvirkan hátt í dreifðum þyrpingum af tugum eða hundruðum netþjóna.
  • Metið tæknilega skiptingu verkfæra til að búa til einfaldan en öflugan arkitektúr sem getur lifað af bilanir.
  • Eftirlit og stuðningur við gagnaflæði og tengd kerfi (uppsetning eftirlits og viðvarana).

Það er önnur sérhæfing innan gagnaverkfræðingsferilsins - ML verkfræðingur. Í stuttu máli, þessir verkfræðingar sérhæfa sig í að koma vélanámslíkönum til iðnaðarupptöku og notkunar. Oft er líkan gagnafræðinga hluti af rannsókn og virkar kannski ekki í bardaga.

Ábyrgð gagnafræðings

  • Að draga eiginleika úr gögnum til að beita vélrænum reikniritum.
  • Notkun ýmis vélanámsverkfæri til að spá fyrir um og flokka mynstur í gögnum.
  • Bættu afköst og nákvæmni vélrænna reiknirita með því að fínstilla og fínstilla reiknirit.
  • Myndun „sterkra“ tilgáta í samræmi við stefnu fyrirtækisins sem þarf að prófa.

Bæði Gagnaverkfræðingurinn og Gagnafræðingurinn sameina áþreifanlegt framlag til þróunar menningar um að vinna með gögn, þar sem fyrirtæki getur aukið hagnað eða dregið úr kostnaði.

Hvaða tungumál og verkfæri vinna verkfræðingar og vísindamenn með?

Í dag hafa væntingar frá gagnafræðingum breyst. Áður smíðuðu verkfræðingar stórar SQL fyrirspurnir, skrifuðu MapReduce handvirkt og unnu gögn með því að nota verkfæri eins og Informatica ETL, Pentaho ETL, Talend. 

Árið 2020 getur sérfræðingur ekki verið án þekkingar á Python og nútíma tölvuverkfærum (til dæmis Airflow), skilningi á meginreglum þess að vinna með skýjapalla (nota þá til að spara á vélbúnaði, á sama tíma og öryggisreglur fylgja).

SAP, Oracle, MySQL, Redis eru hefðbundin gagnaverkfæri í stórum fyrirtækjum. Þau eru góð en leyfiskostnaðurinn er svo mikill að það er bara skynsamlegt að læra að vinna með þau í iðnaðarverkefnum. Á sama tíma er ókeypis valkostur í formi Postgres - það er ókeypis og hentar ekki aðeins til náms. 

Gagnaverkfræðingur og gagnafræðingur: hver er munurinn?
Sögulega hefur oft komið fram beiðni um Java og Scala, þó að þegar tækni og nálganir þróast, hverfa þessi tungumál í bakgrunninn.

Hins vegar er harðkjarna BigData: Hadoop, Spark og restin af dýragarðinum ekki lengur forsenda gagnaverkfræðings, heldur eins konar tæki til að leysa vandamál sem hefðbundið ETL getur ekki leyst. 

Þróunin er þjónusta við að nota verkfæri án þess að þekkja tungumálið sem þau eru skrifuð á (til dæmis Hadoop án þekkingar á Java), auk þess að veita tilbúna þjónustu til að vinna streymigögn (þekking á rödd eða myndum á myndbandi).

Iðnaðarlausnir frá SAS og SPSS eru vinsælar, en Tableau, Rapidminer, Stata og Julia eru einnig mikið notaðar af gagnafræðingum fyrir staðbundin verkefni.

Gagnaverkfræðingur og gagnafræðingur: hver er munurinn?
Sérfræðingar og gagnafræðingar fengu tækifæri til að byggja leiðslur sjálfir fyrir aðeins nokkrum árum síðan: til dæmis er nú þegar hægt að senda gögn í PostgreSQL-byggða geymslu með tiltölulega einföldum skriftum. 

Venjulega er notkun leiðslna og samþættra gagnabygginga eftir gagnaverkfræðingum. En í dag er þróunin fyrir T-laga sérfræðinga sterkari en nokkru sinni fyrr - með víðtæka hæfni á skyldum sviðum, vegna þess að verkfærin eru stöðugt einfölduð.

Af hverju gagnaverkfræðingur og gagnafræðingur vinna saman

Með því að vinna náið með verkfræðingum getur Data Scientist einbeitt sér að rannsóknarhliðinni og byggt upp vélræna reiknirit sem eru tilbúin til notkunar.
Og verkfræðingar ættu að einbeita sér að sveigjanleika, endurnotkun gagna og tryggja að inntaks- og úttaksleiðslur gagna í hverju einstöku verkefni séu í samræmi við alþjóðlegan arkitektúr.

Þessi aðgreining verka tryggir samræmi milli teyma sem vinna að mismunandi vélanámsverkefnum. 

Samvinna hjálpar til við að búa til nýjar vörur á áhrifaríkan hátt. Hraði og gæðum er náð með jafnvægi á milli þess að búa til þjónustu fyrir alla (alheimsgeymslu eða samþættingu mælaborðs) og framkvæmd hverrar sérstakrar þarfar eða verkefnis (mjög sérhæfð leiðsla, tenging utanaðkomandi heimilda). 

Náið samstarf við gagnafræðinga og greiningaraðila hjálpar verkfræðingum að þróa greiningar- og rannsóknarhæfileika til að skrifa betri kóða. Þekkingarmiðlun er bætt milli notenda gagnavöruhúsa og gagnavatna, sem gerir verkefni sveigjanlegri og skilar sjálfbærari langtíma árangri.

Í fyrirtækjum sem hafa það að markmiði að þróa menningu þess að vinna með gögn og byggja upp viðskiptaferla út frá þeim bæta Data Scientist og Data Engineer hvort annað upp og búa til fullkomið gagnagreiningarkerfi. 

Í næstu grein munum við tala um hvers konar menntun gagnaverkfræðingur og gagnafræðingar ættu að hafa, hvaða færni þeir þurfa til að þróa og hvernig markaðurinn virkar.

Frá ritstjórum Netology

Ef þú ert að skoða starfsgrein gagnaverkfræðings eða gagnafræðings, bjóðum við þér að kynna þér forrit námskeiðanna okkar:

Heimild: www.habr.com

Bæta við athugasemd