Datu inženieris un datu zinÄtnieks: kÄda ir atŔķirÄ«ba?
Datu zinÄtnieka un datu inženiera profesijas bieži tiek sajauktas. Katram uzÅÄmumam ir sava specifika darbam ar datiem, atŔķirÄ«gi to analÄ«zes mÄrÄ·i un atŔķirÄ«gs priekÅ”stats par to, kuram speciÄlistam ar kÄdu darba daļu jÄnodarbojas, tÄpÄc katram ir savas prasÄ«bas.
Noskaidrosim, kÄda ir atŔķirÄ«ba starp Å”iem speciÄlistiem, kÄdas biznesa problÄmas viÅi risina, kÄdas prasmes viÅiem ir un cik viÅi nopelna. MateriÄls izrÄdÄ«jÄs apjomÄ«gs, tÄpÄc sadalÄ«jÄm to divÄs publikÄcijÄs.
PirmajÄ rakstÄ fakultÄtes vadÄ«tÄja Jeļena Gerasimova āDatu zinÄtne un analÄ«ze" Netology stÄsta, kÄda ir atŔķirÄ«ba starp datu zinÄtnieku un datu inženieri un ar kÄdiem rÄ«kiem viÅi strÄdÄ.
KÄ atŔķiras inženieru un zinÄtnieku lomas
Datu inženieris ir speciÄlists, kurÅ”, no vienas puses, izstrÄdÄ, pÄrbauda un uztur datu infrastruktÅ«ru: datu bÄzes, uzglabÄÅ”anas un masu apstrÄdes sistÄmas. No otras puses, tas ir tas, kurÅ” attÄ«ra un āÄ·emmÄā datus, lai tos varÄtu izmantot analÄ«tiÄ·i un datu zinÄtnieki, tas ir, izveido datu apstrÄdes cauruļvadus.
Datu zinÄtnieks izveido un apmÄca prognozÄjoÅ”os (un citus) modeļus, izmantojot maŔīnmÄcÄ«Å”anÄs algoritmus un neironu tÄ«klus, palÄ«dzot uzÅÄmumiem atrast slÄptos modeļus, prognozÄt attÄ«stÄ«bu un optimizÄt galvenos biznesa procesus.
GalvenÄ atŔķirÄ«ba starp datu zinÄtnieku un datu inženieri ir tÄ, ka viÅiem parasti ir atŔķirÄ«gi mÄrÄ·i. Abi strÄdÄ, lai nodroÅ”inÄtu, ka dati ir pieejami un kvalitatÄ«vi. Bet datu zinÄtnieks atrod atbildes uz saviem jautÄjumiem un pÄrbauda hipotÄzes datu ekosistÄmÄ (piemÄram, pamatojoties uz Hadoop), un datu inženieris izveido cauruļvadu maŔīnmÄcÄ«Å”anÄs algoritma apkalpoÅ”anai, ko tajÄ paÅ”Ä Spark klasterÄ« ir uzrakstÄ«jis datu zinÄtnieks. ekosistÄma.
Datu inženieris sniedz vÄrtÄ«bu uzÅÄmumam, strÄdÄjot kÄ daļa no komandas. TÄs uzdevums ir darboties kÄ svarÄ«gai saiknei starp dažÄdiem dalÄ«bniekiem: no izstrÄdÄtÄjiem lÄ«dz atskaiÅ”u sniegÅ”anas biznesa patÄrÄtÄjiem, kÄ arÄ« paaugstinÄt analÄ«tiÄ·u produktivitÄti no mÄrketinga un produkta lÄ«dz BI.
Datu zinÄtnieks, gluži pretÄji, aktÄ«vi piedalÄs uzÅÄmuma stratÄÄ£ijÄ un iegÅ«st ieskatu, pieÅem lÄmumus, ievieÅ” automatizÄcijas algoritmus, modelÄ un Ä£enerÄ vÄrtÄ«bu no datiem.
Darbs ar datiem ir pakļauts GIGO (garbage in - waste out) principam: ja analÄ«tiÄ·i un datu zinÄtnieki nodarbojas ar nesagatavotiem un potenciÄli nepareiziem datiem, tad rezultÄti pat izmantojot vismodernÄkos analÄ«zes algoritmus bÅ«s nepareizi.
Datu inženieri atrisina Å”o problÄmu, izveidojot cauruļvadus datu apstrÄdei, tÄ«rÄ«Å”anai un pÄrveidoÅ”anai un ļaujot datu zinÄtniekiem strÄdÄt ar augstas kvalitÄtes datiem.
TirgÅ« ir pieejami daudzi rÄ«ki darbam ar datiem, kas aptver katru posmu: no datu parÄdÄ«Å”anas lÄ«dz izvadei un beidzot ar informÄcijas paneli direktoru padomei. Un svarÄ«gi, lai lÄmumu par to izmantoÅ”anu pieÅemtu inženieris ā nevis tÄpÄc, ka tas bÅ«tu modÄ, bet gan tÄpÄc, ka viÅÅ” patieÅ”Äm palÄ«dzÄs citu procesa dalÄ«bnieku darbÄ.
Parasti: ja uzÅÄmumam ir jÄizveido savienojumi starp BI un ETL ā datu ielÄde un atskaiÅ”u atjauninÄÅ”ana, Å”eit ir tipisks mantotais pamats, ar kuru bÅ«s jÄtiek galÄ datu inženierim (labi, ja komandÄ ir arÄ« arhitekts).
Datu inženiera pienÄkumi
Datu apstrÄdes infrastruktÅ«ras izstrÄde, bÅ«vniecÄ«ba un uzturÄÅ”ana.
Kļūdu apstrÄde un uzticamu datu apstrÄdes cauruļvadu izveide.
NestrukturÄtu datu no dažÄdiem dinamiskiem avotiem nogÄdÄÅ”ana analÄ«tiÄ·u darbam nepiecieÅ”amÄ formÄ.
Ieteikumu sniegÅ”ana datu konsekvences un kvalitÄtes uzlaboÅ”anai.
Datu zinÄtnieku un datu analÄ«tiÄ·u izmantotÄs datu arhitektÅ«ras nodroÅ”inÄÅ”ana un uzturÄÅ”ana.
Konsekventi un efektÄ«vi apstrÄdÄjiet un glabÄjiet datus sadalÄ«tÄ klasterÄ«, kurÄ ir desmitiem vai simtiem serveru.
NovÄrtÄjiet rÄ«ku tehniskos kompromisus, lai izveidotu vienkÄrÅ”as, bet stabilas arhitektÅ«ras, kas var izturÄt traucÄjumus.
Datu plÅ«smu un saistÄ«to sistÄmu kontrole un atbalsts (uzraudzÄ«bas un brÄ«dinÄjumu iestatÄ«Å”ana).
Datu inženiera trajektorijas ietvaros ir vÄl viena specializÄcija ā ML inženieris. ÄŖsÄk sakot, Å”ie inženieri specializÄjas maŔīnmÄcÄ«Å”anÄs modeļu ievieÅ”anÄ rÅ«pnieciskai ievieÅ”anai un lietoÅ”anai. Bieži vien no datu zinÄtnieka saÅemts modelis ir daļa no pÄtÄ«juma un var nedarboties kaujas apstÄkļos.
Datu zinÄtnieka pienÄkumi
Funkciju iegÅ«Å”ana no datiem, lai lietotu maŔīnmÄcÄ«Å”anÄs algoritmus.
Izmantojot dažÄdus maŔīnmÄcÄ«Å”anÄs rÄ«kus, lai prognozÄtu un klasificÄtu datu modeļus.
MaŔīnmÄcÄ«Å”anÄs algoritmu veiktspÄjas un precizitÄtes uzlaboÅ”ana, precizÄjot un optimizÄjot algoritmus.
āSpÄcÄ«guā hipotÄžu veidoÅ”ana atbilstoÅ”i uzÅÄmuma stratÄÄ£ijai, kuras nepiecieÅ”ams pÄrbaudÄ«t.
Gan Data Engineer, gan Data Scientist kopÄ«gi sniedz taustÄmu ieguldÄ«jumu datu kultÅ«ras attÄ«stÄ«bÄ, ar kuras palÄ«dzÄ«bu uzÅÄmums var gÅ«t papildu peļÅu vai samazinÄt izmaksas.
Ar kÄdÄm valodÄm un rÄ«kiem strÄdÄ inženieri un zinÄtnieki?
MÅ«sdienÄs datu zinÄtnieku cerÄ«bas ir mainÄ«juÅ”Äs. IepriekÅ” inženieri vÄca lielus SQL vaicÄjumus, manuÄli rakstÄ«ja MapReduce un apstrÄdÄja datus, izmantojot tÄdus rÄ«kus kÄ Informatica ETL, Pentaho ETL, Talend.
SpeciÄlists 2020. gadÄ nevar iztikt bez zinÄÅ”anÄm par Python un mÅ«sdienÄ«giem aprÄÄ·inu rÄ«kiem (piemÄram, Airflow), izpratnes par darba ar mÄkoÅu platformÄm principiem (izmantojot tÄs, lai ietaupÄ«tu uz aparatÅ«ru, vienlaikus ievÄrojot droŔības principus).
SAP, Oracle, MySQL, Redis ir tradicionÄli rÄ«ki datu inženieriem lielos uzÅÄmumos. Tie ir labi, taÄu licenÄu izmaksas ir tik augstas, ka mÄcÄ«ties ar tÄm strÄdÄt ir jÄga tikai rÅ«pnieciskos projektos. TajÄ paÅ”Ä laikÄ ir bezmaksas alternatÄ«va Postgres formÄ - tÄ ir bezmaksas un piemÄrota ne tikai treniÅiem.
VÄsturiski Java un Scala pieprasÄ«jumi bieži tiek atrasti, lai gan, attÄ«stoties tehnoloÄ£ijÄm un pieejÄm, Ŕīs valodas pazÅ«d fonÄ.
TomÄr hardcore BigData: Hadoop, Spark un pÄrÄjais zoodÄrzs vairs nav datu inženiera priekÅ”noteikums, bet gan sava veida rÄ«ki tÄdu problÄmu risinÄÅ”anai, kuras nevar atrisinÄt ar tradicionÄlo ETL.
Tendence ir pakalpojumi rÄ«ku lietoÅ”anai, nezinot valodu, kurÄ tie ir rakstÄ«ti (piemÄram, Hadoop bez Java zinÄÅ”anÄm), kÄ arÄ« gatavu pakalpojumu nodroÅ”inÄÅ”ana straumÄÅ”anas datu apstrÄdei (balss atpazÄ«Å”ana vai attÄla atpazÄ«Å”ana video). ).
SAS un SPSS rÅ«pnieciskie risinÄjumi ir populÄri, savukÄrt Tableau, Rapidminer, Stata un Julia plaÅ”i izmanto arÄ« datu zinÄtnieki vietÄjo uzdevumu veikÅ”anai.
IespÄja paÅ”i veidot cauruļvadus analÄ«tiÄ·iem un datu zinÄtniekiem parÄdÄ«jÄs tikai pirms pÄris gadiem: piemÄram, jau ir iespÄjams nosÅ«tÄ«t datus uz PostgreSQL balstÄ«tu krÄtuvi, izmantojot salÄ«dzinoÅ”i vienkÄrÅ”us skriptus.
Parasti par cauruļvadu un integrÄto datu struktÅ«ru izmantoÅ”anu joprojÄm atbild datu inženieri. TaÄu mÅ«sdienÄs tendence pÄc T veida speciÄlistiem ar plaÅ”Äm kompetencÄm saistÄ«tÄs jomÄs ir spÄcÄ«gÄka nekÄ jebkad agrÄk, jo instrumenti tiek nepÄrtraukti vienkÄrÅ”oti.
KÄpÄc datu inženieris un datu zinÄtnieks strÄdÄ kopÄ
CieÅ”i sadarbojoties ar inženieriem, datu zinÄtnieki var koncentrÄties uz pÄtniecÄ«bu, radot ražoÅ”anai gatavus maŔīnmÄcÄ«Å”anÄs algoritmus.
Un inženieriem ir jÄkoncentrÄjas uz mÄrogojamÄ«bu, datu atkÄrtotu izmantoÅ”anu un jÄnodroÅ”ina, lai datu ievades un izvades konveijeri katrÄ atseviÅ”Ä·Ä projektÄ atbilstu globÄlajai arhitektÅ«rai.
Å Ä« pienÄkumu sadale nodroÅ”ina konsekvenci starp komandÄm, kas strÄdÄ pie dažÄdiem maŔīnmÄcÄ«Å”anÄs projektiem.
SadarbÄ«ba palÄ«dz efektÄ«vi radÄ«t jaunus produktus. Ätrums un kvalitÄte tiek panÄkta ar lÄ«dzsvaru starp pakalpojuma izveidi ikvienam (globÄlÄs krÄtuves vai informÄcijas paneļa integrÄcija) un katras konkrÄtas vajadzÄ«bas vai projekta Ä«stenoÅ”anu (ļoti specializÄts cauruļvads, ÄrÄjo avotu savienoÅ”ana).
CieÅ”a sadarbÄ«ba ar datu zinÄtniekiem un analÄ«tiÄ·iem palÄ«dz inženieriem attÄ«stÄ«t analÄ«tiskÄs un pÄtniecÄ«bas prasmes, lai rakstÄ«tu labÄku kodu. Uzlabojas zinÄÅ”anu apmaiÅa starp noliktavas un datu ezera lietotÄjiem, padarot projektus elastÄ«gÄkus un nodroÅ”inot ilgtspÄjÄ«gÄkus ilgtermiÅa rezultÄtus.
UzÅÄmumos, kuru mÄrÄ·is ir attÄ«stÄ«t darba ar datiem kultÅ«ru un uz tiem balstÄ«tu biznesa procesu veidoÅ”anu, Data Scientist un Data Engineer papildina viens otru un veido pilnÄ«gu datu analÄ«zes sistÄmu.
NÄkamajÄ rakstÄ mÄs runÄsim par to, kÄdai izglÄ«tÄ«bai jÄbÅ«t datu inženierim un datu zinÄtniekiem, kÄdas prasmes viÅiem jÄattÄ«sta un kÄ darbojas tirgus.
No Netology redaktoriem
Ja meklÄjat datu inženiera vai datu zinÄtnieka profesiju, aicinÄm apgÅ«t mÅ«su kursu programmas: