Datu inženieris un datu zinātnieks: kāda ir atŔķirība?

Datu zinātnieka un datu inženiera profesijas bieži tiek sajauktas. Katram uzņēmumam ir sava specifika darbam ar datiem, atŔķirÄ«gi to analÄ«zes mērÄ·i un atŔķirÄ«gs priekÅ”stats par to, kuram speciālistam ar kādu darba daļu jānodarbojas, tāpēc katram ir savas prasÄ«bas. 

Noskaidrosim, kāda ir atŔķirÄ«ba starp Å”iem speciālistiem, kādas biznesa problēmas viņi risina, kādas prasmes viņiem ir un cik viņi nopelna. Materiāls izrādÄ«jās apjomÄ«gs, tāpēc sadalÄ«jām to divās publikācijās.

Pirmajā rakstā fakultātes vadÄ«tāja Jeļena Gerasimova ā€œDatu zinātne un analÄ«ze" Netology stāsta, kāda ir atŔķirÄ«ba starp datu zinātnieku un datu inženieri un ar kādiem rÄ«kiem viņi strādā.

Kā atŔķiras inženieru un zinātnieku lomas

Datu inženieris ir speciālists, kurÅ”, no vienas puses, izstrādā, pārbauda un uztur datu infrastruktÅ«ru: datu bāzes, uzglabāŔanas un masu apstrādes sistēmas. No otras puses, tas ir tas, kurÅ” attÄ«ra un ā€œÄ·emmēā€ datus, lai tos varētu izmantot analÄ«tiÄ·i un datu zinātnieki, tas ir, izveido datu apstrādes cauruļvadus.

Datu zinātnieks izveido un apmāca prognozējoÅ”os (un citus) modeļus, izmantojot maŔīnmācÄ«Å”anās algoritmus un neironu tÄ«klus, palÄ«dzot uzņēmumiem atrast slēptos modeļus, prognozēt attÄ«stÄ«bu un optimizēt galvenos biznesa procesus.

Galvenā atŔķirÄ«ba starp datu zinātnieku un datu inženieri ir tā, ka viņiem parasti ir atŔķirÄ«gi mērÄ·i. Abi strādā, lai nodroÅ”inātu, ka dati ir pieejami un kvalitatÄ«vi. Bet datu zinātnieks atrod atbildes uz saviem jautājumiem un pārbauda hipotēzes datu ekosistēmā (piemēram, pamatojoties uz Hadoop), un datu inženieris izveido cauruļvadu maŔīnmācÄ«Å”anās algoritma apkalpoÅ”anai, ko tajā paŔā Spark klasterÄ« ir uzrakstÄ«jis datu zinātnieks. ekosistēma. 

Datu inženieris sniedz vērtÄ«bu uzņēmumam, strādājot kā daļa no komandas. Tās uzdevums ir darboties kā svarÄ«gai saiknei starp dažādiem dalÄ«bniekiem: no izstrādātājiem lÄ«dz atskaiÅ”u sniegÅ”anas biznesa patērētājiem, kā arÄ« paaugstināt analÄ«tiÄ·u produktivitāti no mārketinga un produkta lÄ«dz BI. 

Datu zinātnieks, gluži pretēji, aktÄ«vi piedalās uzņēmuma stratēģijā un iegÅ«st ieskatu, pieņem lēmumus, ievieÅ” automatizācijas algoritmus, modelē un Ä£enerē vērtÄ«bu no datiem.
Datu inženieris un datu zinātnieks: kāda ir atŔķirība?

Darbs ar datiem ir pakļauts GIGO (garbage in - waste out) principam: ja analÄ«tiÄ·i un datu zinātnieki nodarbojas ar nesagatavotiem un potenciāli nepareiziem datiem, tad rezultāti pat izmantojot vismodernākos analÄ«zes algoritmus bÅ«s nepareizi. 

Datu inženieri atrisina Å”o problēmu, izveidojot cauruļvadus datu apstrādei, tÄ«rÄ«Å”anai un pārveidoÅ”anai un ļaujot datu zinātniekiem strādāt ar augstas kvalitātes datiem. 

TirgÅ« ir pieejami daudzi rÄ«ki darbam ar datiem, kas aptver katru posmu: no datu parādÄ«Å”anas lÄ«dz izvadei un beidzot ar informācijas paneli direktoru padomei. Un svarÄ«gi, lai lēmumu par to izmantoÅ”anu pieņemtu inženieris ā€“ nevis tāpēc, ka tas bÅ«tu modē, bet gan tāpēc, ka viņŔ patieŔām palÄ«dzēs citu procesa dalÄ«bnieku darbā. 

Parasti: ja uzņēmumam ir jāizveido savienojumi starp BI un ETL ā€” datu ielāde un atskaiÅ”u atjaunināŔana, Å”eit ir tipisks mantotais pamats, ar kuru bÅ«s jātiek galā datu inženierim (labi, ja komandā ir arÄ« arhitekts).

Datu inženiera pienākumi

  • Datu apstrādes infrastruktÅ«ras izstrāde, bÅ«vniecÄ«ba un uzturÄ“Å”ana.
  • Kļūdu apstrāde un uzticamu datu apstrādes cauruļvadu izveide.
  • Nestrukturētu datu no dažādiem dinamiskiem avotiem nogādāŔana analÄ«tiÄ·u darbam nepiecieÅ”amā formā.
  • Ieteikumu sniegÅ”ana datu konsekvences un kvalitātes uzlaboÅ”anai.
  • Datu zinātnieku un datu analÄ«tiÄ·u izmantotās datu arhitektÅ«ras nodroÅ”ināŔana un uzturÄ“Å”ana.
  • Konsekventi un efektÄ«vi apstrādājiet un glabājiet datus sadalÄ«tā klasterÄ«, kurā ir desmitiem vai simtiem serveru.
  • Novērtējiet rÄ«ku tehniskos kompromisus, lai izveidotu vienkārÅ”as, bet stabilas arhitektÅ«ras, kas var izturēt traucējumus.
  • Datu plÅ«smu un saistÄ«to sistēmu kontrole un atbalsts (uzraudzÄ«bas un brÄ«dinājumu iestatÄ«Å”ana).

Datu inženiera trajektorijas ietvaros ir vēl viena specializācija ā€“ ML inženieris. ÄŖsāk sakot, Å”ie inženieri specializējas maŔīnmācÄ«Å”anās modeļu ievieÅ”anā rÅ«pnieciskai ievieÅ”anai un lietoÅ”anai. Bieži vien no datu zinātnieka saņemts modelis ir daļa no pētÄ«juma un var nedarboties kaujas apstākļos.

Datu zinātnieka pienākumi

  • Funkciju iegÅ«Å”ana no datiem, lai lietotu maŔīnmācÄ«Å”anās algoritmus.
  • Izmantojot dažādus maŔīnmācÄ«Å”anās rÄ«kus, lai prognozētu un klasificētu datu modeļus.
  • MaŔīnmācÄ«Å”anās algoritmu veiktspējas un precizitātes uzlaboÅ”ana, precizējot un optimizējot algoritmus.
  • ā€œSpēcÄ«guā€ hipotēžu veidoÅ”ana atbilstoÅ”i uzņēmuma stratēģijai, kuras nepiecieÅ”ams pārbaudÄ«t.

Gan Data Engineer, gan Data Scientist kopīgi sniedz taustāmu ieguldījumu datu kultūras attīstībā, ar kuras palīdzību uzņēmums var gūt papildu peļņu vai samazināt izmaksas.

Ar kādām valodām un rīkiem strādā inženieri un zinātnieki?

MÅ«sdienās datu zinātnieku cerÄ«bas ir mainÄ«juŔās. IepriekÅ” inženieri vāca lielus SQL vaicājumus, manuāli rakstÄ«ja MapReduce un apstrādāja datus, izmantojot tādus rÄ«kus kā Informatica ETL, Pentaho ETL, Talend. 

Speciālists 2020. gadā nevar iztikt bez zināŔanām par Python un mÅ«sdienÄ«giem aprēķinu rÄ«kiem (piemēram, Airflow), izpratnes par darba ar mākoņu platformām principiem (izmantojot tās, lai ietaupÄ«tu uz aparatÅ«ru, vienlaikus ievērojot droŔības principus).

SAP, Oracle, MySQL, Redis ir tradicionāli rÄ«ki datu inženieriem lielos uzņēmumos. Tie ir labi, taču licenču izmaksas ir tik augstas, ka mācÄ«ties ar tām strādāt ir jēga tikai rÅ«pnieciskos projektos. Tajā paŔā laikā ir bezmaksas alternatÄ«va Postgres formā - tā ir bezmaksas un piemērota ne tikai treniņiem. 

Datu inženieris un datu zinātnieks: kāda ir atŔķirība?
Vēsturiski Java un Scala pieprasÄ«jumi bieži tiek atrasti, lai gan, attÄ«stoties tehnoloÄ£ijām un pieejām, Ŕīs valodas pazÅ«d fonā.

Tomēr hardcore BigData: Hadoop, Spark un pārējais zoodārzs vairs nav datu inženiera priekÅ”noteikums, bet gan sava veida rÄ«ki tādu problēmu risināŔanai, kuras nevar atrisināt ar tradicionālo ETL. 

Tendence ir pakalpojumi rÄ«ku lietoÅ”anai, nezinot valodu, kurā tie ir rakstÄ«ti (piemēram, Hadoop bez Java zināŔanām), kā arÄ« gatavu pakalpojumu nodroÅ”ināŔana straumÄ“Å”anas datu apstrādei (balss atpazÄ«Å”ana vai attēla atpazÄ«Å”ana video). ).

SAS un SPSS rÅ«pnieciskie risinājumi ir populāri, savukārt Tableau, Rapidminer, Stata un Julia plaÅ”i izmanto arÄ« datu zinātnieki vietējo uzdevumu veikÅ”anai.

Datu inženieris un datu zinātnieks: kāda ir atŔķirība?
Iespēja paÅ”i veidot cauruļvadus analÄ«tiÄ·iem un datu zinātniekiem parādÄ«jās tikai pirms pāris gadiem: piemēram, jau ir iespējams nosÅ«tÄ«t datus uz PostgreSQL balstÄ«tu krātuvi, izmantojot salÄ«dzinoÅ”i vienkārÅ”us skriptus. 

Parasti par cauruļvadu un integrēto datu struktÅ«ru izmantoÅ”anu joprojām atbild datu inženieri. Taču mÅ«sdienās tendence pēc T veida speciālistiem ar plaŔām kompetencēm saistÄ«tās jomās ir spēcÄ«gāka nekā jebkad agrāk, jo instrumenti tiek nepārtraukti vienkārÅ”oti.

Kāpēc datu inženieris un datu zinātnieks strādā kopā

CieÅ”i sadarbojoties ar inženieriem, datu zinātnieki var koncentrēties uz pētniecÄ«bu, radot ražoÅ”anai gatavus maŔīnmācÄ«Å”anās algoritmus.
Un inženieriem ir jākoncentrējas uz mērogojamÄ«bu, datu atkārtotu izmantoÅ”anu un jānodroÅ”ina, lai datu ievades un izvades konveijeri katrā atseviŔķā projektā atbilstu globālajai arhitektÅ«rai.

Å Ä« pienākumu sadale nodroÅ”ina konsekvenci starp komandām, kas strādā pie dažādiem maŔīnmācÄ«Å”anās projektiem. 

SadarbÄ«ba palÄ«dz efektÄ«vi radÄ«t jaunus produktus. Ātrums un kvalitāte tiek panākta ar lÄ«dzsvaru starp pakalpojuma izveidi ikvienam (globālās krātuves vai informācijas paneļa integrācija) un katras konkrētas vajadzÄ«bas vai projekta Ä«stenoÅ”anu (ļoti specializēts cauruļvads, ārējo avotu savienoÅ”ana). 

CieÅ”a sadarbÄ«ba ar datu zinātniekiem un analÄ«tiÄ·iem palÄ«dz inženieriem attÄ«stÄ«t analÄ«tiskās un pētniecÄ«bas prasmes, lai rakstÄ«tu labāku kodu. Uzlabojas zināŔanu apmaiņa starp noliktavas un datu ezera lietotājiem, padarot projektus elastÄ«gākus un nodroÅ”inot ilgtspējÄ«gākus ilgtermiņa rezultātus.

Uzņēmumos, kuru mērÄ·is ir attÄ«stÄ«t darba ar datiem kultÅ«ru un uz tiem balstÄ«tu biznesa procesu veidoÅ”anu, Data Scientist un Data Engineer papildina viens otru un veido pilnÄ«gu datu analÄ«zes sistēmu. 

Nākamajā rakstā mēs runāsim par to, kādai izglītībai jābūt datu inženierim un datu zinātniekiem, kādas prasmes viņiem jāattīsta un kā darbojas tirgus.

No Netology redaktoriem

Ja meklējat datu inženiera vai datu zinātnieka profesiju, aicinām apgūt mūsu kursu programmas:

Avots: www.habr.com

Pievieno komentāru