Datu zinātnieka un datu inženiera profesijas bieži tiek sajauktas. Katram uzņēmumam ir sava specifika darbam ar datiem, atšķirīgi to analīzes mērķi un atšķirīgs priekšstats par to, kuram speciālistam ar kādu darba daļu jānodarbojas, tāpēc katram ir savas prasības.
Noskaidrosim, kāda ir atšķirība starp šiem speciālistiem, kādas biznesa problēmas viņi risina, kādas prasmes viņiem ir un cik viņi nopelna. Materiāls izrādījās apjomīgs, tāpēc sadalījām to divās publikācijās.
Pirmajā rakstā fakultātes vadītāja Jeļena Gerasimova “" Netology stāsta, kāda ir atšķirība starp datu zinātnieku un datu inženieri un ar kādiem rīkiem viņi strādā.
Kā atšķiras inženieru un zinātnieku lomas
Datu inženieris ir speciālists, kurš, no vienas puses, izstrādā, pārbauda un uztur datu infrastruktūru: datu bāzes, uzglabāšanas un masu apstrādes sistēmas. No otras puses, tas ir tas, kurš attīra un “ķemmē” datus, lai tos varētu izmantot analītiķi un datu zinātnieki, tas ir, izveido datu apstrādes cauruļvadus.
Datu zinātnieks izveido un apmāca prognozējošos (un citus) modeļus, izmantojot mašīnmācīšanās algoritmus un neironu tīklus, palīdzot uzņēmumiem atrast slēptos modeļus, prognozēt attīstību un optimizēt galvenos biznesa procesus.
Galvenā atšķirība starp datu zinātnieku un datu inženieri ir tā, ka viņiem parasti ir atšķirīgi mērķi. Abi strādā, lai nodrošinātu, ka dati ir pieejami un kvalitatīvi. Bet datu zinātnieks atrod atbildes uz saviem jautājumiem un pārbauda hipotēzes datu ekosistēmā (piemēram, pamatojoties uz Hadoop), un datu inženieris izveido cauruļvadu mašīnmācīšanās algoritma apkalpošanai, ko tajā pašā Spark klasterī ir uzrakstījis datu zinātnieks. ekosistēma.
Datu inženieris sniedz vērtību uzņēmumam, strādājot kā daļa no komandas. Tās uzdevums ir darboties kā svarīgai saiknei starp dažādiem dalībniekiem: no izstrādātājiem līdz atskaišu sniegšanas biznesa patērētājiem, kā arī paaugstināt analītiķu produktivitāti no mārketinga un produkta līdz BI.
Datu zinātnieks, gluži pretēji, aktīvi piedalās uzņēmuma stratēģijā un iegūst ieskatu, pieņem lēmumus, ievieš automatizācijas algoritmus, modelē un ģenerē vērtību no datiem.

Darbs ar datiem ir pakļauts GIGO (garbage in - waste out) principam: ja analītiķi un datu zinātnieki nodarbojas ar nesagatavotiem un potenciāli nepareiziem datiem, tad rezultāti pat izmantojot vismodernākos analīzes algoritmus būs nepareizi.
Datu inženieri atrisina šo problēmu, izveidojot cauruļvadus datu apstrādei, tīrīšanai un pārveidošanai un ļaujot datu zinātniekiem strādāt ar augstas kvalitātes datiem.
Tirgū ir pieejami daudzi rīki darbam ar datiem, kas aptver katru posmu: no datu parādīšanas līdz izvadei un beidzot ar informācijas paneli direktoru padomei. Un svarīgi, lai lēmumu par to izmantošanu pieņemtu inženieris – nevis tāpēc, ka tas būtu modē, bet gan tāpēc, ka viņš patiešām palīdzēs citu procesa dalībnieku darbā.
Parasti: ja uzņēmumam ir jāizveido savienojumi starp BI un ETL — datu ielāde un atskaišu atjaunināšana, šeit ir tipisks mantotais pamats, ar kuru būs jātiek galā datu inženierim (labi, ja komandā ir arī arhitekts).
Datu inženiera pienākumi
- Datu apstrādes infrastruktūras izstrāde, būvniecība un uzturēšana.
- Kļūdu apstrāde un uzticamu datu apstrādes cauruļvadu izveide.
- Nestrukturētu datu no dažādiem dinamiskiem avotiem nogādāšana analītiķu darbam nepieciešamā formā.
- Ieteikumu sniegšana datu konsekvences un kvalitātes uzlabošanai.
- Datu zinātnieku un datu analītiķu izmantotās datu arhitektūras nodrošināšana un uzturēšana.
- Konsekventi un efektīvi apstrādājiet un glabājiet datus sadalītā klasterī, kurā ir desmitiem vai simtiem serveru.
- Novērtējiet rīku tehniskos kompromisus, lai izveidotu vienkāršas, bet stabilas arhitektūras, kas var izturēt traucējumus.
- Datu plūsmu un saistīto sistēmu kontrole un atbalsts (uzraudzības un brīdinājumu iestatīšana).
Datu inženiera trajektorijas ietvaros ir vēl viena specializācija – ML inženieris. Īsāk sakot, šie inženieri specializējas mašīnmācīšanās modeļu ieviešanā rūpnieciskai ieviešanai un lietošanai. Bieži vien no datu zinātnieka saņemts modelis ir daļa no pētījuma un var nedarboties kaujas apstākļos.
Datu zinātnieka pienākumi
- Funkciju iegūšana no datiem, lai lietotu mašīnmācīšanās algoritmus.
- Izmantojot dažādus mašīnmācīšanās rīkus, lai prognozētu un klasificētu datu modeļus.
- Mašīnmācīšanās algoritmu veiktspējas un precizitātes uzlabošana, precizējot un optimizējot algoritmus.
- “Spēcīgu” hipotēžu veidošana atbilstoši uzņēmuma stratēģijai, kuras nepieciešams pārbaudīt.
Gan Data Engineer, gan Data Scientist kopīgi sniedz taustāmu ieguldījumu datu kultūras attīstībā, ar kuras palīdzību uzņēmums var gūt papildu peļņu vai samazināt izmaksas.
Ar kādām valodām un rīkiem strādā inženieri un zinātnieki?
Mūsdienās datu zinātnieku cerības ir mainījušās. Iepriekš inženieri vāca lielus SQL vaicājumus, manuāli rakstīja MapReduce un apstrādāja datus, izmantojot tādus rīkus kā Informatica ETL, Pentaho ETL, Talend.
Speciālists 2020. gadā nevar iztikt bez zināšanām par Python un mūsdienīgiem aprēķinu rīkiem (piemēram, Airflow), izpratnes par darba ar mākoņu platformām principiem (izmantojot tās, lai ietaupītu uz aparatūru, vienlaikus ievērojot drošības principus).
SAP, Oracle, MySQL, Redis ir tradicionāli rīki datu inženieriem lielos uzņēmumos. Tie ir labi, taču licenču izmaksas ir tik augstas, ka mācīties ar tām strādāt ir jēga tikai rūpnieciskos projektos. Tajā pašā laikā ir bezmaksas alternatīva Postgres formā - tā ir bezmaksas un piemērota ne tikai treniņiem.

Vēsturiski Java un Scala pieprasījumi bieži tiek atrasti, lai gan, attīstoties tehnoloģijām un pieejām, šīs valodas pazūd fonā.
Tomēr hardcore BigData: Hadoop, Spark un pārējais zoodārzs vairs nav datu inženiera priekšnoteikums, bet gan sava veida rīki tādu problēmu risināšanai, kuras nevar atrisināt ar tradicionālo ETL.
Tendence ir pakalpojumi rīku lietošanai, nezinot valodu, kurā tie ir rakstīti (piemēram, Hadoop bez Java zināšanām), kā arī gatavu pakalpojumu nodrošināšana straumēšanas datu apstrādei (balss atpazīšana vai attēla atpazīšana video). ).
SAS un SPSS rūpnieciskie risinājumi ir populāri, savukārt Tableau, Rapidminer, Stata un Julia plaši izmanto arī datu zinātnieki vietējo uzdevumu veikšanai.

Iespēja paši veidot cauruļvadus analītiķiem un datu zinātniekiem parādījās tikai pirms pāris gadiem: piemēram, jau ir iespējams nosūtīt datus uz PostgreSQL balstītu krātuvi, izmantojot salīdzinoši vienkāršus skriptus.
Parasti par cauruļvadu un integrēto datu struktūru izmantošanu joprojām atbild datu inženieri. Taču mūsdienās tendence pēc T veida speciālistiem ar plašām kompetencēm saistītās jomās ir spēcīgāka nekā jebkad agrāk, jo instrumenti tiek nepārtraukti vienkāršoti.
Kāpēc datu inženieris un datu zinātnieks strādā kopā
Cieši sadarbojoties ar inženieriem, datu zinātnieki var koncentrēties uz pētniecību, radot ražošanai gatavus mašīnmācīšanās algoritmus.
Un inženieriem ir jākoncentrējas uz mērogojamību, datu atkārtotu izmantošanu un jānodrošina, lai datu ievades un izvades konveijeri katrā atsevišķā projektā atbilstu globālajai arhitektūrai.
Šī pienākumu sadale nodrošina konsekvenci starp komandām, kas strādā pie dažādiem mašīnmācīšanās projektiem.
Sadarbība palīdz efektīvi radīt jaunus produktus. Ātrums un kvalitāte tiek panākta ar līdzsvaru starp pakalpojuma izveidi ikvienam (globālās krātuves vai informācijas paneļa integrācija) un katras konkrētas vajadzības vai projekta īstenošanu (ļoti specializēts cauruļvads, ārējo avotu savienošana).
Cieša sadarbība ar datu zinātniekiem un analītiķiem palīdz inženieriem attīstīt analītiskās un pētniecības prasmes, lai rakstītu labāku kodu. Uzlabojas zināšanu apmaiņa starp noliktavas un datu ezera lietotājiem, padarot projektus elastīgākus un nodrošinot ilgtspējīgākus ilgtermiņa rezultātus.
Uzņēmumos, kuru mērķis ir attīstīt darba ar datiem kultūru un uz tiem balstītu biznesa procesu veidošanu, Data Scientist un Data Engineer papildina viens otru un veido pilnīgu datu analīzes sistēmu.
Nākamajā rakstā mēs runāsim par to, kādai izglītībai jābūt datu inženierim un datu zinātniekiem, kādas prasmes viņiem jāattīsta un kā darbojas tirgus.
No Netology redaktoriem
Ja meklējat datu inženiera vai datu zinātnieka profesiju, aicinām apgūt mūsu kursu programmas:
- Profesija"'.
- Profesija"'.
Avots: www.habr.com
