Andmeinsener ja andmeteadlane: mis vahe on?

Andmeteadlase ja andmeinseneri elukutse aetakse sageli segamini. Igal ettevõttel on oma andmetega töötamise spetsiifika, erinevad eesmärgid nende analüüsimiseks ja erinev ettekujutus, milline spetsialist millise tööosaga peaks tegelema, seega on igaühel oma nõuded. 

Mõelgem välja, mis vahe neil spetsialistidel on, milliseid äriprobleeme nad lahendavad, millised oskused neil on ja kui palju nad teenivad. Materjal osutus mahukaks, mistõttu jagasime selle kaheks väljaandeks.

Esimeses artiklis teaduskonna juhataja Jelena Gerasimova “Andmeteadus ja Analytics" Netoloogias räägib, mis vahe on andmeteadlasel ja andmeinseneril ning milliste tööriistadega nad töötavad.

Kuidas erinevad inseneride ja teadlaste rollid

Andmeinsener on spetsialist, kes ühelt poolt arendab, testib ja hooldab andmeinfrastruktuuri: andmebaase, salvestus- ja masstöötlussüsteeme. Teisest küljest on see see, kes puhastab ja "kammib" andmeid analüütikute ja andmeteadlaste jaoks kasutamiseks, st loob andmetöötluse torujuhtmeid.

Data Scientist loob ja koolitab ennustavaid (ja muid) mudeleid, kasutades masinõppe algoritme ja närvivõrke, aidates ettevõtetel leida peidetud mustreid, ennustada arenguid ja optimeerida peamisi äriprotsesse.

Peamine erinevus andmeteadlase ja andmeinseneri vahel seisneb selles, et neil on tavaliselt erinevad eesmärgid. Mõlemad töötavad selle nimel, et andmed oleksid kättesaadavad ja kvaliteetsed. Andmeteadlane aga leiab vastused oma küsimustele ja testib hüpoteese andmeökosüsteemis (näiteks Hadoopi baasil) ning andmeinsener loob torujuhtme masinõppe algoritmi teenindamiseks, mille on kirjutanud andmeteadlane Sparki klastris samas sees. ökosüsteem. 

Andmeinsener toob ettevõttele väärtust, töötades meeskonnana. Selle ülesanne on toimida olulise lülina erinevate osalejate vahel: arendajatest kuni aruandluse äritarbijateni ning tõsta analüütikute tootlikkust turundusest ja tootest BI-ni. 

Andmeteadlane, vastupidi, osaleb aktiivselt ettevõtte strateegias ja kogub teadmisi, teeb otsuseid, rakendab automatiseerimisalgoritme, modelleerib ja loob andmetest väärtust.
Andmeinsener ja andmeteadlane: mis vahe on?

Andmetega töötamisel kehtib GIGO (prügi sisse - prügi välja) põhimõte: kui analüütikud ja andmeteadlased tegelevad ettevalmistamata ja potentsiaalselt ebaõigete andmetega, on tulemused isegi kõige keerukamate analüüsialgoritmide kasutamisel valed. 

Andmeinsenerid lahendavad selle probleemi, ehitades torujuhtmeid andmete töötlemiseks, puhastamiseks ja teisendamiseks ning võimaldades andmeteadlastel töötada kvaliteetsete andmetega. 

Turul on palju tööriistu andmetega töötamiseks, mis hõlmavad kõiki etappe: alates andmete ilmumisest kuni väljundini kuni juhatuse armatuurlauani. Ja on oluline, et nende kasutamise otsuse langetaks insener – mitte sellepärast, et see oleks moes, vaid sellepärast, et ta tõesti aitab teiste protsessis osalejate tööd. 

Tavapäraselt: kui ettevõttel on vaja luua seoseid BI ja ETL-i vahel – andmete laadimine ja aruannete värskendamine, siis siin on tüüpiline pärandvundament, millega andmeinsener peab tegelema (hea, kui meeskonnas on ka arhitekt).

Andmeinseneri kohustused

  • Andmetöötluse infrastruktuuri arendamine, ehitamine ja hooldus.
  • Vigade käsitlemine ja usaldusväärsete andmetöötluskonveierite loomine.
  • Struktureerimata andmete toomine erinevatest dünaamilistest allikatest analüütikute tööks vajalikule vormile.
  • Andmete järjepidevuse ja kvaliteedi parandamiseks soovituste pakkumine.
  • Andmeteadlaste ja andmeanalüütikute kasutatava andmearhitektuuri pakkumine ja hooldamine.
  • Töödelge ja salvestage andmeid järjepidevalt ja tõhusalt kümnetest või sadadest serveritest koosnevas hajutatud klastris.
  • Hinnake tööriistade tehnilisi kompromisse, et luua lihtsaid, kuid vastupidavaid arhitektuure, mis suudavad häireid üle elada.
  • Andmevoogude ja nendega seotud süsteemide juhtimine ja tugi (seire ja hoiatuste seadistamine).

Andmeinseneri trajektooril on veel üks spetsialiseerumine – ML insener. Lühidalt öeldes on need insenerid spetsialiseerunud masinõppe mudelite toomisele tööstuslikuks juurutamiseks ja kasutamiseks. Sageli on andmeteadlaselt saadud mudel uuringu osa ja see ei pruugi lahingutingimustes töötada.

Andmeteadlase kohustused

  • Funktsioonide eraldamine andmetest masinõppe algoritmide rakendamiseks.
  • Erinevate masinõppetööriistade kasutamine andmete mustrite ennustamiseks ja klassifitseerimiseks.
  • Masinõppe algoritmide jõudluse ja täpsuse parandamine algoritmide peenhäälestamise ja optimeerimise kaudu.
  • "Tugevate" hüpoteeside kujundamine vastavalt ettevõtte strateegiale, mida on vaja testida.

Nii Data Engineer kui Data Scientist jagavad käegakatsutavat panust andmekultuuri arendamisse, mille kaudu saab ettevõte toota lisakasumit või vähendada kulusid.

Milliste keelte ja tööriistadega insenerid ja teadlased töötavad?

Tänaseks on andmeteadlaste ootused muutunud. Varem kogusid insenerid suuri SQL-päringuid, kirjutasid käsitsi MapReduce'i ja töötlesid andmeid selliste tööriistade abil nagu Informatica ETL, Pentaho ETL, Talend. 

Aastal 2020 ei saa spetsialist hakkama ilma Pythoni ja kaasaegsete arvutusvahendite (näiteks Airflow) teadmisteta, pilveplatvormidega töötamise põhimõtete mõistmiseta (kasutades neid riistvara säästmiseks, järgides samas turvalisuse põhimõtteid).

SAP, Oracle, MySQL, Redis on suurte ettevõtete andmeinseneride traditsioonilised tööriistad. Need on head, kuid litsentside hind on nii kõrge, et nendega töötamise õppimine on mõttekas ainult tööstusprojektides. Samas on tasuta alternatiiv Postgresi näol - see on tasuta ja sobib mitte ainult treeninguteks. 

Andmeinsener ja andmeteadlane: mis vahe on?
Ajalooliselt on Java ja Scala taotlusi sageli leitud, kuigi tehnoloogiate ja lähenemisviiside arenedes jäävad need keeled tagaplaanile.

Kõva BigData: Hadoop, Spark ja muu loomaaed pole aga enam andmeinseneri eelduseks, vaid omamoodi tööriistad probleemide lahendamiseks, mida tavapärane ETL ei lahenda. 

Suundumus on teenused tööriistade kasutamiseks ilma nende kirjutamiskeelt tundmata (näiteks Hadoop ilma Java-tundmiseta), samuti valmisteenuste pakkumine voogesituse andmete töötlemiseks (häältuvastus või pildituvastus videol ).

Populaarsed on SAS-i ja SPSS-i tööstuslikud lahendused, samas kui andmeteadlased kasutavad kohalike ülesannete jaoks laialdaselt ka Tableaud, Rapidminerit, Statat ja Juliat.

Andmeinsener ja andmeteadlane: mis vahe on?
Võimalus ise torujuhtmeid ehitada tekkis analüütikutele ja andmeteadlastele alles paar aastat tagasi: näiteks on juba praegu võimalik suhteliselt lihtsate skriptide abil andmeid saata PostgreSQL-põhisele salvestusruumile. 

Tavaliselt jääb torujuhtmete ja integreeritud andmestruktuuride kasutamine andmeinseneride vastutusalasse. Kuid tänapäeval on trend T-kujuliste spetsialistide järele, kellel on laialdased pädevused seotud valdkondades, tugevam kui kunagi varem, sest tööriistu lihtsustatakse pidevalt.

Miks andmeinsener ja andmeteadlane töötavad koos?

Tehes tihedat koostööd inseneridega, saavad andmeteadlased keskenduda uurimistegevusele, luues tootmisvalmis masinõppe algoritme.
Ja insenerid peavad keskenduma skaleeritavusele, andmete taaskasutusele ning tagama, et iga üksiku projekti andmesisendi ja väljundi torujuhtmed vastaksid globaalsele arhitektuurile.

Selline vastutusalade eraldamine tagab järjepidevuse erinevate masinõppeprojektidega töötavate meeskondade vahel. 

Koostöö aitab tõhusalt luua uusi tooteid. Kiirus ja kvaliteet saavutatakse tasakaaluga kõigi jaoks mõeldud teenuse loomise (globaalne salvestusruum või armatuurlaudade integreerimine) ja iga konkreetse vajaduse või projekti elluviimise (kõrgelt spetsialiseerunud torujuhe, väliste allikate ühendamine) vahel. 

Tihe koostöö andmeteadlaste ja analüütikutega aitab inseneridel arendada analüüsi- ja uurimisoskusi parema koodi kirjutamiseks. Teadmiste jagamine lao- ja andmejärve kasutajate vahel paraneb, muutes projektid paindlikumaks ja pakkudes jätkusuutlikumaid pikaajalisi tulemusi.

Ettevõtetes, mille eesmärk on arendada andmetega töötamise ja nendel põhinevate äriprotsesside ülesehitamise kultuuri, täiendavad Data Scientist ja Data Engineer teineteist ning loovad tervikliku andmeanalüüsi süsteemi. 

Järgmises artiklis räägime sellest, milline peaks olema andmeinseneril ja andmeteadlasel haridus, milliseid oskusi nad peavad arendama ja kuidas turg toimib.

Netology toimetajatelt

Kui otsite andmeinseneri või andmeteadlase elukutset, kutsume teid õppima meie kursuste programme:

Allikas: www.habr.com

Lisa kommentaar