Duomenų inžinierius ir duomenų mokslininkas: koks skirtumas?

Duomenų mokslininko ir duomenų inžinieriaus profesijos dažnai painiojamos. Kiekviena įmonė turi savo darbo su duomenimis specifiką, skirtingus jų analizės tikslus ir skirtingą idėją, kuris specialistas kurią darbo dalį turi atlikti, todėl kiekviena turi savo reikalavimus. 

Išsiaiškinkime, kuo šie specialistai skiriasi, kokias verslo problemas jie sprendžia, kokius įgūdžius turi ir kiek uždirba. Medžiaga pasirodė didelė, todėl ją suskirstėme į du leidinius.

Pirmajame straipsnyje fakulteto vadovė Elena Gerasimova “Duomenų mokslas ir analizė" Netologijoje pasakoja, kuo skiriasi duomenų mokslininkas nuo duomenų inžinieriaus ir su kokiais įrankiais jie dirba.

Kuo skiriasi inžinierių ir mokslininkų vaidmenys

Duomenų inžinierius yra specialistas, kuris, viena vertus, kuria, testuoja ir prižiūri duomenų infrastruktūrą: duomenų bazes, saugojimo ir masinio apdorojimo sistemas. Kita vertus, tai yra tas, kuris valo ir „šukuoja“ duomenis, kad juos galėtų naudoti analitikai ir duomenų mokslininkai, tai yra, sukuria duomenų apdorojimo vamzdynus.

„Data Scientist“ kuria ir apmoko nuspėjamuosius (ir kitus) modelius naudodamas mašininio mokymosi algoritmus ir neuroninius tinklus, padėdamas įmonėms rasti paslėptus modelius, numatyti pokyčius ir optimizuoti pagrindinius verslo procesus.

Pagrindinis skirtumas tarp duomenų mokslininko ir duomenų inžinieriaus yra tas, kad jie paprastai turi skirtingus tikslus. Abu siekia užtikrinti, kad duomenys būtų prieinami ir būtų aukštos kokybės. Tačiau duomenų mokslininkas randa atsakymus į savo klausimus ir tikrina hipotezes duomenų ekosistemoje (pavyzdžiui, remiantis Hadoop), o duomenų inžinierius sukuria mašininio mokymosi algoritmo, kurį parašė duomenų mokslininko Spark klasteryje, aptarnavimą. ekosistema. 

Duomenų inžinierius sukuria vertę verslui dirbdamas kaip komandos dalis. Jos užduotis – veikti kaip svarbi jungtis tarp skirtingų dalyvių: nuo kūrėjų iki verslo ataskaitų teikimo vartotojų ir didinti analitikų produktyvumą – nuo ​​rinkodaros ir produkto iki BI. 

Duomenų mokslininkas, priešingai, aktyviai dalyvauja įmonės strategijoje ir išgauna įžvalgas, priima sprendimus, įgyvendina automatizavimo algoritmus, modeliuoja ir generuoja iš duomenų vertę.
Duomenų inžinierius ir duomenų mokslininkas: koks skirtumas?

Dirbant su duomenimis, taikomas GIGO (gautos į – šiukšlių išvežimo) principas: jei analitikai ir duomenų mokslininkai susidoros su neparuoštais ir galimai neteisingais duomenimis, rezultatai net naudojant pačius sudėtingiausius analizės algoritmus bus neteisingi. 

Duomenų inžinieriai išsprendžia šią problemą kurdami duomenų apdorojimo, valymo ir transformavimo vamzdynus ir leisdami duomenų mokslininkams dirbti su aukštos kokybės duomenimis. 

Rinkoje yra daug įrankių, skirtų darbui su duomenimis, apimančiais kiekvieną etapą: nuo duomenų atsiradimo iki išvesties iki valdybos prietaisų skydelio. Ir svarbu, kad sprendimą juos naudoti priimtų inžinierius – ne todėl, kad tai madinga, o todėl, kad jis tikrai padės kitų proceso dalyvių darbui. 

Tradiciškai: jei įmonei reikia užmegzti ryšius tarp BI ir ETL – įkelti duomenis ir atnaujinti ataskaitas, čia yra tipiškas senas pagrindas, su kuriuo duomenų inžinierius turės susitvarkyti (gerai, jei komandoje yra ir architektas).

Duomenų inžinieriaus pareigos

  • Duomenų apdorojimo infrastruktūros kūrimas, statyba ir priežiūra.
  • Klaidų tvarkymas ir patikimų duomenų apdorojimo vamzdynų kūrimas.
  • Nestruktūruotų duomenų iš įvairių dinamiškų šaltinių suvedimas į analitikų darbui reikalingą formą.
  • Teikti rekomendacijas, kaip pagerinti duomenų nuoseklumą ir kokybę.
  • Duomenų mokslininkų ir duomenų analitikų naudojamos duomenų architektūros teikimas ir priežiūra.
  • Nuosekliai ir efektyviai apdorokite ir saugokite duomenis paskirstytoje dešimčių ar šimtų serverių grupėje.
  • Įvertinkite techninius įrankių kompromisus, kad sukurtumėte paprastas, bet tvirtas architektūras, kurios gali atlaikyti trikdžius.
  • Duomenų srautų ir susijusių sistemų kontrolė ir palaikymas (stebėjimo ir įspėjimų nustatymas).

Duomenų inžinieriaus trajektorijoje yra dar viena specializacija – ML inžinierius. Trumpai tariant, šie inžinieriai specializuojasi mašininio mokymosi modelių pritaikymo pramoniniam įgyvendinimui ir naudojimui. Dažnai modelis, gautas iš duomenų mokslininko, yra tyrimo dalis ir gali neveikti kovinėmis sąlygomis.

Duomenų mokslininko pareigos

  • Funkcijų ištraukimas iš duomenų, kad būtų galima taikyti mašininio mokymosi algoritmus.
  • Naudojant įvairius mašininio mokymosi įrankius duomenų modeliams numatyti ir klasifikuoti.
  • Mašininio mokymosi algoritmų našumo ir tikslumo gerinimas tiksliai derinant ir optimizuojant algoritmus.
  • „Stiprių“ hipotezių formavimas pagal įmonės strategiją, kurias reikia patikrinti.

Tiek „Data Engineer“, tiek „Data Scientist“ dalijasi apčiuopiamu indėliu į duomenų kultūros kūrimą, per kurį įmonė gali gauti papildomo pelno ar sumažinti išlaidas.

Su kokiomis kalbomis ir įrankiais dirba inžinieriai ir mokslininkai?

Šiandien duomenų mokslininkų lūkesčiai pasikeitė. Anksčiau inžinieriai rinko dideles SQL užklausas, rankiniu būdu rašė MapReduce ir apdorojo duomenis naudodami tokius įrankius kaip Informatica ETL, Pentaho ETL, Talend. 

2020 metais specialistas neapsieina be Python ir modernių skaičiavimo įrankių (pavyzdžiui, Airflow) žinių, darbo su debesų platformomis principų supratimo (naudojant jas taupant aparatinę įrangą, laikantis saugumo principų).

SAP, Oracle, MySQL, Redis yra tradiciniai didelių įmonių duomenų inžinierių įrankiai. Jie yra geri, bet licencijų kaina yra tokia didelė, kad mokytis su jomis dirbti prasminga tik pramoniniuose projektuose. Tuo pačiu yra nemokama alternatyva Postgres forma - ji yra nemokama ir tinka ne tik treniruotėms. 

Duomenų inžinierius ir duomenų mokslininkas: koks skirtumas?
Istoriškai dažnai randama „Java“ ir „Scala“ užklausų, nors tobulėjant technologijoms ir požiūriams šios kalbos nublanksta į antrą planą.

Tačiau hardcore BigData: Hadoop, Spark ir likusi zoologijos sodo dalis nebėra būtina duomenų inžinieriaus sąlyga, o tam tikri įrankiai problemoms, kurių negali išspręsti tradicinis ETL, išspręsti. 

Tendencija yra paslaugos, skirtos naudoti įrankius nežinant kalbos, kuria jie parašyti (pavyzdžiui, „Hadoop“ nežinant „Java“), taip pat paruoštų srautinio duomenų apdorojimo paslaugų teikimas (balso atpažinimas arba vaizdo atpažinimas vaizdo įraše). ).

SAS ir SPSS pramoniniai sprendimai yra populiarūs, o „Tableau“, „Rapidminer“, „Stata“ ir „Julia“ duomenų mokslininkai taip pat plačiai naudoja vietinėms užduotims atlikti.

Duomenų inžinierius ir duomenų mokslininkas: koks skirtumas?
Galimybė patiems kurti vamzdynus analitikams ir duomenų mokslininkams atsirado tik prieš porą metų: pavyzdžiui, jau galima siųsti duomenis į PostgreSQL pagrindu veikiančią saugyklą naudojant gana paprastus scenarijus. 

Paprastai už konvejerių ir integruotų duomenų struktūrų naudojimą atsako duomenų inžinieriai. Tačiau šiandien T formos specialistų, turinčių plačias kompetencijas susijusiose srityse, tendencija yra stipresnė nei bet kada, nes įrankiai nuolat supaprastinami.

Kodėl duomenų inžinierius ir duomenų mokslininkas dirba kartu

Glaudžiai bendradarbiaudami su inžinieriais duomenų mokslininkai gali sutelkti dėmesį į tyrimus, kurdami gamybai paruoštus mašininio mokymosi algoritmus.
Inžinieriai turi sutelkti dėmesį į mastelį, pakartotinį duomenų naudojimą ir užtikrinti, kad kiekvieno atskiro projekto duomenų įvesties ir išvesties vamzdynai atitiktų pasaulinę architektūrą.

Šis atsakomybių atskyrimas užtikrina nuoseklumą komandose, dirbančiose su skirtingais mašininio mokymosi projektais. 

Bendradarbiavimas padeda efektyviai kurti naujus produktus. Greitis ir kokybė pasiekiami balansuojant tarp paslaugos kūrimo kiekvienam (pasaulinė saugykla arba prietaisų skydelių integravimas) ir kiekvieno konkretaus poreikio ar projekto įgyvendinimo (labai specializuotas vamzdynas, išorinių šaltinių prijungimas). 

Glaudus bendradarbiavimas su duomenų mokslininkais ir analitikais padeda inžinieriams ugdyti analitinius ir tyrimų įgūdžius, kad galėtų parašyti geresnį kodą. Gerėja dalijimasis žiniomis tarp sandėlio ir duomenų ežero naudotojų, todėl projektai tampa lankstesni ir pasiekiami tvaresni ilgalaikiai rezultatai.

Įmonėse, kurios siekia plėtoti darbo su duomenimis kultūrą ir jais pagrįstą verslo procesų kūrimą, Data Scientist ir Data Engineer papildo vienas kitą ir sukuria pilną duomenų analizės sistemą. 

Kitame straipsnyje kalbėsime apie tai, kokį išsilavinimą turėtų turėti duomenų inžinierius ir duomenų mokslininkai, kokius įgūdžius jiems reikia ugdyti ir kaip veikia rinka.

Iš „Netology“ redaktorių

Jei ieškote duomenų inžinieriaus ar duomenų mokslininko profesijos, kviečiame studijuoti mūsų kursų programas:

Šaltinis: www.habr.com

Добавить комментарий