Dátový inžinier a dátový vedec: Aký je rozdiel?

Profesie Data Scientist a Data Engineer sú často zamieňané. Každá firma má svoje špecifiká práce s dátami, iné účely ich analýzy a inú predstavu o tom, ktorý špecialista by sa mal akou časťou práce zaoberať, preto má každá svoje požiadavky. 

Poďme zistiť, aký je rozdiel medzi týmito špecialistami, aké obchodné problémy riešia, aké majú zručnosti a koľko zarábajú. Materiál sa ukázal byť veľký, preto sme ho rozdelili do dvoch publikácií.

V prvom článku Elena Gerasimová, vedúca fakulty “Data Science and Analytics“ v Netológii hovorí, aký je rozdiel medzi Data Scientist a Data Engineer a s akými nástrojmi pracujú.

Ako sa líšia úlohy inžinierov a vedcov

Dátový inžinier je špecialista, ktorý na jednej strane vyvíja, testuje a udržiava dátovú infraštruktúru: databázy, úložné systémy a systémy hromadného spracovania. Na druhej strane je to ten, kto čistí a „češe“ dáta pre použitie analytikmi a dátovými vedcami, čiže vytvára kanály na spracovanie dát.

Data Scientist vytvára a trénuje prediktívne (a iné) modely pomocou algoritmov strojového učenia a neurónových sietí, čím pomáha podnikom nájsť skryté vzorce, predpovedať vývoj a optimalizovať kľúčové obchodné procesy.

Hlavný rozdiel medzi Data Scientist a Data Engineer je v tom, že zvyčajne majú odlišné ciele. Obidve sa snažia zabezpečiť dostupnosť a vysokú kvalitu údajov. Dátový vedec však nachádza odpovede na svoje otázky a testuje hypotézy v dátovom ekosystéme (napríklad na základe Hadoop) a dátový inžinier vytvorí kanál na obsluhu algoritmu strojového učenia napísaného dátovým vedcom v klastri Spark v rámci toho istého. ekosystému. 

Dátový inžinier prináša hodnotu do podnikania tým, že pracuje ako súčasť tímu. Jeho úlohou je pôsobiť ako dôležité prepojenie medzi rôznymi účastníkmi: od vývojárov po podnikových spotrebiteľov reportingu a zvyšovať produktivitu analytikov, od marketingu a produktov až po BI. 

Naopak, Data Scientist sa aktívne podieľa na stratégii spoločnosti a získava poznatky, robí rozhodnutia, implementuje automatizačné algoritmy, modeluje a generuje hodnotu z údajov.
Dátový inžinier a dátový vedec: Aký je rozdiel?

Práca s dátami podlieha princípu GIGO (garbage in - garbage out): ak sa analytici a dátoví vedci zaoberajú nepripravenými a potenciálne nesprávnymi dátami, potom výsledky aj pri použití tých najsofistikovanejších analytických algoritmov budú nesprávne. 

Dátoví inžinieri riešia tento problém budovaním potrubí na spracovanie, čistenie a transformáciu údajov a umožňujú vedcom údajov pracovať s vysokokvalitnými údajmi. 

Na trhu existuje mnoho nástrojov na prácu s údajmi, ktoré pokrývajú každú fázu: od vzhľadu údajov cez výstup až po dashboard pre predstavenstvo. A je dôležité, aby rozhodnutie o ich použití urobil inžinier - nie preto, že je to módne, ale preto, že skutočne pomôže práci ostatných účastníkov procesu. 

Konvenčne: ak spoločnosť potrebuje vytvoriť prepojenie medzi BI a ETL – načítaním údajov a aktualizáciou správ, tu je typický základ, s ktorým sa bude musieť dátový inžinier vysporiadať (je dobré, ak je v tíme aj architekt).

Zodpovednosti dátového inžiniera

  • Vývoj, výstavba a údržba infraštruktúry na spracovanie údajov.
  • Riešenie chýb a vytváranie spoľahlivých kanálov na spracovanie údajov.
  • Privádzanie neštruktúrovaných dát z rôznych dynamických zdrojov do podoby potrebnej pre prácu analytikov.
  • Poskytovanie odporúčaní na zlepšenie konzistencie a kvality údajov.
  • Poskytovanie a udržiavanie dátovej architektúry používanej dátovými vedcami a dátovými analytikmi.
  • Spracovávajte a ukladajte dáta konzistentne a efektívne v distribuovanom klastri desiatok alebo stoviek serverov.
  • Vyhodnoťte technické kompromisy nástrojov na vytvorenie jednoduchých, ale robustných architektúr, ktoré dokážu prežiť narušenie.
  • Riadenie a podpora dátových tokov a súvisiacich systémov (nastavenie monitoringu a výstrah).

V rámci trajektórie Data Engineer existuje ďalšia špecializácia - ML inžinier. Stručne povedané, títo inžinieri sa špecializujú na zavádzanie modelov strojového učenia do priemyselnej implementácie a používania. Model získaný od vedca údajov je často súčasťou štúdie a nemusí fungovať v bojových podmienkach.

Zodpovednosti dátového vedca

  • Extrahovanie funkcií z údajov na použitie algoritmov strojového učenia.
  • Používanie rôznych nástrojov strojového učenia na predpovedanie a klasifikáciu vzorcov v údajoch.
  • Zlepšenie výkonu a presnosti algoritmov strojového učenia jemným doladením a optimalizáciou algoritmov.
  • Vytváranie „silných“ hypotéz v súlade so stratégiou spoločnosti, ktoré je potrebné otestovať.

Data Engineer aj Data Scientist zdieľajú hmatateľný príspevok k rozvoju dátovej kultúry, prostredníctvom ktorej môže spoločnosť vytvárať dodatočné zisky alebo znižovať náklady.

S akými jazykmi a nástrojmi pracujú inžinieri a vedci?

Dnes sa očakávania dátových vedcov zmenili. Predtým inžinieri zbierali veľké SQL dotazy, manuálne zapisovali MapReduce a spracovávali dáta pomocou nástrojov ako Informatica ETL, Pentaho ETL, Talend. 

Špecialista sa v roku 2020 nezaobíde bez znalosti jazyka Python a moderných výpočtových nástrojov (napríklad Airflow), porozumenia princípom práce s cloudovými platformami (ich využívaním na šetrenie hardvéru pri dodržaní bezpečnostných zásad).

SAP, Oracle, MySQL, Redis sú tradičné nástroje pre dátových inžinierov vo veľkých spoločnostiach. Sú dobré, ale náklady na licencie sú také vysoké, že naučiť sa s nimi pracovať má zmysel len v priemyselných projektoch. Zároveň je tu bezplatná alternatíva v podobe Postgres – je zadarmo a vhodná nielen na tréningy. 

Dátový inžinier a dátový vedec: Aký je rozdiel?
Historicky sa často vyskytujú požiadavky na Java a Scala, hoci s vývojom technológií a prístupov tieto jazyky ustupujú do pozadia.

Hardcore BigData: Hadoop, Spark a zvyšok zoo však už nie je podmienkou pre dátového inžiniera, ale akýmsi nástrojom na riešenie problémov, ktoré nemožno vyriešiť tradičným ETL. 

Trendom sú služby na používanie nástrojov bez znalosti jazyka, v ktorom sú napísané (napríklad Hadoop bez znalosti Javy), ako aj poskytovanie hotových služieb na spracovanie streamovaných dát (rozpoznanie hlasu či obrazu na videu ).

Priemyselné riešenia od SAS a SPSS sú populárne, zatiaľ čo Tableau, Rapidminer, Stata a Julia sú tiež široko používané dátovými vedcami pre lokálne úlohy.

Dátový inžinier a dátový vedec: Aký je rozdiel?
Schopnosť budovať samotné potrubia sa analytikom a vedcom údajov objavila len pred niekoľkými rokmi: napríklad je už možné odosielať údaje do úložiska založeného na PostgreSQL pomocou relatívne jednoduchých skriptov. 

Za používanie kanálov a integrovaných dátových štruktúr sú zvyčajne zodpovední dátoví inžinieri. Ale dnes je trend špecialistov v tvare T so širokými kompetenciami v príbuzných oblastiach silnejší ako kedykoľvek predtým, pretože nástroje sa neustále zjednodušujú.

Prečo dátový inžinier a dátový vedec spolupracujú

Úzkou spoluprácou s inžiniermi sa Data Scientists môžu sústrediť na výskumnú stránku a vytvárať algoritmy strojového učenia pripravené na výrobu.
A inžinieri sa musia zamerať na škálovateľnosť, opätovné použitie údajov a zabezpečiť, aby vstupné a výstupné kanály údajov v každom jednotlivom projekte vyhovovali globálnej architektúre.

Toto oddelenie zodpovedností zabezpečuje konzistentnosť medzi tímami pracujúcimi na rôznych projektoch strojového učenia. 

Spolupráca pomáha efektívne vytvárať nové produkty. Rýchlosť a kvalita sa dosahuje prostredníctvom rovnováhy medzi vytvorením služby pre každého (globálne úložisko alebo integrácia dashboardov) a implementáciou každej konkrétnej potreby alebo projektu (vysoko špecializované potrubie, pripojenie externých zdrojov). 

Úzka spolupráca s dátovými vedcami a analytikmi pomáha inžinierom rozvíjať analytické a výskumné schopnosti na písanie lepšieho kódu. Zdieľanie znalostí medzi používateľmi skladov a dátových jazier sa zlepšuje, vďaka čomu sú projekty agilnejšie a prinášajú udržateľnejšie dlhodobé výsledky.

V spoločnostiach, ktorých cieľom je rozvíjať kultúru práce s údajmi a budovať na nich podnikové procesy, sa Data Scientist a Data Engineer navzájom dopĺňajú a vytvárajú kompletný systém analýzy údajov. 

V ďalšom článku si povieme, aké vzdelanie by mal mať Data Engineer a Data Scientists, aké zručnosti potrebujú rozvíjať a ako funguje trh.

Od redakcie Netology

Ak hľadáte povolanie Data Engineer alebo Data Scientist, pozývame vás na štúdium našich kurzov:

Zdroj: hab.com

Pridať komentár