Data Engineer a Data Scientist: jaký je rozdíl?

Profese Data Scientist a Data Engineer jsou často zaměňovány. Každá společnost má svá specifika práce s daty, jiné účely jejich analýzy a jinou představu o tom, který specialista by se měl kterou částí práce zabývat, proto má každá své požadavky. 

Pojďme zjistit, jaký je rozdíl mezi těmito specialisty, jaké obchodní problémy řeší, jaké mají dovednosti a kolik vydělávají. Materiál se ukázal být velký, proto jsme jej rozdělili do dvou publikací.

V prvním článku Elena Gerasimová, vedoucí fakulty “Data Science and Analytics“ v Netologii říká, jaký je rozdíl mezi Data Scientist a Data Engineer a s jakými nástroji pracují.

Jak se liší role inženýrů a vědců

Datový inženýr je specialista, který na jedné straně vyvíjí, testuje a udržuje datovou infrastrukturu: databáze, úložiště a systémy hromadného zpracování. Na druhé straně je to ten, kdo čistí a „češe“ data pro použití analytiky a datovými vědci, tedy vytváří potrubí pro zpracování dat.

Data Scientist vytváří a trénuje prediktivní (a další) modely pomocí algoritmů strojového učení a neuronových sítí, což pomáhá podnikům najít skryté vzorce, předvídat vývoj a optimalizovat klíčové obchodní procesy.

Hlavní rozdíl mezi Data Scientist a Data Engineer spočívá v tom, že obvykle mají různé cíle. Oba pracují na zajištění dostupnosti a vysoké kvality dat. Datový vědec však nachází odpovědi na své otázky a testuje hypotézy v datovém ekosystému (například založeném na Hadoopu) a datový inženýr vytvoří kanál pro obsluhu algoritmu strojového učení napsaného datovým vědcem v clusteru Spark v rámci téhož. ekosystému. 

Datový inženýr přináší hodnotu podniku tím, že pracuje jako součást týmu. Jeho úkolem je působit jako důležité spojení mezi různými účastníky: od vývojářů po podnikové spotřebitele reportingu a zvyšovat produktivitu analytiků, od marketingu a produktu po BI. 

Data Scientist se naopak aktivně účastní strategie společnosti a získává poznatky, dělá rozhodnutí, implementuje automatizační algoritmy, modeluje a generuje hodnotu z dat.
Data Engineer a Data Scientist: jaký je rozdíl?

Práce s daty podléhá principu GIGO (garbage in - garbage out): pokud se analytici a datoví vědci zabývají nepřipravenými a potenciálně nesprávnými daty, pak výsledky i při použití těch nejsofistikovanějších analytických algoritmů budou nesprávné. 

Datoví inženýři řeší tento problém budováním potrubí pro zpracování, čištění a transformaci dat a umožňují datovým vědcům pracovat s vysoce kvalitními daty. 

Na trhu existuje mnoho nástrojů pro práci s daty, které pokrývají každou fázi: od vzhledu dat přes výstup až po řídicí panel pro představenstvo. A je důležité, aby rozhodnutí o jejich použití učinil inženýr – ne proto, že je to módní, ale proto, že skutečně pomůže práci ostatních účastníků procesu. 

Obvykle: pokud společnost potřebuje vytvořit spojení mezi BI a ETL – načítáním dat a aktualizací sestav, zde je typický starší základ, se kterým se bude muset datový inženýr vypořádat (je dobré, když je v týmu také architekt).

Povinnosti datového inženýra

  • Vývoj, výstavba a údržba infrastruktury pro zpracování dat.
  • Řešení chyb a vytváření spolehlivých kanálů pro zpracování dat.
  • Přivedení nestrukturovaných dat z různých dynamických zdrojů do podoby potřebné pro práci analytiků.
  • Poskytování doporučení ke zlepšení konzistence a kvality dat.
  • Poskytování a údržba datové architektury používané datovými vědci a datovými analytiky.
  • Zpracovávejte a ukládejte data konzistentně a efektivně v distribuovaném clusteru desítek nebo stovek serverů.
  • Vyhodnoťte technické kompromisy nástrojů a vytvořte jednoduché, ale robustní architektury, které přežijí přerušení.
  • Řízení a podpora datových toků a souvisejících systémů (nastavení monitoringu a výstrah).

V rámci trajektorie Data Engineer existuje další specializace - ML inženýr. Stručně řečeno, tito inženýři se specializují na zavádění modelů strojového učení do průmyslové implementace a použití. Často je model obdržený od datového vědce součástí studie a nemusí fungovat v bojových podmínkách.

Povinnosti datového vědce

  • Extrahování funkcí z dat pro použití algoritmů strojového učení.
  • Použití různých nástrojů strojového učení k predikci a klasifikaci vzorců v datech.
  • Zlepšení výkonu a přesnosti algoritmů strojového učení pomocí jemného ladění a optimalizace algoritmů.
  • Vytváření „silných“ hypotéz v souladu se strategií společnosti, které je třeba testovat.

Data Engineer i Data Scientist sdílejí hmatatelný příspěvek k rozvoji datové kultury, díky níž může společnost generovat další zisky nebo snižovat náklady.

S jakými jazyky a nástroji pracují inženýři a vědci?

Dnes se očekávání datových vědců změnila. Dříve inženýři shromažďovali velké SQL dotazy, ručně zapisovali MapReduce a zpracovávali data pomocí nástrojů jako Informatica ETL, Pentaho ETL, Talend. 

Specialista se v roce 2020 neobejde bez znalosti Pythonu a moderních výpočetních nástrojů (například Airflow), pochopení principů práce s cloudovými platformami (jejich využití pro úsporu hardwaru při dodržení bezpečnostních zásad).

SAP, Oracle, MySQL, Redis jsou tradiční nástroje pro datové inženýry ve velkých společnostech. Jsou dobré, ale náklady na licence jsou tak vysoké, že naučit se s nimi pracovat má smysl pouze v průmyslových projektech. Zároveň existuje bezplatná alternativa v podobě Postgresu – je zdarma a hodí se nejen na trénink. 

Data Engineer a Data Scientist: jaký je rozdíl?
Historicky se často objevují požadavky na Javu a Scalu, i když s vývojem technologií a přístupů tyto jazyky ustupují do pozadí.

Hardcore BigData: Hadoop, Spark a zbytek zoo však již není podmínkou pro datového inženýra, ale jakýmsi nástrojem pro řešení problémů, které nelze vyřešit tradičním ETL. 

Trendem jsou služby pro používání nástrojů bez znalosti jazyka, ve kterém jsou napsány (například Hadoop bez znalosti Javy), ale i poskytování hotových služeb pro zpracování streamovaných dat (rozpoznávání hlasu nebo rozpoznávání obrazu na videu ).

Průmyslová řešení od SAS a SPSS jsou populární, zatímco Tableau, Rapidminer, Stata a Julia jsou také široce používány datovými vědci pro místní úkoly.

Data Engineer a Data Scientist: jaký je rozdíl?
Schopnost vytvářet potrubí sama o sobě se analytikům a datovým vědcům objevila teprve před několika lety: například je již možné posílat data do úložiště založeného na PostgreSQL pomocí relativně jednoduchých skriptů. 

Obvykle zůstává použití kanálů a integrovaných datových struktur odpovědností datových inženýrů. Ale dnes je trend specialistů ve tvaru T s širokými kompetencemi v příbuzných oborech silnější než kdy jindy, protože nástroje se neustále zjednodušují.

Proč datový inženýr a datový vědec spolupracují

Díky úzké spolupráci s inženýry se Data Scientists mohou zaměřit na výzkumnou stránku a vytvářet algoritmy strojového učení připravené na výrobu.
A inženýři se musí zaměřit na škálovatelnost, opětovné použití dat a zajistit, aby vstupní a výstupní kanály dat v každém jednotlivém projektu odpovídaly globální architektuře.

Toto oddělení odpovědností zajišťuje konzistenci napříč týmy pracujícími na různých projektech strojového učení. 

Spolupráce pomáhá efektivně vytvářet nové produkty. Rychlosti a kvality je dosaženo prostřednictvím rovnováhy mezi vytvořením služby pro každého (globální úložiště nebo integrace dashboardů) a implementací každé konkrétní potřeby nebo projektu (vysoce specializované potrubí, připojení externích zdrojů). 

Úzká spolupráce s datovými vědci a analytiky pomáhá inženýrům rozvíjet analytické a výzkumné dovednosti, aby mohli psát lepší kód. Sdílení znalostí mezi uživateli skladů a datových jezer se zlepšuje, díky čemuž jsou projekty agilnější a přinášejí udržitelnější dlouhodobé výsledky.

Ve společnostech, jejichž cílem je rozvíjet kulturu práce s daty a budovat na nich založené obchodní procesy, se Data Scientist a Data Engineer vzájemně doplňují a vytvářejí kompletní systém analýzy dat. 

V příštím článku si povíme, jaké vzdělání by měl mít Data Engineer a Data Scientists, jaké dovednosti potřebují rozvíjet a jak funguje trh.

Od redakce Netology

Pokud hledáte profesi Data Engineer nebo Data Scientist, zveme vás ke studiu našich kurzů:

Zdroj: www.habr.com

Přidat komentář