Adatmérnök és adattudós: Mi a különbség?

Az adattudós és adatmérnök szakmát gyakran összekeverik. Minden cégnek megvannak a maga sajátosságai az adatokkal való munkavégzéshez, más az elemzésük célja, és más az elképzelése arról, hogy melyik szakembernek kell a munka melyik részével foglalkoznia, ezért mindegyiknek megvannak a maga követelményei. 

Nézzük meg, mi a különbség ezek között a szakemberek között, milyen üzleti problémákat oldanak meg, milyen készségekkel rendelkeznek és mennyit keresnek. Az anyag nagynak bizonyult, ezért két kiadványra osztottuk.

Az első cikkben Elena Gerasimova, a kar vezetője "Adattudomány és AnalyticsA Netologyban elmondja, mi a különbség az adattudós és az adatmérnök között, és milyen eszközökkel dolgoznak.

Hogyan különbözik a mérnökök és a tudósok szerepe

Az adatmérnök olyan szakember, aki egyrészt adatinfrastruktúrát fejleszt, tesztel és karbantart: adatbázisokat, tároló- és tömegfeldolgozási rendszereket. Másrészt ez az, aki megtisztítja és „fésüli” az adatokat elemzők és adattudósok általi használatra, azaz adatfeldolgozó csővezetékeket hoz létre.

A Data Scientist gépi tanulási algoritmusok és neurális hálózatok segítségével prediktív (és egyéb) modelleket hoz létre és képez, segít a vállalkozásoknak megtalálni a rejtett mintákat, előre jelezni a fejlesztéseket és optimalizálni a kulcsfontosságú üzleti folyamatokat.

A fő különbség a Data Scientist és az Data Engineer között az, hogy általában eltérő céljaik vannak. Mindkettő azon dolgozik, hogy az adatok hozzáférhetőek és jó minőségűek legyenek. De egy adattudós választ talál kérdéseire és hipotéziseket tesztel egy adatökoszisztémában (például a Hadoop alapján), az adatmérnök pedig egy folyamatot hoz létre a gépi tanulási algoritmus kiszolgálására, amelyet egy adattudós írt egy Spark-fürtben ugyanazon belül. ökoszisztéma. 

Az adatmérnök értéket hoz egy vállalkozásba azáltal, hogy csapat tagjaként dolgozik. Feladata, hogy fontos összekötő szerepet töltsön be a különböző résztvevők között: a fejlesztőktől a riportkészítés üzleti fogyasztóiig, valamint az elemzők termelékenységének növelése a marketingtől és a terméktől a BI-ig. 

A Data Scientist éppen ellenkezőleg, aktívan részt vesz a vállalat stratégiájában, és betekintést nyer, döntéseket hoz, automatizálási algoritmusokat implementál, modellez és értékeket generál az adatokból.
Adatmérnök és adattudós: Mi a különbség?

Az adatokkal való munkavégzésre a GIGO (garbage in - garge out) elve vonatkozik: ha az elemzők és adattudósok előkészítetlen és potenciálisan hibás adatokkal foglalkoznak, akkor a legkifinomultabb elemzési algoritmusok használatával is hibás lesz az eredmény. 

Az adatmérnökök úgy oldják meg ezt a problémát, hogy csővezetékeket építenek az adatok feldolgozására, tisztítására és átalakítására, és lehetővé teszik az adattudósok számára, hogy kiváló minőségű adatokkal dolgozzanak. 

Számos eszköz létezik a piacon az adatokkal való munkavégzéshez, amelyek minden szakaszt lefednek: az adatok megjelenésétől a kimeneten át az igazgatóság irányítópultjáig. És fontos, hogy ezek használatáról egy mérnök döntsön – nem azért, mert ez divat, hanem azért, mert valóban segíteni fogja a folyamat többi résztvevőjének munkáját. 

Hagyományosan: ha egy cégnek kapcsolatot kell létesítenie a BI és az ETL között - adatok betöltése és jelentések frissítése, akkor itt van egy tipikus örökölt alap, amellyel egy adatmérnöknek meg kell küzdenie (jó, ha építész is van a csapatban).

Az adatmérnök feladatai

  • Adatfeldolgozó infrastruktúra fejlesztése, kiépítése és karbantartása.
  • Hibák kezelése és megbízható adatfeldolgozási folyamatok létrehozása.
  • Strukturálatlan adatok különböző dinamikus forrásokból az elemzői munkához szükséges formába hozása.
  • Javaslatok nyújtása az adatok konzisztenciájának és minőségének javítására.
  • Az adattudósok és adatelemzők által használt adatarchitektúra biztosítása és karbantartása.
  • Folyamatosan és hatékonyan dolgozza fel és tárolja az adatokat egy több tíz vagy több száz szerverből álló elosztott fürtben.
  • Értékelje az eszközök technikai kompromisszumát, hogy egyszerű, de robusztus architektúrákat hozzon létre, amelyek túlélik a zavarokat.
  • Adatfolyamok és kapcsolódó rendszerek vezérlése és támogatása (monitoring és riasztások beállítása).

A Data Engineer pályán belül van egy másik specializáció is – az ML mérnök. Röviden, ezek a mérnökök arra specializálódtak, hogy gépi tanulási modelleket vigyenek be az ipari megvalósításba és felhasználásba. Gyakran előfordul, hogy egy adatkutatótól kapott modell egy tanulmány része, és előfordulhat, hogy harci körülmények között nem működik.

Az adattudós feladatai

  • Funkciók kinyerése az adatokból a gépi tanulási algoritmusok alkalmazásához.
  • Különféle gépi tanulási eszközök használata az adatok mintáinak előrejelzésére és osztályozására.
  • A gépi tanulási algoritmusok teljesítményének és pontosságának javítása az algoritmusok finomhangolásával és optimalizálásával.
  • „Erős” hipotézisek kialakítása a vállalati stratégiának megfelelően, amelyeket tesztelni kell.

A Data Engineer és a Data Scientist egyaránt kézzelfoghatóan hozzájárulnak az adatkultúra fejlesztéséhez, amely révén a vállalat további nyereséget termelhet vagy költségeit csökkentheti.

Milyen nyelvekkel és eszközökkel dolgoznak a mérnökök és tudósok?

Mára megváltoztak az adatkutatókkal szemben támasztott elvárások. Korábban a mérnökök nagy SQL lekérdezéseket gyűjtöttek, manuálisan írták a MapReduce-t, és olyan eszközökkel dolgozták fel az adatokat, mint az Informatica ETL, Pentaho ETL, Talend. 

2020-ban a szakember nem nélkülözheti a Python és a modern számítási eszközök (például Airflow) ismereteit, a felhőplatformokkal való munka elveinek megértését (használja őket hardvermegtakarításra, miközben betartja a biztonsági elveket).

Az SAP, Oracle, MySQL, Redis hagyományos eszközök a nagyvállalatok adatmérnökei számára. Jók, de a licencek ára olyan magas, hogy csak ipari projektekben van értelme megtanulni velük dolgozni. Ugyanakkor van egy ingyenes alternatíva a Postgres formájában - ingyenes és nem csak edzésre alkalmas. 

Adatmérnök és adattudós: Mi a különbség?
Történelmileg gyakran előfordulnak Java és Scala kérések, bár a technológiák és megközelítések fejlődésével ezek a nyelvek háttérbe szorulnak.

A hardcore BigData: Hadoop, Spark és az állatkert többi része azonban már nem előfeltétele egy adatmérnöknek, hanem egyfajta eszköz a hagyományos ETL-lel nem megoldható problémák megoldásához. 

A tendencia az eszközök használatának szolgáltatásai a nyelv ismerete nélkül (például a Hadoop a Java ismerete nélkül), valamint kész szolgáltatások nyújtása streaming adatok feldolgozásához (hangfelismerés vagy képfelismerés videón ).

A SAS és SPSS ipari megoldásai népszerűek, míg a Tableau, Rapidminer, Stata és Julia széles körben használják az adatkutatók helyi feladatokra.

Adatmérnök és adattudós: Mi a különbség?
Az elemzők és adattudósok előtt csak néhány éve jelent meg az a képesség, hogy maguk a csővezetékek építhetők: viszonylag egyszerű szkriptek segítségével például már lehet adatokat küldeni egy PostgreSQL alapú tárolóra. 

A csővezetékek és integrált adatstruktúrák használata jellemzően továbbra is az adatmérnökök felelőssége marad. De manapság a kapcsolódó területeken széleskörű kompetenciákkal rendelkező T-alakú szakemberek iránti tendencia erősebb, mint valaha, mert az eszközöket folyamatosan egyszerűsítik.

Miért dolgozik együtt az adatmérnök és az adattudós?

A mérnökökkel való szoros együttműködés révén a Data Scientists a kutatási oldalra összpontosíthat, és gyártásra kész gépi tanulási algoritmusokat hozhat létre.
A mérnököknek pedig a méretezhetőségre, az adatok újrafelhasználására és annak biztosítására kell összpontosítaniuk, hogy az adatbeviteli és -kimeneti folyamatok minden egyes projektben megfeleljenek a globális architektúrának.

A felelősségek ilyen szétválasztása biztosítja a konzisztenciát a különböző gépi tanulási projekteken dolgozó csapatok között. 

Az együttműködés segít új termékek hatékony létrehozásában. A sebességet és a minőséget a mindenki számára elérhető szolgáltatás létrehozása (globális tárolás vagy műszerfalak integrációja) és az egyes igények vagy projektek megvalósítása (nagyon specializált csővezeték, külső források összekapcsolása) egyensúlyával érik el. 

Az adattudósokkal és elemzőkkel való szoros együttműködés segít a mérnököknek analitikai és kutatási készségeik fejlesztésében, hogy jobb kódot írjanak. Javul a tudásmegosztás a raktár- és adattó-felhasználók között, ami agilisabbá teszi a projekteket és fenntarthatóbb, hosszú távú eredményeket biztosít.

Azokban a vállalatokban, amelyek célja az adatokkal való munkavégzés kultúrájának kialakítása és az ezeken alapuló üzleti folyamatok felépítése, a Data Scientist és a Data Engineer kiegészíti egymást, és egy teljes adatelemző rendszert hoz létre. 

A következő cikkben arról lesz szó, hogy milyen végzettséggel kell rendelkeznie egy adatmérnöknek és adattudósnak, milyen készségeket kell fejleszteniük, és hogyan működik a piac.

A Netology szerkesztőitől

Ha az adatmérnök vagy adattudós szakmát keresi, kérjük, hogy tanulmányozza kurzusprogramjainkat:

Forrás: will.com

Hozzászólás