Dateingenieur an Datewëssenschaftler: Wat ass den Ënnerscheed?

D'Beruffer vum Data Scientist an Data Engineer sinn dacks duercherneen. All Firma huet seng eege Spezifizitéiten fir mat Daten ze schaffen, verschidden Zwecker fir hir Analyse an eng aner Iddi vu wéi engem Spezialist mat wéi engem Deel vun der Aarbecht soll handelen, dofir huet jidderee seng eegen Ufuerderungen. 

Loosst eis erausfannen wat den Ënnerscheed tëscht dëse Spezialisten ass, wéi eng Geschäftsproblemer si léisen, wéi eng Fäegkeeten si hunn a wéi vill se verdéngen. D'Material huet sech grouss gewisen, also hu mir et an zwou Publikatiounen opgedeelt.

Am éischten Artikel, Elena Gerasimova, Chef vun der Fakultéit "Data Science an Analytics" an der Netologie, erzielt wat den Ënnerscheed tëscht engem Data Scientist an engem Data Engineer ass a mat wéi enge Tools se schaffen.

Wéi d'Roll vun Ingenieuren a Wëssenschaftler ënnerscheeden

En Dateingenieur ass e Spezialist, deen engersäits Dateninfrastrukturen entwéckelt, testt an ënnerhält: Datenbanken, Späicher- a Masseveraarbechtungssystemer. Op der anerer Säit ass dëst deen deen Daten botzt an "kämmt" fir d'Benotzung vun Analysten an Datewëssenschaftler, dat heescht, Datenveraarbechtungspipelines erstellt.

Data Scientist erstellt an trainéiert viraussiichtlech (an aner) Modeller mat Maschinnléieren Algorithmen an neural Netzwierker, hëlleft Geschäfter verstoppte Musteren ze fannen, Entwécklungen virauszesoen an Schlësselgeschäftsprozesser optimiséieren.

Den Haaptunterschied tëscht engem Data Scientist an engem Data Engineer ass datt se normalerweis verschidden Ziler hunn. Béid schaffe fir sécherzestellen datt d'Donnéeën zougänglech a vun héich Qualitéit sinn. Awer en Datewëssenschaftler fënnt Äntwerten op seng Froen an testt Hypothesen an engem Datekosystem (zum Beispill, baséiert op Hadoop), an en Data Engineer erstellt eng Pipeline fir e Maschinnléier Algorithmus ze servéieren, geschriwwen vun engem Datewëssenschaftler an engem Spark Cluster am selwechte Ökosystem. 

En Dateingenieur bréngt Wäert fir e Geschäft andeems en als Deel vun engem Team schafft. Seng Aufgab ass als e wichtege Link tëscht verschiddene Participanten ze handelen: vun Entwéckler bis Geschäftsverbraucher vu Berichterstattung, an d'Produktivitéit vun Analysten erhéijen, vu Marketing a Produkt bis BI. 

En Data Scientist, am Géigendeel, hëlt en aktiven Deel un der Strategie vun der Gesellschaft an extrahiert Abléck, mécht Entscheedungen, implementéiert Automatisatiounsalgorithmen, modellert a generéiert Wäert aus Daten.
Dateingenieur an Datewëssenschaftler: Wat ass den Ënnerscheed?

D'Aarbecht mat Donnéeën ass ënnerleien dem GIGO (garbage in - garbage out) Prinzip: Wann Analysten an Datewëssenschaftler sech mat onpreparéierten a potenziell falschen Donnéeën beschäftegen, da sinn d'Resultater och mat de raffinéiertsten Analysealgorithmen falsch. 

Dateingenieuren léisen dëse Problem andeems se Pipelines bauen fir d'Veraarbechtung, d'Botzen an d'Transformatioun vun Daten an erlaben Datewëssenschaftler mat héichqualitativen Donnéeën ze schaffen. 

Et gi vill Tools um Maart fir mat Daten ze schaffen, déi all Etapp ofdecken: vun der Erscheinung vun den Donnéeën bis zum Output op en Dashboard fir de Verwaltungsrot. An et ass wichteg datt d'Entscheedung fir se ze benotzen vun engem Ingenieur gemaach gëtt - net well et moudesch ass, mee well hien wierklech d'Aarbecht vun anere Participanten am Prozess hëlleft. 

Konventionell: wann eng Firma Verbindungen tëscht BI an ETL muss maachen - Daten lueden an Berichter aktualiséieren, hei ass eng typesch Legacy Fundament mat där en Data Engineer ze dinn huet (et ass gutt wann et och en Architekt am Team ass).

Verantwortung vun engem Data Engineer

  • Entwécklung, Bau an Ënnerhalt vun Daten Veraarbechtung Infrastruktur.
  • Ëmgank Feeler an schafen zouverlässeg Daten Veraarbechtung Pipelines.
  • Bréngt onstrukturéiert Daten aus verschiddenen dynamesche Quellen op d'Form déi néideg ass fir d'Aarbecht vun Analysten.
  • Bitt Empfehlungen fir Datenkonsistenz a Qualitéit ze verbesseren.
  • D'Datenarchitektur ze liwweren an z'erhalen, déi vun Datewëssenschaftler an Datenanalytiker benotzt gëtt.
  • Veraarbecht a späichert Daten konsequent an effizient an engem verdeelte Cluster vun Zénger oder Honnerte vu Serveren.
  • Evaluéiert d'technesch Ofwäichunge vun Tools fir einfach awer robust Architekturen ze kreéieren déi Stéierungen iwwerliewe kënnen.
  • Kontroll an Ënnerstëtzung vun Datestroum a verbonne Systemer (Iwwerwaachung an Alarm opzestellen).

Et gëtt eng aner Spezialisatioun am Data Engineer Trajectory - ML Ingenieur. Kuerz gesot, dës Ingenieuren spezialiséiert sech fir Maschinnléiere Modeller an d'industriell Ëmsetzung an d'Benotzung ze bréngen. Dacks ass e Modell, deen vun engem Datewëssenschaftler kritt gëtt, Deel vun enger Studie a funktionnéiert vläicht net a Kampfbedéngungen.

Verantwortung vun engem Datewëssenschaftler

  • Features aus Daten extrahéieren fir Maschinnléier Algorithmen z'applizéieren.
  • Benotzt verschidde Maschinnléierinstrumenter fir Musteren an Daten virauszesoen an ze klassifizéieren.
  • D'Performance an d'Genauegkeet vu Maschinnléiere Algorithmen verbesseren andeems d'Algorithmen feinjustéieren an optimiséieren.
  • Formatioun vun "staark" Hypothesen am Aklang mat der Firma Strategie déi getest gin muss.

Béid Data Engineer an Data Scientist deelen e konkrete Bäitrag zu der Entwécklung vun enger Datekultur, duerch déi eng Firma zousätzlech Gewënn generéiere kann oder Käschten reduzéieren.

Mat wéi engem Sproochen an Tools schaffen Ingenieuren a Wëssenschaftler?

Haut hunn d'Erwaardunge fir Datewëssenschaftler geännert. Virdrun hunn Ingenieuren grouss SQL Ufroen gesammelt, manuell MapReduce geschriwwen a veraarbecht Daten mat Tools wéi Informatica ETL, Pentaho ETL, Talend. 

Am Joer 2020 kann e Spezialist net ouni Wësse vu Python a modernen Berechnungsinstrumenter (zum Beispill Airflow), Versteesdemech vun de Prinzipien vun der Aarbecht mat Cloud Plattformen maachen (se benotze fir Hardware ze spueren, wärend Sécherheetsprinzipien beobachtet).

SAP, Oracle, MySQL, Redis sinn traditionell Tools fir Dateningenieuren a grousse Firmen. Si si gutt, awer d'Käschte vun de Lizenzen si sou héich datt d'Léieren mat hinnen ze schaffen nëmme Sënn mécht an industrielle Projeten. Zur selwechter Zäit gëtt et eng gratis Alternativ a Form vu Postgres - et ass gratis a gëeegent net nëmme fir Training. 

Dateingenieur an Datewëssenschaftler: Wat ass den Ënnerscheed?
Historesch ginn Ufroe fir Java a Scala dacks fonnt, obwuel d'Technologien an d'Approche sech entwéckelen, dës Sproochen an den Hannergrond verschwannen.

Wéi och ëmmer, Hardcore BigData: Hadoop, Spark an de Rescht vum Zoo ass net méi eng Viraussetzung fir en Dateingenieur, mee eng Zort Tools fir Probleemer ze léisen déi net vun traditioneller ETL geléist kënne ginn. 

Den Trend ass Servicer fir Tools ze benotzen ouni Wëssen vun der Sprooch an där se geschriwwe sinn (zum Beispill Hadoop ouni Wësse vu Java), wéi och d'Bereetstellung vu fäerdege Servicer fir Streamingdaten ze veraarbecht (Stëmmerkennung oder Bilderkennung op Video) ).

Industrieléisungen vu SAS a SPSS si populär, während Tableau, Rapidminer, Stata a Julia och vill vun Datenwëssenschaftler fir lokal Aufgaben benotzt ginn.

Dateingenieur an Datewëssenschaftler: Wat ass den Ënnerscheed?
D'Kapazitéit fir Pipelines selwer ze bauen huet Analysten an Datewëssenschaftler erschéngt virun e puer Joer: Zum Beispill ass et scho méiglech Daten op eng PostgreSQL-baséiert Späichere mat relativ einfache Scripten ze schécken. 

Typesch bleift d'Benotzung vu Pipelines an integréierten Datestrukturen d'Verantwortung vun Dateningenieuren. Awer haut ass den Trend fir T-fërmege Spezialisten mat breede Kompetenzen a verbonne Beräicher méi staark wéi jee, well Tools stänneg vereinfacht ginn.

Firwat Dateningenieur an Datewëssenschaftler zesumme schaffen

Andeems Dir enk mat Ingenieuren zesummeschafft, kënnen Datewëssenschaftler sech op d'Fuerschungssäit konzentréieren, Produktiounsfäeg Maschinnléiere Algorithmen erstellen.
An Ingenieuren musse sech op Skalierbarkeet konzentréieren, Daten Wiederverwendung, an dofir suergen datt Dateninput an Output Pipelines an all eenzelne Projet mat der globaler Architektur entspriechen.

Dës Trennung vu Verantwortung garantéiert Konsistenz iwwer Teams déi un verschiddene Maschinnléiereprojeten schaffen. 

Zesummenaarbecht hëlleft nei Produkter effizient ze kreéieren. Geschwindegkeet a Qualitéit ginn erreecht duerch e Gläichgewiicht tëscht engem Service fir jiddereen ze kreéieren (global Späichere oder Dashboard Integratioun) an der Ëmsetzung vun all spezifesche Bedierfnes oder Projet (héich spezialiséiert Pipeline, Verbindung vun externe Quellen). 

Eng Zesummenaarbecht mat Datewëssenschaftler an Analysten hëlleft Ingenieuren analytesch a Fuerschungsfäegkeeten z'entwéckelen fir bessere Code ze schreiwen. D'Wëssendeele tëscht Lager- an Dateséi Benotzer verbessert, mécht Projeten méi agile a liwwert méi nohalteg laangfristeg Resultater.

A Firmen déi Zil hunn eng Kultur ze entwéckelen fir mat Daten ze schaffen a Geschäftsprozesser opzebauen op Basis vun hinnen, ergänzen Data Scientist an Data Engineer géigesäiteg an kreéieren e komplette Dateanalysesystem. 

Am nächsten Artikel schwätze mir iwwer wéi eng Ausbildung en Dataingenieur an Datewëssenschaftler sollen hunn, wéi eng Fäegkeeten se brauchen fir z'entwéckelen a wéi de Maart funktionnéiert.

Vun den Redaktoren vun Netology

Wann Dir de Beruff vum Data Engineer oder Data Scientist kuckt, invitéiere mir Iech fir eis Coursprogrammer ze studéieren:

Source: will.com

Setzt e Commentaire