Data-ingenieur en datawetenskaplike: wat is die verskil?

Die beroepe van datawetenskaplike en data-ingenieur word dikwels deurmekaar. Elke maatskappy het sy eie besonderhede van werk met data, verskillende doelwitte vir hul ontleding en 'n ander idee van watter van die spesialiste betrokke moet wees by watter deel van die werk, daarom het elkeen sy eie vereistes. 

Ons vind uit wat die verskil tussen hierdie spesialiste is, watter saketake hulle oplos, watter vaardighede hulle het en hoeveel hulle verdien. Die materiaal het groot geblyk te wees, dus is dit in twee publikasies verdeel.

In die eerste artikel, Elena Gerasimova, hoof van die fakulteit "Datawetenskap en analise” in Netologie, vertel wat die verskil is tussen 'n Data Scientist en 'n Data Engineer en met watter gereedskap hulle werk.

Hoe verskil die rolle van ingenieurs en wetenskaplikes?

'n Data-ingenieur is 'n spesialis wat aan die een kant die infrastruktuur vir werk met data ontwikkel, toets en in stand hou: databasisse, bergings en massaverwerkingstelsels. Aan die ander kant is dit die een wat data skoonmaak en “kam” vir gebruik deur ontleders en datawetenskaplikes, dit wil sê, dataverwerkingspyplyne skep.

Data Scientist skep en lei voorspellende (en meer) modelle op deur masjienleeralgoritmes en neurale netwerke te gebruik, wat besighede help om verborge patrone te vind, ontwikkelings te voorspel en sleutelbesigheidsprosesse te optimaliseer.

Die belangrikste verskil tussen 'n datawetenskaplike en 'n data-ingenieur is dat hulle gewoonlik verskillende doelwitte het. Albei werk om data toeganklik en van hoë gehalte te hou. Maar die Data Scientist vind antwoorde op sy vrae en toets hipoteses in die data-ekosisteem (byvoorbeeld, gebaseer op Hadoop), en die Data Engineer skep 'n dienspyplyn vir die masjienleeralgoritme geskryf deur die datawetenskaplike in 'n Spark-groepering binne dieselfde ekosisteem. 

'n Data-ingenieur bring waarde aan 'n besigheid deur as 'n span te werk. Sy missie is om op te tree as 'n belangrike skakel tussen verskillende deelnemers - van ontwikkelaars tot besigheidsgebruikers van verslagdoening - en om die produktiwiteit van ontleders te verhoog - van bemarking en produk tot BI. 

Die Data Scientist, aan die ander kant, neem aktief deel aan die maatskappy se strategie en onttrek insigte, neem besluite, implementeer outomatiseringsalgoritmes, modellering en generering van waarde uit data.
Data-ingenieur en datawetenskaplike: wat is die verskil?

Werk met data is onderhewig aan die GIGO (garbage in - garbage out)-beginsel: as ontleders en datawetenskaplikes met onvoorbereide en potensieel verkeerde data omgaan, dan sal die resultate van selfs die mees gesofistikeerde analise-algoritmes verkeerd wees. 

Data-ingenieurs los hierdie probleem op deur pyplyne vir die verwerking, skoonmaak en transformasie van data te bou en die datawetenskaplike toe te laat om met data van hoë gehalte te werk. 

Daar is baie data-instrumente op die mark wat elk van die stadiums dek: van die voorkoms van data tot die afvoer tot die dashboard vir die direksie. En dit is belangrik dat die besluit oor die gebruik daarvan deur die ingenieur geneem word, nie omdat dit modieus is nie, maar omdat hy werklik die ander deelnemers aan die proses in hul werk sal help. 

Voorwaardelik: as 'n maatskappy vriende moet maak met BI en ETL - laai data en opdatering van verslae, hier is 'n tipiese nalatenskap fondament waarmee 'n data-ingenieur te doen sal hê (dit is goed as daar ook 'n argitek in die span is buiten hom) .

Verantwoordelikhede van 'n data-ingenieur

  • Ontwikkeling, konstruksie en instandhouding van infrastruktuur om met data te werk.
  • Fouthantering en bou van robuuste dataverwerkingspyplyne.
  • Om ongestruktureerde data uit verskeie dinamiese bronne te bring na die vorm wat nodig is vir die werk van ontleders.
  • Voorsien aanbevelings om die konsekwentheid en kwaliteit van data te verbeter.
  • Die verskaffing en instandhouding van die data-argitektuur wat deur datawetenskaplikes en data-ontleders gebruik word.
  • Verwerking en stoor van data konsekwent en doeltreffend in 'n verspreide groep van tien of honderde bedieners.
  • Evalueer die tegniese afwykings van gereedskap om eenvoudige dog robuuste argitekture te skep wat mislukkings kan oorleef.
  • Beheer en ondersteuning van datavloei en verwante stelsels (opstel van monitering en waarskuwings).

Daar is nog 'n spesialisasie binne die data-ingenieur-trajek - ML-ingenieur. Kortom, hierdie ingenieurs spesialiseer daarin om masjienleermodelle tot industriële aanvaarding en gebruik te bring. Dikwels is 'n datawetenskaplike-model deel van 'n studie en werk moontlik nie in 'n geveg nie.

Verantwoordelikhede van 'n datawetenskaplike

  • Onttrek kenmerke uit data om masjienleeralgoritmes toe te pas.
  • Die gebruik van verskeie masjienleerinstrumente om patrone in data te voorspel en te klassifiseer.
  • Verbeter die werkverrigting en akkuraatheid van masjienleeralgoritmes deur algoritmes te verfyn en te optimaliseer.
  • Vorming van "sterk" hipoteses in ooreenstemming met die maatskappy se strategie, wat getoets moet word.

Beide die Data Ingenieur en die Data Scientist kombineer 'n tasbare bydrae tot die ontwikkeling van 'n kultuur van werk met data, waardeur 'n maatskappy winste kan verhoog of koste kan verminder.

Met watter tale en gereedskap werk ingenieurs en wetenskaplikes?

Vandag het verwagtinge van datawetenskaplikes verander. Voorheen het ingenieurs groot SQL-navrae gebou, MapReduce met die hand geskryf en data verwerk met behulp van instrumente soos Informatica ETL, Pentaho ETL, Talend. 

In 2020 kan 'n spesialis nie sonder kennis van Python en moderne rekenaarhulpmiddels (byvoorbeeld Airflow) klaarkom nie, 'n begrip van die beginsels van werk met wolkplatforms (gebruik dit om op hardeware te bespaar, terwyl sekuriteitsbeginsels nagekom word).

SAP, Oracle, MySQL, Redis is tradisionele data-ingenieursinstrumente in groot maatskappye. Hulle is goed, maar die koste van lisensies is so hoog dat dit net sin maak om te leer hoe om met hulle te werk in industriële projekte. Terselfdertyd is daar 'n gratis alternatief in die vorm van Postgres - dit is gratis en geskik nie net vir leer nie. 

Data-ingenieur en datawetenskaplike: wat is die verskil?
Histories is 'n versoek vir Java en Scala dikwels teëgekom, hoewel hierdie tale op die agtergrond vervaag namate tegnologieë en benaderings ontwikkel.

Hardcore BigData: Hadoop, Spark en die res van die dieretuin is egter nie meer 'n voorvereiste vir 'n data-ingenieur nie, maar 'n soort hulpmiddel om probleme op te los wat tradisionele ETL nie kan oplos nie. 

Die neiging is dienste om gereedskap te gebruik sonder om die taal te ken waarin dit geskryf is (byvoorbeeld Hadoop sonder kennis van Java), asook die verskaffing van gereedgemaakte dienste vir die verwerking van stroomdata (herkenning van stem of beelde op video).

Industriële oplossings van SAS en SPSS is gewild, terwyl Tableau, Rapidminer, Stata en Julia ook wyd deur datawetenskaplikes vir plaaslike take gebruik word.

Data-ingenieur en datawetenskaplike: wat is die verskil?
Ontleders en datawetenskaplikes het net 'n paar jaar gelede die geleentheid gekry om self pyplyne te bou: dit is byvoorbeeld reeds moontlik om data na PostgreSQL-gebaseerde berging te stuur met relatief eenvoudige skrifte. 

Tipies word die gebruik van pyplyne en geïntegreerde datastrukture aan data-ingenieurs oorgelaat. Maar vandag is die neiging vir T-vormige spesialiste sterker as ooit – met breë bevoegdhede in verwante velde, want die gereedskap word voortdurend vereenvoudig.

Waarom 'n data-ingenieur en 'n datawetenskaplike saamwerk

Deur nou saam met ingenieurs te werk, kan Data Scientist op die navorsingskant fokus en masjienleeralgoritmes bou wat gereed is om te gaan.
En ingenieurs moet fokus op skaalbaarheid, datahergebruik en verseker dat data-invoer- en -uitvoerpyplyne in elke individuele projek aan die globale argitektuur voldoen.

Hierdie skeiding van pligte verseker konsekwentheid oor spanne wat aan verskillende masjienleerprojekte werk. 

Samewerking help om nuwe produkte effektief te skep. Spoed en kwaliteit word bereik deur 'n balans tussen die skep van 'n diens vir almal (globale berging of dashboard-integrasie) en die implementering van elke spesifieke behoefte of projek (hoogs gespesialiseerde pyplyn, koppeling van eksterne bronne). 

Deur nou saam te werk met datawetenskaplikes en -ontleders help ingenieurs om analitiese en navorsingsvaardighede te ontwikkel om beter kode te skryf. Kennisdeling word verbeter tussen gebruikers van datapakhuise en datamere, wat projekte meer buigsaam maak en meer volhoubare langtermynresultate lewer.

In maatskappye wat daarop gemik is om 'n kultuur van werk met data te ontwikkel en besigheidsprosesse op grond daarvan te bou, vul Data Scientist en Data Engineer mekaar aan en skep 'n volledige data-analisestelsel. 

In die volgende artikel sal ons praat oor watter soort opleiding 'n data-ingenieur en datawetenskaplikes moet hê, watter vaardighede hulle moet ontwikkel en hoe die mark werk.

Van die redaksie van Netology

As jy na die beroep van Data Ingenieur of Data Scientist kyk, nooi ons jou uit om die programme van ons kursusse te bestudeer:

Bron: will.com

Voeg 'n opmerking