Data-insinööri ja tietotieteilijä: Mitä eroa on?

Tietotieteilijän ja tietoinsinöörin ammatit menevät usein sekaisin. Jokaisella yrityksellä on omat erityispiirteensä tietojen kanssa työskentelyssä, eri tarkoitukset niiden analysoinnille ja erilainen käsitys siitä, kenen asiantuntijan tulee käsitellä mitäkin osaa työtä, joten jokaisella on omat vaatimuksensa. 

Selvitetään, mikä ero näiden asiantuntijoiden välillä on, mitä liiketoimintaongelmia he ratkaisevat, mitä taitoja heillä on ja kuinka paljon he ansaitsevat. Aineisto osoittautui suureksi, joten jaoimme sen kahteen julkaisuun.

Ensimmäisessä artikkelissa tiedekunnan johtaja Elena Gerasimova "Tietotiede ja analytiikka" Netologyssa kertoo, mitä eroa on datatieteilijillä ja tietoinsinööreillä ja mitä työkaluja he työskentelevät.

Miten insinöörien ja tiedemiesten roolit eroavat

Tietosuunnittelija on asiantuntija, joka toisaalta kehittää, testaa ja ylläpitää tietoinfrastruktuuria: tietokantoja, tallennus- ja massakäsittelyjärjestelmiä. Toisaalta tämä on se, joka puhdistaa ja "kampoi" dataa analyytikoiden ja datatieteilijöiden käyttöön, eli luo tiedonkäsittelyputkia.

Data Scientist luo ja kouluttaa ennustavia (ja muita) malleja käyttämällä koneoppimisalgoritmeja ja hermoverkkoja, mikä auttaa yrityksiä löytämään piilotettuja malleja, ennustamaan kehitystä ja optimoimaan keskeisiä liiketoimintaprosesseja.

Suurin ero Data Scientistin ja Data Engineerin välillä on, että heillä on yleensä erilaiset tavoitteet. Molemmat pyrkivät varmistamaan, että tiedot ovat saatavilla ja laadukkaita. Mutta datatieteilijä löytää vastaukset kysymyksiinsä ja testaa hypoteeseja dataekosysteemissä (esimerkiksi Hadoopin perusteella), ja tietoteknikko luo putkilinjan koneoppimisalgoritmille, jonka on kirjoittanut tietotieteilijä samassa Spark-klusterissa. ekosysteemi. 

Tietosuunnittelija tuo lisäarvoa yritykselle työskentelemällä osana tiimiä. Sen tehtävänä on toimia tärkeänä linkkinä eri toimijoiden välillä: kehittäjistä raportoinnin yrityskuluttajiin sekä nostaa analyytikoiden tuottavuutta markkinoinnista ja tuotteista BI:hin. 

Data Scientist päinvastoin osallistuu aktiivisesti yrityksen strategiaan ja poimii näkemyksiä, tekee päätöksiä, toteuttaa automaatioalgoritmeja, mallintaa ja tuottaa arvoa tiedosta.
Data-insinööri ja tietotieteilijä: Mitä eroa on?

Tiedon kanssa työskentelyyn sovelletaan GIGO-periaatetta (roskat sisään - roska ulos): jos analyytikot ja datatieteilijät käsittelevät valmistautumatonta ja mahdollisesti virheellistä dataa, tulokset ovat jopa kaikkein kehittyneimmillä analyysialgoritmeilla virheellisiä. 

Tietosuunnittelijat ratkaisevat tämän ongelman rakentamalla putkia tietojen käsittelyä, puhdistamista ja muuntamista varten ja sallimalla datatieteilijöiden työskennellä korkealaatuisen tiedon kanssa. 

Markkinoilla on monia työkaluja tietojen kanssa työskentelyyn, jotka kattavat kaikki vaiheet: tietojen ilmestymisestä tulostukseen hallituksen kojelautaan. Ja on tärkeää, että päätöksen niiden käytöstä tekee insinööri - ei siksi, että se olisi muotia, vaan siksi, että hän todella auttaa prosessin muiden osallistujien työtä. 

Perinteisesti: jos yrityksen on saatava BI ja ETL toimimaan yhdessä - lataamaan tietoja ja päivittämään raportteja, tässä on tyypillinen perinteinen perusta, jota tietoinsinöörin on käsiteltävä (on hyvä, jos tiimissä on myös arkkitehti).

Tietosuojainsinöörin tehtävät

  • Tietojenkäsittelyinfrastruktuurin kehittäminen, rakentaminen ja ylläpito.
  • Virheiden käsittely ja luotettavien tietojenkäsittelyputkien luominen.
  • Strukturoimattoman datan tuominen eri dynaamisista lähteistä analyytikkotyön edellyttämään muotoon.
  • Suositusten antaminen tietojen johdonmukaisuuden ja laadun parantamiseksi.
  • Datatutkijoiden ja data-analyytikkojen käyttämän tietoarkkitehtuurin tarjoaminen ja ylläpito.
  • Käsittele ja tallenna tietoja johdonmukaisesti ja tehokkaasti hajautettuun kymmenien tai satojen palvelimien klusteriin.
  • Arvioi työkalujen teknisiä kompromisseja luodaksesi yksinkertaisia ​​mutta kestäviä arkkitehtuureja, jotka selviävät häiriöistä.
  • Tietovirtojen ja niihin liittyvien järjestelmien ohjaus ja tuki (seurannan ja hälytysten määrittäminen).

Data Engineerin liikeradalla on toinen erikoisala - ML-insinööri. Lyhyesti sanottuna nämä insinöörit ovat erikoistuneet tuomaan koneoppimismalleja teolliseen toteutukseen ja käyttöön. Usein datatieteilijältä saatu malli on osa tutkimusta, eikä se välttämättä toimi taisteluolosuhteissa.

Tietotieteilijän tehtävät

  • Ominaisuuksien purkaminen tiedoista koneoppimisalgoritmien soveltamiseksi.
  • Erilaisten koneoppimistyökalujen käyttäminen datan kuvioiden ennustamiseen ja luokitteluun.
  • Parantaa koneoppimisalgoritmien suorituskykyä ja tarkkuutta hienosäätämällä ja optimoimalla algoritmeja.
  • Testattavien "vahvojen" hypoteesien muodostaminen yrityksen strategian mukaisesti.

Sekä Data Engineerillä että Data Scientistilla on konkreettinen panos tietokulttuurin kehittämiseen, jonka avulla yritys voi tuottaa lisätuottoja tai alentaa kustannuksia.

Millä kielillä ja työkaluilla insinöörit ja tiedemiehet työskentelevät?

Tänään odotukset datatieteilijöille ovat muuttuneet. Aiemmin insinöörit keräsivät suuria SQL-kyselyitä, kirjoittivat manuaalisesti MapReducen ja käsittelivät tietoja käyttämällä työkaluja, kuten Informatica ETL, Pentaho ETL, Talend. 

Vuonna 2020 asiantuntija ei voi pärjätä ilman Pythonin ja nykyaikaisten laskentatyökalujen (esimerkiksi Airflow) tuntemusta, pilvialustojen kanssa työskentelyn periaatteiden ymmärtämistä (käyttää niitä laitteiston säästämiseen turvallisuusperiaatteita noudattaen).

SAP, Oracle, MySQL, Redis ovat perinteisiä työkaluja suurten yritysten tietosuunnittelijoille. Ne ovat hyviä, mutta lisenssien hinta on niin korkea, että niiden kanssa työskentelyn oppiminen on järkevää vain teollisissa projekteissa. Samaan aikaan on ilmainen vaihtoehto Postgresin muodossa - se on ilmainen ja sopii paitsi harjoitteluun. 

Data-insinööri ja tietotieteilijä: Mitä eroa on?
Historiallisesti Java- ja Scala-pyyntöjä löytyy usein, vaikka teknologian ja lähestymistapojen kehittyessä nämä kielet häipyvät taustalle.

Vakava BigData: Hadoop, Spark ja muu eläintarha eivät kuitenkaan ole enää edellytys tietosuunnittelijalle, vaan eräänlainen työkalu ongelmien ratkaisemiseen, joita perinteisellä ETL:llä ei voida ratkaista. 

Trendi on palveluita työkalujen käyttämiseen ilman kirjoituksen kieltä (esimerkiksi Hadoop ilman Java-tietoa) sekä valmiiden palvelujen tarjoaminen suoratoistodatan käsittelyyn (äänentunnistus tai kuvantunnistus videossa ).

SAS:n ja SPSS:n teolliset ratkaisut ovat suosittuja, kun taas Tableau, Rapidminer, Stata ja Julia ovat myös laajasti tietotutkijoiden käytössä paikallisiin tehtäviin.

Data-insinööri ja tietotieteilijä: Mitä eroa on?
Mahdollisuus rakentaa itse putkia ilmaantui analyytikoille ja datatieteilijöille vasta pari vuotta sitten: esimerkiksi PostgreSQL-pohjaiseen tallennustilaan on jo mahdollista lähettää dataa suhteellisen yksinkertaisilla skripteillä. 

Tyypillisesti putkien ja integroitujen tietorakenteiden käyttö jää tietosuunnittelijoiden vastuulle. Mutta nykyään trendi saada T-muotoisia asiantuntijoita, joilla on laaja osaaminen lähialoilla, on vahvempi kuin koskaan, koska työkaluja yksinkertaistetaan jatkuvasti.

Miksi tietoinsinööri ja tietotieteilijä työskentelevät yhdessä

Työskentelemällä tiiviissä insinöörien kanssa datatieteilijät voivat keskittyä tutkimuspuolelle ja luoda tuotantovalmiita koneoppimisalgoritmeja.
Ja insinöörien on keskityttävä skaalautumiseen, tietojen uudelleenkäyttöön ja sen varmistamiseen, että datan syöttö- ja tulostusputket kussakin yksittäisessä projektissa ovat globaalin arkkitehtuurin mukaisia.

Tämä vastuiden jako varmistaa johdonmukaisuuden eri koneoppimisprojekteissa työskentelevien tiimien välillä. 

Yhteistyö auttaa luomaan uusia tuotteita tehokkaasti. Nopeus ja laatu saavutetaan tasapainottamalla palvelun luominen kaikille (maailmanlaajuinen tallennus tai dashboardien integrointi) ja kunkin erityistarpeen tai projektin toteuttaminen (erittäin erikoistunut putkisto, ulkoisten lähteiden yhdistäminen). 

Tiivis yhteistyö datatieteilijöiden ja analyytikoiden kanssa auttaa insinöörejä kehittämään analyyttisiä ja tutkimustaitoja paremman koodin kirjoittamiseen. Tietojen jakaminen varasto- ja datajärven käyttäjien kesken paranee, mikä tekee projekteista ketterämpiä ja tuottaa kestävämpiä pitkän aikavälin tuloksia.

Yrityksissä, jotka pyrkivät kehittämään tiedon kanssa työskentelykulttuuria ja rakentamaan siihen perustuvia liiketoimintaprosesseja, Data Scientist ja Data Engineer täydentävät toisiaan ja luovat täydellisen data-analyysijärjestelmän. 

Seuraavassa artikkelissa puhumme siitä, millainen koulutus tietoinsinöörillä ja tietotieteilijällä tulisi olla, mitä taitoja he tarvitsevat kehittyäkseen ja miten markkinat toimivat.

Netology-lehden toimittajilta

Jos etsit tietotekniikan tai tietotieteilijän ammattia, kutsumme sinut opiskelemaan kurssiohjelmiamme:

Lähde: will.com

Lisää kommentti