Mhandisi wa Data na Mwanasayansi wa Data: Kuna tofauti gani?

Taaluma za Mwanasayansi wa Data na Mhandisi wa Data mara nyingi huchanganyikiwa. Kila kampuni ina maelezo yake ya kufanya kazi na data, madhumuni tofauti ya uchambuzi wao na wazo tofauti la ni mtaalamu gani anapaswa kushughulika na sehemu gani ya kazi, kwa hiyo kila mmoja ana mahitaji yake mwenyewe. 

Wacha tujue ni tofauti gani kati ya wataalam hawa, ni shida gani za biashara wanasuluhisha, wana ujuzi gani na wanapata pesa ngapi. Habari hiyo iligeuka kuwa kubwa, kwa hiyo tukaigawanya katika vichapo viwili.

Katika makala ya kwanza, Elena Gerasimova, mkuu wa kitivo "Sayansi ya Data na Uchanganuzi"katika Netology, inaelezea tofauti ni nini kati ya Mwanasayansi wa Data na Mhandisi wa Data na zana gani wanafanya kazi nazo.

Jinsi majukumu ya wahandisi na wanasayansi yanatofautiana

Mhandisi wa data ni mtaalamu ambaye, kwa upande mmoja, huendeleza, kupima na kudumisha miundombinu ya data: hifadhidata, uhifadhi na mifumo ya usindikaji wa wingi. Kwa upande mwingine, huyu ndiye anayesafisha na "kuchana" data kwa matumizi ya wachambuzi na wanasayansi wa data, yaani, huunda mabomba ya usindikaji wa data.

Data Scientist huunda na kufunza miundo ya kubashiri (na mingine) kwa kutumia algoriti za kujifunza kwa mashine na mitandao ya neva, kusaidia biashara kupata mifumo iliyofichwa, kutabiri maendeleo na kuboresha michakato muhimu ya biashara.

Tofauti kuu kati ya Mwanasayansi wa Data na Mhandisi wa Data ni kwamba huwa na malengo tofauti. Zote mbili hufanya kazi ili kuhakikisha kuwa data inapatikana na ya ubora wa juu. Lakini Mwanasayansi wa Data hupata majibu ya maswali yake na anajaribu dhahania katika mfumo ikolojia wa data (kwa mfano, kulingana na Hadoop), na Mhandisi wa Data huunda bomba la kuhudumia algorithm ya kusoma kwa mashine iliyoandikwa na mwanasayansi wa data katika nguzo ya Spark ndani ya safu hiyo hiyo. mfumo wa ikolojia. 

Mhandisi wa data huleta thamani kwa biashara kwa kufanya kazi kama sehemu ya timu. Jukumu lake ni kufanya kama kiunga muhimu kati ya washiriki tofauti: kutoka kwa watengenezaji hadi watumiaji wa biashara wa kuripoti, na kuongeza tija ya wachambuzi, kutoka kwa uuzaji na bidhaa hadi BI. 

Mwanasayansi wa Data, kinyume chake, anashiriki kikamilifu katika mkakati wa kampuni na kutoa maarifa, kufanya maamuzi, kutekeleza algorithms otomatiki, kuunda na kutoa thamani kutoka kwa data.
Mhandisi wa Data na Mwanasayansi wa Data: Kuna tofauti gani?

Kufanya kazi na data ni chini ya kanuni ya GIGO (takataka - takataka nje): ikiwa wachambuzi na wanasayansi wa data wanashughulikia data ambayo haijatayarishwa na uwezekano usio sahihi, basi matokeo hata kutumia algorithms ya uchambuzi wa kisasa zaidi itakuwa sahihi. 

Wahandisi wa data hutatua tatizo hili kwa kutengeneza mabomba ya kuchakata, kusafisha na kubadilisha data na kuruhusu wanasayansi wa data kufanya kazi na data ya ubora wa juu. 

Kuna zana nyingi kwenye soko za kufanya kazi na data inayoshughulikia kila hatua: kutoka kwa kuonekana kwa data hadi pato hadi dashibodi ya bodi ya wakurugenzi. Na ni muhimu kwamba uamuzi wa kuzitumia unafanywa na mhandisi - si kwa sababu ni mtindo, lakini kwa sababu atasaidia sana kazi ya washiriki wengine katika mchakato. 

Kikawaida: ikiwa kampuni inahitaji kuunganisha kati ya BI na ETL - kupakia data na kusasisha ripoti, hapa kuna msingi wa kawaida wa urithi ambao Mhandisi wa Data atalazimika kushughulikia (ni vyema ikiwa pia kuna mbunifu kwenye timu).

Majukumu ya Mhandisi wa Data

  • Maendeleo, ujenzi na matengenezo ya miundombinu ya usindikaji wa data.
  • Kushughulikia makosa na kuunda mabomba ya kuaminika ya usindikaji wa data.
  • Kuleta data isiyo na muundo kutoka kwa vyanzo mbalimbali vya nguvu kwa fomu muhimu kwa kazi ya wachambuzi.
  • Kutoa mapendekezo ya kuboresha uwiano na ubora wa data.
  • Kutoa na kudumisha usanifu wa data unaotumiwa na wanasayansi wa data na wachambuzi wa data.
  • Mchakato na uhifadhi data kwa uthabiti na kwa ufanisi katika kundi lililosambazwa la makumi au mamia ya seva.
  • Tathmini mabadiliko ya kiufundi ya zana ili kuunda usanifu rahisi lakini thabiti ambao unaweza kustahimili usumbufu.
  • Udhibiti na usaidizi wa mtiririko wa data na mifumo inayohusiana (kuweka ufuatiliaji na arifa).

Kuna utaalam mwingine ndani ya trajectory ya Mhandisi wa Data - mhandisi wa ML. Kwa kifupi, wahandisi hawa wana utaalam katika kuleta mifano ya kujifunza mashine kwa utekelezaji na utumiaji wa viwanda. Mara nyingi, mfano uliopokelewa kutoka kwa mwanasayansi wa data ni sehemu ya utafiti na hauwezi kufanya kazi katika hali ya kupambana.

Majukumu ya Mwanasayansi wa Data

  • Kutoa vipengele kutoka kwa data ili kutumia kanuni za kujifunza kwa mashine.
  • Kutumia zana mbalimbali za mashine za kujifunza kutabiri na kuainisha ruwaza katika data.
  • Kuboresha utendaji na usahihi wa kanuni za kujifunza kwa mashine kwa kurekebisha vyema na kuboresha kanuni.
  • Uundaji wa nadharia "nguvu" kwa mujibu wa mkakati wa kampuni unaohitaji kujaribiwa.

Mhandisi wa Data na Mwanasayansi wa Data hushiriki mchango unaoonekana katika ukuzaji wa utamaduni wa data, ambapo kampuni inaweza kutoa faida ya ziada au kupunguza gharama.

Wahandisi na wanasayansi hufanya kazi na lugha na zana gani?

Leo, matarajio ya wanasayansi wa data yamebadilika. Hapo awali, wahandisi walikusanya hoja kubwa za SQL, waliandika kwa mikono MapReduce na kuchakata data kwa kutumia zana kama vile Informatica ETL, Pentaho ETL, Talend. 

Mnamo 2020, mtaalamu hawezi kufanya bila ujuzi wa Python na zana za kisasa za kuhesabu (kwa mfano, Airflow), kuelewa kanuni za kufanya kazi na majukwaa ya wingu (kutumia kuokoa kwenye vifaa, huku ukizingatia kanuni za usalama).

SAP, Oracle, MySQL, Redis ni zana za kitamaduni za wahandisi wa data katika kampuni kubwa. Wao ni nzuri, lakini gharama ya leseni ni ya juu sana kwamba kujifunza kufanya kazi nao kuna maana tu katika miradi ya viwanda. Wakati huo huo, kuna mbadala ya bure kwa namna ya Postgres - ni bure na haifai tu kwa mafunzo. 

Mhandisi wa Data na Mwanasayansi wa Data: Kuna tofauti gani?
Kihistoria, maombi ya Java na Scala hupatikana mara nyingi, ingawa jinsi teknolojia na mbinu zinavyokua, lugha hizi hufifia nyuma.

Hata hivyo, hardcore BigData: Hadoop, Spark na bustani nyingine ya wanyama sio hitaji tena kwa mhandisi wa data, lakini ni aina ya zana za kutatua matatizo ambayo hayawezi kutatuliwa na ETL ya kitamaduni. 

Mwelekeo ni huduma za kutumia zana bila ujuzi wa lugha ambayo imeandikwa (kwa mfano, Hadoop bila ujuzi wa Java), pamoja na utoaji wa huduma zilizopangwa tayari za usindikaji wa data ya utiririshaji (utambuzi wa sauti au utambuzi wa picha kwenye video). )

Ufumbuzi wa viwanda kutoka SAS na SPSS ni maarufu, wakati Tableau, Rapidminer, Stata na Julia pia hutumiwa sana na wanasayansi wa data kwa kazi za ndani.

Mhandisi wa Data na Mwanasayansi wa Data: Kuna tofauti gani?
Uwezo wa kujenga mabomba yenyewe ulionekana kwa wachambuzi na wanasayansi wa data miaka michache iliyopita: kwa mfano, tayari inawezekana kutuma data kwa hifadhi ya PostgreSQL kwa kutumia hati rahisi. 

Kwa kawaida, matumizi ya mabomba na miundo jumuishi ya data inasalia kuwa jukumu la wahandisi wa data. Lakini leo, mwelekeo wa wataalam wenye umbo la T wenye ujuzi mpana katika nyanja zinazohusiana una nguvu zaidi kuliko hapo awali, kwa sababu zana zinarahisishwa kila mara.

Kwa nini Mhandisi wa Data na Mwanasayansi wa Data Wanafanya Kazi Pamoja

Kwa kufanya kazi kwa karibu na wahandisi, Wanasayansi wa Data wanaweza kuzingatia upande wa utafiti, na kuunda algoriti za kujifunza mashine zilizo tayari kwa uzalishaji.
Na wahandisi wanahitaji kuzingatia uwezekano, utumiaji upya wa data, na kuhakikisha kuwa njia za kuingiza data na kutoa matokeo katika kila mradi zinatii usanifu wa kimataifa.

Mgawanyo huu wa majukumu huhakikisha uwiano kati ya timu zinazofanya kazi kwenye miradi tofauti ya kujifunza mashine. 

Ushirikiano husaidia kuunda bidhaa mpya kwa ufanisi. Kasi na ubora hupatikana kupitia usawa kati ya kuunda huduma kwa kila mtu (uhifadhi wa kimataifa au ujumuishaji wa dashibodi) na kutekeleza kila hitaji au mradi maalum (bomba maalum sana, kuunganisha vyanzo vya nje). 

Kufanya kazi kwa karibu na wanasayansi na wachambuzi wa data husaidia wahandisi kukuza ujuzi wa uchanganuzi na utafiti ili kuandika nambari bora zaidi. Ushirikiano wa maarifa kati ya ghala na watumiaji wa data wa ziwa unaboresha, na kufanya miradi kuwa ya haraka zaidi na kutoa matokeo endelevu zaidi ya muda mrefu.

Katika makampuni ambayo yanalenga kukuza utamaduni wa kufanya kazi na data na kujenga michakato ya biashara kulingana nayo, Mwanasayansi wa Data na Mhandisi wa Data hukamilishana na kuunda mfumo kamili wa uchambuzi wa data. 

Katika makala inayofuata tutazungumza kuhusu aina gani ya elimu ambayo Mhandisi wa Data na Wanasayansi wa Data wanapaswa kuwa nayo, ni ujuzi gani wanaohitaji kuendeleza na jinsi soko linavyofanya kazi.

Kutoka kwa wahariri wa Netology

Ikiwa unatazama taaluma ya Mhandisi wa Data au Mwanasayansi wa Data, tunakualika usome programu zetu za kozi:

Chanzo: mapenzi.com

Kuongeza maoni