Onimọ-ẹrọ data ati Onimọ-jinlẹ data: kini iyatọ?

Awọn oojọ ti Onimọ-jinlẹ data ati Onimọ-ẹrọ data jẹ idamu nigbagbogbo. Ile-iṣẹ kọọkan ni awọn pato ti ara rẹ ti ṣiṣẹ pẹlu data, awọn idi oriṣiriṣi fun itupalẹ wọn ati imọran ti o yatọ ti eyiti alamọja yẹ ki o ṣe pẹlu apakan ti iṣẹ naa, nitorinaa ọkọọkan ni awọn ibeere tirẹ. 

Jẹ ki a ṣe akiyesi kini iyatọ laarin awọn alamọja wọnyi, kini awọn iṣoro iṣowo ti wọn yanju, kini awọn ọgbọn ti wọn ni ati iye ti wọn jo'gun. Ohun tí wọ́n kọ́ yìí sì tóbi, torí náà a pín in sí ìtẹ̀jáde méjì.

Ni akọkọ article Elena Gerasimova, ori ti awọn Oluko "Data Imọ ati atupale"Ni Netology, sọ kini iyatọ wa laarin Onimọ-jinlẹ data ati Onimọ-ẹrọ data ati awọn irinṣẹ wo ni wọn ṣiṣẹ pẹlu.

Bii awọn ipa ti awọn onimọ-ẹrọ ati awọn onimọ-jinlẹ ṣe yatọ

Onimọ-ẹrọ data jẹ alamọja ti, ni apa kan, ndagba, ṣe idanwo ati ṣetọju awọn amayederun data: awọn apoti isura infomesonu, ibi ipamọ ati awọn eto sisẹ ọpọlọpọ. Ni apa keji, eyi ni ẹni ti o sọ di mimọ ati "combs" data fun lilo nipasẹ awọn atunnkanka ati awọn onimọ-jinlẹ data, iyẹn ni, ṣẹda awọn opo gigun ti data.

Onimọ-jinlẹ data ṣẹda ati ṣe ikẹkọ awọn awoṣe asọtẹlẹ (ati awọn miiran) nipa lilo awọn algoridimu ikẹkọ ẹrọ ati awọn nẹtiwọọki nkankikan, ṣe iranlọwọ fun awọn iṣowo lati wa awọn ilana ti o farapamọ, asọtẹlẹ awọn idagbasoke ati mu awọn ilana iṣowo bọtini dara si.

Iyatọ akọkọ laarin Onimọ-jinlẹ Data ati Onimọ-ẹrọ data ni pe wọn nigbagbogbo ni awọn ibi-afẹde oriṣiriṣi. Awọn mejeeji ṣiṣẹ lati rii daju pe data wa ati ti didara ga. Ṣugbọn Onimọ-jinlẹ Data kan wa awọn idahun si awọn ibeere rẹ ati ṣe idanwo awọn idawọle ninu ilolupo data (fun apẹẹrẹ, ti o da lori Hadoop), ati pe Onimọ-ẹrọ data kan ṣẹda opo gigun ti epo fun ṣiṣe iṣẹ ṣiṣe ikẹkọ ẹrọ algorithm ti a kọ nipasẹ onimọ-jinlẹ data ni iṣupọ Spark laarin kanna. ilolupo. 

Onimọ-ẹrọ data n mu iye wa si iṣowo kan nipa ṣiṣẹ gẹgẹbi apakan ti ẹgbẹ kan. Iṣẹ-ṣiṣe rẹ ni lati ṣe bi ọna asopọ pataki laarin awọn olukopa oriṣiriṣi: lati awọn olupilẹṣẹ si awọn alabara iṣowo ti ijabọ, ati lati mu iṣelọpọ ti awọn atunnkanka pọ si, lati titaja ati ọja si BI. 

Onimọ-jinlẹ data kan, ni ilodi si, gba apakan ti nṣiṣe lọwọ ninu ete ile-iṣẹ ati yiyo awọn oye, ṣiṣe awọn ipinnu, imuse awọn algoridimu adaṣe, awoṣe ati ipilẹṣẹ iye lati data.
Onimọ-ẹrọ data ati Onimọ-jinlẹ data: kini iyatọ?

Ṣiṣẹ pẹlu data jẹ koko-ọrọ si ipilẹ GIGO (idoti ni - idoti jade) ilana: ti awọn atunnkanka ati awọn onimọ-jinlẹ data ṣe pẹlu data ti ko murasilẹ ati ti ko tọ, lẹhinna awọn abajade paapaa lilo awọn algoridimu onínọmbà ti o ga julọ yoo jẹ aṣiṣe. 

Awọn onimọ-ẹrọ data yanju iṣoro yii nipa kikọ awọn opo gigun ti epo fun sisẹ, mimọ ati iyipada data ati gbigba awọn onimọ-jinlẹ data laaye lati ṣiṣẹ pẹlu data didara giga. 

Ọpọlọpọ awọn irinṣẹ wa lori ọja fun ṣiṣẹ pẹlu data ti o bo gbogbo ipele: lati irisi data lati jade si dasibodu fun igbimọ awọn oludari. Ati pe o ṣe pataki pe ipinnu lati lo wọn jẹ nipasẹ ẹlẹrọ - kii ṣe nitori pe o jẹ asiko, ṣugbọn nitori pe oun yoo ṣe iranlọwọ gaan iṣẹ ti awọn olukopa miiran ninu ilana naa. 

Ni aṣa: ti ile-iṣẹ ba nilo lati ṣe awọn asopọ laarin BI ati ETL - data ikojọpọ ati awọn ijabọ imudojuiwọn, eyi ni ipilẹ ti o jẹ aṣoju ti Onimọ-ẹrọ data yoo ni lati koju (o dara ti ayaworan tun wa lori ẹgbẹ naa).

Awọn ojuse ti a Data Engineer

  • Idagbasoke, ikole ati itoju ti data processing amayederun.
  • Mimu awọn aṣiṣe ati ṣiṣẹda awọn opo gigun ti iṣelọpọ data igbẹkẹle.
  • Mu data ti a ko ṣeto lati oriṣiriṣi awọn orisun ti o ni agbara si fọọmu pataki fun iṣẹ awọn atunnkanka.
  • Pese awọn iṣeduro lati mu ilọsiwaju data ati didara dara sii.
  • Pese ati mimu faaji data lo nipasẹ awọn onimọ-jinlẹ data ati awọn atunnkanka data.
  • Ilana ati tọju data nigbagbogbo ati daradara ni akojọpọ pinpin ti awọn mewa tabi awọn ọgọọgọrun awọn olupin.
  • Ṣe iṣiro awọn iṣowo-imọ-ẹrọ ti awọn irinṣẹ lati ṣẹda irọrun ṣugbọn awọn faaji ti o lagbara ti o le ye idalọwọduro.
  • Iṣakoso ati atilẹyin awọn ṣiṣan data ati awọn eto ti o jọmọ (ṣeto ibojuwo ati awọn itaniji).

Amọja miiran wa laarin itọpa Imọ-ẹrọ Data – ẹlẹrọ ML. Ni kukuru, awọn onimọ-ẹrọ wọnyi ṣe amọja ni kiko awọn awoṣe ikẹkọ ẹrọ si imuse ile-iṣẹ ati lilo. Nigbagbogbo, awoṣe ti a gba lati ọdọ onimọ-jinlẹ data jẹ apakan ti iwadii kan ati pe o le ma ṣiṣẹ ni awọn ipo ija.

Awọn ojuse ti Onimọ-jinlẹ data

  • Yiyọ awọn ẹya lati inu data lati lo awọn algoridimu ikẹkọ ẹrọ.
  • Lilo awọn irinṣẹ ikẹkọ ẹrọ oriṣiriṣi lati ṣe asọtẹlẹ ati ṣe iyatọ awọn ilana ni data.
  • Imudarasi iṣẹ ṣiṣe ati deede ti awọn algoridimu ikẹkọ ẹrọ nipasẹ ṣiṣe-fifẹ ati iṣapeye awọn algoridimu.
  • Ibiyi ti awọn igbero “lagbara” ni ibamu pẹlu ilana ile-iṣẹ ti o nilo lati ni idanwo.

Mejeeji Onimọ-ẹrọ Data ati Onimọ-jinlẹ data pin ipa ojulowo si idagbasoke ti aṣa data kan, nipasẹ eyiti ile-iṣẹ le ṣe ina awọn ere afikun tabi dinku awọn idiyele.

Awọn ede ati awọn irinṣẹ wo ni awọn onimọ-ẹrọ ati awọn onimọ-jinlẹ ṣiṣẹ pẹlu?

Loni, awọn ireti fun awọn onimọ-jinlẹ data ti yipada. Ni iṣaaju, awọn onimọ-ẹrọ gba awọn ibeere SQL nla, pẹlu ọwọ kọ MapReduce ati data ti a ṣe ilana nipa lilo awọn irinṣẹ bii Informatica ETL, Pentaho ETL, Talend. 

Ni ọdun 2020, alamọja ko le ṣe laisi imọ ti Python ati awọn irinṣẹ iṣiro ode oni (fun apẹẹrẹ, Airflow), oye ti awọn ipilẹ ti ṣiṣẹ pẹlu awọn iru ẹrọ awọsanma (lilo wọn lati fipamọ sori ohun elo, lakoko wiwo awọn ipilẹ aabo).

SAP, Oracle, MySQL, Redis jẹ awọn irinṣẹ ibile fun awọn ẹlẹrọ data ni awọn ile-iṣẹ nla. Wọn dara, ṣugbọn iye owo awọn iwe-aṣẹ jẹ giga ti ẹkọ lati ṣiṣẹ pẹlu wọn nikan ni oye ni awọn iṣẹ akanṣe ile-iṣẹ. Ni akoko kanna, yiyan ọfẹ wa ni irisi Postgres - o jẹ ọfẹ ati pe o dara kii ṣe fun ikẹkọ nikan. 

Onimọ-ẹrọ data ati Onimọ-jinlẹ data: kini iyatọ?
Itan-akọọlẹ, awọn ibeere fun Java ati Scala nigbagbogbo ni a rii, botilẹjẹpe bi awọn imọ-ẹrọ ati awọn isunmọ ti ndagba, awọn ede wọnyi rọ si abẹlẹ.

Bibẹẹkọ, BigData hardcore: Hadoop, Spark ati iyoku ile-aye ẹranko kii ṣe ohun pataki ṣaaju fun ẹlẹrọ data, ṣugbọn iru awọn irinṣẹ lati yanju awọn iṣoro ti a ko le yanju nipasẹ ETL ibile. 

Aṣa naa jẹ awọn iṣẹ fun lilo awọn irinṣẹ laisi imọ ti ede ninu eyiti a kọ wọn (fun apẹẹrẹ, Hadoop laisi imọ Java), ati ipese awọn iṣẹ ti a ti ṣetan fun sisẹ data ṣiṣanwọle (idanimọ ohun tabi idanimọ aworan lori fidio. ).

Awọn solusan ile-iṣẹ lati SAS ati SPSS jẹ olokiki, lakoko ti Tableau, Rapidminer, Stata ati Julia tun jẹ lilo pupọ nipasẹ awọn onimọ-jinlẹ data fun awọn iṣẹ agbegbe.

Onimọ-ẹrọ data ati Onimọ-jinlẹ data: kini iyatọ?
Agbara lati kọ awọn opo gigun ti ara wọn han si awọn atunnkanka ati awọn onimọ-jinlẹ data ni ọdun meji sẹhin: fun apẹẹrẹ, o ṣee ṣe tẹlẹ lati firanṣẹ data si ibi ipamọ orisun-PostgreSQL nipa lilo awọn iwe afọwọkọ ti o rọrun. 

Ni deede, lilo awọn opo gigun ti epo ati awọn ẹya data ti a ṣepọ jẹ ojuṣe ti awọn ẹlẹrọ data. Ṣugbọn loni, aṣa fun awọn alamọja ti o ni apẹrẹ T pẹlu awọn agbara nla ni awọn aaye ti o jọmọ jẹ okun sii ju igbagbogbo lọ, nitori awọn irinṣẹ nigbagbogbo jẹ irọrun.

Kini idi ti Onimọ-ẹrọ data ati Onimọ-jinlẹ data Ṣiṣẹ papọ

Nipa ṣiṣẹ ni pẹkipẹki pẹlu awọn onimọ-ẹrọ, Awọn onimo ijinlẹ sayensi data le dojukọ ẹgbẹ iwadi, ṣiṣẹda awọn algoridimu ikẹkọ ẹrọ ti o ṣetan.
Ati awọn onimọ-ẹrọ nilo lati dojukọ iwọn iwọn, ilotunlo data, ati rii daju pe titẹ data ati awọn opo gigun ti o jade ninu iṣẹ akanṣe kọọkan ni ibamu pẹlu faaji agbaye.

Iyapa ti awọn ojuse ṣe idaniloju aitasera kọja awọn ẹgbẹ ti n ṣiṣẹ lori oriṣiriṣi awọn iṣẹ ikẹkọ ẹrọ. 

Ifowosowopo ṣe iranlọwọ lati ṣẹda awọn ọja tuntun daradara. Iyara ati didara jẹ aṣeyọri nipasẹ iwọntunwọnsi laarin ṣiṣẹda iṣẹ kan fun gbogbo eniyan (ibi ipamọ agbaye tabi isọpọ ti awọn dasibodu) ati imuse iwulo pato tabi iṣẹ akanṣe (opopona pataki ti o ga julọ, sisopọ awọn orisun ita). 

Ṣiṣẹpọ ni pẹkipẹki pẹlu awọn onimọ-jinlẹ data ati awọn atunnkanka ṣe iranlọwọ fun awọn onimọ-ẹrọ lati dagbasoke awọn imọ-itupalẹ ati awọn ọgbọn iwadii lati kọ koodu to dara julọ. Pinpin imọ laarin ile-itaja ati awọn olumulo adagun data ni ilọsiwaju, ṣiṣe awọn iṣẹ akanṣe diẹ sii ati jiṣẹ awọn abajade igba pipẹ alagbero diẹ sii.

Ni awọn ile-iṣẹ ti o ṣe ifọkansi lati ṣe agbekalẹ aṣa ti ṣiṣẹ pẹlu data ati ṣiṣe awọn ilana iṣowo ti o da lori wọn, Onimọ-jinlẹ data ati Onimọ-ẹrọ data ṣe iranlowo fun ara wọn ati ṣẹda eto itupalẹ data pipe. 

Ninu nkan ti o tẹle a yoo sọrọ nipa iru ẹkọ wo ni Onimọ-ẹrọ Data ati Awọn onimọ-jinlẹ data yẹ ki o ni, kini awọn ọgbọn ti wọn nilo lati dagbasoke ati bii ọja ṣe n ṣiṣẹ.

Lati awọn olootu ti Netology

Ti o ba n wo oojọ ti Onimọ-ẹrọ Data tabi Onimọ-jinlẹ data, a pe ọ lati kawe awọn eto iṣẹ-ẹkọ wa:

orisun: www.habr.com

Fi ọrọìwòye kun