Data Engineer sy Data Scientist: inona no mahasamihafa azy?

Misafotofoto matetika ny asan'ny Data Scientist sy Data Engineer. Ny orinasa tsirairay dia manana ny fepetra manokana amin'ny fiasana amin'ny angon-drakitra, ny tanjona samihafa amin'ny famakafakana azy ary ny hevitra hafa momba ny hoe iza amin'ireo manam-pahaizana manokana no tokony handray anjara amin'ny ampahany amin'ny asa, noho izany, samy manana ny fepetra takian'izy ireo. 

Fantatsika hoe inona no maha samy hafa ireo manampahaizana manokana ireo, inona no asa ara-barotra voavahany, inona no fahaiza-manao ananany ary ohatrinona ny vola azony. Lasa lehibe ilay izy, ka nozaraina ho boky roa.

Ao amin'ny lahatsoratra voalohany, Elena Gerasimova, lehiben'ny sampana "Data Science sy Analytics” ao amin'ny Netology, dia milaza ny maha-samihafa ny Data Scientist sy ny Data Engineer ary ny fitaovana iasany.

Inona no maha samy hafa ny andraikitry ny injeniera sy ny mpahay siansa?

Ny injeniera data dia manam-pahaizana manokana izay, amin'ny lafiny iray, mamolavola, mitsapa ary mitazona ny fotodrafitrasa hiasa amin'ny angon-drakitra: angon-drakitra, fitahirizana ary rafitra fanodinana faobe. Amin'ny lafiny iray, ity no manadio sy "mitongilana" angona hampiasain'ny mpandinika sy mpahay siansa momba ny data, izany hoe mamorona fantsona fanodinana data.

Ny Data Scientist dia manorina sy manofana modely maminavina (sy maro hafa) amin'ny alΓ lan'ny algorithm fianarana milina sy tambajotra neural mba hanampiana ny orinasa hahita modely miafina, haminavina ny fivoarana ho avy ary hanatsara ny fizotran'ny raharaham-barotra.

Ny fahasamihafana lehibe eo amin'ny Data Scientist sy ny Data Engineer dia matetika manana tanjona samihafa izy ireo. Samy miasa mba hitazonana ny angona azo idirana sy kalitao avo lenta. Fa ny Data Scientist dia mahita valiny amin'ny fanontaniany ary mizaha vinavina ao amin'ny ecosystem data (ohatra, miorina amin'ny Hadoop), ary ny Data Engineer dia mamorona fantsona serivisy ho an'ny algorithm fianarana milina nosoratan'ny mpahay siansa data ao anaty cluster Spark ao anatin'izany. tontolo iainana. 

Ny injeniera data dia manome lanja ny orinasa iray amin'ny fiaraha-miasa amin'ny ekipa. Ny iraka ataony dia ny miasa ho toy ny rohy manan-danja eo amin'ny mpandray anjara samihafa - manomboka amin'ny mpamorona ka hatramin'ny mpampiasa ny orinasan'ny tatitra - ary ny hampitombo ny fahavokarana ny mpandinika - manomboka amin'ny varotra sy ny vokatra mankany amin'ny BI. 

Ny Data Scientist, etsy ankilany, dia mandray anjara mavitrika amin'ny paikadin'ny orinasa ary misintona hevi-baovao, mandray fanapahan-kevitra, mampihatra ny algorithm automatique, mamolavola sy mamokatra sanda avy amin'ny angona.
Data Engineer sy Data Scientist: inona no mahasamihafa azy?

Ny fiasana amin'ny angon-drakitra dia iharan'ny fitsipika GIGO (fako ao - fako mivoaka) : raha toa ny mpandinika sy ny mpahay siansa momba ny data dia miatrika angona tsy voaomana sy mety ho diso, dia ho diso ny valin'ny algorithm famakafakana be pitsiny indrindra. 

Ny injeniera data dia mamaha ity olana ity amin'ny fananganana fantsona ho an'ny fanodinana, fanadiovana ary fanovana angon-drakitra ary mamela ny mpahay siansa data hiasa miaraka amin'ny angona avo lenta. 

Betsaka ny fitaovana angon-drakitra eny an-tsena izay mandrakotra ny dingana tsirairay: manomboka amin'ny fisehon'ny angon-drakitra mankany amin'ny fivoahana mankany amin'ny dashboard ho an'ny filankevi-pitantanana. Ary zava-dehibe ny hanapahan'ny injeniera ny fanapahan-kevitra momba ny fampiasana azy ireo, tsy noho ny lamaody, fa noho izy hanampy ireo mpandray anjara hafa amin'ny dingana amin'ny asany. 

Fepetra: raha mila minamana amin'ny BI sy ETL ny orinasa iray - mametaka data sy manavao ny tatitra, ity misy fototra lova mahazatra izay tsy maintsy atrehin'ny Injeniera Data (tsara raha misy architect koa ao amin'ny ekipa ankoatra azy) .

Ny andraikitry ny Injeniera Data

  • Fampandrosoana, fananganana ary fikojakojana ny fotodrafitrasa hiasa amin'ny angona.
  • Hadisoana amin'ny fikarakarana sy fananganana fantsona fanodinana data matanjaka.
  • Mitondra angon-drakitra tsy voarafitra avy amin'ny loharano mavitrika isan-karazany amin'ny endrika ilaina amin'ny asan'ny mpandinika.
  • Manome tolo-kevitra hanatsarana ny tsy fitoviana sy ny kalitaon'ny angona.
  • Fanomezana sy fikojakojana ny rafitra angon-drakitra ampiasain'ny mpahay siansa momba ny data sy ny mpandinika angona.
  • Fanodinana sy fitehirizana angon-drakitra tsy tapaka sy mahomby amin'ny vondron'ny mpizara am-polony na an-jatony.
  • Tombano ny fifanakalozam-barotra ara-teknika amin'ny fitaovana mba hamoronana maritrano tsotra nefa matanjaka izay afaka miaina amin'ny tsy fahombiazana.
  • Fanaraha-maso sy fanohanana ny fikorianan'ny angona sy ny rafitra mifandraika amin'izany (fametrahana fanaraha-maso sy fanairana).

Misy fanasokajiana iray hafa ao anatin'ny lΓ lan'ny Data Engineer - injeniera ML. Raha fintinina, ireo injeniera ireo dia manam-pahaizana manokana amin'ny fitondrana modely fianarana milina amin'ny fananganana sy fampiasana indostrialy. Matetika, ny modely siantifika data dia ampahany amin'ny fandalinana ary mety tsy miasa amin'ny ady.

Ny andraikitry ny mpahay siansa momba ny angona

  • Fanalana endri-javatra avy amin'ny angona hampiharana ny algorithm fianarana milina.
  • Mampiasa fitaovana fianarana milina isan-karazany mba haminavina sy hanasokajiana ny lamina amin'ny angona.
  • Manatsara ny fampandehanana sy ny fahamarinan'ny algorithm fianarana milina amin'ny alΓ lan'ny fanitsiana sy fanatsarana ny algorithm.
  • Ny fananganana vinavina "matanjaka" mifanaraka amin'ny paikadin'ny orinasa, izay mila andrana.

Na ny Data Engineer na ny Data Scientist dia samy manambatra ny fandraisana anjara mivaingana amin'ny fampivoarana ny kolontsain'ny fiaraha-miasa amin'ny angon-drakitra, izay ahafahan'ny orinasa mampitombo tombombarotra na mampihena ny fandaniana.

Inona ny fiteny sy fitaovana iasan'ny injeniera sy ny mpahay siansa?

Ankehitriny, niova ny andrasan'ny mpahay siansa momba ny data. Teo aloha, ny injeniera dia nanangana fanontaniana SQL lehibe, nanoratra an-tΓ nana ny MapReduce ary nanamboatra angona tamin'ny fampiasana fitaovana toy ny Informatica ETL, Pentaho ETL, Talend. 

Amin'ny 2020, ny manam-pahaizana manokana dia tsy afaka manao raha tsy misy fahalalana momba ny Python sy ny fitaovana informatika maoderina (ohatra, Airflow), ny fahatakarana ny fitsipiky ny fiasana amin'ny sehatra rahona (mampiasa azy ireo mba hitehirizana ny fitaovana, raha mandinika ny fitsipiky ny fiarovana).

SAP, Oracle, MySQL, Redis dia fitaovana injeniera data nentim-paharazana amin'ny orinasa lehibe. Tsara izy ireo, saingy lafo be ny vidin'ny fahazoan-dΓ lana ka tsy misy dikany ny mianatra miara-miasa aminy amin'ny tetikasa indostrialy. Mandritra izany fotoana izany, misy safidy malalaka amin'ny endrika Postgres - maimaim-poana ary mety tsy ho an'ny fianarana ihany. 

Data Engineer sy Data Scientist: inona no mahasamihafa azy?
Ara-tantara, matetika no nisy ny fangatahana Java sy Scala, na dia mihamitombo aza ny teknolojia sy ny fomba fiasa, ireo fiteny ireo dia manjavona any aoriana.

Na izany aza, ny hardcore BigData: Hadoop, Spark ary ny sisa amin'ny zoo dia tsy fepetra takiana ho an'ny injeniera data intsony, fa karazana fitaovana hamahana olana izay tsy afaka mamaha ny ETL nentim-paharazana. 

Ny fironana dia ny serivisy amin'ny fampiasana fitaovana tsy misy fahalalana ny fiteny nanoratana azy (ohatra, Hadoop tsy misy fahalalana Java), ary koa ny fanomezana serivisy efa vita amin'ny fanodinana angon-drakitra (fanekena ny feo na sary amin'ny horonan-tsary).

Ny vahaolana indostrialy avy amin'ny SAS sy SPSS dia malaza, raha ny Tableau, Rapidminer, Stata ary Julia dia ampiasain'ny mpahay siansa momba ny angona ho an'ny asa eo an-toerana.

Data Engineer sy Data Scientist: inona no mahasamihafa azy?
Ny mpandinika sy ny mpahay siansa momba ny angona dia nahazo fahafahana hanangana fantsona ho an'ny tenany ihany, roa taona lasa izay: ohatra, efa azo atao ny mandefa data amin'ny fitehirizana miorina amin'ny PostgreSQL miaraka amin'ny script somary tsotra. 

Amin'ny ankapobeny, ny fampiasana fantsona sy ny rafitra data mitambatra dia avela ho an'ny injeniera data. Saingy amin'izao fotoana izao, ny fironana ho an'ny manam-pahaizana manokana amin'ny endrika T dia matanjaka kokoa noho ny hatramin'izay - miaraka amin'ny fahaiza-manao midadasika amin'ny sehatra mifandraika, satria ny fitaovana dia nohamafisina hatrany.

Nahoana ny Injeniera momba ny angona sy ny mpahay siansa momba ny angona no miara-miasa

Amin'ny fiaraha-miasa akaiky amin'ny injeniera, ny Data Scientist dia afaka mifantoka amin'ny lafin'ny fikarohana, manangana algorithm fianarana milina efa vonona handeha.
Ary ny injeniera dia tokony hifantoka amin'ny scalability, fampiasana indray ny angon-drakitra, ary hiantoka fa ny fampidirana angon-drakitra sy ny fantsona mivoaka amin'ny tetikasa tsirairay dia mifanaraka amin'ny maritrano manerantany.

Ity fanavahana adidy ity dia miantoka ny tsy fitovian'ny ekipa miasa amin'ny tetikasa fianarana milina samihafa. 

Ny fiaraha-miasa dia manampy amin'ny famoronana vokatra vaovao amin'ny fomba mahomby. Ny hafainganam-pandeha sy ny kalitao dia tratra amin'ny alΓ lan'ny fifandanjana eo amin'ny famoronana serivisy ho an'ny rehetra (fitehirizana eran-tany na fampidirana dashboard) sy ny fampiharana ny filana manokana na tetikasa tsirairay (fantsona manokana, mampifandray loharano ivelany). 

Ny fiaraha-miasa akaiky amin'ireo mpahay siansa sy mpandinika angona dia manampy ny injeniera hampivelatra ny fahaiza-manadihady sy fikarohana mba hanoratra kaody tsara kokoa. Ny fifampizarΓ na fahalalana dia hatsaraina eo amin'ireo mpampiasa trano fitehirizam-baovao sy farihy data, ka mahatonga ny tetikasa ho mora kokoa sy manome vokatra maharitra maharitra kokoa.

Ao amin'ny orinasa mikendry ny hamolavola kolontsaina miara-miasa amin'ny angon-drakitra ary manorina ny fizotran'ny raharaham-barotra mifototra amin'izany, ny Data Scientist sy Data Engineer dia mifameno ary mamorona rafitra famakafakana data feno. 

Ao amin'ny lahatsoratra manaraka dia hiresaka momba ny karazana fanabeazana tokony hananan'ny Injeniera Data sy mpahay siansa momba ny angona, inona ny fahaiza-manao ilainy hampivelatra ary ny fomba fiasan'ny tsena.

Avy amin'ny tonian'ny Netology

Raha mijery ny asan'ny Data Engineer na Data Scientist ianao, dia manasa anao izahay handalina ny fandaharam-pianaranay:

Source: www.habr.com

Add a comment