Onye injinia data na onye sayensị data: kedu ihe dị iche?

Ọrụ ndị ọkà mmụta sayensị data na Injinia data na-enwekarị mgbagwoju anya. Ụlọ ọrụ ọ bụla nwere nkọwa nke ya nke na-arụ ọrụ na data, ebumnuche dị iche iche maka nyocha ha na echiche dị iche iche nke ọkachamara kwesịrị ime akụkụ nke ọrụ ahụ, ya mere onye ọ bụla nwere ihe ọ chọrọ. 

Ka anyị chọpụta ihe dị iche n'etiti ndị ọkachamara a, nsogbu azụmahịa ha na-edozi, nkà ndị ha nwere na ego ole ha na-enweta. Ihe ndị ahụ bịara buru ibu, n’ihi ya, anyị kewara ya akwụkwọ abụọ.

N'isiokwu mbụ, Elena Gerasimov, onye isi nke ngalaba "Sayensị data na nyocha"Na Netology, na-agwa ihe dị iche n'etiti onye ọkà mmụta sayensị data na onye injinia data yana ngwá ọrụ ha na-arụ ọrụ.

Olee otú ọrụ ndị injinia na ndị ọkà mmụta sayensị si dị iche

Onye injinia data bụ ọkachamara nke, n'otu aka, na-etolite, na-anwale ma na-edobe akụrụngwa data: ọdụ data, nchekwa na usoro nhazi oke. N'aka nke ọzọ, nke a bụ onye na-ehicha ma "na-agbakọta" data maka ndị nyocha na ndị ọkà mmụta sayensị data, ya bụ, na-emepụta pipeline data nhazi.

Ọka mmụta sayensị na-emepụta ma na-azụ ụdị amụma (na ndị ọzọ) site na iji igwe mmụta algọridim na netwọkụ akwara, na-enyere ndị azụmaahịa aka ịchọta usoro zoro ezo, buru amụma mmepe na ebuli usoro azụmaahịa isi.

Isi ihe dị iche n'etiti onye ọkà mmụta sayensị data na onye injinia data bụ na ha na-enwekarị ebumnuche dị iche iche. Ha abụọ na-arụ ọrụ iji hụ na enwere ike ịnweta data na nke dị elu. Mana onye ọkà mmụta sayensị data na-achọta azịza nye ajụjụ ya wee nwalee echiche dị na gburugburu data (dịka ọmụmaatụ, dabere na Hadoop), onye injinia data na-emepụta ọkpọkọ maka ịrụ ọrụ igwe mmụta algọridim nke onye ọkà mmụta sayensị data dere na ụyọkọ Spark n'ime otu. gburugburu ebe obibi. 

Onye injinia data na-eweta uru na azụmahịa site na ịrụ ọrụ dịka akụkụ nke otu. Ọrụ ya bụ ime ihe dị ka njikọ dị mkpa n'etiti ndị sonyere dị iche iche: site na ndị mmepe na ndị na-azụ ahịa na-azụ ahịa nke ịkọ akụkọ, na ịbawanye mmepụta nke ndị nyocha, site na ịzụ ahịa na ngwaahịa na BI. 

Onye ọkà mmụta sayensị data, n'ụzọ megidere nke ahụ, na-etinye aka na atụmatụ ụlọ ọrụ ahụ na ịwepụta nghọta, na-eme mkpebi, na-emejuputa algọridim akpaaka, imepụta na imepụta uru sitere na data.
Onye injinia data na onye sayensị data: kedu ihe dị iche?

Ịrụ ọrụ na data dị n'okpuru ụkpụrụ GIGO (ihe mkpofu na-apụ apụ): ọ bụrụ na ndị nyocha na ndị ọkà mmụta sayensị na-emeso data na-akwadoghị na nke nwere ike na-ezighị ezi, mgbe ahụ, nsonaazụ ya ọbụna na-eji algorithms nyocha kachasị ọkaibe ga-abụ ezighi ezi. 

Ndị injinia data na-edozi nsogbu a site na ịmepụta pipeline maka nhazi, ihicha na ịgbanwe data na ikwe ka ndị ọkà mmụta sayensị data rụọ ọrụ na data dị elu. 

Enwere ọtụtụ ngwaọrụ n'ahịa maka ịrụ ọrụ na data na-ekpuchi ọkwa ọ bụla: site na ọdịdị data na mmepụta na dashboard maka ndị isi oche. Ma ọ dị mkpa na mkpebi iji ha mee ihe bụ onye injinia - ọ bụghị n'ihi na ọ bụ ejiji, ma n'ihi na ọ ga-enyere aka n'ezie ọrụ nke ndị ọzọ sonyere na usoro ahụ. 

N'otu oge: ọ bụrụ na ụlọ ọrụ kwesịrị ime njikọ n'etiti BI na ETL - na-ebu data na imelite akụkọ, ebe a bụ ntọala ntọala nke onye injinia data ga-emerịrị (ọ dị mma ma ọ bụrụ na enwekwara onye na-ese ụkpụrụ ụlọ na otu).

Ọrụ nke onye injinia data

  • Mmepe, iwu na mmezi nke akụrụngwa nhazi data.
  • Ijikwa njehie na ịmepụta pipeline nhazi data a pụrụ ịdabere na ya.
  • Na-ebute data na-enweghị nhazi site na isi mmalite dị ike dị iche iche na ụdị dị mkpa maka ọrụ nke ndị nyocha.
  • Na-enye ndụmọdụ iji kwalite ndakọrịta data na ịdị mma.
  • Inye ma na-edobe nhazi data nke ndị sayensị data na ndị nyocha data ji.
  • Hazie ma chekwaa data mgbe niile na nke ọma n'ime ụyọkọ kesara nke iri iri ma ọ bụ narị narị sava.
  • Nyochaa azụmaahịa teknụzụ nke ngwaọrụ iji mepụta ụlọ dị mfe mana siri ike nke nwere ike ịlanarị ọgba aghara.
  • Njikwa na nkwado nke data na-aga na usoro ndị metụtara ya (ịtọlite ​​nlekota na ọkwa).

Enwere ọpụrụiche ọzọ n'ime trajectory Data Engineer - ML engineer. Na nkenke, ndị injinia a bụ ọkachamara n'iweta ụdị mmụta igwe na mmejuputa ụlọ ọrụ na iji ya. Ọtụtụ mgbe, ihe nlereanya natara n'aka onye ọkà mmụta sayensị data bụ akụkụ nke ọmụmụ ihe na ọ gaghị arụ ọrụ na ọnọdụ ọgụ.

Ọrụ nke onye ọkà mmụta sayensị data

  • Ịwepụta atụmatụ na data iji tinye algọridim mmụta igwe.
  • Iji ngwá ọrụ mmụta igwe dị iche iche na-ebu amụma na ịhazi ụkpụrụ na data.
  • Ịkwalite arụmọrụ na izi ezi nke algọridim mmụta igwe site na imezigharị nke ọma na ịkwalite algọridim.
  • Ịmepụta echiche "ike" dabere na atụmatụ ụlọ ọrụ nke kwesịrị ịnwale.

Ma Engineer Data na Data Scientist na-ekerịta onyinye a na-ahụ anya na mmepe nke omenala data, site na nke ụlọ ọrụ nwere ike ịmepụta uru ọzọ ma ọ bụ belata ọnụ ahịa.

Kedu asụsụ na ngwa ọrụ ndị injinia na ndị sayensị na-arụ ọrụ?

Taa, atụmanya maka ndị ọkà mmụta sayensị data agbanweela. Na mbụ, ndị injinia nakọtara nnukwu ajụjụ SQL, jiri aka dee MapReduce ma hazie data site na iji ngwaọrụ dị ka Informatica ETL, Pentaho ETL, Talend. 

Na 2020, ọkachamara enweghị ike ịme n'enweghị ihe ọmụma nke Python na ngwaọrụ mgbako ọgbara ọhụrụ (dịka ọmụmaatụ, Airflow), nghọta nke ụkpụrụ nke ịrụ ọrụ na nyiwe igwe ojii (iji ha chekwaa na ngwaike, mgbe ị na-elele ụkpụrụ nchekwa).

SAP, Oracle, MySQL, Redis bụ ngwa ọdịnala maka ndị injinia data na nnukwu ụlọ ọrụ. Ha dị mma, mana ọnụ ahịa ikikere dị oke elu nke na ịmụta ịrụ ọrụ na ha bụ naanị ihe ezi uche dị na ya na ọrụ mmepụta ihe. N'otu oge ahụ, enwere nhọrọ ọzọ n'efu n'ụdị Postgres - ọ bụ n'efu na adabara ọ bụghị naanị maka ọzụzụ. 

Onye injinia data na onye sayensị data: kedu ihe dị iche?
N'akụkọ ihe mere eme, a na-achọtakarị arịrịọ maka Java na Scala, ọ bụ ezie na ka teknụzụ na ụzọ na-etolite, asụsụ ndị a na-adaba n'azụ.

Otú ọ dị, hardcore BigData: Hadoop, Spark na ndị ọzọ nke zoo abụghịzi ihe dị mkpa maka onye injinia data, kama ọ bụ ụdị ngwá ọrụ maka idozi nsogbu ndị ETL omenala na-apụghị idozi. 

Ihe na-emekarị bụ ọrụ maka iji ngwaọrụ na-enweghị ihe ọmụma nke asụsụ e dere ha (dịka ọmụmaatụ, Hadoop na-enweghị ihe ọmụma Java), yana ịnye ọrụ dị njikere maka nhazi data gụgharia (ụda olu ma ọ bụ njirimara onyonyo na vidiyo). ).

Ngwọta ụlọ ọrụ sitere na SAS na SPSS na-ewu ewu, ebe Tableau, Rapidminer, Stata na Julia na-ejikwa ndị sayensị data eme ihe maka ọrụ mpaghara.

Onye injinia data na onye sayensị data: kedu ihe dị iche?
Ikike imepụta pipeline pụtara nye ndị nyocha na ndị sayensị data naanị afọ ole na ole gara aga: dịka ọmụmaatụ, ọ ga-ekwe omume iziga data na nchekwa dabere na PostgreSQL site na iji edemede dị mfe. 

Dịka, iji pipeline na nhazi data agbakwunyere ka bụ ọrụ nke ndị injinia data. Mana taa, usoro maka ndị ọkachamara nwere ụdị T nwere ikike dị ukwuu na mpaghara metụtara ya siri ike karịa mgbe ọ bụla, n'ihi na a na-eme ka ngwaọrụ dị mfe mgbe niile.

Ihe kpatara onye injinia data na onye ọkà mmụta sayensị na-arụkọ ọrụ ọnụ

Site na iso ndị injinia na-arụkọ ọrụ ọnụ, ndị ọkà mmụta sayensị data nwere ike ilekwasị anya n'akụkụ nyocha, na-ekepụta algọridim mmụta igwe dị njikere.
Na ndị injinia kwesịrị ilekwasị anya na scalability, data mweghachi, na ịhụ na ntinye data na pipeline mmepụta na onye ọ bụla na-arụ ọrụ na-agbaso ụkpụrụ ụkpụrụ ụlọ zuru ụwa ọnụ.

Nkewa nke ọrụ a na-eme ka nkwekọ n'ofe otu ndị na-arụ ọrụ n'ọrụ mmụta igwe dị iche iche. 

Imekọ ihe ọnụ na-enyere aka ịmepụta ngwaahịa ọhụrụ nke ọma. A na-enweta ọsọ na ịdị mma site na nguzozi n'etiti ịmepụta ọrụ maka onye ọ bụla (nchekwa ụwa ma ọ bụ ntinye nke dashboards) na imejuputa mkpa ma ọ bụ ọrụ ọ bụla (pipeline pụrụ iche, na-ejikọta isi mmalite). 

Soro ndị sayensị sayensị na ndị nyocha na-arụkọ ọrụ ọnụ na-enyere ndị injinia aka ịzụlite nkà nyocha na nyocha iji dee koodu ka mma. Ịkekọrịta ihe ọmụma n'etiti ụlọ nkwakọba ihe na ndị ọrụ ọdọ data na-akawanye mma, na-eme ka oru ngo dịkwuo ọkụ ma na-ebute nsonaazụ ogologo oge.

N'ime ụlọ ọrụ ndị na-achọ ịzụlite omenala nke ịrụ ọrụ na data na iwulite usoro azụmahịa dabere na ha, Data Scientist na Data Engineer na-akwado ibe ha ma mepụta usoro nyocha data zuru oke. 

N'isiokwu na-esonụ, anyị ga-ekwu maka ụdị agụmakwụkwọ onye injinia data na ndị ọkà mmụta sayensị kwesịrị inwe, nkà ndị ha kwesịrị ịzụlite na otú ahịa ahụ si arụ ọrụ.

Site na ndị ndezi Netology

Ọ bụrụ na ị na-elele ọrụ nke Injinia Data ma ọ bụ Scientist Data, anyị na-akpọ gị òkù ka ị mụọ mmemme nkuzi anyị:

isi: www.habr.com

Tinye a comment