Ihe nnwale data buru ibu na nke nta: usoro, tiori, akụkọ m

Ndewo onye ọ bụla, aha m bụ Alexander, na abụ m onye injinia Ogo data nke na-enyocha data maka ịdị mma ya. Edemede a ga-ekwu maka otu m siri bịa na nke a na ihe kpatara na 2020 mpaghara nnwale a dị na oke ebili mmiri.

Ihe nnwale data buru ibu na nke nta: usoro, tiori, akụkọ m

Omume zuru ụwa ọnụ

Ụwa nke oge a na-enwe mgbanwe nkà na ụzụ ọzọ, otu akụkụ nke bụ iji ụdị ụlọ ọrụ dị iche iche na-achịkọta data iji kwalite ahịa nke onwe ha, uru na PR. O yiri ka ọnụnọ nke data dị mma (ịdị mma), yana ụbụrụ ndị nwere nkà bụ ndị nwere ike isi na ya nweta ego (usoro ziri ezi, na-ahụ anya, wuo ụdị mmụta igwe, wdg), aghọwo isi ihe na-eme ka ọtụtụ ndị nwee ọganihu taa. Ọ bụrụ na afọ 15-20 gara aga, nnukwu ụlọ ọrụ na-etinye aka na ọrụ siri ike na mkpokọta data na itinye ego, taa bụ ọtụtụ ihe fọrọ nke nta ka ọ bụrụ ndị niile nwere uche.

N'okwu a, ọtụtụ afọ gara aga, ọnụ ụzọ niile a raara nye maka ịchọ ọrụ gburugburu ụwa malitere jupụta na ohere maka ndị ọkà mmụta sayensị Data, ebe ọ bụ na onye ọ bụla ji n'aka na, mgbe ọ goro ọkachamara dị otú ahụ, ọ ga-ekwe omume ịmepụta ihe mmụta igwe na-enweghị atụ. , buru amụma ọdịnihu ma mee "quantum leap" maka ụlọ ọrụ ahụ. Ka oge na-aga, ndị mmadụ ghọtara na ọ fọrọ nke nta ka ọ bụrụ na usoro a adịghị arụ ọrụ n'ebe ọ bụla, ebe ọ bụ na ọ bụghị data niile na-adaba n'aka ndị ọkachamara dị otú ahụ kwesịrị ekwesị maka ụdị ọzụzụ.

Na arịrịọ sitere n'aka ndị ọkà mmụta sayensị data malitere: "Ka anyị zụtakwu data sitere na ndị a na ndị ahụ...", "Anyị enweghị data zuru ezu...", "Anyị chọrọ data ndị ọzọ, ọkacha mma nke dị elu..." . Dabere na arịrịọ ndị a, a malitere ime ọtụtụ mmekọrịta n'etiti ụlọ ọrụ nwere otu data ma ọ bụ ọzọ. Dị ka o kwesịrị ịdị, nke a chọrọ nhazi nhazi nke usoro a - ijikọ na isi iyi data, nbudata ya, ịlele na ọ na-eju ya n'ụzọ zuru ezu, wdg Ọnụ ọgụgụ nke usoro ndị dị otú ahụ malitere ịmalite, na taa, anyị nwere nnukwu mkpa maka ụdị ọzọ. ọkachamara - Data Quality engineer - ndị ga-nyochaa eruba nke data na usoro (data pipelines), àgwà nke data na ntinye na mmepụta, na-eru nkwubi banyere ha zuru ezu, iguzosi ike n'ezi ihe na ndị ọzọ e ji mara.

Usoro maka ndị injinia Ogo Data sitere na USA bịakwutere anyị, ebe, n'etiti ọgba aghara nke ikeketeke, ọ nweghị onye dị njikere ida agha maka data. N'okpuru, enyela m nseta ihuenyo sitere na saịtị abụọ kacha ewu ewu na-achọ ọrụ na US: www.monster.com и www.dice.com - nke na-egosipụta data dị ka nke Machị 17, 2020 na ọnụọgụ nke ohere ezigara enwetara site na iji mkpụrụokwu: Ogo data na onye sayensị data.

www.monster.com

Ndị ọkà mmụta sayensị data - 21416 ohere
Ogo data - 41104 ohere

Ihe nnwale data buru ibu na nke nta: usoro, tiori, akụkọ m
Ihe nnwale data buru ibu na nke nta: usoro, tiori, akụkọ m

www.dice.com

Ndị ọkà mmụta sayensị data - 404 ohere
Ogo data - ohere 2020

Ihe nnwale data buru ibu na nke nta: usoro, tiori, akụkọ m
Ihe nnwale data buru ibu na nke nta: usoro, tiori, akụkọ m

N'ụzọ doro anya, ọrụ ndị a abụghị n'ụzọ ọ bụla na-asọrịta mpi na ibe ha. Site na nseta ihuenyo, achọrọ m ịkọwa ọnọdụ dị ugbu a na ahịa ọrụ n'ihe gbasara arịrịọ maka ndị injinia Ogo data, bụ ndị achọrọ karịa ugbu a karịa ndị sayensị data.

Na June 2019, EPAM, na-aza mkpa nke ahịa IT ọgbara ọhụrụ, kewapụrụ ogo data ka ọ bụrụ omume dị iche. Ndị injinia Ogo data, n'oge ọrụ ha kwa ụbọchị, na-ejikwa data, lelee omume ya n'ọnọdụ ọhụrụ na sistemụ, nyochaa mkpa data ahụ, ntozu ya na mkpa ya. N'ihe ndị a niile, n'ụzọ bara uru, ndị injinia Ogo data na-etinye oge dị nta na nnwale ọrụ oge gboo, Ma nke a dabere na oru ngo (M ga-enye ihe atụ n'okpuru).

Ọrụ nke onye injinia ogo data abụghị naanị na nyocha akwụkwọ ntuziaka / akpaaka oge niile maka “nulls, agụta na nchikota” na tebụl nchekwa data, mana chọrọ nghọta miri emi nke mkpa azụmahịa nke onye ahịa yana, yabụ, ikike ịgbanwe data dị ka ọ bụrụ ozi azụmahịa bara uru.

Ozizi Ogo data

Ihe nnwale data buru ibu na nke nta: usoro, tiori, akụkọ m

Ka anyị wee ghọta nke ọma ọrụ onye injinia dị otú ahụ, ka anyị chọpụta ihe Ogo Data dị na tiori.

Ogo data - otu n'ime usoro njikwa data (ụwa dum anyị ga-ahapụrụ gị ka ị mụọ n'onwe gị) yana ọ bụ ya na-ahụ maka nyocha data dị ka usoro ndị a si dị:

Ihe nnwale data buru ibu na nke nta: usoro, tiori, akụkọ m
Echere m na ọ dịghị mkpa ịkọwapụta isi ihe ọ bụla (na tiori a na-akpọ ha "akụkụ data"), a kọwara ha nke ọma na foto a. Mana usoro nnwale n'onwe ya apụtaghị na iṅomi njirimara ndị a n'ime ikpe ule na ịlele ha. Na Ogo Data, dị ka ọ dị n'ụdị ule ọ bụla ọzọ, ọ dị mkpa, nke mbụ, iji wulite n'ihe achọrọ ogo data nke ndị sonyere n'ọrụ na-eme mkpebi azụmaahịa.

Dabere na oru ngo Data Quality, onye injinia nwere ike ịrụ ọrụ dị iche iche: site na onye nyocha akpaaka nkịtị nwere nleba anya nke ogo data, ruo onye na-eme nyocha data miri emi dịka njirisi dị n'elu.

A kọwara nkọwa zuru oke nke njikwa data, ogo data na usoro metụtara ya nke ọma n'akwụkwọ a kpọrọ "DAMA-DMBOK: Data Management Body of Knowledge: 2nd Edition". Ana m akwado akwụkwọ a nke ukwuu ka ọ bụrụ okwu mmeghe nke isiokwu a (ị ga-ahụ njikọ ya na njedebe nke isiokwu).

Akụkọ m

N'ime ụlọ ọrụ IT, arụrụ m ọrụ site na onye nyocha Junior na ụlọ ọrụ ngwaahịa gaa na Injinia Ogo Data Lead na EPAM. Mgbe ihe dị ka afọ abụọ nke na-arụ ọrụ dị ka onye na-anwale, enwere m nkwenye siri ike na m mere nnọọ ụdị ule niile: nlọghachi azụ, ọrụ, nchekasị, nkwụsi ike, nchekwa, UI, wdg - ma nwalee ọnụ ọgụgụ dị ukwuu nke ngwaọrụ nyocha, inwe. rụrụ ọrụ n'otu oge na asụsụ mmemme atọ: Java, Scala, Python.

N'ileghachi anya azụ, aghọtara m ihe kpatara usoro nka m ji dị iche iche - etinyere m aka na ọrụ ndị data na-ebute, nnukwu na obere. Nke a bụ ihe butere m n'ime ụwa nke ọtụtụ ngwaọrụ na ohere maka uto.

Iji ghọta ụdị ngwá ọrụ dị iche iche na ohere iji nweta ihe ọmụma na nkà ọhụrụ, dị nnọọ anya na foto dị n'okpuru ebe a, nke na-egosi ndị kasị ewu ewu na ụwa "Data & AI".

Ihe nnwale data buru ibu na nke nta: usoro, tiori, akụkọ m
A na-achịkọta ụdị ihe atụ a kwa afọ site n'aka otu onye ama ama ama ama Matt Turck, onye sitere na mmepe ngwanrọ. Ebe a ngalaba na blọọgụ ya na ụlọ ọrụ venture Capital, ebe ọ na-arụ ọrụ dị ka onye mmekọ.

M toro ọkachamara ngwa ngwa mgbe m bụ naanị onye nyocha na ọrụ ahụ, ma ọ bụ ma ọ dịkarịa ala na mmalite nke ọrụ ahụ. Ọ bụ n'oge dị otú ahụ ka ị ga-ahụ maka usoro nyocha niile, ma ị nweghị ohere ịlaghachi azụ, naanị n'ihu. Na mbụ ọ tụrụ egwu, mana ugbu a uru niile dị n'ule dị otú ahụ doro m anya:

  • Ị na-amalite ịkparịta ụka n'etiti ndị otu niile dị ka ọ dịtụbeghị mbụ, ebe ọ bụ na ọ dịghị onye nnọchiteanya maka nkwurịta okwu: ma onye njikwa ule ma ọ bụ ndị nyocha ibe.
  • The imikpu na oru ngo na-aghọ incredibly miri emi, na ị nwere ozi banyere ihe niile components, ma n'ozuzu na n'ụzọ zuru ezu.
  • Ndị mmepe anaghị ele gị anya dị ka "onye ahụ si na-anwale onye na-amaghị ihe ọ na-eme," kama dị ka nha nha nke na-emepụta uru dị egwu maka ndị otu ya na ule ya akpaghị aka na atụmanya nke ahụhụ na-apụta na otu akụkụ nke ngwaahịa.
  • N'ihi ya, ị na-arụ ọrụ nke ọma, tozuru oke, yana ndị ọzọ na-achọsi ike.

Ka oru ngo na-eto eto, na 100% nke ikpe m ghọrọ onye ndụmọdụ maka ndị ọhụrụ testers, na-akụziri ha na-enyefe ihe ọmụma na m mụtara onwe m. N'otu oge ahụ, dabere na ọrụ ahụ, anaghị m enweta ọkwa kachasị elu nke ndị ọkachamara na-anwale ụgbọ ala site na njikwa na ọ dị mkpa ịzụ ha na akpaaka (maka ndị nwere mmasị) ma ọ bụ mepụta ngwá ọrụ maka iji mee ihe na-eme kwa ụbọchị (ngwaọrụ). maka ịmepụta data ma na-ebunye ya n'ime usoro ahụ , ngwá ọrụ maka ịrụ ọrụ nyocha / nkwụsịtụ "ngwa ngwa", wdg).

Ọmụmaatụ nke otu oru ngo

N'ụzọ dị mwute, n'ihi ọrụ na-abụghị nke ngosi, enweghị m ike ikwu n'ụzọ zuru ezu banyere ọrụ ndị m na-arụ ọrụ na, ma m ga-enye ihe atụ nke-ahụkarị aga-eme nke a Data Quality Engineer na otu n'ime oru ngo.

Ihe kachasị mkpa nke ọrụ a bụ iji mejuputa ikpo okwu maka ịkwadebe data maka ịzụ ụdị mmụta igwe na-adabere na ya. Onye ahịa ahụ bụ nnukwu ụlọ ọrụ na-emepụta ọgwụ sitere na USA. Na teknụzụ ọ bụ ụyọkọ Kubernetes, na-ebili ka Ọnụ ego EC2 ihe atụ, yana ọtụtụ microservices yana ọrụ mepere emepe nke EPAM - ndi luru agha, na-emegharị maka mkpa nke onye ahịa kpọmkwem (ugbu a a maliteghachiri ọrụ ahụ odahu). A haziri usoro ETL site na iji Apache ikuku wee bugharịa data si Ahịa ahịa usoro na Azụ S3 bọket. Na-esote, etinyere onyonyo Docker nke ụdị mmụta igwe n'elu ikpo okwu, nke a zụrụ azụ na data ọhụrụ yana, iji REST API interface, wepụta amụma ndị nwere mmasị na azụmaahịa ahụ wee dozie nsogbu ụfọdụ.

N'anya, ihe niile dị ka nke a:

Ihe nnwale data buru ibu na nke nta: usoro, tiori, akụkọ m
E nwere ọtụtụ nke ọtọ ule na nke a oru ngo, na nyere ọsọ nke atụmatụ mmepe na mkpa ịnọgide na-enwe ijeụkwụ nke ntọhapụ okirikiri (abụọ-izu sprints), ọ dị mkpa ozugbo na-eche banyere automating ule nke kasị oké egwu components nke. usoro. Ọtụtụ n'ime ikpo okwu dabere Kubernetes n'onwe ya bụ autotest etinyere na ya Robot Framework + Python, mana ọ dịkwa mkpa ịkwado na ịgbasa ha. Na mgbakwunye, maka ịdị mma nke onye ahịa, e mepụtara GUI iji jikwaa ụdị mmụta igwe etinyere na ụyọkọ ahụ, yana ikike ịkọwapụta ebe na ebe achọrọ ịnyefe data maka ịzụ ụdị. Mgbakwunye a buru ibu gụnyere mgbasawanye nke nnwale arụrụ arụ akpaghị aka, nke a na-emekarị site na oku REST API yana ọnụ ọgụgụ dị nta nke ule UI ngwụcha-2. N'akụkụ equator nke mmegharị a niile, anyị jikọtara ya na onye nyocha akwụkwọ ntuziaka bụ onye mere ezigbo ọrụ na nnwale nnabata nke ụdị ngwaahịa yana ịgwa onye ahịa okwu banyere nnabata nke ntọhapụ ọzọ. Na mgbakwunye, n'ihi ọbịbịa nke ọkachamara ọhụrụ, anyị nwere ike idekọ ọrụ anyị ma tinye ọtụtụ ndenye akwụkwọ ntuziaka dị oke mkpa nke siri ike ịmegharị ozugbo.

N'ikpeazụ, mgbe anyị nwetasịrị nkwụsi ike site na ikpo okwu na mgbakwunye GUI n'elu ya, anyị malitere ịmepụta pipeline ETL site na iji Apache Airflow DAG. A na-enyocha ogo data akpaaka site na ide Airflow DAG pụrụ iche nke na-enyocha data dabere na nsonaazụ nke usoro ETL. Dị ka akụkụ nke oru ngo a, anyị nwere chi ọma na onye ahịa nyere anyị ohere ịnweta data akọwaghị aha nke anyị nwalere na ya. Anyị na-enyocha ahịrị data site na ahịrị maka nnabata ụdị, ọnụnọ data gbajiri agbaji, ọnụọgụ ndekọ tupu na mgbe emechara, ntụnyere mgbanwe nke usoro ETL mere maka nchịkọta, na-agbanwe aha kọlụm, na ihe ndị ọzọ. Na mgbakwunye, a na-atụba ego nlele ndị a na isi mmalite data dị iche iche, dịka ọmụmaatụ, na mgbakwunye na SalesForce, na MySQL.

Emeela nyocha ogo data ikpeazụ na ọkwa S3, ebe echekwara ha ma dị njikere iji maka ụdị mmụta igwe ọzụzụ. Iji nweta data sitere na faịlụ CSV ikpeazụ dị na bọket S3 wee kwado ya, ejiri ya dee koodu boto3 ahịa.

Enwekwara ihe achọrọ n'aka onye ahịa ka ọ chekwaa akụkụ nke data ahụ n'otu bọket S3 na akụkụ ọzọ. Nke a chọkwara ide akwụkwọ ndenye ego ọzọ iji lelee nkwekọ nke ụdị nhazi ahụ.

Ahụmịhe mkpokọta sitere na ọrụ ndị ọzọ

Ọmụmaatụ nke ndepụta mmemme kachasị nke injinia Ogo data:

  • Kwadebe data nnwale (nke ọma ezighi ezi nnukwu obere) site na ngwa akpaghị aka.
  • Bulite ntọala data akwadoro na ebe izizi wee lelee na ọ dịla njikere maka ojiji.
  • Mepee usoro ETL maka nhazi otu data sitere na ebe nchekwa isi mmalite ruo na nchekwa ikpeazụ ma ọ bụ nke etiti site na iji otu ntọala (ọ bụrụ na ọ ga-ekwe omume, debe paramita nhazi maka ọrụ ETL).
  • Nyochaa data nke usoro ETL haziri maka ịdịmma ya yana nnabata nke azụmahịa chọrọ.

N'otu oge ahụ, isi ihe na-elekwasị anya na nlele kwesịrị ịbụ ọ bụghị nanị na eziokwu ahụ bụ na ntinye data na usoro ahụ nwere, n'ụkpụrụ, na-arụ ọrụ ma ruo na njedebe (nke bụ akụkụ nke ule ọrụ), ma na-emekarị na ịlele na nkwenye data maka. nrube isi n'ihe a na-atụ anya ya, na-achọpụta anomalies na ihe ndị ọzọ.

Ngwaọrụ

Otu n'ime usoro maka njikwa data dị otú ahụ nwere ike ịbụ nhazi nke nnyemaaka ego n'oge ọ bụla nke nhazi data, nke a na-akpọ "agbụ data" na akwụkwọ - njikwa data site na isi iyi ruo n'ókè nke ikpeazụ. A na-etinyekarị ụdị nlele nlele ndị a site n'ịdele ajụjụ SQL. O doro anya na ajụjụ ndị dị otú ahụ kwesịrị ịdị arọ dị ka o kwere mee wee lelee mpempe data nke onye ọ bụla (metadata tebụl, ahịrị oghere, NULLs, Errors in syntax - àgwà ndị ọzọ achọrọ maka ịlele).

N'ihe banyere ule regression, nke na-eji nhazi data emebere (enweghị ike ịgbanwe, ntakịrị mgbanwe), koodu autotest nwere ike ịchekwa ndebiri emebere maka ịlele data maka nrube isi na ịdị mma (nkọwa nke metadata tebụl a na-atụ anya ya; ihe nlele nke ahịrị nwere ike ịbụ. họrọ na-enweghị usoro n'oge ule, wdg).

Ọzọkwa, n'oge ule, ị ga-ede ETL ule usoro iji frameworks dị ka Apache Airflow, Apache Spark ma ọ bụ ọbụna igbe ojii ụdị ngwá ọrụ GCP Data Prep, Ọnụ ego nke GCP Were gabazie. Ọnọdụ a na-amanye onye injinia ule itinye onwe ya n'ụkpụrụ nke ọrụ nke ngwaọrụ ndị a dị n'elu yana ọbụna na-eme nke ọma ma na-eme nnwale arụ ọrụ (dịka ọmụmaatụ, usoro ETL dị na oru ngo) wee jiri ha lelee data. Karịsịa, Apache Airflow nwere ndị ọrụ emebere maka ịrụ ọrụ na ọdụ data nyocha ama ama, dịka ọmụmaatụ GCP BigQuery. A kọwapụtalarị ihe atụ kachasị mkpa nke ojiji ya ebe a, yabụ na agaghị m ekwugharị onwe m.

Ewezuga ihe ngwọta dị njikere, ọ dịghị onye na-egbochi gị itinye usoro na ngwaọrụ nke gị. Ọ bụghị naanị na nke a ga-aba uru maka ọrụ ahụ, kamakwa maka Injinia Quality Data n'onwe ya, onye ga-esi otú ahụ meziwanye echiche teknụzụ ya na nka nzuzo.

Otu esi arụ ọrụ na ezigbo ọrụ

Ihe atụ dị mma nke paragraf ikpeazụ banyere “agbụ data”, ETL na ndenye ego n'ebe niile bụ usoro a sitere na otu n'ime ezigbo ọrụ:

Ihe nnwale data buru ibu na nke nta: usoro, tiori, akụkọ m

N'ebe a, data dị iche iche (nke sitere n'okike, nke anyị kwadebere) tinye ntinye "funnel" nke usoro anyị: dị irè, adịghị mma, agwakọta, wdg, mgbe ahụ, a na-ehichapụ ha na njedebe na nchekwa etiti, mgbe ahụ, ha na-emegharị usoro mgbanwe ọzọ. ma tinye ya na nchekwa ikpeazụ , site na nke, n'aka nke ya, a ga-eme nyocha, ịmepụta marts data na ịchọ ihe ọmụma azụmahịa. N'ime usoro dị otú ahụ, na-enweghị nyocha ọrụ nke usoro ETL, anyị na-elekwasị anya na njirimara data tupu mgbanwe mgbanwe, yana mmepụta na nyocha.

Iji chịkọta ihe ndị dị n'elu, n'agbanyeghị ebe m na-arụ ọrụ, ebe ọ bụla m na-etinye aka na ọrụ Data nke kesara atụmatụ ndị a:

  • Naanị site na akpaaka ị nwere ike ịnwale ụfọdụ ikpe wee nweta usoro ntọhapụ nke azụmahịa ahụ nabatara.
  • Onye na-anwale ọrụ dị otú ahụ bụ otu n'ime ndị otu a na-akwanyere ùgwù, n'ihi na ọ na-eweta uru dị ukwuu nye onye ọ bụla n'ime ndị na-eso ya (ngwa ngwa nke ule, ezi data sitere na Data Scientist, njirimara nke ntụpọ na mmalite mmalite).
  • Ọ baghị uru ma ị na-arụ ọrụ na ngwaike nke gị ma ọ bụ n'ígwé ojii - a na-ewepụta akụrụngwa niile n'ime ụyọkọ dịka Hortonworks, Cloudera, Mesos, Kubernetes, wdg.
  • Ewubere oru ngo n'ụzọ microservice, kọmpụta kesara na nke yiri ya na-abụkarị.

Ọ ga-amasị m ịmara na mgbe ị na-eme nnwale na ngalaba nke ogo data, ọkachamara nyocha na-atụgharị uche ọkachamara ya na koodu ngwaahịa na ngwaọrụ eji.

Njirimara pụrụ iche nke nnwale Ogo data

Na mgbakwunye, maka onwe m, achọpụtara m ihe ndị a (M ga-eme ndoputa ozugbo na ha bụ nke a chịkọtara nke ọma na nke naanị onwe ya) njirimara pụrụ iche nke nnwale na ọrụ Data (Big Data) (sistemụ) na mpaghara ndị ọzọ:

Ihe nnwale data buru ibu na nke nta: usoro, tiori, akụkọ m

Njikọ ndị bara uru

  1. Tiori: DAMA-DMBOK: Data Management Body of Knowledge: 2nd Edition.
  2. Ụlọ ọrụ ọzụzụ EPAM 
  3. Ngwa akwadoro maka mmalite injinia Ogo data:
    1. Ọzụzụ efu na Stepik: Okwu mmalite nke ọdụ data
    2. Agụmakwụkwọ na mmụta LinkedIn: Ntọala Sayensị Data: Injinia data.
    3. Akụkọ:
    4. Video:

nkwubi

Ogo data bụ ntụzịaka na-ekwe nkwa na-eto eto, ịbụ akụkụ nke pụtara ịbụ akụkụ nke mmalite. N'otu oge na Ogo Data, ị ga-emikpu n'ọtụtụ teknụzụ ọgbara ọhụrụ, nke a na-achọsi ike, mana nke kachasị mkpa, nnukwu ohere ga-emeghere gị ịmepụta na mejuputa echiche gị. Ị ga-enwe ike iji usoro nkwalite na-aga n'ihu ọ bụghị naanị na ọrụ ahụ, kamakwa maka onwe gị, na-emepe emepe dị ka ọkachamara.

isi: www.habr.com

Tinye a comment