Ole ndị bụ ndị injinia data, kedu ka ị ga-esi bụrụ otu?

Ndewo ọzọ! Aha isiokwu ahụ na-ekwu maka onwe ya. Na atụmanya mmalite nke usoro ahụ Onye injinia data Anyị na-atụ aro ka ị ghọta ndị injinia data bụ. Enwere otutu njikọ bara uru na akụkọ. Ọgụgụ obi ụtọ.

Ole ndị bụ ndị injinia data, kedu ka ị ga-esi bụrụ otu?

Ntuziaka dị mfe maka otu esi ejide ebili mmiri Data Engineering ma ghara ikwe ka ọ dọkpụrụ gị n'ime abis.

Ọ dị ka onye ọ bụla chọrọ ịghọ onye ọkà mmụta sayensị data ụbọchị ndị a. Mana kedu maka Injinia Data? N'ikpeazụ, nke a bụ ụdị ngwakọ nke onye nyocha data na onye ọkà mmụta sayensị data; Onye injinia data na-ahụ maka ijikwa usoro ọrụ, nhazi pipeline, na usoro ETL. N'ihi mkpa ọrụ ndị a dị, nke a bụ jargon ọkachamara ọzọ na-ewu ewu nke na-arụsi ọrụ ike.

Ụgwọ ọnwa dị elu na nnukwu ọchịchọ bụ obere akụkụ nke ihe na-eme ka ọrụ a maa mma nke ukwuu! Ọ bụrụ na ị chọrọ isonye n'ọkwa ndị dike, ọ dịghị mgbe akaha ịmalite ịmụta. Na post a, anakọtara m ozi niile dị mkpa iji nyere gị aka ịme nzọụkwụ mbụ gị.

Ya mere, ka anyị bido!

Kedu ihe bụ Data Engineering?

N'ezie, ọ nweghị nkọwa dị mma karịa nke a:

“Onye ọkà mmụta sayensị nwere ike ịchọpụta kpakpando ọhụrụ, ma ọ pụghị imepụta ya. Ọ ga-agwa onye injinia ka o meere ya ya. "

- Gordon Lindsay Glegg

Ya mere, ọrụ nke onye injinia data dị ezigbo mkpa.

Dị ka aha ahụ na-egosi, injinia data na-emetụta data, ya bụ nnyefe, nchekwa na nhazi ya. N'ihi ya, isi ọrụ nke ndị injinia bụ ịnye akụrụngwa a pụrụ ịdabere na ya maka data. Ọ bụrụ na anyị eleba anya n'ọchịchị AI nke mkpa, injinia data nwere usoro 2-3 mbụ: nchịkọta, mmegharị na nchekwa, nkwadebe data.

Ole ndị bụ ndị injinia data, kedu ka ị ga-esi bụrụ otu?

Kedu ihe onye injinia data na-eme?

Site na ọbịbịa nke nnukwu data, oke ọrụ agbanweela nke ukwuu. Ọ bụrụ na mbụ ndị ọkachamara ndị a dere nnukwu ajụjụ SQL na data distilled site na iji ngwaọrụ ndị dị ka Informatica ETL, Pentaho ETL, Talend, ugbu a ihe achọrọ maka ndị injinia data abawanyela.

Ọtụtụ ụlọ ọrụ nwere ohere mepere emepe maka ọnọdụ injinia data nwere ihe ndị a:

  • Ọmụma dị mma nke SQL na Python.
  • Ahụmahụ na nyiwe igwe ojii, ọkachasị Ọrụ Weebụ Amazon.
  • Ọmụma Java/Scala họọrọ.
  • Ezi nghọta nke SQL na NoSQL ọdụ data (data modeling, data nkwakọba).

Buru n'uche, ndị a bụ naanị ihe ndị dị mkpa. Site na ndepụta a, enwere ike iche na ndị injinia data bụ ndị ọkachamara na ngalaba mmepe ngwanrọ na azụ azụ.
Dịka ọmụmaatụ, ọ bụrụ na ụlọ ọrụ amalite ịmepụta nnukwu data sitere na isi mmalite dị iche iche, ọrụ gị dị ka onye injinia data bụ ịhazi nchịkọta ozi, nhazi ya na nchekwa ya.

Ndepụta ngwaọrụ eji mee ihe na nke a nwere ike ịdị iche, ihe niile dabere na olu data a, ọsọ nke nnata ya na heterogeneity. Ọtụtụ ụlọ ọrụ anaghị emeso nnukwu data ma ọlị, yabụ dị ka ebe nchekwa etiti, ebe a na-akpọ ụlọ nkwakọba ihe data, ị nwere ike iji nchekwa data SQL (PostgreSQL, MySQL, wdg) yana obere edemede nke na-enye data ahụ n'ime ya. ụlọ nkwakọba ihe.

Ndị dike IT dị ka Google, Amazon, Facebook ma ọ bụ Dropbox nwere ihe dị elu chọrọ: ihe ọmụma nke Python, Java ma ọ bụ Scala.

  • Ahụmahụ nwere nnukwu data: Hadoop, Spark, Kafka.
  • Ihe ọmụma nke algọridim na usoro data.
  • Ịghọta ihe ndị bụ isi nke usoro kesara.
  • Ahụmahụ na ngwaọrụ nhụta data dị ka Tableau ma ọ bụ ElasticSearch ga-abụ mgbakwunye.

Ya bụ, enwere mgbanwe doro anya na nnukwu data, ya bụ na nhazi ya n'okpuru nnukwu ibu. Companieslọ ọrụ ndị a abawanyela ihe achọrọ maka nnabata mmejọ sistemụ.

Ndị injinia data Vs. ndị ọkà mmụta sayensị data

Ole ndị bụ ndị injinia data, kedu ka ị ga-esi bụrụ otu?
Ọ dị mma, nke ahụ bụ ntụnyere dị mfe na nke na-atọ ọchị (ọ dịghị ihe nkeonwe), mana n'eziokwu ọ dị mgbagwoju anya karị.

Nke mbụ, ị kwesịrị ịma na enwere ọtụtụ ihe mgbagwoju anya na nchapụta ọrụ na nkà nke onye ọkà mmụta sayensị data na onye injinia data. Ya bụ, ị nwere ike ịgbagwoju anya n'ụzọ dị mfe gbasara nkà ndị achọrọ iji bụrụ injinia data na-aga nke ọma. N'ezie, enwere ụfọdụ nkà na-ejikọta na ọrụ abụọ ahụ. Mana enwerekwa ọtụtụ nka na-emegide diametrically.

Sayensị data bụ azụmahịa siri ike, mana anyị na-aga n'ihu na ụwa nke sayensị data na-arụ ọrụ ebe ndị ọrụ nwere ike ịme nyocha nke ha. Iji mee ka pipeline data na nhazi data agbakwunyere, ịchọrọ ndị injinia data, ọ bụghị ndị sayensị data.

Onye injinia data ọ na-achọ karịa onye sayensị data?

- Ee, n'ihi na tupu ịme karọt achicha, ị ga-ebu ụzọ nakọta, bee na ngwaahịa karọt!

Onye injinia data na-aghọta mmemme karịa ndị ọkà mmụta sayensị data ọ bụla, mana a bịa na ọnụ ọgụgụ, ihe dị iche bụ eziokwu.

Mana nke a bụ uru onye injinia data:

Na-enweghị ya / ya, uru nke prototype nlereanya, ọtụtụ mgbe mejupụtara a mpempe egwu àgwà koodu na Python faịlụ, nwetara site a data ọkà mmụta sayensị na n'ụzọ ụfọdụ na-arụpụta a N'ihi, na-achọghị efu.

Enweghị onye injinia data, koodu a agaghị abụ ọrụ ma ọ nweghị nsogbu azụmahịa ga-edozi nke ọma. Onye injinia data na-anwa ịtụgharị ihe a niile ka ọ bụrụ ngwaahịa.

Ozi bụ isi onye injinia data kwesịrị ịma

Ole ndị bụ ndị injinia data, kedu ka ị ga-esi bụrụ otu?

Ya mere, ọ bụrụ na ọrụ a na-ewepụta ìhè n'ime gị ma na-anụ ọkụ n'obi - ị nwere ike ịmụta ya, ị nwere ike ịmụta nkà niile dị mkpa ma ghọọ ezigbo nkume kpakpando n'ọhịa nke data engineering. Ma, ee, ị nwere ike wepụ nke a ọbụlagodi na-enweghị nkà mmemme ma ọ bụ ihe ọmụma teknụzụ ndị ọzọ. O siri ike, ma o kwere omume!

Gịnị bụ nzọụkwụ mbụ?

Ị kwesịrị inwe echiche n'ozuzu nke ihe bụ ihe.

Nke mbụ, Injinia Data na-ezo aka na sayensị kọmputa. Karịsịa, ị ga-aghọtarịrị algọridim dị mma na nhazi data. Nke abuo, ebe ọ bụ na ndị injinia data na-arụ ọrụ na data, ọ dị mkpa ịghọta ụkpụrụ nke ọdụ data na ihe ndị na-adabere na ha.

Dịka ọmụmaatụ, ọdụ data B-osisi SQL na-adabere na nhazi data B-Osisi, yana, na ebe nchekwa nke oge a, LSM-Tree na mgbanwe ndị ọzọ nke tebụl hash.

* Usoro ndị a dabere na nnukwu akụkọ Adilya Khashtamova. Yabụ, ọ bụrụ na ị maara Russian, kwado onye edemede a wee gụọ ya post ya.

1. Algorithms na usoro data

Iji usoro data ziri ezi nwere ike melite arụmọrụ nke algọridim. Dị ka o kwesịrị, anyị niile kwesịrị ịdị na-amụta maka usoro data na algọridim n'ụlọ akwụkwọ anyị, mana nke a anaghị ekpuchi ya. N'ọnọdụ ọ bụla, ọ dịghị mgbe ọ gafeworo ịmara.
Yabụ ebe a bụ nkuzi n'efu kacha amasị m maka mmụta usoro data na algọridim:

Ọzọkwa echefula maka ọrụ kpochapụrụ Thomas Corman na algọridim - Okwu Mmalite Algorithms. Nke a bụ ntụaka zuru oke mgbe ịchọrọ iweghachite ebe nchekwa gị.

  • Iji meziwanye nkà gị, jiri Leetcode.

Ị nwekwara ike banye n'ime ụwa nke ọdụ data na vidiyo dị ịtụnanya sitere na Mahadum Carnegie Mellon na Youtube:

2. Mụta SQL

Ndụ anyị niile bụ data. Na iji wepụ data a na nchekwa data, ịkwesịrị iji ya "na-asụ" otu asụsụ.

SQL (Structured Query Language) bụ asụsụ nzikọrịta ozi na ngalaba data. N'agbanyeghị ihe onye ọ bụla na-ekwu, SQL adịla ndụ, dị ndụ, na ọ ga-adịkwa ogologo oge.

Ọ bụrụ na ị nọ na mmepe ruo ogologo oge, ị ga-achọpụtala na asịrị gbasara ọnwụ SQL dị nso na-apụta mgbe ụfọdụ. Emebere asụsụ a na mbido 70s ma ka na-ewu ewu nke ukwuu n'etiti ndị nyocha, ndị mmepe na ndị na-anụ ọkụ n'obi.
Enweghị ihe ọmụma nke SQL ọ nweghị ihe ị ga-eme na injinịa data n'ihi na ị ga-enwerịrị ike ịmepụta ajụjụ iji weghachite data. Nnukwu ụlọ nkwakọba ihe data ọgbara ọhụrụ na-akwado SQL:

  • Redshift Amazon
  • HP Vertica
  • Oracle
  • SQL Server

... na ọtụtụ ndị ọzọ.

Iji nyochaa nnukwu oyi akwa nke data echekwara na sistemụ kesara dị ka HDFS, e mepụtara engines SQL: Apache Hive, Impala, wdg. Lee, ọ naghị aga ebe ọ bụla.

Kedu ka esi amụta SQL? Naanị mee ya na omume.

Iji mee nke a, m ga-akwado ịlele nkuzi nkuzi magburu onwe ya, nke, n'agbanyeghị, bụ n'efu, site na Nyocha ọnọdụ.

  1. Ọkara SQL
  2. Ijikọ data na SQL

Ihe na-eme ka ọmụmụ ihe ndị a pụrụ iche bụ na ha nwere ebe mmekọrịta ebe ị nwere ike ide ma gbaa ajụjụ SQL ozugbo na ihe nchọgharị gị. Akụrụngwa Oge a SQL agaghị abụ nke ukwuu. Ma ị nwere ike itinye ihe ọmụma a Ọrụ Leetcode na ngalaba Databases.

3. Mmemme na Python na Java/Scala

Kedu ihe kpatara ị ga-eji mụọ asụsụ mmemme Python, edere mrịị n'isiokwu ahụ Python vs R. Ịhọrọ Ngwá Ọrụ Kasị Mma maka AI, ML na Sayensị Data. A bịa na Java na Scala, a na-ede ọtụtụ ngwaọrụ maka ịchekwa na nhazi nnukwu data n'asụsụ ndị a. Ọmụmaatụ:

  • Apache Kafka (Scala)
  • Hadoop, HDFS (Java)
  • Apache Spark (Scala)
  • Apache Cassandra (Java)
  • HBase (Java)
  • Apache Hive (Java)

Iji ghọta ka ngwá ọrụ ndị a si arụ ọrụ, ọ dị mkpa ka ị mara asụsụ ndị e ji dee ha. Usoro ọrụ Scala na-enye gị ohere iji dozie nsogbu nhazi data yiri nke ọma. Python, ọ dị mwute ikwu, enweghị ike ịnya isi maka ọsọ na nhazi nhazi. N'ozuzu, ọmụma nke ọtụtụ asụsụ na mmemme paradigms dị mma maka obosara nke ụzọ iji dozie nsogbu.

Iji banye n'asụsụ Scala, ị nwere ike ịgụ Mmemme na Scala site n'aka onye dere asụsụ. Twitter bipụtakwara ezigbo ntụzịaka mmalite - Ụlọ akwụkwọ Scala.

Maka Python, ekwere m Python mara mma akwụkwọ kacha mma n'etiti.

4. Ngwaọrụ na-arụ ọrụ na nnukwu data

Nke a bụ ndepụta ngwa ọrụ kachasị ewu ewu n'ụwa nke nnukwu data:

  • Apache Spark
  • Apache Kafka
  • Apache Hadoop (HDFS, HBase, Hive)
  • Apache cassandra

Ị nwere ike ịchọta ozi ndị ọzọ gbasara iwu nnukwu ngọngọ data na nke a dị ịtụnanya mmekọrịta gburugburu ebe obibi. Ngwa kachasị ewu ewu bụ Spark na Kafka. Ha kwesịrị ka ha mụọ ihe, ọ bụ ihe amamihe dị na ya ịghọta otú ha si arụ ọrụ n'ime. Jay Kreps (onye na-ede akwụkwọ nke Kafka) bipụtara nnukwu ọrụ na 2013 Ndekọ: Ihe Onye Mmepụta Ngwanrọ ọ bụla kwesịrị ịma gbasara mkpokọta data n'ezieSite n'ụzọ, a na-eji isi echiche sitere na Talmud a mepụta Apache Kafka.

5. igwe ojii nyiwe

Ole ndị bụ ndị injinia data, kedu ka ị ga-esi bụrụ otu?

Ihe ọmụma nke ma ọ dịkarịa ala otu ikpo okwu igwe ojii dị na ndepụta nke ihe ndị dị mkpa maka ndị na-achọ maka ọnọdụ nke onye nhazi data. Ndị were n'ọrụ na-ahọrọ Ọrụ Weebụ Amazon, yana ikpo okwu igwe ojii Google nọ n'ọnọdụ nke abụọ yana Microsoft Azure na-agbakọta atọ kachasị elu.

Ị ga-enwerịrị ezigbo ihe ọmụma nke Amazon EC2, AWS Lambda, Amazon S3, DynamoDB.

6. Sistemụ ekesa

Iji nnukwu data na-arụ ọrụ na-egosi ọnụnọ nke ụyọkọ nke kọmpụta na-arụ ọrụ onwe ha, nkwukọrịta n'etiti nke a na-eme site na netwọkụ. Ka ụyọkọ ahụ na-ebuwanye ibu, ka ahụ na-enwe ike ịdaba n'ọnụ ọnụ ndị otu ya. Iji bụrụ nnukwu ọkà mmụta sayensị data, ịkwesịrị ịghọta nsogbu na ngwọta dị adị maka sistemụ kesara. Mpaghara a bụ ochie na mgbagwoju anya.

A na-ewere Andrew Tanenbaum dị ka ọsụ ụzọ n'ubi a. Maka ndị na-adịghị atụ egwu tiori, ana m akwado akwụkwọ ya "Sistemụ ekesa", Ọ nwere ike iyi ihe na-agwụ ike maka ndị mbido, mana ọ ga-enyere gị aka ịkwalite nkà gị.

Echere m Ịmepụta ngwa na-akpa ike data nke Martin Kleppmann kacha mma akwụkwọ mmeghe. Site n'ụzọ, Martin nwere ọmarịcha блог. Ọrụ ya ga-enyere aka ịhazi ihe ọmụma banyere iwulite akụrụngwa ọgbara ọhụrụ maka ịchekwa na nhazi nnukwu data.
Maka ndị nwere mmasị ikiri vidiyo, enwere nkuzi na Youtube Sistemụ kọmputa ekesara.

7. Data pipelines

Ole ndị bụ ndị injinia data, kedu ka ị ga-esi bụrụ otu?

pipeline data bụ ihe ị na-enweghị ike ibi na-enweghị dị ka onye injinia data.

Ọtụtụ mgbe, onye injinia data na-ewuli ihe a na-akpọ pipeline data, ya bụ, ọ na-emepụta usoro maka ịnyefe data site n'otu ebe gaa na nke ọzọ. Ndị a nwere ike ịbụ ederede omenala na-aga na API ọrụ mpụga ma ọ bụ mee ajụjụ SQL, kwalite data ahụ, tinye ya na ụlọ ahịa etiti (ụlọ nkwakọba data) ma ọ bụ ụlọ ahịa data na-enweghị nhazi (ọdọ mmiri).

Iji chịkọta: ndepụta nyocha bụ isi maka onye injinia data

Ole ndị bụ ndị injinia data, kedu ka ị ga-esi bụrụ otu?

Iji chịkọta ọnụ, a chọrọ ezigbo nghọta nke ihe ndị a:

  • Usoro ozi;
  • Mmepe ngwanrọ (Agile, DevOps, Usoro nhazi, SOA);
  • Usoro kesara na mmemme yiri ya;
  • Database Fundamentals - Atụmatụ, Nhazi, Ọrụ na Nchọpụta nsogbu;
  • Nhazi nke nnwale - Nnwale A / B iji gosipụta echiche, chọpụta ntụkwasị obi, ịrụ ọrụ sistemu, na ịzụlite ụzọ a pụrụ ịdabere na ya iji wepụta ezigbo ngwọta ngwa ngwa.

Ndị a bụ nanị ole na ole n'ime ihe ndị a chọrọ iji bụrụ onye injinia data, yabụ mụta ma ghọta usoro data, usoro ozi, nnyefe na-aga n'ihu / ntinye / ntinye, asụsụ mmemme, na isiokwu sayensị kọmputa ndị ọzọ (ọ bụghị isiokwu niile).

N'ikpeazụ, ihe ikpeazụ ma dị ezigbo mkpa m chọrọ ikwu.

Ụzọ iji ghọọ Injinịa Data adịghị mfe dịka ọ nwere ike iyi. Ọ dịghị agbaghara, ọ na-ewe iwe, na ị ga-adị njikere maka nke a. Oge ụfọdụ na njem a nwere ike ime ka ị daa mbà. Ma nke a bụ ezigbo ọrụ na usoro mmụta.

Naanị ekpuchila ya shuga site na mmalite. Isi ihe niile ị na-eme njem bụ ịmụta ihe dị ka o kwere mee ma dịrị njikere maka ihe ịma aka ọhụrụ.
Nke a bụ ọmarịcha foto m hụrụ nke gosipụtara isi okwu a nke ọma:

Ole ndị bụ ndị injinia data, kedu ka ị ga-esi bụrụ otu?

Ma ee, cheta ka ị zere ike ọgwụgwụ na zuru ike. Nke a dịkwa ezigbo mkpa. Jisie ike!

Kedu ihe ị chere maka akụkọ a, enyi? Anyị na-akpọ gị òkù ka ị bịa webinar efu, nke ga-eme taa na 20.00. N'oge webinar, anyị ga-atụle otu esi ewulite usoro nhazi data dị irè na nke nwere ike ime maka obere ụlọ ọrụ ma ọ bụ mmalite na obere ego. Dịka omume, anyị ga-amata ngwaọrụ nhazi data Google Cloud. Hụzie gị!

isi: www.habr.com

Tinye a comment