Nka kacha achọ na ọrụ injinia data

Dị ka ọnụ ọgụgụ 2019, data engineer ugbu a bụ ọrụ nke ọchịchọ ya na-eto ngwa ngwa karịa ihe ọ bụla ọzọ. Onye injinia data na-arụ ọrụ dị oke mkpa na nzukọ - imepụta na idobe pipeline na ọdụ data nke ejiri hazie, gbanwee na chekwaa data. Kedu nkà ndị nnọchiteanya nke ọrụ a chọrọ nke mbụ? Ndepụta a dị iche na ihe achọrọ n'aka ndị sayensị data? Ị ga-amụta banyere ihe a niile site na edemede m.

A tụlere m ohere maka ọnọdụ injinia data dịka ha dị na Jenụwarị 2020 iji ghọta nka nka teknụzụ kacha ewu ewu. Mgbe ahụ, m tụnyere ya pụta na ọnụ ọgụgụ na ohere maka data ọkà mmụta sayensị ọnọdụ - na ụfọdụ na-akpali iche iche pụtara.

Na-enweghị ọtụtụ okwu mmalite, ebe a bụ teknụzụ iri kachasị nke a na-akpọkarị na ntinye ọrụ:

Nka kacha achọ na ọrụ injinia data

Kwupụta teknụzụ na ohere maka ọnọdụ injinia data na 2020

Ka anyị chọpụta.

Ọrụ nke onye injinia data

Taa, ọrụ ndị injinia data na-arụ dị oke mkpa maka òtù dị iche iche - ndị a bụ ndị na-ahụ maka ịchekwa ozi na iwebata ya n'ụdị nke ndị ọrụ ndị ọzọ nwere ike ịrụ ọrụ na ya. Ndị injinia data na-arụ pipeline ka ha na-ebugharị ma ọ bụ tinye data sitere na isi mmalite dị iche iche. Pipeline na-arụ ọrụ mmịpụta, ngbanwe na ntinye (n'ikwu ya n'ụzọ ọzọ, usoro ETL), na-eme ka data ahụ dabara adaba maka ojiji ọzọ. Mgbe nke a gasịrị, a na-edobe data ahụ na ndị nyocha na ndị ọkà mmụta sayensị data maka nhazi miri emi. N'ikpeazụ, data ahụ kwụsịrị njem ya na dashboards, akụkọ, na ụdị mmụta igwe.

Anọ m na-achọ ozi nke ga-eme ka m nweta nkwubi okwu banyere teknụzụ kacha achọ na ọrụ onye injinia data n'oge a.

Ụzọ

Anakọtara m ozi site na saịtị nchọ ọrụ atọ - Naanị, N'ezie и Monster wee leba anya n'ihe isi okwu nwetara na njikọ ya na "njinjin data" n'ime ederede nke ohere maka ndị bi na US. Maka ọrụ a, ejiri m ọba akwụkwọ Python abụọ - arịrịọ и Ofe mara mma. N'ime isiokwu ndị ahụ, etinyere m ma ndị ahụ etinyere na ndepụta gara aga maka nyochaa ohere maka ọnọdụ onye ọkà mmụta sayensị data, na ndị m ji aka họrọ mgbe m na-agụ ọrụ na-enye ndị injinia data. Agụnyeghị LinkedIn na ndepụta nke isi mmalite, ebe ọ bụ na amachibidoro m ebe ahụ ka mgbalị ikpeazụ m na-anakọta data.

Maka isiokwu ọ bụla, m gbakọrọ pasent nke hits site na ọnụ ọgụgụ ederede na saịtị ọ bụla iche iche, wee gbakọọ nkezi maka isi mmalite atọ ahụ.

Результаты

N'okpuru bụ usoro teknụzụ data teknụzụ iri atọ nwere akara kachasị elu n'ofe saịtị ọrụ atọ niile.

Nka kacha achọ na ọrụ injinia data

Ma ebe a bụ otu ọnụọgụgụ, mana ewepụtara ya n'ụdị tebụl:

Nka kacha achọ na ọrụ injinia data

Ka anyị gaa n'usoro.

Nyochaa nsonaazụ

Ma SQL na Python na-apụta n'ihe karịrị ụzọ abụọ n'ụzọ atọ nke oghere ọrụ nyochara. Ọ bụ teknụzụ abụọ a bụ ihe ezi uche dị na ya iji mụọ ụzọ. Python bụ asụsụ mmemme na-ewu ewu nke a na-eji maka iji data arụ ọrụ, ịmepụta weebụsaịtị, na ide edemede. SQL na-anọchi anya Asụsụ Ajụjụ Haziri; ọ gụnyere ọkọlọtọ nke otu asụsụ na-emejuputa atumatu ma ejiri ya weghachi data sitere na ọdụ data mmekọrịta. Ọ pụtara ogologo oge gara aga ma gosipụta onwe ya ka ọ na-eguzogide nke ukwuu.

A na-akpọ Spark n'ihe dị ka ọkara nke ohere ọrụ. Apache Spark bụ "njin nyocha data dị n'otu nke nwere modul arụnyere maka mgbasa ozi, SQL, mmụta igwe, na nhazi eserese." Ọ na-ewu ewu karịsịa n'etiti ndị na-arụ ọrụ na nnukwu ọdụ data.

AWS na-apụta na ihe dịka 45% nke nzipu ọrụ. Ọ bụ igwe na-agbakọ n'igwe ojii nke Amazon rụpụtara; ọ nwere oke ahịa ahịa n'etiti nyiwe igwe ojii niile.
Na-esote Java na Hadoop - ntakịrị karịa 40% maka nwanne ha nwoke. Java bụ asụsụ a na-asụ n'ọtụtụ ebe, nke a nwalere agha Nnyocha Onye Mmepụta nke 2019 Stack Overflow e nyere ya ebe iri n'ime asụsụ ndị na-ebute egwu n'etiti ndị mmemme. N'ụzọ dị iche, Python bụ asụsụ nke abụọ a kacha hụ n'anya. Ọ bụ Oracle na-eji asụsụ Java, yana ihe niile ịchọrọ ịma gbasara ya enwere ike ịghọta ya site na nseta ihuenyo nke ibe gọọmentị site na Jenụwarị 2020.

Nka kacha achọ na ọrụ injinia data

Ọ dị ka ịnya igwe oge
Njikọ Apache Hadoop na-eji ụdị mmemme MapReduce nwere ụyọkọ sava maka nnukwu data. Ugbu a, a na-ahapụkarị ihe nlereanya a.

Mgbe ahụ, anyị na-ahụ Hive, Scala, Kafka na NoSQL - nke ọ bụla n'ime teknụzụ ndị a ka a kpọtụrụ aha na nkeji iri na ise nke ohere ndị etinyere. Apache Hive bụ sọftụwia nchekwa data nke na-eme ka ọ dị mfe ịgụ, dee na jikwaa nnukwu datasets bi na ụlọ ahịa ekesara na-eji SQL. Scala - asụsụ mmemme nke a na-arụsi ọrụ ike mgbe ọ na-arụ ọrụ na nnukwu data. Karịsịa, e kere Spark na Scala. N'ọkwa a kpọtụrụ aha nke asụsụ ndị a na-atụ egwu, Scala nọ n'ọkwa nke iri na otu. Apache Kafka – ikpo okwu ekesa maka nhazi ozi nkwanye. Ọ na-ewu ewu dị ka ụzọ isi nweta data.

Ebe nchekwa data NoSQL iche onwe ha na SQL. Ha dị iche n'ihi na ha enweghị mmekọrịta, enweghị nhazi, na nha nhata. NoSQL enwetala ụfọdụ ewu ewu, mana ọchịchọ maka ịbịaru nso, ọbụna ruo n'ókè amụma na ọ ga-anọchi SQL dị ka isi ihe nchekwa nchekwa, yiri ka agwụla.

Tụnyere okwu na ohere ndị ọkà mmụta sayensị data

Nke a bụ okwu teknụzụ iri atọ a na-ahụkarị n'etiti ndị ọrụ sayensị data. Enwetara m ndepụta a n'otu ụzọ ahụ akọwapụtara n'elu maka injinia data.

Nka kacha achọ na ọrụ injinia data

Ntụpụta teknụzụ na ohere maka ọnọdụ onye sayensị data na 2020

Ọ bụrụ na anyị na-ekwu maka ọnụọgụgụ ọnụọgụgụ, ma e jiri ya tụnyere nke a tụlere na mbụ, enwere ohere 28% karịa (12 na 013). Ka anyị hụ teknụzụ ndị na-adịkarịghị adịkarị na ohere maka ndị sayensị data karịa maka ndị injinia data.

Ka ewu ewu na injinia data

Eserese dị n'okpuru na-egosi mkpụrụokwu nwere nkezi dị iche karịa 10% ma ọ bụ ihe na-erughị -10%.

Nka kacha achọ na ọrụ injinia data

Ọdịiche kachasị ukwuu na ugboro okwu okwu n'etiti injinia data na ọkà mmụta sayensị data

AWS na-egosi mmụba kachasị dị ịrịba ama: na injinia data ọ na-apụta 25% karịa mgbe niile na sayensị data (ihe dị ka 45% na 20% nke ọnụ ọgụgụ zuru ezu nke ohere, n'otu n'otu). Ihe dị iche na-apụta ìhè!

Nke a bụ otu data dị na ngosipụta dịtụ iche - na eserese, nsonaazụ maka otu isiokwu ahụ na ohere maka ọnọdụ nke injinia data na ndị ọkà mmụta sayensị data dị n'akụkụ n'akụkụ.

Nka kacha achọ na ọrụ injinia data

Ọdịiche kachasị ukwuu na ugboro okwu okwu n'etiti injinia data na ọkà mmụta sayensị data

Mwụli elu ọzọ m kwuru bụ na Spark - onye injinia data na-ejikarị nnukwu data arụ ọrụ. Kafka abawanyela site na 20%, ya bụ, ihe fọrọ nke nta ka ọ bụrụ ugboro anọ ma e jiri ya tụnyere nsonaazụ maka ohere ndị ọkà mmụta sayensị data. Nyefe data bụ otu n'ime ọrụ dị mkpa nke onye injinia data. N'ikpeazụ, ọnụ ọgụgụ ndị a kpọtụrụ aha bụ 15% dị elu na ngalaba nke injinia data maka Java, NoSQL, Redshift, SQL na Hadoop.

Obere ewu ewu na injinia data

Ugbu a, ka anyị hụ ụdị teknụzụ na-ewu ewu nke ukwuu na ohere injinia data.
Mbelata kachasi ike tụnyere ngalaba sayensị data mere na R: n'ebe ahụ ọ pụtara na mkpokọta 56% nke ohere, ebe a - naanị na 17%. Na-adọrọ mmasị. R bụ asụsụ mmemme nke ndị ọkà mmụta sayensị na ndị na-agụkọ ọnụ ọgụgụ na-akwado, yana asụsụ nke asatọ kacha atụ egwu n'ụwa.

SAS A na-ahụkwa na ohere maka ọnọdụ onye injinia data nke na-adịkarị obere oge - ihe dị iche bụ 14%. SAS bụ asụsụ nweonwe emebere maka iji ọnụ ọgụgụ na data rụọ ọrụ. Ihe na-adọrọ mmasị: ikpe ikpe site na nsonaazụ ya nyocha m n'ime oghere ọrụ maka ndị sayensị data, ọ tụfuru ọtụtụ ala n’oge na-adịbeghị anya—karịa nkà na ụzụ ọ bụla ọzọ.

A na-achọ ma injinia data na sayensị data

Ekwesiri iburu n'uche na asatọ n'ime ọkwá iri mbụ na nhazi abụọ ahụ bụ otu. SQL, Python, Spark, AWS, Java, Hadoop, Hive na Scala mere ya n'ime iri kacha elu maka ma injinịa data na ụlọ ọrụ sayensị data. Na eserese dị n'okpuru, ị nwere ike ịhụ teknụzụ iri na ise kachasị ewu ewu n'etiti ndị injinia data, na-esote ha bụ ohere ohere ha maka ndị sayensị data.

Nka kacha achọ na ọrụ injinia data

na-atụ aro

Ọ bụrụ na ịchọrọ ịbanye na injinia data, m ga-adụ gị ọdụ ka ị mara teknụzụ ndị a - m depụtara ha n'usoro dị ka ihe kacha mkpa.

Mụta SQL. Ana m adabere na PostgreSQL n'ihi na ọ bụ ebe mepere emepe, na-ewu ewu nke ukwuu n'ime obodo, ọ nọkwa na-eto eto. Ị nwere ike ịmụta ka esi eji asụsụ ahụ site na akwụkwọ My Memorable SQL - ụdị pilot ya dị ebe a.

Nna-ukwu Python, ọbụlagodi na ọ bụghị na ọkwa hardcore kacha. Emebere Python Memorable nke ọma maka ndị mbido. Enwere ike ịzụta ya na Amazon, eletrọnịkị ma ọ bụ nke anụ ahụ, nhọrọ gị, ma ọ bụ budata n'ụdị pdf ma ọ bụ epub na saịtị a.

Ozugbo ị maara Python nke ọma, gaa na pandas, ọba akwụkwọ Python nke a na-eji ihicha na nhazi data. Ọ bụrụ na ị na-achọ ịrụ ọrụ na ụlọ ọrụ chọrọ ikike ide na Python (na nke a bụ ọtụtụ n'ime ha), ị nwere ike ijide n'aka na a ga-ewere ihe ọmụma banyere pandas na ndabara. Ana m emecha ntuziaka mmeghe maka ịrụ ọrụ na pandas - ị nwere ike denye ahaka ị ghara ichefu oge ntọhapụ.

Nna-ukwu AWS. Ọ bụrụ na ịchọrọ ịghọ onye injinia data, ị gaghị eme na-enweghị ikpo okwu igwe ojii na stash, na AWS bụ ihe kachasị ewu ewu n'ime ha. Ihe ọmụmụ ndị ahụ nyeere m aka nke ukwuu Ụlọ akwụkwọ Linuxmgbe m na-agụ akwụkwọ injinia data na Google Cloud, Echere m na ha ga-enwekwa ezigbo ihe na AWS.

Ọ bụrụ na ị dechara ndepụta a niile ma chọọ ịmalite n'ihu ndị ọrụ dị ka onye injinia data, ana m atụ aro ịgbakwunye Apache Spark maka ịrụ ọrụ na nnukwu data. Ọ bụ ezie na nyocha m na ohere ndị ọkà mmụta sayensị data gosipụtara mbelata mmasị, n'etiti ndị injinia data ọ ka na-apụta na ihe fọrọ nke nta ka ọ bụrụ ohere ọ bụla nke abụọ.

N'ikpeazụ

Enwere m olileanya na ị chọtara nkọwapụta a nke teknụzụ kacha achọ maka ndị injinia data bara uru. Ọ bụrụ na ị na-eche ka ọrụ ndị nyocha si aga, gụọ edemede m ọzọ. Injinia obi ụtọ!

isi: www.habr.com

Tinye a comment