Dị ka
A tụlere m ohere maka ọnọdụ injinia data dịka ha dị na Jenụwarị 2020 iji ghọta nka nka teknụzụ kacha ewu ewu. Mgbe ahụ, m tụnyere ya pụta na ọnụ ọgụgụ na ohere maka data ọkà mmụta sayensị ọnọdụ - na ụfọdụ na-akpali iche iche pụtara.
Na-enweghị ọtụtụ okwu mmalite, ebe a bụ teknụzụ iri kachasị nke a na-akpọkarị na ntinye ọrụ:
Kwupụta teknụzụ na ohere maka ọnọdụ injinia data na 2020
Ọrụ nke onye injinia data
Taa, ọrụ ndị injinia data na-arụ dị oke mkpa maka òtù dị iche iche - ndị a bụ ndị na-ahụ maka ịchekwa ozi na iwebata ya n'ụdị nke ndị ọrụ ndị ọzọ nwere ike ịrụ ọrụ na ya. Ndị injinia data na-arụ pipeline ka ha na-ebugharị ma ọ bụ tinye data sitere na isi mmalite dị iche iche. Pipeline na-arụ ọrụ mmịpụta, ngbanwe na ntinye (n'ikwu ya n'ụzọ ọzọ, usoro ETL), na-eme ka data ahụ dabara adaba maka ojiji ọzọ. Mgbe nke a gasịrị, a na-edobe data ahụ na ndị nyocha na ndị ọkà mmụta sayensị data maka nhazi miri emi. N'ikpeazụ, data ahụ kwụsịrị njem ya na dashboards, akụkọ, na ụdị mmụta igwe.
Anọ m na-achọ ozi nke ga-eme ka m nweta nkwubi okwu banyere teknụzụ kacha achọ na ọrụ onye injinia data n'oge a.
Ụzọ
Anakọtara m ozi site na saịtị nchọ ọrụ atọ -
Maka isiokwu ọ bụla, m gbakọrọ pasent nke hits site na ọnụ ọgụgụ ederede na saịtị ọ bụla iche iche, wee gbakọọ nkezi maka isi mmalite atọ ahụ.
Результаты
N'okpuru bụ usoro teknụzụ data teknụzụ iri atọ nwere akara kachasị elu n'ofe saịtị ọrụ atọ niile.
Ma ebe a bụ otu ọnụọgụgụ, mana ewepụtara ya n'ụdị tebụl:
Ka anyị gaa n'usoro.
Nyochaa nsonaazụ
Ma SQL na Python na-apụta n'ihe karịrị ụzọ abụọ n'ụzọ atọ nke oghere ọrụ nyochara. Ọ bụ teknụzụ abụọ a bụ ihe ezi uche dị na ya iji mụọ ụzọ.
A na-akpọ Spark n'ihe dị ka ọkara nke ohere ọrụ.
AWS na-apụta na ihe dịka 45% nke nzipu ọrụ. Ọ bụ igwe na-agbakọ n'igwe ojii nke Amazon rụpụtara; ọ nwere oke ahịa ahịa n'etiti nyiwe igwe ojii niile.
Na-esote Java na Hadoop - ntakịrị karịa 40% maka nwanne ha nwoke.
Ọ dị ka ịnya igwe oge
Mgbe ahụ, anyị na-ahụ Hive, Scala, Kafka na NoSQL - nke ọ bụla n'ime teknụzụ ndị a ka a kpọtụrụ aha na nkeji iri na ise nke ohere ndị etinyere. Apache Hive bụ sọftụwia nchekwa data nke na-eme ka ọ dị mfe ịgụ, dee na jikwaa nnukwu datasets bi na ụlọ ahịa ekesara na-eji SQL.
Tụnyere okwu na ohere ndị ọkà mmụta sayensị data
Nke a bụ okwu teknụzụ iri atọ a na-ahụkarị n'etiti ndị ọrụ sayensị data. Enwetara m ndepụta a n'otu ụzọ ahụ akọwapụtara n'elu maka injinia data.
Ntụpụta teknụzụ na ohere maka ọnọdụ onye sayensị data na 2020
Ọ bụrụ na anyị na-ekwu maka ọnụọgụgụ ọnụọgụgụ, ma e jiri ya tụnyere nke a tụlere na mbụ, enwere ohere 28% karịa (12 na 013). Ka anyị hụ teknụzụ ndị na-adịkarịghị adịkarị na ohere maka ndị sayensị data karịa maka ndị injinia data.
Ka ewu ewu na injinia data
Eserese dị n'okpuru na-egosi mkpụrụokwu nwere nkezi dị iche karịa 10% ma ọ bụ ihe na-erughị -10%.
Ọdịiche kachasị ukwuu na ugboro okwu okwu n'etiti injinia data na ọkà mmụta sayensị data
AWS na-egosi mmụba kachasị dị ịrịba ama: na injinia data ọ na-apụta 25% karịa mgbe niile na sayensị data (ihe dị ka 45% na 20% nke ọnụ ọgụgụ zuru ezu nke ohere, n'otu n'otu). Ihe dị iche na-apụta ìhè!
Nke a bụ otu data dị na ngosipụta dịtụ iche - na eserese, nsonaazụ maka otu isiokwu ahụ na ohere maka ọnọdụ nke injinia data na ndị ọkà mmụta sayensị data dị n'akụkụ n'akụkụ.
Ọdịiche kachasị ukwuu na ugboro okwu okwu n'etiti injinia data na ọkà mmụta sayensị data
Mwụli elu ọzọ m kwuru bụ na Spark - onye injinia data na-ejikarị nnukwu data arụ ọrụ.
Obere ewu ewu na injinia data
Ugbu a, ka anyị hụ ụdị teknụzụ na-ewu ewu nke ukwuu na ohere injinia data.
Mbelata kachasi ike tụnyere ngalaba sayensị data mere na
A na-achọ ma injinia data na sayensị data
Ekwesiri iburu n'uche na asatọ n'ime ọkwá iri mbụ na nhazi abụọ ahụ bụ otu. SQL, Python, Spark, AWS, Java, Hadoop, Hive na Scala mere ya n'ime iri kacha elu maka ma injinịa data na ụlọ ọrụ sayensị data. Na eserese dị n'okpuru, ị nwere ike ịhụ teknụzụ iri na ise kachasị ewu ewu n'etiti ndị injinia data, na-esote ha bụ ohere ohere ha maka ndị sayensị data.
na-atụ aro
Ọ bụrụ na ịchọrọ ịbanye na injinia data, m ga-adụ gị ọdụ ka ị mara teknụzụ ndị a - m depụtara ha n'usoro dị ka ihe kacha mkpa.
Mụta SQL. Ana m adabere na PostgreSQL n'ihi na ọ bụ ebe mepere emepe, na-ewu ewu nke ukwuu n'ime obodo, ọ nọkwa na-eto eto. Ị nwere ike ịmụta ka esi eji asụsụ ahụ site na akwụkwọ My Memorable SQL - ụdị pilot ya dị
Nna-ukwu Python, ọbụlagodi na ọ bụghị na ọkwa hardcore kacha. Emebere Python Memorable nke ọma maka ndị mbido. Enwere ike ịzụta ya na
Ozugbo ị maara Python nke ọma, gaa na pandas, ọba akwụkwọ Python nke a na-eji ihicha na nhazi data. Ọ bụrụ na ị na-achọ ịrụ ọrụ na ụlọ ọrụ chọrọ ikike ide na Python (na nke a bụ ọtụtụ n'ime ha), ị nwere ike ijide n'aka na a ga-ewere ihe ọmụma banyere pandas na ndabara. Ana m emecha ntuziaka mmeghe maka ịrụ ọrụ na pandas - ị nwere ike
Nna-ukwu AWS. Ọ bụrụ na ịchọrọ ịghọ onye injinia data, ị gaghị eme na-enweghị ikpo okwu igwe ojii na stash, na AWS bụ ihe kachasị ewu ewu n'ime ha. Ihe ọmụmụ ndị ahụ nyeere m aka nke ukwuu
Ọ bụrụ na ị dechara ndepụta a niile ma chọọ ịmalite n'ihu ndị ọrụ dị ka onye injinia data, ana m atụ aro ịgbakwunye Apache Spark maka ịrụ ọrụ na nnukwu data. Ọ bụ ezie na nyocha m na ohere ndị ọkà mmụta sayensị data gosipụtara mbelata mmasị, n'etiti ndị injinia data ọ ka na-apụta na ihe fọrọ nke nta ka ọ bụrụ ohere ọ bụla nke abụọ.
N'ikpeazụ
Enwere m olileanya na ị chọtara nkọwapụta a nke teknụzụ kacha achọ maka ndị injinia data bara uru. Ọ bụrụ na ị na-eche ka ọrụ ndị nyocha si aga, gụọ
isi: www.habr.com