A cewar
Na yi nazarin guraben guraben aikin injiniyan bayanai kamar yadda suke a cikin Janairu 2020 don fahimtar waɗanne fasahohin fasaha suka fi shahara. Sa'an nan na kwatanta sakamakon tare da kididdigar kan guraben matsayi don matsayin masanin kimiyyar bayanai - kuma wasu bambance-bambance masu ban sha'awa sun bayyana.
Ba tare da gabatarwa da yawa ba, ga manyan fasahohi guda goma waɗanda aka fi ambata a rubuce a cikin ayyukan aiki:
Ambaton fasaha a cikin guraben aiki don matsayin injiniyan bayanai a cikin 2020
Hakki na injiniyan bayanai
A yau, aikin da injiniyoyin bayanai ke yi yana da matuƙar mahimmanci ga ƙungiyoyi - waɗannan su ne mutanen da ke da alhakin adana bayanai da kuma kawo su cikin nau'in da sauran ma'aikata za su iya aiki da su. Injiniyoyin bayanai suna gina bututun ruwa don yawo ko tsara bayanai daga tushe da yawa. Sannan bututun suna yin hakar, canzawa, da ayyukan lodawa (a wasu kalmomi, hanyoyin ETL), suna sa bayanan sun fi dacewa don ƙarin amfani. Bayan haka, ana ƙaddamar da bayanan ga masu sharhi da masana kimiyyar bayanai don zurfafa aiki. A ƙarshe, bayanan sun ƙare tafiyarsa a cikin dashboards, rahotanni, da ƙirar koyon inji.
Ina neman bayanin da zai ba ni damar yanke hukunci game da waɗanne fasahohin da aka fi buƙata a aikin injiniyan bayanai a halin yanzu.
Hanyoyi
Na tattara bayanai daga wuraren neman aiki guda uku -
Ga kowane keyword, Na ƙididdige adadin hits daga jimlar adadin rubutu akan kowane rukunin yanar gizon daban, sannan na ƙididdige matsakaicin tushe guda uku.
Результаты
A ƙasa akwai sharuɗɗan injiniyan bayanan fasaha talatin tare da mafi girman maki a duk rukunin ayyukan uku.
Kuma a nan akwai lambobi iri ɗaya, amma an gabatar da su a cikin sigar tebur:
Mu je cikin tsari.
Bitar sakamako
Dukansu SQL da Python suna bayyana a cikin fiye da kashi biyu bisa uku na buƙatun da aka duba. Waɗannan fasahohi guda biyu ne ke da ma'ana don yin nazari da farko.
An ambaci Spark a cikin kusan rabin guraben.
AWS yana bayyana a cikin kusan kashi 45% na aika aika aiki. Dandali ne na lissafin girgije wanda Amazon ya kera; yana da kaso mafi girma na kasuwa tsakanin duk dandamalin girgije.
Gaba su zo Java da Hadoop - kadan fiye da 40% ga ɗan'uwansu.
Kamar hawa a cikin injin lokaci
Sannan muna ganin Hive, Scala, Kafka da NoSQL - kowane ɗayan waɗannan fasahohin ana ambata a cikin kwata na guraben da aka ƙaddamar. Apache Hive software ce ta ajiyar bayanai wanda "yana sauƙaƙe karantawa, rubutawa, da sarrafa manyan bayanan da ke zaune a cikin shagunan da aka rarraba ta amfani da SQL."
Kwatanta da sharuɗɗan a cikin guraben guraben guraben ƙwararrun masana kimiyya
Anan akwai kalmomin fasaha talatin da suka fi yawa a tsakanin ma'aikatan kimiyyar bayanai. Na sami wannan jeri kamar yadda aka bayyana a sama don injiniyan bayanai.
Abubuwan da aka ambata na fasaha a cikin guraben matsayi don matsayin masanin kimiyyar bayanai a cikin 2020
Idan muka yi magana game da jimillar adadin, idan aka kwatanta da wanda aka yi la'akari da shi a baya, akwai ƙarin guraben 28% (12 da 013). Bari mu ga waɗanne fasahohin da ba su da yawa a cikin guraben guraben aikin masana kimiyya fiye da na injiniyoyin bayanai.
Yafi shahara a injiniyan bayanai
Hoton da ke ƙasa yana nuna mahimman kalmomi tare da matsakaicin bambanci fiye da 10% ko ƙasa da -10%.
Babban bambance-bambance a cikin mitar kalmomin mahimmanci tsakanin injiniyan bayanai da masanin kimiyyar bayanai
AWS yana nuna haɓaka mafi mahimmanci: a cikin injiniyan bayanai yana bayyana 25% akai-akai fiye da kimiyyar bayanai (kimanin 45% da 20% na jimlar adadin guraben aiki, bi da bi). Bambancin abin lura ne!
Anan ga bayanai iri ɗaya ne a cikin gabatarwar ɗan ɗan bambanta - a cikin jadawali, sakamakon maɓalli iri ɗaya a cikin guraben matsayi na injiniyan bayanai da masanin kimiyyar bayanai suna gefen gefe.
Babban bambance-bambance a cikin mitar kalmomin mahimmanci tsakanin injiniyan bayanai da masanin kimiyyar bayanai
Tsalle mafi girma na gaba da na lura shine a cikin Spark - injiniyan bayanai yakan yi aiki da manyan bayanai.
Karancin shahara a aikin injiniyan bayanai
Yanzu bari mu ga waɗanne fasahohin da ba su da farin jini a cikin guraben aikin injiniyan bayanai.
An sami raguwa mafi girma idan aka kwatanta da bangaren kimiyyar bayanai
A cikin buƙata a cikin injiniyan bayanai da kuma kimiyyar bayanai
Ya kamata a lura cewa takwas daga cikin matsayi goma na farko a cikin duka saiti iri ɗaya ne. SQL, Python, Spark, AWS, Java, Hadoop, Hive da Scala sun sanya shi cikin manyan goma don duka injiniyoyin bayanai da masana'antar kimiyyar bayanai. A cikin jadawali da ke ƙasa za ku iya ganin fasahohi goma sha biyar da suka fi shahara a tsakanin masu aikin injiniyan bayanai, kuma kusa da su akwai guraben aikinsu na masana kimiyyar bayanai.
shawarwari
Idan kuna son shiga injiniyan bayanai, zan ba ku shawarar ku ƙware waɗannan fasahohin - Na lissafta su bisa ƙimayar fifiko.
Koyi SQL. Ina karkata zuwa ga PostgreSQL saboda buɗaɗɗen tushe ne, sananne ne a cikin al'umma, kuma yana cikin haɓakar haɓaka. Kuna iya koyon yadda ake amfani da yaren daga littafin My Memorable SQL - akwai nau'in matukinsa
Jagora Python, ko da ba a mafi matakin hardcore ba. My Memorable Python an tsara shi musamman don masu farawa. Ana iya siyan shi a
Da zarar kun saba da Python, matsa zuwa pandas, ɗakin karatu na Python wanda ake amfani dashi don tsaftace bayanai da sarrafa bayanai. Idan kuna son yin aiki a cikin kamfani wanda ke buƙatar ikon yin rubutu a cikin Python (kuma wannan shine mafi yawansu), zaku iya tabbata cewa ilimin pandas za a ɗauka ta tsohuwa. A halin yanzu ina gama kammala jagorar gabatarwa don aiki tare da pandas - za ku iya
Babban darajar AWS. Idan kuna son zama injiniyan bayanai, ba za ku iya yin ba tare da dandamalin girgije a cikin tashe ba, kuma AWS shine mafi shaharar su. Darussan sun taimaka mini da yawa
Idan kun riga kun kammala wannan jerin duka kuma kuna son ƙara girma a idanun masu ɗauka a matsayin injiniyan bayanai, Ina ba da shawarar ƙara Apache Spark don aiki tare da manyan bayanai. Ko da yake binciken da na yi kan guraben guraben guraben ilimin kimiyyar bayanai ya nuna raguwar sha'awa, a tsakanin injiniyoyin bayanai har yanzu yana bayyana a kusan kowane guraben dakika.
A ƙarshe
Ina fatan kun sami wannan bayyani na mafi yawan fasahar da ake buƙata don injiniyoyin bayanai suna da amfani. Idan kuna mamakin yadda ayyukan manazarta ke tafiya, karanta
source: www.habr.com