Mafi kyawun ƙwarewar da ake buƙata a cikin aikin injiniyan bayanai

A cewar kididdiga 2019, Injiniyan bayanai a halin yanzu sana'a ce wacce bukatarta ke karuwa da sauri fiye da kowane. Injiniyan bayanai yana taka muhimmiyar rawa a cikin ƙungiya - ƙirƙira da kula da bututu da bayanan bayanai waɗanda ake amfani da su don sarrafawa, canzawa da adana bayanai. Wace fasaha ne wakilan wannan sana'a ke bukata da farko? Shin lissafin ya bambanta da abin da ake buƙata daga masana kimiyyar bayanai? Za ku koyi game da duk wannan daga labarina.

Na yi nazarin guraben guraben aikin injiniyan bayanai kamar yadda suke a cikin Janairu 2020 don fahimtar waɗanne fasahohin fasaha suka fi shahara. Sa'an nan na kwatanta sakamakon tare da kididdigar kan guraben matsayi don matsayin masanin kimiyyar bayanai - kuma wasu bambance-bambance masu ban sha'awa sun bayyana.

Ba tare da gabatarwa da yawa ba, ga manyan fasahohi guda goma waɗanda aka fi ambata a rubuce a cikin ayyukan aiki:

Mafi kyawun ƙwarewar da ake buƙata a cikin aikin injiniyan bayanai

Ambaton fasaha a cikin guraben aiki don matsayin injiniyan bayanai a cikin 2020

Bari mu samu shi dai-dai.

Hakki na injiniyan bayanai

A yau, aikin da injiniyoyin bayanai ke yi yana da matuƙar mahimmanci ga ƙungiyoyi - waɗannan su ne mutanen da ke da alhakin adana bayanai da kuma kawo su cikin nau'in da sauran ma'aikata za su iya aiki da su. Injiniyoyin bayanai suna gina bututun ruwa don yawo ko tsara bayanai daga tushe da yawa. Sannan bututun suna yin hakar, canzawa, da ayyukan lodawa (a wasu kalmomi, hanyoyin ETL), suna sa bayanan sun fi dacewa don ƙarin amfani. Bayan haka, ana ƙaddamar da bayanan ga masu sharhi da masana kimiyyar bayanai don zurfafa aiki. A ƙarshe, bayanan sun ƙare tafiyarsa a cikin dashboards, rahotanni, da ƙirar koyon inji.

Ina neman bayanin da zai ba ni damar yanke hukunci game da waɗanne fasahohin da aka fi buƙata a aikin injiniyan bayanai a halin yanzu.

Hanyoyi

Na tattara bayanai daga wuraren neman aiki guda uku - SimplyHired, Lalle ne и Monster da kuma duba abin da keywords suka ci karo tare da "injiniya bayanai" a cikin rubutun guraben da aka yi nufin mazauna Amurka. Don wannan aikin na yi amfani da ɗakunan karatu na Python guda biyu - buƙatun и Kyakkyawan Miya. Daga cikin mahimman kalmomin, na haɗa duka waɗanda aka haɗa a cikin jerin da suka gabata don nazarin guraben matsayi na masanin kimiyyar bayanai, da waɗanda na zaɓa da hannu yayin karanta ayyukan da injiniyoyi ke bayarwa. Ba a haɗa LinkedIn a cikin jerin maɓuɓɓuka ba, tunda an dakatar da ni a can bayan ƙoƙari na na ƙarshe na tattara bayanai.

Ga kowane keyword, Na ƙididdige adadin hits daga jimlar adadin rubutu akan kowane rukunin yanar gizon daban, sannan na ƙididdige matsakaicin tushe guda uku.

Результаты

A ƙasa akwai sharuɗɗan injiniyan bayanan fasaha talatin tare da mafi girman maki a duk rukunin ayyukan uku.

Mafi kyawun ƙwarewar da ake buƙata a cikin aikin injiniyan bayanai

Kuma a nan akwai lambobi iri ɗaya, amma an gabatar da su a cikin sigar tebur:

Mafi kyawun ƙwarewar da ake buƙata a cikin aikin injiniyan bayanai

Mu je cikin tsari.

Bitar sakamako

Dukansu SQL da Python suna bayyana a cikin fiye da kashi biyu bisa uku na buƙatun da aka duba. Waɗannan fasahohi guda biyu ne ke da ma'ana don yin nazari da farko. Python sanannen yaren shirye-shirye ne da ake amfani da shi don aiki tare da bayanai, ƙirƙirar gidajen yanar gizo, da rubuta rubutun. SQL yana tsaye ga Harshen Tambaya Mai Tsari; ya ƙunshi ma'auni da ƙungiyoyin harsuna ke aiwatarwa kuma ana amfani da su don dawo da bayanai daga ma'ajin bayanai masu alaƙa. Ya bayyana da dadewa kuma ya tabbatar da kansa yana da juriya sosai.

An ambaci Spark a cikin kusan rabin guraben. Apache Spark babban injin nazarin bayanai ne mai haɗin kai tare da ginanniyar injuna don yawo, SQL, koyon injin, da sarrafa hoto." Ya shahara musamman a tsakanin waɗanda ke aiki tare da manyan bayanan bayanai.

AWS yana bayyana a cikin kusan kashi 45% na aika aika aiki. Dandali ne na lissafin girgije wanda Amazon ya kera; yana da kaso mafi girma na kasuwa tsakanin duk dandamalin girgije.
Gaba su zo Java da Hadoop - kadan fiye da 40% ga ɗan'uwansu. Java harshe ne da ake magana da shi, wanda aka gwada yaƙi Binciken Mai Haɓakawa Tari na 2019 an ba shi matsayi na goma a cikin harsunan da ke haifar da tsoro a tsakanin masu shirye-shirye. Sabanin haka, Python shine yare na biyu da aka fi so. Yaren Java yana gudana ta Oracle, kuma duk abin da kuke buƙatar sani game da shi ana iya fahimtar shi daga wannan hoton hoton na shafin daga Janairu 2020.

Mafi kyawun ƙwarewar da ake buƙata a cikin aikin injiniyan bayanai

Kamar hawa a cikin injin lokaci
Hadoop Apache yana amfani da tsarin MapReduce shirye-shirye tare da gungu na uwar garken don manyan bayanai. Yanzu wannan samfurin yana ƙara yin watsi da shi.

Sannan muna ganin Hive, Scala, Kafka da NoSQL - kowane ɗayan waɗannan fasahohin ana ambata a cikin kwata na guraben da aka ƙaddamar. Apache Hive software ce ta ajiyar bayanai wanda "yana sauƙaƙe karantawa, rubutawa, da sarrafa manyan bayanan da ke zaune a cikin shagunan da aka rarraba ta amfani da SQL." Scala - yaren shirye-shirye wanda ake amfani dashi lokacin aiki tare da manyan bayanai. Musamman, an halicci Spark a cikin Scala. A cikin jerin sunayen harsunan da aka riga aka ambata, Scala tana matsayi na goma sha ɗaya. Apache Kafka – dandamali mai rarraba don sarrafa saƙonnin yawo. Shahararru sosai azaman hanyar watsa bayanai.

NoSQL bayanan bayanai bambanta kansu da SQL. Sun bambanta a cikin cewa ba su da alaƙa, ba a tsara su ba, kuma suna iya daidaitawa. NoSQL ya sami wasu shahararru, amma sha'awar kusanci, har zuwa ma'anar annabce-annabce cewa zai maye gurbin SQL a matsayin babban tsarin ajiya, ya bayyana ya ƙare.

Kwatanta da sharuɗɗan a cikin guraben guraben guraben ƙwararrun masana kimiyya

Anan akwai kalmomin fasaha talatin da suka fi yawa a tsakanin ma'aikatan kimiyyar bayanai. Na sami wannan jeri kamar yadda aka bayyana a sama don injiniyan bayanai.

Mafi kyawun ƙwarewar da ake buƙata a cikin aikin injiniyan bayanai

Abubuwan da aka ambata na fasaha a cikin guraben matsayi don matsayin masanin kimiyyar bayanai a cikin 2020

Idan muka yi magana game da jimillar adadin, idan aka kwatanta da wanda aka yi la'akari da shi a baya, akwai ƙarin guraben 28% (12 da 013). Bari mu ga waɗanne fasahohin da ba su da yawa a cikin guraben guraben aikin masana kimiyya fiye da na injiniyoyin bayanai.

Yafi shahara a injiniyan bayanai

Hoton da ke ƙasa yana nuna mahimman kalmomi tare da matsakaicin bambanci fiye da 10% ko ƙasa da -10%.

Mafi kyawun ƙwarewar da ake buƙata a cikin aikin injiniyan bayanai

Babban bambance-bambance a cikin mitar kalmomin mahimmanci tsakanin injiniyan bayanai da masanin kimiyyar bayanai

AWS yana nuna haɓaka mafi mahimmanci: a cikin injiniyan bayanai yana bayyana 25% akai-akai fiye da kimiyyar bayanai (kimanin 45% da 20% na jimlar adadin guraben aiki, bi da bi). Bambancin abin lura ne!

Anan ga bayanai iri ɗaya ne a cikin gabatarwar ɗan ɗan bambanta - a cikin jadawali, sakamakon maɓalli iri ɗaya a cikin guraben matsayi na injiniyan bayanai da masanin kimiyyar bayanai suna gefen gefe.

Mafi kyawun ƙwarewar da ake buƙata a cikin aikin injiniyan bayanai

Babban bambance-bambance a cikin mitar kalmomin mahimmanci tsakanin injiniyan bayanai da masanin kimiyyar bayanai

Tsalle mafi girma na gaba da na lura shine a cikin Spark - injiniyan bayanai yakan yi aiki da manyan bayanai. Kafka kuma ya karu da kashi 20%, wato kusan sau hudu idan aka kwatanta da sakamakon guraben guraben guraben guraben kimiya na bayanai. Canja wurin bayanai yana ɗaya daga cikin mahimman nauyin injiniyan bayanai. A ƙarshe, adadin ambaton ya kasance 15% mafi girma a fagen injiniyan bayanai don Java, NoSQL, Redshift, SQL da Hadoop.

Karancin shahara a aikin injiniyan bayanai

Yanzu bari mu ga waɗanne fasahohin da ba su da farin jini a cikin guraben aikin injiniyan bayanai.
An sami raguwa mafi girma idan aka kwatanta da bangaren kimiyyar bayanai R: a can ya bayyana a kusan 56% na guraben aiki, a nan - kawai a cikin 17%. Abin burgewa. R shine yaren shirye-shirye wanda masana kimiyya da kididdiga suka fi so, kuma shine harshe na takwas da aka fi jin tsoro a duniya.

SAS Hakanan ana samun shi a cikin guraben aiki don matsayin injiniyan bayanai da yawa ƙasa da sau da yawa - bambancin shine 14%. SAS harshe ne na mallakar mallaka wanda aka tsara don aiki tare da ƙididdiga da bayanai. Batu mai ban sha'awa: yin hukunci da sakamakon bincike na a cikin buɗaɗɗen ayyuka don masana kimiyyar bayanai, ya yi hasarar ƙasa mai yawa kwanan nan-fiye da kowace fasaha.

A cikin buƙata a cikin injiniyan bayanai da kuma kimiyyar bayanai

Ya kamata a lura cewa takwas daga cikin matsayi goma na farko a cikin duka saiti iri ɗaya ne. SQL, Python, Spark, AWS, Java, Hadoop, Hive da Scala sun sanya shi cikin manyan goma don duka injiniyoyin bayanai da masana'antar kimiyyar bayanai. A cikin jadawali da ke ƙasa za ku iya ganin fasahohi goma sha biyar da suka fi shahara a tsakanin masu aikin injiniyan bayanai, kuma kusa da su akwai guraben aikinsu na masana kimiyyar bayanai.

Mafi kyawun ƙwarewar da ake buƙata a cikin aikin injiniyan bayanai

shawarwari

Idan kuna son shiga injiniyan bayanai, zan ba ku shawarar ku ƙware waɗannan fasahohin - Na lissafta su bisa ƙimayar fifiko.

Koyi SQL. Ina karkata zuwa ga PostgreSQL saboda buɗaɗɗen tushe ne, sananne ne a cikin al'umma, kuma yana cikin haɓakar haɓaka. Kuna iya koyon yadda ake amfani da yaren daga littafin My Memorable SQL - akwai nau'in matukinsa a nan.

Jagora Python, ko da ba a mafi matakin hardcore ba. My Memorable Python an tsara shi musamman don masu farawa. Ana iya siyan shi a Amazon, kwafin lantarki ko na zahiri, zaɓinku, ko zazzagewa cikin pdf ko tsarin epub a kan wannan shafin.

Da zarar kun saba da Python, matsa zuwa pandas, ɗakin karatu na Python wanda ake amfani dashi don tsaftace bayanai da sarrafa bayanai. Idan kuna son yin aiki a cikin kamfani wanda ke buƙatar ikon yin rubutu a cikin Python (kuma wannan shine mafi yawansu), zaku iya tabbata cewa ilimin pandas za a ɗauka ta tsohuwa. A halin yanzu ina gama kammala jagorar gabatarwa don aiki tare da pandas - za ku iya biyan kuɗidon kar a rasa lokacin sakin.

Babban darajar AWS. Idan kuna son zama injiniyan bayanai, ba za ku iya yin ba tare da dandamalin girgije a cikin tashe ba, kuma AWS shine mafi shaharar su. Darussan sun taimaka mini da yawa Cibiyar Linuxlokacin da nake karatu injiniyan bayanai akan Google Cloud, Ina tsammanin cewa za su kuma sami kayan aiki masu kyau akan AWS.

Idan kun riga kun kammala wannan jerin duka kuma kuna son ƙara girma a idanun masu ɗauka a matsayin injiniyan bayanai, Ina ba da shawarar ƙara Apache Spark don aiki tare da manyan bayanai. Ko da yake binciken da na yi kan guraben guraben guraben ilimin kimiyyar bayanai ya nuna raguwar sha'awa, a tsakanin injiniyoyin bayanai har yanzu yana bayyana a kusan kowane guraben dakika.

A ƙarshe

Ina fatan kun sami wannan bayyani na mafi yawan fasahar da ake buƙata don injiniyoyin bayanai suna da amfani. Idan kuna mamakin yadda ayyukan manazarta ke tafiya, karanta sauran labarina. Injiniya mai farin ciki!

source: www.habr.com

Add a comment