Awọn ọgbọn eletan pupọ julọ ninu oojọ ẹlẹrọ data

Gegebi awọn iṣiro 2019, ẹlẹrọ data jẹ lọwọlọwọ oojọ ti ibeere rẹ n dagba ni iyara ju eyikeyi miiran lọ. Onimọ-ẹrọ data ṣe ipa pataki ninu agbari kan - ṣiṣẹda ati mimu awọn opo gigun ti epo ati awọn data data ti a lo lati ṣe ilana, yipada ati tọju data. Awọn ọgbọn wo ni awọn aṣoju ti iṣẹ yii nilo ni akọkọ? Njẹ atokọ naa yatọ si ohun ti o nilo fun awọn onimọ-jinlẹ data? Iwọ yoo kọ ẹkọ nipa gbogbo eyi lati nkan mi.

Mo ṣe atupale awọn aye fun ipo ẹlẹrọ data bi wọn ṣe wa ni Oṣu Kini ọdun 2020 lati loye iru awọn ọgbọn imọ-ẹrọ jẹ olokiki julọ. Lẹhinna Mo ṣe afiwe awọn abajade pẹlu awọn iṣiro lori awọn aye fun ipo onimọ-jinlẹ data - ati diẹ ninu awọn iyatọ ti o nifẹ si farahan.

Laisi iṣaaju pupọ, eyi ni awọn imọ-ẹrọ mẹwa mẹwa ti o mẹnuba nigbagbogbo ni awọn ifiweranṣẹ iṣẹ:

Awọn ọgbọn eletan pupọ julọ ninu oojọ ẹlẹrọ data

Darukọ awọn imọ-ẹrọ ni awọn aye fun ipo ẹlẹrọ data ni 2020

Jẹ ki a ro ero rẹ.

Awọn ojuse ti ẹlẹrọ data

Loni, iṣẹ ti awọn onimọ-ẹrọ data ṣe jẹ pataki pupọ fun awọn ẹgbẹ - iwọnyi ni awọn eniyan ti o ni iduro fun titoju alaye ati mu wa sinu iru fọọmu ti awọn oṣiṣẹ miiran le ṣiṣẹ pẹlu rẹ. Awọn ẹlẹrọ data kọ awọn opo gigun ti epo lati sanwọle tabi ipele data lati awọn orisun lọpọlọpọ. Awọn paipu lẹhinna ṣe isediwon, iyipada, ati awọn iṣẹ ikojọpọ (ni awọn ọrọ miiran, awọn ilana ETL), ṣiṣe data naa dara julọ fun lilo siwaju sii. Lẹhin eyi, a fi data naa silẹ si awọn atunnkanka ati awọn onimọ-jinlẹ data fun sisẹ jinlẹ. Ni ipari, data dopin irin-ajo rẹ ni awọn dasibodu, awọn ijabọ, ati awọn awoṣe ikẹkọ ẹrọ.

Mo n wa alaye ti yoo gba mi laaye lati fa ipari nipa eyiti awọn imọ-ẹrọ jẹ ibeere julọ ninu iṣẹ ẹlẹrọ data ni akoko yii.

Awọn ọna

Mo gba alaye lati awọn aaye wiwa iṣẹ mẹta - SimplyHired, Nitootọ и aderubaniyan ati ki o wo kini awọn koko-ọrọ wa kọja ni apapo pẹlu “ẹrọ ẹlẹrọ data” ninu awọn ọrọ ti awọn aye ti o ni ero si awọn olugbe AMẸRIKA. Fun iṣẹ yii Mo lo awọn ile-ikawe Python meji - ibeere и Bimo ti o lẹwa. Lara awọn koko-ọrọ, Mo pẹlu awọn mejeeji ti o wa ninu atokọ iṣaaju fun itupalẹ awọn aye fun ipo ti onimọ-jinlẹ data, ati awọn ti Mo yan pẹlu ọwọ lakoko kika awọn ipese iṣẹ fun awọn onimọ-ẹrọ data. LinkedIn ko si ninu atokọ ti awọn orisun, niwon a ti fi ofin de mi nibẹ lẹhin igbiyanju mi ​​kẹhin lati gba data.

Fun Koko-ọrọ kọọkan, Mo ṣe iṣiro ipin ogorun awọn deba lati nọmba lapapọ ti awọn ọrọ lori aaye kọọkan lọtọ, ati lẹhinna ṣe iṣiro apapọ fun awọn orisun mẹta.

Результаты

Ni isalẹ wa awọn ọgbọn imọ-ẹrọ data imọ-ẹrọ pẹlu awọn ikun ti o ga julọ kọja gbogbo awọn aaye iṣẹ mẹta.

Awọn ọgbọn eletan pupọ julọ ninu oojọ ẹlẹrọ data

Ati pe nibi ni awọn nọmba kanna, ṣugbọn gbekalẹ ni fọọmu tabili:

Awọn ọgbọn eletan pupọ julọ ninu oojọ ẹlẹrọ data

Jẹ ki a lọ ni ibere.

Atunwo ti awọn esi

Mejeeji SQL ati Python han ni diẹ sii ju meji-meta ti awọn ṣiṣi iṣẹ ti a ṣe atunyẹwo. O jẹ awọn imọ-ẹrọ meji wọnyi ti o ni oye lati kọ ẹkọ ni akọkọ. Python jẹ ede siseto olokiki pupọ ti a lo fun ṣiṣẹ pẹlu data, ṣiṣẹda awọn oju opo wẹẹbu, ati awọn iwe afọwọkọ kikọ. SQL dúró fún Èdè Ìbéèrè Tí A Ṣeto; o kan boṣewa ti a ṣe nipasẹ ẹgbẹ kan ti awọn ede ati pe a lo lati gba data pada lati awọn apoti isura data ibatan. O farahan ni igba pipẹ sẹhin ati pe o ti fihan ararẹ lati jẹ sooro pupọ.

Spark ti mẹnuba ni iwọn idaji awọn aye. Agbejade Afun jẹ “Ẹnjini itupalẹ data nla ti iṣọkan pẹlu awọn modulu ti a ṣe sinu fun ṣiṣanwọle, SQL, kikọ ẹrọ, ati sisẹ awọn aworan.” O jẹ olokiki paapaa laarin awọn ti o ṣiṣẹ pẹlu awọn apoti isura infomesonu nla.

AWS han ni isunmọ 45% ti awọn ifiweranṣẹ iṣẹ. O ti wa ni a awọsanma iširo Syeed ti ṣelọpọ nipasẹ Amazon; o ni ipin ọja ti o tobi julọ laarin gbogbo awọn iru ẹrọ awọsanma.
Nigbamii ti Java ati Hadoop wa - diẹ diẹ sii ju 40% fun arakunrin wọn. Java jẹ ede ti o gbooro, ede idanwo ogun ti 2019 Stack aponsedanu Olùgbéejáde iwadi ni a fun ni ipo idamẹwa laarin awọn ede ti o fa ẹru laarin awọn olupilẹṣẹ. Ni idakeji, Python jẹ ede keji ti o nifẹ julọ. Ede Java jẹ ṣiṣe nipasẹ Oracle, ati pe ohun gbogbo ti o nilo lati mọ nipa rẹ ni a le loye lati sikirinifoto oju-iwe osise lati Oṣu Kini ọdun 2020.

Awọn ọgbọn eletan pupọ julọ ninu oojọ ẹlẹrọ data

O dabi gigun ninu ẹrọ akoko kan
Hadoup Afun nlo awoṣe siseto MapReduce pẹlu awọn iṣupọ olupin fun data nla. Bayi awoṣe yi ti wa ni increasingly ni abandoned.

Lẹhinna a rii Hive, Scala, Kafka ati NoSQL - ọkọọkan awọn imọ-ẹrọ wọnyi ni mẹnuba ni idamẹrin ti awọn aye silẹ. Apache Hive jẹ sọfitiwia ile-ipamọ data ti “jẹ ki o rọrun lati ka, kọ, ati ṣakoso awọn ipilẹ data nla ti n gbe ni awọn ile itaja ti a pin kaakiri nipa lilo SQL.” Scala - ede siseto ti o lo ni itara nigba ṣiṣẹ pẹlu data nla. Ni pato, Spark ni a ṣẹda ni Scala. Ni ipo ti a ti sọ tẹlẹ ti awọn ede ti o bẹru, Scala ni ipo kọkanla. Afun Kafka – Syeed ti a pin fun sisẹ awọn ifiranṣẹ ṣiṣanwọle. Olokiki pupọ bi ọna ti data ṣiṣanwọle.

NoSQL infomesonu ṣe iyatọ ara wọn pẹlu SQL. Wọn yato ni pe wọn ko ni ibatan, ti ko ni ipilẹ, ati petele ti iwọn. NoSQL ti gba diẹ ninu awọn gbale, ṣugbọn awọn craze fun ona, ani si ojuami ti asolete ti o yoo ropo SQL bi awọn ti ako ipamọ paradigm, han lati wa ni ti pari.

Ifiwera pẹlu awọn ofin ni awọn aye onimọ-jinlẹ data

Eyi ni awọn ofin imọ-ẹrọ ọgbọn ti o wọpọ julọ laarin awọn agbanisiṣẹ imọ-ẹrọ data. Mo gba atokọ yii ni ọna kanna bi a ti ṣalaye loke fun imọ-ẹrọ data.

Awọn ọgbọn eletan pupọ julọ ninu oojọ ẹlẹrọ data

Awọn mẹnuba ti imọ-ẹrọ ni awọn aye fun ipo ti onimọ-jinlẹ data ni ọdun 2020

Ti a ba sọrọ nipa nọmba lapapọ, ni akawe si igbanisiṣẹ ti a ti gbero tẹlẹ, awọn aye 28% diẹ sii wa (12 dipo 013). Jẹ ki a wo iru awọn imọ-ẹrọ ti ko wọpọ ni awọn aye fun awọn onimọ-jinlẹ data ju fun awọn ẹlẹrọ data.

Okiki diẹ sii ni imọ-ẹrọ data

Aworan ti o wa ni isalẹ fihan awọn koko-ọrọ pẹlu iyatọ aropin ti o tobi ju 10% tabi kere si -10%.

Awọn ọgbọn eletan pupọ julọ ninu oojọ ẹlẹrọ data

Awọn iyatọ ti o tobi julọ ni igbohunsafẹfẹ Koko laarin ẹlẹrọ data ati onimọ-jinlẹ data

AWS ṣe afihan ilosoke pataki julọ: ni imọ-ẹrọ data o han 25% diẹ sii nigbagbogbo ju ni imọ-jinlẹ data (isunmọ 45% ati 20% ti nọmba lapapọ ti awọn aye, lẹsẹsẹ). Iyatọ jẹ akiyesi!

Eyi ni data kanna ni igbejade ti o yatọ die-die - ninu aworan, awọn abajade fun Koko kanna ni awọn aye fun ipo ẹlẹrọ data ati onimọ-jinlẹ data wa ni ẹgbẹ ni ẹgbẹ.

Awọn ọgbọn eletan pupọ julọ ninu oojọ ẹlẹrọ data

Awọn iyatọ ti o tobi julọ ni igbohunsafẹfẹ Koko laarin ẹlẹrọ data ati onimọ-jinlẹ data

Fofo nla ti o tẹle ti Mo ṣe akiyesi wa ni Spark - ẹlẹrọ data nigbagbogbo ni lati ṣiṣẹ pẹlu data nla. Kafka tun pọ nipasẹ 20%, iyẹn ni, o fẹrẹ to igba mẹrin ni akawe si abajade fun awọn aye onimọ-jinlẹ data. Gbigbe data jẹ ọkan ninu awọn ojuse bọtini ti ẹlẹrọ data. Nikẹhin, nọmba awọn mẹnuba jẹ 15% ti o ga julọ ni aaye imọ-ẹrọ data fun Java, NoSQL, Redshift, SQL ati Hadoop.

Kere olokiki ni imọ-ẹrọ data

Bayi jẹ ki a wo iru awọn imọ-ẹrọ ti ko gbajumọ ni awọn aye ẹlẹrọ data.
Idinku ti o dara julọ ni akawe si eka imọ-jinlẹ data waye ninu R: nibẹ o han ni isunmọ 56% ti awọn aye, nibi - nikan ni 17%. iwunilori. R jẹ ede siseto ti o jẹ ojurere nipasẹ awọn onimọ-jinlẹ ati awọn onimọ-jinlẹ, ati pe o jẹ ede kẹjọ ti o bẹru julọ ni agbaye.

SAS tun wa ni awọn aye fun ipo ẹlẹrọ data ni pataki kere si nigbagbogbo - iyatọ jẹ 14%. SAS jẹ ede ti ara ẹni ti a ṣe apẹrẹ fun ṣiṣẹ pẹlu awọn iṣiro ati data. Ojuami ti o nifẹ: idajọ nipasẹ awọn abajade iwadi mi sinu awọn ṣiṣi iṣẹ fun awọn onimọ-jinlẹ data, ó ti pàdánù ọ̀pọ̀lọpọ̀ ilẹ̀ láìpẹ́—ọ̀pọ̀ ẹ̀kọ́ ẹ̀rọ mìíràn lọ.

Ni ibeere ni imọ-ẹrọ data mejeeji ati imọ-jinlẹ data

O yẹ ki o ṣe akiyesi pe mẹjọ ti awọn ipo mẹwa akọkọ ni awọn eto mejeeji jẹ kanna. SQL, Python, Spark, AWS, Java, Hadoop, Hive ati Scala jẹ ki o wa ni oke mẹwa fun imọ-ẹrọ data mejeeji ati awọn ile-iṣẹ imọ-jinlẹ data. Ninu aworan ti o wa ni isalẹ o le rii awọn imọ-ẹrọ mẹdogun ti o gbajumọ julọ laarin awọn agbanisiṣẹ ẹlẹrọ data, ati lẹgbẹẹ wọn ni oṣuwọn aye wọn fun awọn onimọ-jinlẹ data.

Awọn ọgbọn eletan pupọ julọ ninu oojọ ẹlẹrọ data

Awọn iṣeduro

Ti o ba fẹ wọle si imọ-ẹrọ data, Emi yoo gba ọ ni imọran lati ṣakoso awọn imọ-ẹrọ wọnyi - Mo ṣe atokọ wọn ni aṣẹ isunmọ pataki.

Kọ ẹkọ SQL. Mo n tẹriba si PostgreSQL nitori pe o jẹ orisun ṣiṣi, olokiki pupọ ni agbegbe, ati pe o wa ni ipele idagbasoke. O le kọ ẹkọ bi o ṣe le lo ede naa lati inu iwe SQL Memorable Mi - ẹya awaoko rẹ wa nibi.

Titunto si Python, paapaa ti kii ba ṣe ni ipele hardcore julọ. Python Memorable mi jẹ apẹrẹ pataki fun awọn olubere. O le ra ni Amazon, itanna tabi ẹda ẹda, yiyan rẹ, tabi ṣe igbasilẹ ni pdf tabi ọna kika epub lori oju opo wẹẹbu yẹn.

Ni kete ti o ba faramọ Python, tẹsiwaju si pandas, ile-ikawe Python kan ti o lo fun mimọ data ati sisẹ. Ti o ba n ṣe ifọkansi lati ṣiṣẹ ni ile-iṣẹ kan ti o nilo agbara lati kọ ni Python (ati pe eyi ni pupọ julọ ninu wọn), o le ni idaniloju pe imọ ti pandas yoo gba nipasẹ aiyipada. Lọwọlọwọ Mo n pari itọsọna iforo si ṣiṣẹ pẹlu pandas - o le alabapinki o má ba padanu akoko itusilẹ.

Titunto AWS. Ti o ba fẹ di ẹlẹrọ data, o ko le ṣe laisi ipilẹ awọsanma ni stash, ati AWS jẹ olokiki julọ ninu wọn. Awọn ikẹkọ ṣe iranlọwọ fun mi pupọ Linux Academynigbati mo n keko imọ-ẹrọ data lori Google Cloud, Mo ro pe wọn yoo tun ni awọn ohun elo ti o dara lori AWS.

Ti o ba ti pari gbogbo atokọ yii ati pe o fẹ lati dagba siwaju ni oju awọn agbanisiṣẹ bi ẹlẹrọ data, Mo daba ṣafikun Apache Spark fun ṣiṣẹ pẹlu data nla. Botilẹjẹpe iwadii mi lori awọn aye onimọ-jinlẹ data fihan idinku ninu iwulo, laarin awọn onimọ-ẹrọ data o tun han ni fere gbogbo aye keji.

Lakotan

Mo nireti pe o rii awotẹlẹ yii ti awọn imọ-ẹrọ eletan pupọ julọ fun awọn ẹlẹrọ data wulo. Ti o ba n iyalẹnu bawo ni awọn iṣẹ atunnkanka ṣe n lọ, ka mi miiran article. Idunnu imọ-ẹrọ!

orisun: www.habr.com

Fi ọrọìwòye kun