Gegebi
Mo ṣe atupale awọn aye fun ipo ẹlẹrọ data bi wọn ṣe wa ni Oṣu Kini ọdun 2020 lati loye iru awọn ọgbọn imọ-ẹrọ jẹ olokiki julọ. Lẹhinna Mo ṣe afiwe awọn abajade pẹlu awọn iṣiro lori awọn aye fun ipo onimọ-jinlẹ data - ati diẹ ninu awọn iyatọ ti o nifẹ si farahan.
Laisi iṣaaju pupọ, eyi ni awọn imọ-ẹrọ mẹwa mẹwa ti o mẹnuba nigbagbogbo ni awọn ifiweranṣẹ iṣẹ:
Darukọ awọn imọ-ẹrọ ni awọn aye fun ipo ẹlẹrọ data ni 2020
Awọn ojuse ti ẹlẹrọ data
Loni, iṣẹ ti awọn onimọ-ẹrọ data ṣe jẹ pataki pupọ fun awọn ẹgbẹ - iwọnyi ni awọn eniyan ti o ni iduro fun titoju alaye ati mu wa sinu iru fọọmu ti awọn oṣiṣẹ miiran le ṣiṣẹ pẹlu rẹ. Awọn ẹlẹrọ data kọ awọn opo gigun ti epo lati sanwọle tabi ipele data lati awọn orisun lọpọlọpọ. Awọn paipu lẹhinna ṣe isediwon, iyipada, ati awọn iṣẹ ikojọpọ (ni awọn ọrọ miiran, awọn ilana ETL), ṣiṣe data naa dara julọ fun lilo siwaju sii. Lẹhin eyi, a fi data naa silẹ si awọn atunnkanka ati awọn onimọ-jinlẹ data fun sisẹ jinlẹ. Ni ipari, data dopin irin-ajo rẹ ni awọn dasibodu, awọn ijabọ, ati awọn awoṣe ikẹkọ ẹrọ.
Mo n wa alaye ti yoo gba mi laaye lati fa ipari nipa eyiti awọn imọ-ẹrọ jẹ ibeere julọ ninu iṣẹ ẹlẹrọ data ni akoko yii.
Awọn ọna
Mo gba alaye lati awọn aaye wiwa iṣẹ mẹta -
Fun Koko-ọrọ kọọkan, Mo ṣe iṣiro ipin ogorun awọn deba lati nọmba lapapọ ti awọn ọrọ lori aaye kọọkan lọtọ, ati lẹhinna ṣe iṣiro apapọ fun awọn orisun mẹta.
Результаты
Ni isalẹ wa awọn ọgbọn imọ-ẹrọ data imọ-ẹrọ pẹlu awọn ikun ti o ga julọ kọja gbogbo awọn aaye iṣẹ mẹta.
Ati pe nibi ni awọn nọmba kanna, ṣugbọn gbekalẹ ni fọọmu tabili:
Jẹ ki a lọ ni ibere.
Atunwo ti awọn esi
Mejeeji SQL ati Python han ni diẹ sii ju meji-meta ti awọn ṣiṣi iṣẹ ti a ṣe atunyẹwo. O jẹ awọn imọ-ẹrọ meji wọnyi ti o ni oye lati kọ ẹkọ ni akọkọ.
Spark ti mẹnuba ni iwọn idaji awọn aye.
AWS han ni isunmọ 45% ti awọn ifiweranṣẹ iṣẹ. O ti wa ni a awọsanma iširo Syeed ti ṣelọpọ nipasẹ Amazon; o ni ipin ọja ti o tobi julọ laarin gbogbo awọn iru ẹrọ awọsanma.
Nigbamii ti Java ati Hadoop wa - diẹ diẹ sii ju 40% fun arakunrin wọn.
O dabi gigun ninu ẹrọ akoko kan
Lẹhinna a rii Hive, Scala, Kafka ati NoSQL - ọkọọkan awọn imọ-ẹrọ wọnyi ni mẹnuba ni idamẹrin ti awọn aye silẹ. Apache Hive jẹ sọfitiwia ile-ipamọ data ti “jẹ ki o rọrun lati ka, kọ, ati ṣakoso awọn ipilẹ data nla ti n gbe ni awọn ile itaja ti a pin kaakiri nipa lilo SQL.”
Ifiwera pẹlu awọn ofin ni awọn aye onimọ-jinlẹ data
Eyi ni awọn ofin imọ-ẹrọ ọgbọn ti o wọpọ julọ laarin awọn agbanisiṣẹ imọ-ẹrọ data. Mo gba atokọ yii ni ọna kanna bi a ti ṣalaye loke fun imọ-ẹrọ data.
Awọn mẹnuba ti imọ-ẹrọ ni awọn aye fun ipo ti onimọ-jinlẹ data ni ọdun 2020
Ti a ba sọrọ nipa nọmba lapapọ, ni akawe si igbanisiṣẹ ti a ti gbero tẹlẹ, awọn aye 28% diẹ sii wa (12 dipo 013). Jẹ ki a wo iru awọn imọ-ẹrọ ti ko wọpọ ni awọn aye fun awọn onimọ-jinlẹ data ju fun awọn ẹlẹrọ data.
Okiki diẹ sii ni imọ-ẹrọ data
Aworan ti o wa ni isalẹ fihan awọn koko-ọrọ pẹlu iyatọ aropin ti o tobi ju 10% tabi kere si -10%.
Awọn iyatọ ti o tobi julọ ni igbohunsafẹfẹ Koko laarin ẹlẹrọ data ati onimọ-jinlẹ data
AWS ṣe afihan ilosoke pataki julọ: ni imọ-ẹrọ data o han 25% diẹ sii nigbagbogbo ju ni imọ-jinlẹ data (isunmọ 45% ati 20% ti nọmba lapapọ ti awọn aye, lẹsẹsẹ). Iyatọ jẹ akiyesi!
Eyi ni data kanna ni igbejade ti o yatọ die-die - ninu aworan, awọn abajade fun Koko kanna ni awọn aye fun ipo ẹlẹrọ data ati onimọ-jinlẹ data wa ni ẹgbẹ ni ẹgbẹ.
Awọn iyatọ ti o tobi julọ ni igbohunsafẹfẹ Koko laarin ẹlẹrọ data ati onimọ-jinlẹ data
Fofo nla ti o tẹle ti Mo ṣe akiyesi wa ni Spark - ẹlẹrọ data nigbagbogbo ni lati ṣiṣẹ pẹlu data nla.
Kere olokiki ni imọ-ẹrọ data
Bayi jẹ ki a wo iru awọn imọ-ẹrọ ti ko gbajumọ ni awọn aye ẹlẹrọ data.
Idinku ti o dara julọ ni akawe si eka imọ-jinlẹ data waye ninu
Ni ibeere ni imọ-ẹrọ data mejeeji ati imọ-jinlẹ data
O yẹ ki o ṣe akiyesi pe mẹjọ ti awọn ipo mẹwa akọkọ ni awọn eto mejeeji jẹ kanna. SQL, Python, Spark, AWS, Java, Hadoop, Hive ati Scala jẹ ki o wa ni oke mẹwa fun imọ-ẹrọ data mejeeji ati awọn ile-iṣẹ imọ-jinlẹ data. Ninu aworan ti o wa ni isalẹ o le rii awọn imọ-ẹrọ mẹdogun ti o gbajumọ julọ laarin awọn agbanisiṣẹ ẹlẹrọ data, ati lẹgbẹẹ wọn ni oṣuwọn aye wọn fun awọn onimọ-jinlẹ data.
Awọn iṣeduro
Ti o ba fẹ wọle si imọ-ẹrọ data, Emi yoo gba ọ ni imọran lati ṣakoso awọn imọ-ẹrọ wọnyi - Mo ṣe atokọ wọn ni aṣẹ isunmọ pataki.
Kọ ẹkọ SQL. Mo n tẹriba si PostgreSQL nitori pe o jẹ orisun ṣiṣi, olokiki pupọ ni agbegbe, ati pe o wa ni ipele idagbasoke. O le kọ ẹkọ bi o ṣe le lo ede naa lati inu iwe SQL Memorable Mi - ẹya awaoko rẹ wa
Titunto si Python, paapaa ti kii ba ṣe ni ipele hardcore julọ. Python Memorable mi jẹ apẹrẹ pataki fun awọn olubere. O le ra ni
Ni kete ti o ba faramọ Python, tẹsiwaju si pandas, ile-ikawe Python kan ti o lo fun mimọ data ati sisẹ. Ti o ba n ṣe ifọkansi lati ṣiṣẹ ni ile-iṣẹ kan ti o nilo agbara lati kọ ni Python (ati pe eyi ni pupọ julọ ninu wọn), o le ni idaniloju pe imọ ti pandas yoo gba nipasẹ aiyipada. Lọwọlọwọ Mo n pari itọsọna iforo si ṣiṣẹ pẹlu pandas - o le
Titunto AWS. Ti o ba fẹ di ẹlẹrọ data, o ko le ṣe laisi ipilẹ awọsanma ni stash, ati AWS jẹ olokiki julọ ninu wọn. Awọn ikẹkọ ṣe iranlọwọ fun mi pupọ
Ti o ba ti pari gbogbo atokọ yii ati pe o fẹ lati dagba siwaju ni oju awọn agbanisiṣẹ bi ẹlẹrọ data, Mo daba ṣafikun Apache Spark fun ṣiṣẹ pẹlu data nla. Botilẹjẹpe iwadii mi lori awọn aye onimọ-jinlẹ data fihan idinku ninu iwulo, laarin awọn onimọ-ẹrọ data o tun han ni fere gbogbo aye keji.
Lakotan
Mo nireti pe o rii awotẹlẹ yii ti awọn imọ-ẹrọ eletan pupọ julọ fun awọn ẹlẹrọ data wulo. Ti o ba n iyalẹnu bawo ni awọn iṣẹ atunnkanka ṣe n lọ, ka
orisun: www.habr.com