Maluso omwe amafunidwa kwambiri pantchito ya mainjiniya a data

Malingana ndi ziwerengero za 2019, wopanga ma data pakali pano ndi ntchito yomwe kufunikira kwake kukukulirakulira kuposa ina iliyonse. Katswiri wa data amagwira ntchito yofunika kwambiri m'bungwe - kupanga ndi kukonza mapaipi ndi nkhokwe zomwe zimagwiritsidwa ntchito pokonza, kusintha ndi kusunga deta. Ndi maluso otani omwe oimira ntchito imeneyi amafunikira poyamba? Kodi mndandandawu ndi wosiyana ndi zomwe asayansi amafunikira? Muphunzira za zonsezi m'nkhani yanga.

Ndidasanthula malo omwe ali pantchito ya mainjiniya wa data momwe alili mu Januware 2020 kuti ndimvetsetse maluso aukadaulo omwe amadziwika kwambiri. Kenako ndinayerekeza zotsatira ndi ziwerengero pa ntchito kwa deta wasayansi udindo - ndipo ena chidwi kusiyana anatulukira.

Popanda mawu oyamba, nazi matekinoloje khumi apamwamba omwe amatchulidwa nthawi zambiri pazolemba ntchito:

Maluso omwe amafunidwa kwambiri pantchito ya mainjiniya a data

Kutchulidwa kwa matekinoloje omwe ali m'malo aukadaulo wa data mu 2020

Tiyeni timvetse bwino.

Udindo wa injiniya wa data

Masiku ano, ntchito yomwe akatswiri opanga ma data amachita ndi yofunika kwambiri kwa mabungwe - awa ndi anthu omwe ali ndi udindo wosunga zidziwitso ndikuzibweretsa mu mawonekedwe oti antchito ena azitha kugwira nawo ntchito. Akatswiri opanga ma data amapanga mapaipi kuti azisakatula kapena kusonkhanitsa deta kuchokera kumagwero angapo. Mapaipi amathanso kutulutsa, kusintha, ndi kukweza (mwanjira ina, njira za ETL), zomwe zimapangitsa kuti deta ikhale yoyenera kugwiritsidwa ntchito mopitilira. Pambuyo pa izi, deta imaperekedwa kwa ofufuza ndi asayansi a data kuti afufuze mozama. Pomaliza, deta imamaliza ulendo wake m'madashibodi, malipoti, ndi mitundu yophunzirira pamakina.

Ndinkafuna zambiri zomwe zingandilole kuti nditsimikize za ukadaulo womwe ukufunidwa kwambiri pantchito ya injiniya wa data pakadali pano.

Njira

Ndinatolera zidziwitso kuchokera kumalo atatu osaka ntchito βˆ’ Mwachidule, Poyeneradi ΠΈ chilombo ndikuyang'ana mawu osakira omwe adakumana nawo limodzi ndi "injiniya wa data" m'malemba a ntchito zomwe zimayang'ana anthu okhala ku US. Pa ntchitoyi ndidagwiritsa ntchito malaibulale awiri a Python - zopempha ΠΈ Msuzi Wokongola. Mwa mawu osakira, ndidaphatikiza onse omwe adaphatikizidwa pamndandanda wam'mbuyomu wowunikira malo asayansi ya data, ndi omwe ndidasankha pawokha ndikuwerenga ntchito za akatswiri opanga ma data. LinkedIn sinaphatikizidwe pamndandanda wamagwero, popeza ndidaletsedwa pamenepo nditatha kuyesa komaliza kusonkhanitsa deta.

Pa liwu lililonse lofunikira, ndidawerengera kuchuluka kwa zomenyedwa kuchokera pamasamba onse patsamba lililonse padera, kenako ndikuwerengera pafupifupi magwero atatu.

Zotsatira

Pansipa pali mawu makumi atatu aukadaulo aukadaulo omwe ali ndi ziwopsezo zambiri pamawebusayiti onse atatu ogwira ntchito.

Maluso omwe amafunidwa kwambiri pantchito ya mainjiniya a data

Ndipo nazi manambala omwewo, koma operekedwa mu mawonekedwe a tebulo:

Maluso omwe amafunidwa kwambiri pantchito ya mainjiniya a data

Tiyeni tipite mwadongosolo.

Ndemanga za zotsatira

Onse SQL ndi Python amawoneka mu magawo awiri mwa atatu a ntchito zomwe zawunikiridwa. Ndi matekinoloje awiriwa omwe amamveka kuti aphunzire poyamba. Python ndi chilankhulo chodziwika bwino chomwe chimagwiritsidwa ntchito pogwira ntchito ndi data, kupanga mawebusayiti, ndi kulemba zolemba. SQL imayimira Structured Query Language; imaphatikizapo mulingo wokhazikitsidwa ndi gulu la zilankhulo ndipo umagwiritsidwa ntchito kubweza deta kuchokera pazosunga zolumikizana. Idawoneka kalekale ndipo yatsimikizira kuti ndi yolimba kwambiri.

Spark amatchulidwa pafupifupi theka la ntchito. Apache Spark ndi "injini yolumikizana yayikulu yowunikira yomwe ili ndi ma module omangira, SQL, kuphunzira pamakina, ndi kukonza ma graph." Ndiwotchuka kwambiri pakati pa omwe amagwira ntchito ndi ma database akuluakulu.

AWS imapezeka pafupifupi 45% ya ntchito. Ndi mtambo computing nsanja opangidwa ndi Amazon; ili ndi gawo lalikulu kwambiri pamsika pakati pa nsanja zonse zamtambo.
Kenako kubwera Java ndi Hadoop - kupitilira pang'ono 40% kwa mchimwene wawo. Java ndi chilankhulo cholankhulidwa kwambiri, choyesedwa nkhondo Kafukufuku wa 2019 Stack Overflow Developer Survey adapatsidwa malo khumi mwa zilankhulo zomwe zimayambitsa mantha pakati pa opanga mapulogalamu. Mosiyana ndi zimenezi, Python inali chinenero chachiwiri chokondedwa kwambiri. Chiyankhulo cha Java chimayendetsedwa ndi Oracle, ndipo zonse zomwe muyenera kudziwa za izi zitha kumveka kuchokera pazithunzi zatsamba lovomerezeka kuyambira Januware 2020.

Maluso omwe amafunidwa kwambiri pantchito ya mainjiniya a data

Zili ngati kukwera mu makina a nthawi
Apache Hadoop amagwiritsa ntchito pulogalamu ya MapReduce yokhala ndi magulu a seva pa data yayikulu. Tsopano chitsanzo ichi chikusiyidwa kwambiri.

Kenako tikuwona Hive, Scala, Kafka ndi NoSQL - matekinoloje onsewa amatchulidwa mu kotala la ntchito zomwe zatumizidwa. Apache Hive ndi pulogalamu yosungiramo zinthu zomwe "imapangitsa kuti zikhale zosavuta kuwerenga, kulemba, ndi kuyang'anira ma dataset akuluakulu omwe amakhala m'masitolo ogulitsa pogwiritsa ntchito SQL." Scala - chinenero chokonzekera chomwe chimagwiritsidwa ntchito mwakhama pogwira ntchito ndi deta yaikulu. Makamaka, Spark idapangidwa ku Scala. M'malo omwe atchulidwa kale a zilankhulo zoopedwa, Scala ali pa nambala khumi ndi chimodzi. Apache Kafka - nsanja yogawidwa yosinthira mauthenga akukhamukira. Chodziwika kwambiri ngati njira yosinthira deta.

Zolemba za NoSQL kusiyanitsa okha ndi SQL. Amasiyana chifukwa ndi opanda ubale, osakhazikika, komanso opingasa. NoSQL yayamba kutchuka, koma chilakolako chofuna njirayo, mpaka maulosi oti idzalowa m'malo mwa SQL monga paradigm yaikulu yosungirako, ikuwoneka kuti yatha.

Poyerekeza ndi mawu omwe ali muzasayansi ya data

Nawa mawu aukadaulo makumi atatu omwe amapezeka kwambiri pakati pa olemba ntchito asayansi ya data. Ndinapeza mndandandawu mofanana ndi momwe tafotokozera pamwambapa pa data engineering.

Maluso omwe amafunidwa kwambiri pantchito ya mainjiniya a data

Kutchulidwa kwaukadaulo muzantchito zapaudindo wasayansi ya data mu 2020

Ngati tilankhula za chiwerengero chonse, poyerekeza ndi ntchito zomwe zinkaganiziridwa kale, panali 28% ntchito zambiri (12 motsutsana ndi 013). Tiyeni tiwone kuti ndi njira ziti zomwe sizipezeka kawirikawiri m'malo a asayansi a data kuposa akatswiri opanga ma data.

Zodziwika kwambiri mu data engineering

Chithunzi chomwe chili pansipa chikuwonetsa mawu osakira omwe ali ndi kusiyana kwakukulu kuposa 10% kapena kuchepera -10%.

Maluso omwe amafunidwa kwambiri pantchito ya mainjiniya a data

Kusiyana kwakukulu kwafupipafupi kwa mawu ofunikira pakati pa injiniya wa data ndi wasayansi wa data

AWS ikuwonetsa kuwonjezeka kwakukulu: mu engineering ya data imawoneka 25% pafupipafupi kuposa sayansi ya data (pafupifupi 45% ndi 20% ya chiwerengero chonse cha ntchito, motsatana). Kusiyanaku kumawonekera!

Nayi deta yofananira pamawonekedwe osiyana pang'ono - mu graph, zotsatira za mawu osakira omwewo pamipata ya malo a injiniya wa data ndi wasayansi wa data amapezeka mbali ndi mbali.

Maluso omwe amafunidwa kwambiri pantchito ya mainjiniya a data

Kusiyana kwakukulu kwafupipafupi kwa mawu ofunikira pakati pa injiniya wa data ndi wasayansi wa data

Kudumpha kwakukulu kotsatira komwe ndidawona kunali ku Spark - wopanga ma data nthawi zambiri amayenera kugwira ntchito ndi data yayikulu. Kafka chinawonjezekanso ndi 20%, ndiko kuti, pafupifupi kanayi poyerekeza ndi zotsatira za ntchito deta asayansi. Kutumiza deta ndi imodzi mwamaudindo ofunikira a injiniya wa data. Potsirizira pake, chiwerengero cha kutchulidwa chinali 15% pamwamba pa gawo la zomangamanga za Java, NoSQL, Redshift, SQL ndi Hadoop.

Zodziwika zochepa muukadaulo wama data

Tsopano tiyeni tiwone ndi matekinoloje ati omwe sadziwika kwambiri pazantchito za mainjiniya wa data.
Kutsika kwakukulu kwambiri poyerekeza ndi gawo la sayansi ya data kudachitika R: kumeneko adawonekera pafupifupi 56% ya ntchito, apa - mu 17% yokha. Zochititsa chidwi. R ndi chinenero cha mapulogalamu chokondedwa ndi asayansi ndi owerengera, komanso chinenero chachisanu ndi chitatu chowopedwa kwambiri padziko lonse lapansi.

SAS imapezekanso m'malo osankhidwa aukadaulo wa data nthawi zambiri - kusiyana ndi 14%. SAS ndi chilankhulo chokhazikitsidwa kuti chizigwira ntchito ndi ziwerengero ndi data. Mfundo yosangalatsa: kuweruza ndi zotsatira kufufuza kwanga pakutsegulira ntchito kwa asayansi a data, yasokonekera kwambiri posachedwapaβ€”kuposa umisiri wina uliwonse.

Pakufunidwa muumisiri wa data ndi sayansi ya data

Tiyenera kudziwa kuti malo asanu ndi atatu mwa khumi oyambirira m'magulu onse awiri ndi ofanana. SQL, Python, Spark, AWS, Java, Hadoop, Hive ndi Scala adalowa m'malo khumi apamwamba m'mafakitale opangira ma data ndi sayansi ya data. Mu graph yomwe ili pansipa mutha kuwona matekinoloje khumi ndi asanu odziwika kwambiri pakati pa akatswiri opanga ma data, ndipo pafupi ndi iwo pali kuchuluka kwa ntchito kwa asayansi a data.

Maluso omwe amafunidwa kwambiri pantchito ya mainjiniya a data

ayamikira

Ngati mukufuna kulowa mu uinjiniya wa data, ndikulangizani kuti muzitha kudziwa bwino matekinoloje otsatirawa - ndimazilemba motsatira zomwe zili zofunika kwambiri.

Phunzirani SQL. Ndikutsamira ku PostgreSQL chifukwa ndi gwero lotseguka, lodziwika bwino mdera lanu, ndipo likukula. Mutha kuphunzira kugwiritsa ntchito chilankhulo kuchokera m'buku la My Memorable SQL - mtundu wake woyeserera ulipo apa.

Master Python, ngakhale sichoncho pamlingo wovuta kwambiri. My Memorable Python idapangidwa makamaka kwa oyamba kumene. Itha kugulidwa pa Amazon, kope lamagetsi kapena lakuthupi, kusankha kwanu, kapena kutsitsa mumtundu wa pdf kapena epub pa webusayiti imeneyo.

Mukadziwa Python, pitani ku pandas, laibulale ya Python yomwe imagwiritsidwa ntchito poyeretsa ndi kukonza deta. Ngati mukufuna kugwira ntchito pakampani yomwe imafuna luso lolemba mu Python (ndipo ambiri aiwo), mungakhale otsimikiza kuti kudziwa kwa panda kudzaganiziridwa mwachisawawa. Pano ndikumaliza kalozera woyambira wogwirira ntchito ndi ma panda - mutha lembetsanikuti musaphonye mphindi yomasulidwa.

Master AWS. Ngati mukufuna kukhala mainjiniya a data, simungathe kuchita popanda nsanja yamtambo mu stash, ndipo AWS ndi yotchuka kwambiri mwa iwo. Maphunzirowa anandithandiza kwambiri Linux Academypamene ndinali kuphunzira data engineering pa Google Cloud, ndikuganiza kuti adzakhalanso ndi zida zabwino pa AWS.

Ngati mwamaliza kale mndandanda wonsewu ndipo mukufuna kukulirakulira pamaso pa olemba ntchito ngati mainjiniya a data, ndikupangira kuwonjezera Apache Spark kuti mugwire ntchito ndi data yayikulu. Ngakhale kuti kafukufuku wanga pazantchito za asayansi ya data adawonetsa kuchepa kwa chidwi, pakati pa akatswiri opanga ma data amawonekerabe pafupifupi mphindi iliyonse.

Pamapeto pake

Ndikukhulupirira kuti mwapeza izi mwachidule za matekinoloje omwe amafunidwa kwambiri ndi akatswiri opanga ma data. Ngati mukudabwa momwe ntchito ya analyst ilili, werengani nkhani yanga ina. Uinjiniya wabwino!

Source: www.habr.com

Kuwonjezera ndemanga