Malingana ndi
Ndidasanthula malo omwe ali pantchito ya mainjiniya wa data momwe alili mu Januware 2020 kuti ndimvetsetse maluso aukadaulo omwe amadziwika kwambiri. Kenako ndinayerekeza zotsatira ndi ziwerengero pa ntchito kwa deta wasayansi udindo - ndipo ena chidwi kusiyana anatulukira.
Popanda mawu oyamba, nazi matekinoloje khumi apamwamba omwe amatchulidwa nthawi zambiri pazolemba ntchito:
Kutchulidwa kwa matekinoloje omwe ali m'malo aukadaulo wa data mu 2020
Udindo wa injiniya wa data
Masiku ano, ntchito yomwe akatswiri opanga ma data amachita ndi yofunika kwambiri kwa mabungwe - awa ndi anthu omwe ali ndi udindo wosunga zidziwitso ndikuzibweretsa mu mawonekedwe oti antchito ena azitha kugwira nawo ntchito. Akatswiri opanga ma data amapanga mapaipi kuti azisakatula kapena kusonkhanitsa deta kuchokera kumagwero angapo. Mapaipi amathanso kutulutsa, kusintha, ndi kukweza (mwanjira ina, njira za ETL), zomwe zimapangitsa kuti deta ikhale yoyenera kugwiritsidwa ntchito mopitilira. Pambuyo pa izi, deta imaperekedwa kwa ofufuza ndi asayansi a data kuti afufuze mozama. Pomaliza, deta imamaliza ulendo wake m'madashibodi, malipoti, ndi mitundu yophunzirira pamakina.
Ndinkafuna zambiri zomwe zingandilole kuti nditsimikize za ukadaulo womwe ukufunidwa kwambiri pantchito ya injiniya wa data pakadali pano.
Njira
Ndinatolera zidziwitso kuchokera kumalo atatu osaka ntchito β
Pa liwu lililonse lofunikira, ndidawerengera kuchuluka kwa zomenyedwa kuchokera pamasamba onse patsamba lililonse padera, kenako ndikuwerengera pafupifupi magwero atatu.
Zotsatira
Pansipa pali mawu makumi atatu aukadaulo aukadaulo omwe ali ndi ziwopsezo zambiri pamawebusayiti onse atatu ogwira ntchito.
Ndipo nazi manambala omwewo, koma operekedwa mu mawonekedwe a tebulo:
Tiyeni tipite mwadongosolo.
Ndemanga za zotsatira
Onse SQL ndi Python amawoneka mu magawo awiri mwa atatu a ntchito zomwe zawunikiridwa. Ndi matekinoloje awiriwa omwe amamveka kuti aphunzire poyamba.
Spark amatchulidwa pafupifupi theka la ntchito.
AWS imapezeka pafupifupi 45% ya ntchito. Ndi mtambo computing nsanja opangidwa ndi Amazon; ili ndi gawo lalikulu kwambiri pamsika pakati pa nsanja zonse zamtambo.
Kenako kubwera Java ndi Hadoop - kupitilira pang'ono 40% kwa mchimwene wawo.
Zili ngati kukwera mu makina a nthawi
Kenako tikuwona Hive, Scala, Kafka ndi NoSQL - matekinoloje onsewa amatchulidwa mu kotala la ntchito zomwe zatumizidwa. Apache Hive ndi pulogalamu yosungiramo zinthu zomwe "imapangitsa kuti zikhale zosavuta kuwerenga, kulemba, ndi kuyang'anira ma dataset akuluakulu omwe amakhala m'masitolo ogulitsa pogwiritsa ntchito SQL."
Poyerekeza ndi mawu omwe ali muzasayansi ya data
Nawa mawu aukadaulo makumi atatu omwe amapezeka kwambiri pakati pa olemba ntchito asayansi ya data. Ndinapeza mndandandawu mofanana ndi momwe tafotokozera pamwambapa pa data engineering.
Kutchulidwa kwaukadaulo muzantchito zapaudindo wasayansi ya data mu 2020
Ngati tilankhula za chiwerengero chonse, poyerekeza ndi ntchito zomwe zinkaganiziridwa kale, panali 28% ntchito zambiri (12 motsutsana ndi 013). Tiyeni tiwone kuti ndi njira ziti zomwe sizipezeka kawirikawiri m'malo a asayansi a data kuposa akatswiri opanga ma data.
Zodziwika kwambiri mu data engineering
Chithunzi chomwe chili pansipa chikuwonetsa mawu osakira omwe ali ndi kusiyana kwakukulu kuposa 10% kapena kuchepera -10%.
Kusiyana kwakukulu kwafupipafupi kwa mawu ofunikira pakati pa injiniya wa data ndi wasayansi wa data
AWS ikuwonetsa kuwonjezeka kwakukulu: mu engineering ya data imawoneka 25% pafupipafupi kuposa sayansi ya data (pafupifupi 45% ndi 20% ya chiwerengero chonse cha ntchito, motsatana). Kusiyanaku kumawonekera!
Nayi deta yofananira pamawonekedwe osiyana pang'ono - mu graph, zotsatira za mawu osakira omwewo pamipata ya malo a injiniya wa data ndi wasayansi wa data amapezeka mbali ndi mbali.
Kusiyana kwakukulu kwafupipafupi kwa mawu ofunikira pakati pa injiniya wa data ndi wasayansi wa data
Kudumpha kwakukulu kotsatira komwe ndidawona kunali ku Spark - wopanga ma data nthawi zambiri amayenera kugwira ntchito ndi data yayikulu.
Zodziwika zochepa muukadaulo wama data
Tsopano tiyeni tiwone ndi matekinoloje ati omwe sadziwika kwambiri pazantchito za mainjiniya wa data.
Kutsika kwakukulu kwambiri poyerekeza ndi gawo la sayansi ya data kudachitika
Pakufunidwa muumisiri wa data ndi sayansi ya data
Tiyenera kudziwa kuti malo asanu ndi atatu mwa khumi oyambirira m'magulu onse awiri ndi ofanana. SQL, Python, Spark, AWS, Java, Hadoop, Hive ndi Scala adalowa m'malo khumi apamwamba m'mafakitale opangira ma data ndi sayansi ya data. Mu graph yomwe ili pansipa mutha kuwona matekinoloje khumi ndi asanu odziwika kwambiri pakati pa akatswiri opanga ma data, ndipo pafupi ndi iwo pali kuchuluka kwa ntchito kwa asayansi a data.
ayamikira
Ngati mukufuna kulowa mu uinjiniya wa data, ndikulangizani kuti muzitha kudziwa bwino matekinoloje otsatirawa - ndimazilemba motsatira zomwe zili zofunika kwambiri.
Phunzirani SQL. Ndikutsamira ku PostgreSQL chifukwa ndi gwero lotseguka, lodziwika bwino mdera lanu, ndipo likukula. Mutha kuphunzira kugwiritsa ntchito chilankhulo kuchokera m'buku la My Memorable SQL - mtundu wake woyeserera ulipo
Master Python, ngakhale sichoncho pamlingo wovuta kwambiri. My Memorable Python idapangidwa makamaka kwa oyamba kumene. Itha kugulidwa pa
Mukadziwa Python, pitani ku pandas, laibulale ya Python yomwe imagwiritsidwa ntchito poyeretsa ndi kukonza deta. Ngati mukufuna kugwira ntchito pakampani yomwe imafuna luso lolemba mu Python (ndipo ambiri aiwo), mungakhale otsimikiza kuti kudziwa kwa panda kudzaganiziridwa mwachisawawa. Pano ndikumaliza kalozera woyambira wogwirira ntchito ndi ma panda - mutha
Master AWS. Ngati mukufuna kukhala mainjiniya a data, simungathe kuchita popanda nsanja yamtambo mu stash, ndipo AWS ndi yotchuka kwambiri mwa iwo. Maphunzirowa anandithandiza kwambiri
Ngati mwamaliza kale mndandanda wonsewu ndipo mukufuna kukulirakulira pamaso pa olemba ntchito ngati mainjiniya a data, ndikupangira kuwonjezera Apache Spark kuti mugwire ntchito ndi data yayikulu. Ngakhale kuti kafukufuku wanga pazantchito za asayansi ya data adawonetsa kuchepa kwa chidwi, pakati pa akatswiri opanga ma data amawonekerabe pafupifupi mphindi iliyonse.
Pamapeto pake
Ndikukhulupirira kuti mwapeza izi mwachidule za matekinoloje omwe amafunidwa kwambiri ndi akatswiri opanga ma data. Ngati mukudabwa momwe ntchito ya analyst ilili, werengani
Source: www.habr.com