Ang labing in-demand nga kahanas sa propesyon sa data engineer

Sumala sa estadistika 2019, ang data engineer sa pagkakaron usa ka propesyon kansang panginahanglan mas paspas nga mitubo kay sa uban. Ang usa ka inhenyero sa datos adunay hinungdanon nga papel sa usa ka organisasyon - paghimo ug pagpadayon sa mga pipeline ug mga database nga gigamit sa pagproseso, pagbag-o ug pagtipig sa datos. Unsa nga mga kahanas ang gikinahanglan sa mga representante niini nga propesyon una sa tanan? Lahi ba ang lista sa gikinahanglan sa mga data scientist? Makakat-on ka bahin niining tanan gikan sa akong artikulo.

Gisusi nako ang mga bakante alang sa posisyon sa data engineer kay naa sila sa Enero 2020 aron masabtan kung unsang mga kahanas sa teknolohiya ang labing popular. Dayon akong gitandi ang mga resulta sa mga estadistika sa mga bakante alang sa posisyon sa data scientist - ug mitumaw ang pipila ka makapaikag nga mga kalainan.

Kung wala’y daghang pasiuna, ania ang nag-una nga napulo nga mga teknolohiya nga kanunay nga gihisgutan sa mga pag-post sa trabaho:

Ang labing in-demand nga kahanas sa propesyon sa data engineer

Paghisgot sa mga teknolohiya sa mga bakante alang sa posisyon sa data engineer sa 2020

Tugoti nga sa husto.

Mga responsibilidad sa usa ka data engineer

Karon, ang trabaho nga gihimo sa mga inhenyero sa datos hinungdanon kaayo alang sa mga organisasyon - kini ang mga tawo nga responsable sa pagtipig sa kasayuran ug pagdala niini sa ingon nga porma nga ang ubang mga empleyado makatrabaho niini. Ang mga inhenyero sa datos nagtukod og mga pipeline aron ma-stream o batch ang datos gikan sa daghang mga gigikanan. Ang mga pipeline dayon nagpahigayon sa pagkuha, pagbag-o, ug pagkarga nga mga operasyon (sa laing pagkasulti, mga proseso sa ETL), nga naghimo sa datos nga mas angay alang sa dugang nga paggamit. Pagkahuman niini, ang datos gisumite sa mga analista ug mga siyentipiko sa datos alang sa mas lawom nga pagproseso. Sa katapusan, ang datos nagtapos sa panaw niini sa mga dashboard, mga taho, ug mga modelo sa pagkat-on sa makina.

Nangita ko og impormasyon nga magtugot kanako sa paghimo og konklusyon mahitungod sa unsa nga mga teknolohiya ang labing gikinahanglan sa trabaho sa usa ka data engineer sa pagkakaron.

Mga pamaagi

Nagkolekta ko og impormasyon gikan sa tulo ka site sa pagpangita og trabaho βˆ’ Yano, Sa pagkatinuod ΠΈ Monster ug gitan-aw kung unsa nga mga keyword ang nakit-an kauban ang "data engineer" sa mga teksto sa mga bakante nga gitumong sa mga residente sa US. Alang niini nga buluhaton migamit ko og duha ka librarya sa Python βˆ’ hangyo ΠΈ Nindot nga Sabaw. Lakip sa mga keyword, gilakip nako ang duha nga naapil sa miaging lista alang sa pag-analisar sa mga bakante alang sa posisyon sa data scientist, ug kadtong akong gipili nga mano-mano samtang nagbasa sa mga tanyag sa trabaho alang sa mga inhenyero sa datos. Wala gilakip ang LinkedIn sa lista sa mga gigikanan, tungod kay gidili ako didto pagkahuman sa akong katapusang pagsulay sa pagkolekta sa datos.

Alang sa matag keyword, gikalkulo nako ang porsyento sa mga hit gikan sa kinatibuk-ang gidaghanon sa mga teksto sa matag site nga gilain, ug dayon gikalkulo ang kasagaran alang sa tulo ka mga tinubdan.

Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹

Sa ubos mao ang katloan nga teknikal nga mga termino sa engineering sa datos nga adunay labing taas nga marka sa tanan nga tulo nga mga site sa trabaho.

Ang labing in-demand nga kahanas sa propesyon sa data engineer

Ug ania ang parehas nga mga numero, apan gipresentar sa porma sa lamesa:

Ang labing in-demand nga kahanas sa propesyon sa data engineer

Magsunod-sunod ta.

Pagrepaso sa mga resulta

Ang SQL ug Python makita sa labaw sa dos-tersiya sa mga pag-abli sa trabaho nga gisusi. Kini ang duha ka teknolohiya nga makatarunganon nga tun-an una. Python kay sikat kaayo nga programming language nga gigamit para sa pagtrabaho sa data, paghimo og website, ug pagsulat og mga script. SQL nagpasabot sa Structured Query Language; kini naglakip sa usa ka sumbanan nga gipatuman sa usa ka grupo sa mga pinulongan ug gigamit sa pagkuha sa data gikan sa relational database. Kini nagpakita sa dugay na nga panahon ug napamatud-an ang iyang kaugalingon nga makasugakod kaayo.

Gihisgotan ang Spark sa halos katunga sa mga bakante. Apache Spark mao ang usa ka "hiniusa nga dako nga data analytics engine nga adunay built-in nga mga module alang sa streaming, SQL, pagkat-on sa makina, ug pagproseso sa graph." Kini labi ka sikat sa mga nagtrabaho sa dagkong mga database.

Ang AWS makita sa gibana-bana nga 45% sa mga pag-post sa trabaho. Kini usa ka plataporma sa cloud computing nga gigama sa Amazon; kini adunay pinakadako nga bahin sa merkado sa tanan nga mga platform sa panganod.
Sunod moabut ang Java ug Hadoop - labaw pa sa 40% alang sa ilang igsoon. Java kay kaylap nga sinultihan, gisulayan sa gubat nga pinulongan nga 2019 Stack Overflow Developer Survey gihatagan og ikanapulo nga dapit taliwala sa mga pinulongan nga hinungdan sa kalisang sa mga programmer. Sa kasukwahi, ang Python mao ang ikaduha nga labing gihigugma nga pinulongan. Ang Java nga pinulongan gipadagan sa Oracle, ug ang tanan nga kinahanglan nimong mahibal-an bahin niini masabtan gikan sa kini nga screenshot sa opisyal nga panid gikan sa Enero 2020.

Ang labing in-demand nga kahanas sa propesyon sa data engineer

Morag nagsakay sa time machine
Apache Hadoop naggamit sa modelo sa programming sa MapReduce nga adunay mga cluster sa server alang sa dagkong datos. Karon kini nga modelo labi nga gibiyaan.

Dayon atong makita ang Hive, Scala, Kafka ug NoSQL - ang matag usa niini nga mga teknolohiya gihisgutan sa usa ka quarter sa gisumite nga mga bakante. Ang Apache Hive usa ka software sa data warehouse nga "nagpadali sa pagbasa, pagsulat, ug pagdumala sa dagkong mga dataset nga nagpuyo sa gipang-apod-apod nga mga tindahan gamit ang SQL." Scala – usa ka programming language nga aktibo nga gigamit sa pagtrabaho uban sa dako nga data. Sa partikular, ang Spark gihimo sa Scala. Sa nahisgotan na nga ranggo sa gikahadlokang mga pinulongan, ang Scala nahimutang sa ika-onse. Apache Kafka - usa ka gipang-apod-apod nga plataporma alang sa pagproseso sa mga mensahe sa streaming. Popular kaayo isip usa ka paagi sa streaming data.

Mga database sa NoSQL itandi ang ilang kaugalingon sa SQL. Nagkalainlain sila tungod kay sila dili relasyonal, wala’y istruktura, ug pinahigda nga masukod. Ang NoSQL nakakuha og pipila ka pagkapopular, apan ang kahinam alang sa pamaagi, bisan sa punto sa mga panagna nga kini mopuli sa SQL isip dominanteng paradigm sa pagtipig, makita nga natapos na.

Pagtandi sa mga termino sa mga bakanteng data scientist

Ania ang katloan ka termino sa teknolohiya nga kasagaran sa mga tag-iya sa data science. Nakuha nako kini nga lista sa parehas nga paagi sama sa gihulagway sa ibabaw alang sa data engineering.

Ang labing in-demand nga kahanas sa propesyon sa data engineer

Mga paghisgot sa teknolohiya sa mga bakante alang sa posisyon sa data scientist sa 2020

Kung hisgotan ang kinatibuk-ang gidaghanon, itandi sa gikonsiderar kaniadto nga recruitment, adunay 28% nga dugang nga mga bakante (12 kumpara sa 013). Atong tan-awon kung unsang mga teknolohiya ang dili kaayo kasagaran sa mga bakante alang sa mga siyentipiko sa datos kaysa sa mga inhenyero sa datos.

Mas popular sa data engineering

Ang graph sa ubos nagpakita sa mga keyword nga adunay average nga kalainan nga labaw sa 10% o ubos pa sa -10%.

Ang labing in-demand nga kahanas sa propesyon sa data engineer

Ang pinakadako nga kalainan sa keyword frequency tali sa data engineer ug data scientist

Gipakita sa AWS ang labing hinungdanon nga pagtaas: sa data engineering kini makita nga 25% nga mas kanunay kaysa sa data science (gibana-bana nga 45% ug 20% ​​sa kinatibuk-ang gidaghanon sa mga bakante, matag usa). Mamatikdan ang kalainan!

Ania ang parehas nga datos sa usa ka gamay nga lahi nga presentasyon - sa graph, ang mga resulta alang sa parehas nga keyword sa mga bakante alang sa posisyon sa data engineer ug data scientist nahimutang sa kilid.

Ang labing in-demand nga kahanas sa propesyon sa data engineer

Ang pinakadako nga kalainan sa keyword frequency tali sa data engineer ug data scientist

Ang sunod nga pinakadako nga paglukso nga akong namatikdan mao ang Spark - usa ka inhenyero sa datos kanunay kinahanglan nga magtrabaho uban ang dagkong datos. Kafka usab misaka sa 20%, nga mao, hapit upat ka mga panahon itandi sa resulta alang sa data scientist bakante. Ang pagbalhin sa datos usa sa mga nag-unang responsibilidad sa usa ka inhenyero sa datos. Sa katapusan, ang gidaghanon sa mga paghisgot mao ang 15% nga mas taas sa natad sa data engineering alang sa Java, NoSQL, Redshift, SQL ug Hadoop.

Dili kaayo popular sa data engineering

Karon atong tan-awon kung unsang mga teknolohiya ang dili kaayo popular sa mga bakante nga data engineer.
Ang labing grabe nga pagkunhod kung itandi sa sektor sa syensya sa datos nahitabo sa R: didto siya nagpakita sa gibana-bana nga 56% sa mga bakante, dinhi - lamang sa 17%. Impressive. Ang R usa ka programming language nga gipaboran sa mga siyentista ug statistician, ug mao ang ikawalo nga labing gikahadlokan nga pinulongan sa kalibutan.

SAS makita usab sa mga bakante alang sa posisyon sa data engineer nga dili kaayo kanunay - ang kalainan mao ang 14%. Ang SAS usa ka proprietary nga lengguwahe nga gidisenyo alang sa pagtrabaho sa mga estadistika ug datos. Makaiikag nga punto: paghukom pinaagi sa mga resulta akong panukiduki sa mga pag-abli sa trabaho alang sa mga data scientist, kini nawad-an og daghang yuta bag-o langβ€”labaw pa kay sa bisan unsa nga teknolohiya.

Sa panginahanglan sa data engineering ug data science

Angay nga matikdan nga ang walo sa unang napulo ka mga posisyon sa duha ka set managsama. Ang SQL, Python, Spark, AWS, Java, Hadoop, Hive ug Scala nahimo kini nga top ten alang sa data engineering ug data science nga industriya. Sa graph sa ubos imong makita ang kinse ka labing inila nga mga teknolohiya sa mga employer sa data engineer, ug sunod niini mao ang ilang vacancy rate para sa mga data scientist.

Ang labing in-demand nga kahanas sa propesyon sa data engineer

rekomendasyon

Kung gusto nimo nga mosulod sa data engineering, tambagan ko ikaw sa pag-master sa mga mosunud nga teknolohiya - gilista nako sila sa han-ay sa gibanabana nga prayoridad.

Pagkat-on sa SQL. Nagsalig ako sa PostgreSQL tungod kay kini bukas nga gigikanan, sikat kaayo sa komunidad, ug naa sa yugto sa pagtubo. Makakat-on ka unsaon paggamit sa pinulongan gikan sa librong My Memorable SQL - ang pilot version niini anaa dinhi.

Master Python, bisan kung dili sa labing hardcore nga lebel. Ang Akong Memorable Python gidisenyo alang sa mga nagsugod. Mahimo kini mapalit sa Amazon, elektroniko o pisikal nga kopya, imong gusto, o i-download sa pdf o epub nga format sa niini nga site.

Sa higayon nga pamilyar ka sa Python, padayon sa panda, usa ka librarya sa Python nga gigamit alang sa paglimpyo ug pagproseso sa datos. Kung nagtinguha ka nga magtrabaho sa usa ka kompanya nga nanginahanglan katakus sa pagsulat sa Python (ug kini ang kadaghanan sa kanila), makasiguro ka nga ang kahibalo sa mga panda mahunahuna nga default. Sa pagkakaron ako nagtapos sa usa ka pasiuna nga giya sa pagtrabaho uban sa mga panda - mahimo nimo mag-subscribearon dili masipyat ang higayon sa pagpagawas.

Master AWS. Kung gusto nimo mahimong usa ka inhenyero sa datos, dili nimo mahimo kung wala ang usa ka platform sa panganod sa stash, ug ang AWS ang labing inila sa kanila. Ang mga kurso nakatabang kaayo kanako Linux Academysa dihang nagtungha ko data engineering sa Google Cloud, Sa akong hunahuna aduna usab silay maayong mga materyales sa AWS.

Kung nahuman na nimo kini nga tibuuk nga lista ug gusto nimo nga molambo pa sa mga mata sa mga tag-iya ingon usa ka inhenyero sa datos, gisugyot nako nga idugang ang Apache Spark alang sa pagtrabaho sa dagkong datos. Bisan kung ang akong panukiduki bahin sa mga bakanteng data scientist nagpakita sa pagkunhod sa interes, taliwala sa mga inhenyero sa datos makita gihapon kini sa halos matag segundo nga bakante.

Sa katapusan

Nanghinaut ko nga imong nakit-an kini nga kinatibuk-ang pagtan-aw sa labing gipangayo nga mga teknolohiya alang sa mga inhenyero sa datos nga mapuslanon. Kung nahibulong ka kung giunsa ang mga trabaho sa analista, basaha akong uban nga artikulo. Malipayon nga engineering!

Source: www.habr.com

Idugang sa usa ka comment