Katrampilan paling dikarepake ing profesi insinyur data

Miturut statistik 2019, insinyur data saiki dadi profesi sing dikarepake luwih cepet tinimbang liyane. Insinyur data nduweni peran kritis ing organisasi - nggawe lan njaga saluran pipa lan database sing digunakake kanggo ngolah, ngowahi lan nyimpen data. Katrampilan apa sing dibutuhake dening wakil saka profesi iki pisanan? Apa dhaptar kasebut beda karo sing dibutuhake para ilmuwan data? Sampeyan bakal sinau babagan kabeh iki saka artikelku.

Aku nganalisa lowongan kanggo posisi insinyur data nalika Januari 2020 kanggo ngerti katrampilan teknologi sing paling populer. Banjur aku mbandhingake asil karo statistik babagan lowongan kanggo posisi ilmuwan data - lan sawetara beda menarik muncul.

Tanpa akeh preamble, ing ngisor iki sepuluh teknologi paling umum sing paling kerep disebutake ing postingan proyek:

Katrampilan paling dikarepake ing profesi insinyur data

Sebutake teknologi ing lowongan kanggo posisi data engineer ing 2020

Ayo goleki.

Tanggung jawab saka insinyur data

Dina iki, pakaryan sing ditindakake dening insinyur data penting banget kanggo organisasi - iki minangka wong sing tanggung jawab kanggo nyimpen informasi lan nggawa menyang wangun sing bisa ditindakake dening karyawan liyane. Insinyur data nggawe saluran pipa kanggo stream utawa batch data saka macem-macem sumber. Pipelines banjur nindakake operasi ekstraksi, transformasi, lan loading (kanthi tembung liya, proses ETL), nggawe data luwih cocog kanggo panggunaan luwih lanjut. Sawise iki, data kasebut dikirim menyang analis lan ilmuwan data kanggo proses sing luwih jero. Pungkasan, data mungkasi perjalanan ing dashboard, laporan, lan model pembelajaran mesin.

Aku nggoleki informasi sing bakal ngidini aku nggawe kesimpulan babagan teknologi sing paling dikarepake ing karya insinyur data saiki.

Tata cara

Aku ngumpulake informasi saka telung situs panelusuran proyek βˆ’ Cukup, Pancen ΠΈ monster lan ndeleng apa tembung kunci sing ditemokake bebarengan karo "insinyur data" ing teks lowongan sing dituju kanggo warga AS. Kanggo tugas iki, aku nggunakake rong perpustakaan Python βˆ’ Panyuwunan ΠΈ Sup ayu. Ing antarane tembung kunci, aku kalebu loro sing kalebu ing dhaptar sadurunge kanggo nganalisa lowongan kanggo posisi ilmuwan data, lan sing dipilih kanthi manual nalika maca tawaran kerja kanggo insinyur data. LinkedIn ora kalebu ing dhaptar sumber, amarga aku dilarang ing kana sawise nyoba pungkasan kanggo ngumpulake data.

Kanggo saben tembung kunci, aku ngetung persentase hit saka jumlah total teks ing saben situs kanthi kapisah, banjur ngitung rata-rata kanggo telung sumber kasebut.

Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹

Ing ngisor iki ana telung puluh istilah teknik data teknis kanthi skor paling dhuwur ing kabeh telung situs kerja.

Katrampilan paling dikarepake ing profesi insinyur data

Lan ing ngisor iki nomer sing padha, nanging ditampilake ing wangun tabel:

Katrampilan paling dikarepake ing profesi insinyur data

Ayo budhal.

Review asil

SQL lan Python katon ing luwih saka rong pertiga saka lowongan kerja sing dideleng. Iki loro teknologi sing nggawe akal kanggo sinau dhisik. Python minangka basa pamrograman sing populer banget digunakake kanggo nggarap data, nggawe situs web, lan nulis skrip. SQL singkatan saka Structured Query Language; iku kalebu standar sing dileksanakake dening klompok basa lan digunakake kanggo njupuk data saka database relasional. Iku katon suwe banget lan wis mbuktekake dhewe dadi tahan banget.

Spark kasebut ing babagan setengah saka lowongan. Apache Spark minangka "mesin analytics data gedhe sing manunggal kanthi modul sing dibangun kanggo streaming, SQL, pembelajaran mesin, lan pangolahan grafik." Utamane populer ing antarane sing nggarap database gedhe.

AWS katon ing kira-kira 45% postingan proyek. Iku platform komputasi maya sing diprodhuksi dening Amazon; duwe pangsa pasar paling gedhe ing antarane kabeh platform awan.
Sabanjure teka Jawa lan Hadoop - luwih saka 40% kanggo sedulure. Jawa punika wiyar ngandika, perang-dites basa sing Survey Pangembang Tumpukan Overflow 2019 dianugerahi papan kaping sepuluh ing antarane basa sing nyebabake medeni ing antarane programer. Ing kontras, Python minangka basa sing paling disenengi nomer loro. Basa Jawa dikelola dening Oracle, lan kabeh sing sampeyan kudu ngerti babagan iki bisa dimangerteni saka gambar kaca resmi iki wiwit Januari 2020.

Katrampilan paling dikarepake ing profesi insinyur data

Iku kaya numpak ing mesin wektu
Apache Hadoop nggunakake model program MapReduce karo kluster server kanggo data amba. Saiki model iki tambah akeh ditinggalake.

Banjur kita ndeleng Hive, Scala, Kafka lan NoSQL - saben teknologi kasebut kasebut ing seprapat saka lowongan sing diajukake. Apache Hive minangka piranti lunak gudang data sing "gampang maca, nulis, lan ngatur set data gedhe sing manggon ing toko sing disebar nggunakake SQL." Scala - basa pamrograman sing aktif digunakake nalika nggarap data gedhe. Utamane, Spark digawe ing Scala. Ing peringkat basa sing diwedeni sing wis kasebut, Scala rangking nomer sewelas. Apache Kafka - platform sing disebarake kanggo ngolah pesen streaming. Banget populer minangka sarana streaming data.

database NoSQL kontras dhewe karo SQL. Padha beda-beda amarga ora ana hubungane, ora terstruktur, lan bisa diukur sacara horisontal. NoSQL wis entuk sawetara popularitas, nanging craze kanggo pendekatan, malah kanggo titik wangsit sing bakal ngganti SQL minangka paradigma panyimpenan dominan, katon wis rampung.

Perbandingan karo istilah ing lowongan data scientist

Mangkene telung puluh istilah teknologi sing paling umum ing antarane pengusaha ilmu data. Aku entuk dhaptar iki kanthi cara sing padha kaya sing kasebut ing ndhuwur kanggo teknik data.

Katrampilan paling dikarepake ing profesi insinyur data

Sebutake teknologi ing lowongan kanggo posisi ilmuwan data ing 2020

Yen kita ngomong babagan jumlah total, dibandhingake karo rekrutmen sing dianggep sadurunge, ana 28% luwih lowongan (12 lawan 013). Ayo ndeleng teknologi sing kurang umum ing lowongan kanggo ilmuwan data tinimbang kanggo insinyur data.

Luwih populer ing teknik data

Grafik ing ngisor iki nuduhake tembung kunci kanthi rata-rata bedane luwih saka 10% utawa kurang saka -10%.

Katrampilan paling dikarepake ing profesi insinyur data

Beda paling gedhe ing frekuensi tembung kunci antarane insinyur data lan ilmuwan data

AWS nuduhake kenaikan paling signifikan: ing teknik data katon 25% luwih rutin tinimbang ing ilmu data (kira-kira 45% lan 20% saka total lowongan, mungguh). Bentenipun katon!

Ing ngisor iki data sing padha ing presentasi sing rada beda - ing grafik, asil kanggo tembung kunci sing padha ing lowongan kanggo posisi insinyur data lan ilmuwan data dumunung ing sisih.

Katrampilan paling dikarepake ing profesi insinyur data

Beda paling gedhe ing frekuensi tembung kunci antarane insinyur data lan ilmuwan data

Lompat paling gedhe sabanjure sing dakcathet yaiku ing Spark - insinyur data asring kudu nggarap data gedhe. Kafka uga tambah 20%, yaiku, meh kaping papat dibandhingake karo asil kanggo lowongan ilmuwan data. Transfer data minangka salah sawijining tanggung jawab utama insinyur data. Pungkasan, jumlah sebutan 15% luwih dhuwur ing bidang teknik data kanggo Jawa, NoSQL, Redshift, SQL lan Hadoop.

Kurang populer ing teknik data

Saiki ayo goleki teknologi sing kurang populer ing lowongan data engineer.
Penurunan paling cetha dibandhingake karo sektor ilmu data dumadi ing R: ana kang muncul ing kira-kira 56% saka lowongan, kene - mung ing 17%. Nyengsemaken. R minangka basa pamrograman sing disenengi para ilmuwan lan ahli statistik, lan minangka basa nomer wolu sing paling diwedeni ing donya.

SAS uga ditemokake ing lowongan kanggo posisi data engineer Ngartekno kurang asring - prabédan punika 14%. SAS minangka basa proprietary sing dirancang kanggo nggarap statistik lan data. Titik sing menarik: dideleng saka asil risetku babagan lowongan kerja kanggo ilmuwan data, wis ilang akèh lemah bubar-luwih saka sembarang teknologi liyane.

Dibutuhake ing teknik data lan ilmu data

Sampeyan kudu nyatet sing wolung saka sepuluh posisi pisanan ing loro set padha. SQL, Python, Spark, AWS, Java, Hadoop, Hive lan Scala mlebu ing sepuluh paling dhuwur kanggo industri teknik data lan ilmu data. Ing grafik ing ngisor iki sampeyan bisa ndeleng limalas teknologi sing paling populer ing antarane para pengusaha data engineer, lan ing jejere ana tingkat lowongan kanggo ilmuwan data.

Katrampilan paling dikarepake ing profesi insinyur data

Rekomendasi

Yen sampeyan pengin mlebu teknik data, aku bakal menehi saran supaya sampeyan bisa nguwasani teknologi ing ngisor iki - aku dhaptar kanthi prioritas.

Sinau SQL. Aku condong menyang PostgreSQL amarga iku open source, banget populer ing masyarakat, lan ing phase wutah. Sampeyan bisa sinau carane nggunakake basa saka buku My Memorable SQL - versi pilot kasedhiya kene.

Master Python, sanajan ora ing tingkat paling hardcore. My Memorable Python dirancang khusus kanggo pamula. Bisa dituku ing Amazon, salinan elektronik utawa fisik, pilihan sampeyan, utawa download ing format pdf utawa epub ing situs iki.

Sawise sampeyan kenal karo Python, pindhah menyang panda, perpustakaan Python sing digunakake kanggo ngresiki lan ngolah data. Yen sampeyan ngarahake kerja ing perusahaan sing mbutuhake kemampuan nulis ing Python (lan iki minangka mayoritas), sampeyan bisa yakin manawa kawruh babagan panda bakal dianggep minangka standar. Saiki aku lagi ngrampungake pandhuan pambuka kanggo nggarap panda - sampeyan bisa langganansupaya ora kantun wayahe release.

Master AWS. Yen sampeyan pengin dadi insinyur data, sampeyan ora bisa nindakake tanpa platform maya ing stash, lan AWS sing paling populer. Kursus-kursus kasebut mbantu aku Akademi Linuxnalika aku lagi sinau rekayasa data ing Google Cloud, Aku sing padha uga bakal duwe bahan apik ing AWS.

Yen sampeyan wis ngrampungake kabeh dhaptar iki lan pengin luwih akeh ing mata para pengusaha minangka insinyur data, aku saranake nambahake Apache Spark kanggo nggarap data gedhe. Sanajan risetku babagan lowongan data scientist nuduhake penurunan kapentingan, ing antarane insinyur data isih katon ing meh saben lowongan detik.

Ing pungkasan

Muga-muga sampeyan nemokake ringkesan babagan teknologi sing paling dikarepake kanggo insinyur data sing migunani. Yen sampeyan kepingin weruh kepiye kerja analis, waca artikelku liyane. Sugeng rekayasa!

Source: www.habr.com

Add a comment