Kaahlian anu paling dipénta dina profési insinyur data

nurutkeun statistik 2019, Insinyur data ayeuna mangrupikeun profési anu paméntana langkung gancang tibatan anu sanés. Insinyur data maénkeun peran anu penting dina organisasi - nyiptakeun sareng ngajaga saluran pipa sareng pangkalan data anu dianggo pikeun ngolah, ngarobih sareng nyimpen data. Kaahlian naon anu dibutuhkeun ku perwakilan profési ieu mimitina? Naha daptarna béda sareng anu diperyogikeun ku élmuwan data? Anjeun bakal diajar ngeunaan sadayana ieu tina tulisan kuring.

Kuring nganalisa lowongan pikeun posisi insinyur data sapertos dina Januari 2020 pikeun ngartos kaahlian téknologi mana anu paling populér. Teras kuring ngabandingkeun hasil sareng statistik ngeunaan lowongan pikeun posisi élmuwan data - sareng sababaraha béda anu pikaresepeun muncul.

Tanpa seueur preamble, ieu mangrupikeun sapuluh téknologi anu paling sering disebatkeun dina postingan padamelan:

Kaahlian anu paling dipénta dina profési insinyur data

Sebutkeun téknologi dina lowongan pikeun posisi insinyur data dina 2020

Hayu urang milarian terang.

Tanggung jawab insinyur data

Kiwari, pagawéan anu dilakukeun ku insinyur data penting pisan pikeun organisasi - ieu mangrupikeun jalma-jalma anu tanggung jawab pikeun nyimpen inpormasi sareng nyayogikeun kana bentuk anu tiasa dianggo ku pagawé sanés. Insinyur data ngawangun jalur pipa pikeun ngalirkeun data atanapi bets tina sababaraha sumber. Pipelines teras ngalakukeun operasi ékstraksi, transformasi, sareng ngamuat (dina kecap sanésna, prosés ETL), ngajantenkeun data langkung cocog pikeun dianggo salajengna. Saatos ieu, data dikintunkeun ka analis sareng élmuwan data pikeun ngolah anu langkung jero. Tungtungna, data mungkas perjalananna dina dasbor, laporan, sareng modél pembelajaran mesin.

Kuring milarian inpormasi anu ngamungkinkeun kuring ngagambar kacindekan ngeunaan téknologi mana anu paling dipénta dina karya insinyur data ayeuna.

Métode

Kuring ngumpulkeun inpormasi tina tilu situs milarian padamelan − Hungkul, Leres pisan и monster sarta melong naon kecap konci datang di sakuliah ditéang jeung "insinyur data" dina teks lowongan aimed di warga AS. Pikeun tugas ieu kuring nganggo dua perpustakaan Python − requests и Sup geulis. Diantara kecap konci, abdi kalebet duanana anu kalebet dina daptar sateuacana pikeun nganalisis lowongan pikeun posisi élmuwan data, sareng anu ku kuring dipilih sacara manual nalika maca tawaran padamelan pikeun insinyur data. LinkedIn teu kaasup dina daptar sumber, saprak kuring dilarang aya sanggeus usaha panungtungan pikeun ngumpulkeun data.

Pikeun unggal kecap konci, kuring ngitung persentase hits tina total jumlah téks dina unggal situs nyalira, teras ngitung rata-rata pikeun tilu sumber.

Hasil

Di handap ieu aya tilu puluh istilah rékayasa data téknis kalayan skor pangluhurna di sadaya tilu situs padamelan.

Kaahlian anu paling dipénta dina profési insinyur data

Sareng ieu mangrupikeun nomer anu sami, tapi dibere dina bentuk méja:

Kaahlian anu paling dipénta dina profési insinyur data

Hayu urang balik dina urutan.

Tinjauan hasil

Duanana SQL sareng Python muncul dina langkung ti dua per tilu bukaan padamelan anu diulas. Dua téknologi ieu anu asup akal pikeun diajar heula. Python nyaéta basa pamrograman anu populer pisan dianggo pikeun damel sareng data, nyiptakeun situs wéb, sareng nyerat skrip. SQL nangtung pikeun Structured Query Language; Éta ngalibatkeun standar anu dilaksanakeun ku sakelompok basa sareng dianggo pikeun nyandak data tina pangkalan data relasional. Éta muncul lami pisan sareng parantos ngabuktikeun dirina janten tahan pisan.

Spark disebutkeun dina ngeunaan satengah tina vacancies. Apache bitu nyaéta "mesin analitik data gedé anu ngahiji sareng modul anu diwangun pikeun streaming, SQL, pembelajaran mesin, sareng pamrosésan grafik." Utamana populer di kalangan anu damel sareng database ageung.

AWS muncul dina kira-kira 45% tina postingan padamelan. Éta mangrupikeun platform komputasi awan anu diproduksi ku Amazon; eta boga pangsa pasar pangbadagna diantara sakabeh platform awan.
Salajengna sumping Java sareng Hadoop - sakedik langkung ti 40% pikeun lanceukna. Jawa nyaeta basa lega diucapkeun, perang-dites éta Survey pamekar tumpukan mudal 2019 dileler tempat kasapuluh diantara basa anu ngabalukarkeun horor diantara programer. Sabalikna, Python mangrupikeun basa anu paling dipikacinta kadua. Basa Java dijalankeun ku Oracle, sareng sadaya anu anjeun kedah terang ngeunaan éta tiasa kahartos tina layar ieu halaman resmi ti Januari 2020.

Kaahlian anu paling dipénta dina profési insinyur data

Ieu kawas numpak dina mesin waktu
Apache Hadoop ngagunakeun modél programming MapReduce kalawan klaster server pikeun data badag. Ayeuna modél ieu beuki ditinggalkeun.

Teras we ningali Hive, Scala, Kafka sareng NoSQL - masing-masing téknologi ieu disebatkeun dina saparapat tina lowongan anu dikintunkeun. Apache Hive mangrupikeun parangkat lunak gudang data anu "ngagampangkeun maca, nyerat, sareng ngatur set data ageung anu aya di toko anu disebarkeun nganggo SQL." Scala - basa pamrograman anu aktip dianggo nalika damel sareng data ageung. Khususna, Spark diciptakeun dina Scala. Dina rangking anu parantos disebatkeun tina basa anu dipikahariwang, Scala rengking kasabelas. Apache Kafka - platform anu disebarkeun pikeun ngolah pesen streaming. Pohara populér salaku sarana ngalirkeun data.

pangkalan data NoSQL kontras sorangan jeung SQL. Éta béda dina sipatna non-relasional, henteu terstruktur, sareng skala horisontal. NoSQL geus miboga sababaraha popularitas, tapi craze pikeun pendekatan, malah ka point of prophecies yén éta bakal ngaganti SQL salaku paradigma gudang dominan, nembongan jadi leuwih.

Babandingan sareng istilah dina lowongan data scientist

Ieu tilu puluh istilah téknologi anu paling umum di antara pangusaha élmu data. Kuring meunang daptar ieu dina cara nu sarua sakumaha ditétélakeun di luhur pikeun rékayasa data.

Kaahlian anu paling dipénta dina profési insinyur data

Nyebutkeun téknologi dina lowongan pikeun posisi élmuwan data dina 2020

Lamun urang ngobrol ngeunaan jumlah total, dibandingkeun rekrutmen dianggap saméméhna, aya 28% leuwih vacancies (12 versus 013). Hayu urang tingali téknologi mana anu kirang umum dina lowongan pikeun élmuwan data tibatan pikeun insinyur data.

Leuwih populér di rékayasa data

Grafik di handap nembongkeun kecap konci kalayan bédana rata-rata leuwih gede ti 10% atawa kirang ti -10%.

Kaahlian anu paling dipénta dina profési insinyur data

Bedana panggedéna dina frékuénsi kecap konci antara insinyur data sareng élmuwan data

AWS nunjukkeun kanaékan anu paling signifikan: dina rékayasa data katingalina 25% langkung teratur tibatan élmu data (kira-kira 45% sareng 20% ​​tina total jumlah lowongan, masing-masing). Bédana téh noticeable!

Ieu mangrupikeun data anu sami dina presentasi anu rada béda - dina grafik, hasil pikeun kecap konci anu sami dina lowongan pikeun posisi insinyur data sareng élmuwan data perenahna sisi-sisi.

Kaahlian anu paling dipénta dina profési insinyur data

Bedana panggedéna dina frékuénsi kecap konci antara insinyur data sareng élmuwan data

Luncat panggedéna salajengna anu kuring perhatikeun nyaéta di Spark - insinyur data sering kedah damel sareng data ageung. Kafka ogé ngaronjat ku 20%, nyaeta, ampir opat kali dibandingkeun jeung hasil pikeun lowongan élmuwan data. Mindahkeun data mangrupikeun salah sahiji tanggung jawab utama insinyur data. Tungtungna, jumlah nyebut éta 15% leuwih luhur dina widang rékayasa data pikeun Java, NoSQL, Redshift, SQL jeung Hadoop.

Kurang populér dina rékayasa data

Ayeuna hayu urang tingali téknologi mana anu kirang populer dina lowongan insinyur data.
Turunna sharpest dibandingkeun sektor elmu data lumangsung dina R: aya anjeunna mucunghul dina kurang leuwih 56% tina vacancies, di dieu - ngan dina 17%. Geuning. Basa Sunda mangrupikeun basa pamrograman anu dipikaresep ku para ilmuwan sareng ahli statistik, sareng mangrupikeun basa kadalapan anu paling dipikasieunan di dunya.

Sas ogé kapanggih dina lowongan pikeun posisi insinyur data nyata kirang sering - bédana nyaéta 14%. SAS mangrupikeun basa proprietary anu dirancang pikeun damel sareng statistik sareng data. titik metot: ditilik ku hasilna panalungtikan kuring kana bukaan pakasaban pikeun élmuwan data, geus leungit loba taneuh anyar-leuwih ti sagala téhnologi séjén.

Paménta dina rékayasa data sareng élmu data

Ieu kudu dicatet yén dalapan ti sapuluh posisi munggaran dina duanana susunan anu sarua. SQL, Python, Spark, AWS, Java, Hadoop, Hive sareng Scala ngajantenkeun kana sapuluh luhur pikeun industri rékayasa data sareng élmu data. Dina grafik di handap ieu anjeun tiasa ningali lima belas téknologi anu paling populer di antawis pangusaha insinyur data, sareng di gigireunana nyaéta tingkat lowongan pikeun élmuwan data.

Kaahlian anu paling dipénta dina profési insinyur data

saran

Upami anjeun hoyong asup kana rékayasa data, kuring bakal mamatahan anjeun ngawasaan téknologi di handap ieu - Kuring daptar aranjeunna dina urutan prioritas perkiraan.

Diajar SQL. Kuring condong kana PostgreSQL sabab éta open source, populer pisan di masarakat, sareng dina fase kamekaran. Anjeun tiasa diajar kumaha ngagunakeun basa tina buku My Memorable SQL - versi pilotna sayogi di dieu.

Master Python, sanajan henteu dina tingkat paling hardcore. Python Memorable abdi dirancang husus pikeun beginners. Ieu bisa dibeuli di Amazon, salinan éléktronik atanapi fisik, pilihan anjeun, atanapi unduh dina format pdf atanapi epub dina situs ieu.

Sakali anjeun wawuh jeung Python, ngaléngkah ka pandas, perpustakaan Python anu dipaké pikeun beberesih jeung ngolah data. Upami anjeun badé damel di perusahaan anu meryogikeun kamampuan nyerat dina Python (sareng ieu mangrupikeun seuseueurna), anjeun tiasa yakin yén pangaweruh ngeunaan pandas bakal dianggap sacara standar. Kuring ayeuna nuju ngarengsekeun pituduh bubuka pikeun damel sareng panda - anjeun tiasa ngalanggansupados teu kantun momen pelepasan.

Master AWS. Upami anjeun hoyong janten insinyur data, anjeun moal tiasa ngalakukeun tanpa platform awan di stash, sareng AWS mangrupikeun anu pang populerna di antarana. Kursus-kursus ngabantosan kuring pisan Akademi Linuxnalika kuring keur diajar rékayasa data dina Google Cloud, Jigana yén maranéhna ogé bakal boga bahan alus on AWS.

Upami anjeun parantos ngabéréskeun sadaya daptar ieu sareng hoyong langkung maju dina panon dunungan salaku insinyur data, kuring nyarankeun nambihan Apache Spark pikeun damel sareng data ageung. Sanajan panalungtikan kuring ngeunaan lowongan data scientist némbongkeun turunna minat, diantara insinyur data masih muncul dina ampir unggal lowongan kadua.

Tungtungna

Abdi ngarepkeun anjeun mendakan tinjauan ieu ngeunaan téknologi anu paling dipénta pikeun insinyur data anu mangpaat. Upami anjeun heran kumaha padamelan analis, baca artikel kuring séjén. Wilujeng rékayasa!

sumber: www.habr.com

Tambahkeun komentar