Veri mühendisliği mesleğinde en çok talep edilen beceriler

Göre istatistikler 2019Veri mühendisi şu anda talebi diğerlerinden daha hızlı büyüyen bir meslektir. Bir veri mühendisi bir kuruluşta kritik bir rol oynar; verileri işlemek, dönüştürmek ve depolamak için kullanılan işlem hatlarını ve veritabanlarını oluşturur ve korur. Bu mesleğin temsilcilerinin öncelikle hangi becerilere ihtiyacı var? Liste veri bilimcilerin gerektirdiğinden farklı mı? Bütün bunları makalemden öğreneceksiniz.

Hangi teknoloji becerilerinin en popüler olduğunu anlamak için veri mühendisi pozisyonundaki boş pozisyonları Ocak 2020'de olduğu gibi analiz ettim. Daha sonra sonuçları veri bilimci pozisyonundaki boş pozisyonlara ilişkin istatistiklerle karşılaştırdım ve bazı ilginç farklılıklar ortaya çıktı.

Çok fazla giriş yapmadan, iş ilanlarında en sık bahsedilen ilk on teknolojiyi burada bulabilirsiniz:

Veri mühendisliği mesleğinde en çok talep edilen beceriler

2020'de veri mühendisi pozisyonu için açık pozisyonlarda teknolojilerden bahsedilmesi

Anlaşma yapalım.

Bir veri mühendisinin sorumlulukları

Günümüzde veri mühendislerinin yaptığı iş, kuruluşlar için büyük önem taşıyor; bunlar, bilginin depolanmasından ve diğer çalışanların onunla çalışabileceği bir forma getirilmesinden sorumlu olan kişilerdir. Veri mühendisleri, birden fazla kaynaktan gelen verileri akışa almak veya toplu olarak işlemek için işlem hatları oluşturur. İşlem hatları daha sonra çıkarma, dönüştürme ve yükleme işlemlerini (başka bir deyişle ETL işlemlerini) gerçekleştirerek verileri daha sonraki kullanımlar için daha uygun hale getirir. Bundan sonra veriler daha derin işlenmek üzere analistlere ve veri bilimcilere sunulur. Son olarak veriler, kontrol panellerinde, raporlarda ve makine öğrenimi modellerinde yolculuğunu tamamlar.

Şu anda bir veri mühendisinin çalışmasında en çok hangi teknolojilerin talep edildiğine dair bir sonuca varmamı sağlayacak bilgiler arıyordum.

Yöntemler

Üç iş arama sitesinden bilgi topladım – SimplyHired, Aslında и Canavar ve ABD'de ikamet edenlere yönelik açık iş pozisyonları metinlerinde "veri mühendisi" ile birlikte hangi anahtar kelimelerin karşımıza çıktığına baktık. Bu görev için iki Python kütüphanesi kullandım – istekleri и Güzel çorba. Anahtar kelimeler arasına, hem veri bilimci pozisyonu için açık pozisyonları analiz etmek için önceki listede yer alan anahtar kelimeleri hem de veri mühendisleri için iş tekliflerini okurken manuel olarak seçtiklerimi dahil ettim. LinkedIn, son veri toplama girişimimden sonra orada yasaklandığım için kaynak listesine dahil edilmedi.

Her bir anahtar kelime için, her sitedeki toplam metin sayısından isabet yüzdesini ayrı ayrı hesapladım ve ardından üç kaynak için ortalama değeri hesapladım.

Bulgular

Aşağıda, her üç iş sahasında en yüksek puanlara sahip otuz teknik veri mühendisliği terimi bulunmaktadır.

Veri mühendisliği mesleğinde en çok talep edilen beceriler

Ve işte aynı sayılar, ancak tablo biçiminde sunulmuştur:

Veri mühendisliği mesleğinde en çok talep edilen beceriler

Hadi sırayla gidelim.

Sonuçlara Genel Bakış

İncelenen iş ilanlarının üçte ikisinden fazlasında hem SQL hem de Python görünüyor. İlk önce çalışmak mantıklı olan bu iki teknolojidir. Python verilerle çalışmak, web siteleri oluşturmak ve komut dosyaları yazmak için kullanılan çok popüler bir programlama dilidir. SQL Yapılandırılmış Sorgu Dili anlamına gelir; bir grup dil ​​tarafından uygulanan bir standardı içerir ve ilişkisel veritabanlarından veri almak için kullanılır. Uzun zaman önce ortaya çıktı ve oldukça dayanıklı olduğunu kanıtladı.

Boş pozisyonların yaklaşık yarısında Spark'tan bahsediliyor. Apache Spark "akış, SQL, makine öğrenimi ve grafik işleme için yerleşik modüllere sahip birleşik bir büyük veri analitiği motorudur." Özellikle büyük veritabanlarıyla çalışanlar arasında popülerdir.

AWS, iş ilanlarının yaklaşık %45'inde görünür. Amazon tarafından üretilen bir bulut bilişim platformudur; tüm bulut platformları arasında en büyük pazar payına sahiptir.
Ardından Java ve Hadoop geliyor; kardeşleri için %40'ın biraz üzerinde. Java yaygın olarak konuşulan, savaşta test edilmiş bir dildir 2019 Yığın Taşması Geliştirici Anketi programcılar arasında korku yaratan diller arasında onuncu sırada yer aldı. Buna karşılık Python en sevilen ikinci dildi. Java dili Oracle tarafından çalıştırılmaktadır ve hakkında bilmeniz gereken her şeyi Ocak 2020 tarihli resmi sayfanın bu ekran görüntüsünden anlayabilirsiniz.

Veri mühendisliği mesleğinde en çok talep edilen beceriler

Zaman makinesine binmek gibi
Apache Hadoop'u Büyük veriler için sunucu kümeleriyle MapReduce programlama modelini kullanır. Artık bu model giderek daha fazla terk ediliyor.

Daha sonra Hive, Scala, Kafka ve NoSQL'i görüyoruz; bu teknolojilerin her biri, gönderilen açık pozisyonların dörtte birinde belirtiliyor. Apache Hive, "SQL kullanarak dağıtılmış mağazalarda bulunan büyük veri kümelerini okumayı, yazmayı ve yönetmeyi kolaylaştıran" bir veri ambarı yazılımıdır. Scala – Büyük verilerle çalışırken aktif olarak kullanılan bir programlama dili. Spark özellikle Scala'da oluşturuldu. Daha önce bahsedilen korkulan diller sıralamasında Scala onbirinci sırada yer alıyor. Apache Kafka – akışlı mesajların işlenmesi için dağıtılmış bir platform. Veri akışı aracı olarak çok popüler.

NoSQL veritabanları SQL ile kendilerini karşılaştırıyorlar. İlişkisel olmayan, yapılandırılmamış ve yatay olarak ölçeklenebilir olmaları bakımından farklılık gösterirler. NoSQL bir miktar popülerlik kazandı, ancak bu yaklaşıma yönelik çılgınlık, hatta baskın depolama paradigması olarak SQL'in yerini alacağına dair kehanetler bile sona ermiş gibi görünüyor.

Veri bilimci açık pozisyonlarındaki terimlerle karşılaştırma

Veri bilimi işverenleri arasında en yaygın olan otuz teknoloji terimini burada bulabilirsiniz. Bu listeyi yukarıda veri mühendisliği için anlatıldığı şekilde elde ettim.

Veri mühendisliği mesleğinde en çok talep edilen beceriler

2020'de veri bilimci pozisyonu için boş pozisyonlarda teknolojiden bahsediliyor

Toplam sayıdan bahsedecek olursak, daha önce ele alınan işe alımlarla karşılaştırıldığında %28 daha fazla boş kontenjan vardı (12'e karşılık 013). Veri bilimcileri için boş pozisyonlarda hangi teknolojilerin veri mühendislerine göre daha az yaygın olduğunu görelim.

Veri mühendisliğinde daha popüler

Aşağıdaki grafik, ortalama farkı %10'un üzerinde veya -%10'un altında olan anahtar kelimeleri göstermektedir.

Veri mühendisliği mesleğinde en çok talep edilen beceriler

Veri mühendisi ile veri bilimcisi arasındaki anahtar kelime sıklığı açısından en büyük farklar

AWS en önemli artışı gösteriyor: veri mühendisliğinde veri bilimine göre %25 daha düzenli görünüyor (toplam boş pozisyon sayısının sırasıyla yaklaşık %45'i ve %20'si). Fark fark ediliyor!

İşte aynı veriler biraz farklı bir sunumda - grafikte, veri mühendisi ve veri bilimci pozisyonundaki boş pozisyonlarda aynı anahtar kelimeye ilişkin sonuçlar yan yana yer alıyor.

Veri mühendisliği mesleğinde en çok talep edilen beceriler

Veri mühendisi ile veri bilimcisi arasındaki anahtar kelime sıklığı açısından en büyük farklar

Bir sonraki en büyük sıçramayı Spark'ta fark ettim; bir veri mühendisi çoğu zaman büyük verilerle çalışmak zorunda kalıyor. Kafka aynı zamanda %20 arttı, yani veri bilimci açık pozisyonları ile karşılaştırıldığında neredeyse dört kat arttı. Veri aktarımı bir veri mühendisinin temel sorumluluklarından biridir. Son olarak Java, NoSQL, Redshift, SQL ve Hadoop için veri mühendisliği alanından bahsedilme sayısı %15 daha yüksekti.

Veri mühendisliğinde daha az popüler

Şimdi veri mühendisi açık pozisyonlarında hangi teknolojilerin daha az popüler olduğunu görelim.
Veri bilimi sektörüyle karşılaştırıldığında en keskin düşüş, R: orada boş pozisyonların yaklaşık% 56'sında göründü, burada - yalnızca% 17'sinde. Etkileyici. R, bilim insanları ve istatistikçiler tarafından tercih edilen bir programlama dilidir ve dünyada en çok korkulan sekizinci dildir.

SAS veri mühendisi pozisyonundaki boş pozisyonlarda da önemli ölçüde daha az görülür - fark% 14'tür. SAS, istatistikler ve verilerle çalışmak için tasarlanmış özel bir dildir. İlginç nokta: sonuçlara bakılırsa veri bilimcilere yönelik iş fırsatlarına ilişkin araştırmam, son zamanlarda diğer teknolojilerden daha fazla zemin kaybetti.

Hem veri mühendisliği hem de veri biliminde talep var

Her iki sette de ilk on pozisyondan sekizinin aynı olduğunu belirtmekte fayda var. SQL, Python, Spark, AWS, Java, Hadoop, Hive ve Scala, hem veri mühendisliği hem de veri bilimi sektörlerinde ilk on arasında yer aldı. Aşağıdaki grafikte veri mühendisi işverenleri arasında en popüler on beş teknolojiyi ve bunların yanında veri bilimcilere yönelik açık pozisyon oranlarını görebilirsiniz.

Veri mühendisliği mesleğinde en çok talep edilen beceriler

Öneriler

Veri mühendisliğine girmek istiyorsanız, aşağıdaki teknolojilerde uzmanlaşmanızı tavsiye ederim - bunları yaklaşık öncelik sırasına göre listeliyorum.

Изучите SQL. Я склоняю вас именно к PostgreSQL, потому что у него открытый код, большая популярность в сообществе и он находится в фазе роста. Как пользоваться языком, можно узнать из книги My Memorable SQL – ее пилотная версия доступна burada.

En zorlu seviyede olmasa bile Python'da ustalaşın. Unutulmaz Python'um yeni başlayanlar için özel olarak tasarlanmıştır. Şu adresten satın alınabilir: Amazon, elektronik veya fiziksel kopya, seçiminize göre veya pdf veya epub formatında indirin bu sitede.

Python'a aşina olduğunuzda, veri temizleme ve işleme için kullanılan bir Python kütüphanesi olan pandalara geçin. Python'da yazma becerisi gerektiren bir şirkette çalışmayı hedefliyorsanız (ve bunların çoğunluğu budur), pandaların bilgisinin varsayılan olarak varsayılacağından emin olabilirsiniz. Şu anda pandalarla çalışmaya yönelik giriş kılavuzunu tamamlıyorum; aboneserbest bırakılma anını kaçırmamak için.

AWS'de uzmanlaşın. Veri mühendisi olmak istiyorsanız, deponuzda bir bulut platformu olmadan yapamazsınız ve AWS bunların en popüleridir. Kurslar bana çok yardımcı oldu Linux Akademisiben ders çalışırken Google Cloud'da veri mühendisliğiAWS'de de güzel materyallerin olacağını düşünüyorum.

Bu listenin tamamını zaten tamamladıysanız ve veri mühendisi olarak işverenlerin gözünde daha da büyümek istiyorsanız, büyük verilerle çalışmak için Apache Spark'ı eklemenizi öneririm. Veri bilimci açık pozisyonları üzerine yaptığım araştırma ilginin azaldığını gösterse de, veri mühendisleri arasında bu durum hâlâ neredeyse her ikinci boş pozisyonda karşımıza çıkıyor.

sonunda

Veri mühendisleri için en çok talep gören teknolojilere ilişkin bu genel bakışı umarım faydalı bulmuşsunuzdur. Analist işlerinin nasıl gittiğini merak ediyorsanız, okuyun diğer makalem. Mutlu mühendislik!

Kaynak: habr.com

Yorum ekle