Pavel Klemenkov, NVIDIA: Bir veri bilimcinin yapabilecekleri ile yapabilecekleri arasındaki uçurumu azaltmaya çalışıyoruz

Veri bilimi ve iş zekası Ozon Masters yüksek lisans programı öğrencilerinin ikinci alımı başladı - ve başvuruyu bırakıp çevrimiçi sınava girme kararını kolaylaştırmak için program öğretmenlerine ders çalışmaktan ve çalışmaktan ne beklemeleri gerektiğini sorduk. verilerle.

Pavel Klemenkov, NVIDIA: Bir veri bilimcinin yapabilecekleri ile yapabilecekleri arasındaki uçurumu azaltmaya çalışıyoruz Baş Veri Bilimcisi NVIDIA ve öğretmen Büyük Veri ve Veri Mühendisliği dersleri Pavel Klemenkov, matematikçilerin neden kod yazmaları ve Ozon Masters'ta iki yıl eğitim almaları gerektiğini anlattı.

— Veri bilimi algoritmalarını kullanan çok sayıda şirket var mı?

- Aslında oldukça fazla. Gerçekten büyük verilere sahip pek çok büyük şirket ya bu verilerle etkili bir şekilde çalışmaya başlıyor ya da uzun süredir çalışıyor. Pazarın yarısının bir Excel tablosuna sığabilecek veya büyük bir sunucuda hesaplanabilecek verileri kullandığı açık ancak verilerle çalışabilen sadece birkaç işletmenin olduğu söylenemez.

— Veri biliminin kullanıldığı projelerden biraz bahseder misiniz?

— Örneğin, Rambler'de çalışırken, RTB (Gerçek Zamanlı Teklif Verme) ilkelerine göre çalışan bir reklam sistemi yapıyorduk - reklam satın alımını optimize edecek veya örneğin reklamın satın alma olasılığını tahmin edebilecek birçok model oluşturmamız gerekiyordu. bir tıklama, dönüşüm vb. Aynı zamanda, bir reklam açık artırması çok fazla veri üretir: potansiyel reklam alıcılarına yönelik site isteklerinin kayıtları, reklam gösterimlerinin kayıtları, tıklamaların kayıtları - bu, günde onlarca terabaytlık veridir.

Üstelik bu görevler için ilginç bir olguyu gözlemledik: Modeli eğitmek için ne kadar çok veri verirseniz kalitesi de o kadar yüksek olur. Genellikle, belirli bir miktarda veriden sonra tahminin kalitesi iyileşmeyi bırakır ve doğruluğu daha da artırmak için, temelde farklı bir model, verileri, özellikleri vb. Hazırlarken farklı bir yaklaşım kullanmanız gerekir. Burada daha fazla veri yükledik ve kalite arttı.

Bu, analistlerin en azından bir deney yürütmek için öncelikle büyük veri kümeleriyle çalışmak zorunda kaldıkları ve rahat bir MacBook'a sığan küçük bir örnekle idare etmenin imkansız olduğu tipik bir durumdur. Aynı zamanda dağıtılmış modellere ihtiyacımız vardı çünkü aksi takdirde eğitilemezlerdi. Bilgisayarlı görüntünün üretime girmesiyle birlikte, resimler büyük miktarda veri olduğundan ve büyük bir modeli eğitmek için milyonlarca resme ihtiyaç duyulduğundan bu tür örnekler daha yaygın hale geliyor.

Hemen şu soru ortaya çıkıyor: tüm bu bilgilerin nasıl saklanacağı, etkili bir şekilde nasıl işleneceği, dağıtılmış öğrenme algoritmalarının nasıl kullanılacağı - odak noktası saf matematikten mühendisliğe kayıyor. Üretimde kod yazmasanız bile bir deney yürütmek için mühendislik araçlarıyla çalışabilmeniz gerekir.

— Veri bilimi açık pozisyonlarına yaklaşım son yıllarda nasıl değişti?

— Büyük veri abartı olmaktan çıktı ve gerçeğe dönüştü. Sabit diskler oldukça ucuzdur; bu, gelecekte herhangi bir hipotezi test etmek için yeterli olacak şekilde tüm verileri toplamanın mümkün olduğu anlamına gelir. Sonuç olarak, büyük verilerle çalışmaya yönelik araçlara ilişkin bilgi oldukça popüler hale geliyor ve bunun sonucunda veri mühendisleri için giderek daha fazla açık pozisyon ortaya çıkıyor.

Benim anlayışıma göre bir veri bilimcinin çalışmasının sonucu bir deney değil, üretime ulaşmış bir üründür. Ve tam da bu bakış açısına göre, büyük verinin heyecanı ortaya çıkmadan önce süreç daha basitti: Mühendisler belirli sorunları çözmek için makine öğrenimiyle meşguldü ve algoritmaların üretime getirilmesinde herhangi bir sorun yoktu.

— Aranan bir uzman olarak kalmak için ne gerekir?

— Artık veri bilimine matematik, makine öğrenimi teorisi eğitimi almış, hazır bir altyapının sağlandığı veri analizi yarışmalarına katılan birçok kişi geldi: veriler temizlenir, metrikler tanımlanır ve hiçbir veri yoktur. Çözümün tekrarlanabilir ve hızlı olması gerekmektedir.

Sonuç olarak, insanlar işin gerçeklerine hazırlıksız olarak işe geliyorlar ve yeni başlayanlar ile deneyimli geliştiriciler arasında bir boşluk oluşuyor.

Hazır modüllerden kendi modelinizi oluşturmanıza olanak tanıyan araçların geliştirilmesiyle (Microsoft, Google ve diğer birçok kişinin zaten bu tür çözümleri var) ve makine öğreniminin otomasyonuyla bu boşluk daha da belirgin hale gelecektir. Gelecekte meslek, yeni algoritmalar geliştiren ciddi araştırmacılar ve modelleri uygulayacak, süreçleri otomatikleştirecek gelişmiş mühendislik becerilerine sahip çalışanlar için talep görecek. Veri mühendisliğindeki Ozon Masters kursu, mühendislik becerilerini ve büyük veriler üzerinde dağıtılmış makine öğrenimi algoritmalarını kullanma yeteneğini geliştirmek için tasarlanmıştır. Bir veri bilimcinin yapabilecekleri ile pratikte yapabilmesi gerekenler arasındaki uçurumu azaltmaya çalışıyoruz.

— Diplomalı bir matematikçi neden işletme okumaya gitmeli?

— Rus veri bilimi topluluğu, beceri ve deneyimin çok hızlı bir şekilde paraya dönüştürüldüğünü anlamaya başladı; bu nedenle, bir uzman pratik deneyime sahip olur olmaz maliyeti çok hızlı bir şekilde artmaya başlar, en yetenekli insanlar çok pahalıdır - ve bu Bu, şu andaki gelişme pazarı için doğrudur.

Bir veri bilimcinin işinin büyük bir kısmı verilere girmek, orada ne olduğunu anlamak, iş süreçlerinden sorumlu kişilere danışmak ve bu verileri oluşturmak ve ancak daha sonra bunları modeller oluşturmak için kullanmaktır. Büyük verilerle çalışmaya başlamak için mühendislik becerilerine sahip olmak son derece önemlidir; bu, veri biliminde çok sayıda olan keskin köşelerden kaçınmayı çok daha kolaylaştırır.

Tipik bir hikaye: SQL'de, büyük veriler üzerinde çalışan Hive çerçevesi kullanılarak yürütülen bir sorgu yazdınız. İstek on dakika içinde, en kötü durumda - bir veya iki saat içinde işlenir ve çoğu zaman, bu verilerin indirilmesini aldığınızda, bazı faktörleri veya ek bilgileri hesaba katmayı unuttuğunuzu fark edersiniz. İsteği tekrar göndermeniz ve bu dakikaları ve saatleri beklemeniz gerekir. Eğer bir verimlilik dehasıysanız, başka bir görevi üstleneceksiniz, ancak pratikte görüldüğü gibi, elimizde çok az verimlilik dehası var ve insanlar sadece bekliyor. Bu nedenle derslerde, başlangıçta iki saat değil birkaç dakika çalışan sorgular yazmak için iş verimliliğine çok zaman ayıracağız. Bu beceri üretkenliği ve bununla birlikte bir uzmanın değerini katlar.

– Ozon Masters'ın diğer kurslardan farkı nedir?

— Ozon Masters, Ozon çalışanları tarafından verilmektedir ve görevler, şirketlerde çözülen gerçek iş vakalarına dayanmaktadır. Aslında üniversitede veri bilimi okuyan bir kişinin mühendislik becerilerinin eksikliğinin yanı sıra başka bir sorunu daha var: Bir işletmenin görevi, iş dilinde formüle edilmiştir ve amacı oldukça basittir: daha fazla para kazanmak. Ve bir matematikçi matematiksel ölçümlerin nasıl optimize edileceğini iyi bilir; ancak bir iş ölçümüyle ilişkilendirilecek bir gösterge bulmak zordur. Ve bir iş problemini çözdüğünüzü anlamanız ve işle birlikte matematiksel olarak optimize edilebilecek ölçümleri formüle etmeniz gerekir. Bu beceri gerçek vakalarla kazanılır ve Ozon tarafından verilir.
Ve vakaları görmezden gelsek bile, okulda iş sorunlarını gerçek şirketlerde çözen birçok uygulayıcı tarafından eğitim verilmektedir. Sonuç olarak, öğretmeye yönelik yaklaşım hala daha uygulamaya yöneliktir. En azından kursumda, araçların nasıl kullanılacağına, hangi yaklaşımların mevcut olduğuna vb. odaklanmaya çalışacağım. Öğrencilerle birlikte her görevin kendine ait bir aracı olduğunu, her aracın da kendi uygulama alanının olduğunu anlayacağız.

— En ünlü veri analizi eğitim programı elbette ShAD'dir — ondan farkı tam olarak nedir?

— ShAD ve Ozon Ustalarının eğitim işlevinin yanı sıra yerel personel eğitimi sorununu da çözdüğü açıktır. En iyi SHAD mezunları öncelikle Yandex'e alınır, ancak sorun şu ki, Yandex'in özellikleri nedeniyle - ki bu büyüktür ve büyük verilerle çalışmak için çok az sayıda iyi aracın olduğu bir zamanda yaratılmıştır - verilerle çalışmak için kendi altyapısına ve araçlarına sahiptir. yani bu konularda ustalaşmanız gerekecek. Ozon Masters'ın farklı bir mesajı var: Programda başarılı bir şekilde uzmanlaştıysanız ve Ozon veya diğer şirketlerin %99'undan biri sizi çalışmaya davet ederse, işinizden yararlanmaya başlamanız çok daha kolay olacaktır; Ozon Masters'ın bir parçası olarak edinilen beceriler çalışmaya başlamanız yeterli olacaktır.

- Kurs iki yıl sürüyor. Buna neden bu kadar zaman ayırmanız gerekiyor?

- İyi soru. Uzun zaman alıyor, çünkü içerik ve öğretmen seviyesi açısından, ödevler de dahil olmak üzere, ustalaşması çok fazla zaman gerektiren bütünleyici bir yüksek lisans programıdır.

Benim ders bakış açıma göre, bir öğrencinin ödevlere haftada 2-3 saat ayırmasını beklemek yaygındır. İlk olarak, görevler bir eğitim kümesinde gerçekleştirilir ve herhangi bir paylaşılan küme, birkaç kişinin onu aynı anda kullandığı anlamına gelir. Yani, görevin yürütülmeye başlamasını beklemeniz gerekecek; bazı kaynaklar seçilebilir ve daha yüksek öncelikli bir kuyruğa aktarılabilir. Öte yandan büyük veriyle yapılan her türlü çalışma çok zaman alıyor.

Programla, büyük veriyle çalışmayla veya mühendislik becerileriyle ilgili başka sorularınız varsa Ozon Masters, 25 Nisan Cumartesi günü saat 12:00'de çevrimiçi açık gün gerçekleştiriyor. Öğretmen ve öğrencilerle buluştuk yakınlaştırma ve YouTube.

Kaynak: habr.com

Yorum ekle