Pavel Klemenkov, NVIDIA: Wir versuchen, die Kluft zwischen dem, was ein Datenwissenschaftler tun kann, und dem, was er können sollte, zu verringern

Die zweite Aufnahme von Studierenden des Masterstudiengangs in Data Science und Business Intelligence Ozon Masters hat begonnen – und um die Entscheidung, eine Bewerbung aufzugeben und den Online-Test abzulegen, zu erleichtern, haben wir die Lehrenden des Programms gefragt, was sie vom Studium und der Arbeit erwarten können mit Daten.

Pavel Klemenkov, NVIDIA: Wir versuchen, die Kluft zwischen dem, was ein Datenwissenschaftler tun kann, und dem, was er können sollte, zu verringern Chief Data Scientist NVIDIA und Lehrer Kurse zu Big Data und Data Engineering Pavel Klemenkov sprach darüber, warum Mathematiker zwei Jahre lang Code schreiben und bei Ozon Masters studieren müssen.

— Gibt es viele Unternehmen, die Data-Science-Algorithmen verwenden?

- Eigentlich ziemlich viel. Viele große Unternehmen, die über wirklich große Datenmengen verfügen, beginnen entweder damit, effektiv damit zu arbeiten, oder arbeiten schon seit langem damit. Es ist klar, dass die Hälfte des Marktes Daten verwendet, die in eine Excel-Tabelle passen oder auf einem großen Server berechnet werden können, aber man kann nicht sagen, dass es nur wenige Unternehmen gibt, die mit Daten arbeiten können.

— Erzählen Sie uns etwas über die Projekte, in denen Data Science zum Einsatz kommt.

— Während unserer Arbeit bei Rambler haben wir beispielsweise ein Werbesystem entwickelt, das auf den Prinzipien von RTB (Real Time Bidding) basiert – wir mussten viele Modelle entwickeln, die den Kauf von Werbung optimieren oder beispielsweise die Wahrscheinlichkeit vorhersagen konnten eines Klicks, einer Conversion usw. Gleichzeitig fallen bei einer Werbeauktion viele Daten an: Protokolle von Seitenanfragen an potenzielle Werbekäufer, Protokolle von Werbeimpressionen, Protokolle von Klicks – das sind Dutzende Terabyte an Daten pro Tag.

Darüber hinaus haben wir bei diesen Aufgaben ein interessantes Phänomen beobachtet: Je mehr Daten Sie zum Trainieren des Modells bereitstellen, desto höher ist seine Qualität. Normalerweise verbessert sich die Qualität der Prognose ab einer bestimmten Datenmenge nicht mehr. Um die Genauigkeit weiter zu verbessern, müssen Sie ein grundlegend anderes Modell, einen anderen Ansatz zur Datenaufbereitung, Funktionen usw. verwenden. Hier haben wir mehr Daten hochgeladen und die Qualität erhöht.

Dies ist ein typischer Fall, bei dem Analysten zunächst mit großen Datensätzen arbeiten mussten, um zumindest ein Experiment durchführen zu können, und bei dem es unmöglich war, mit einer kleinen Stichprobe auszukommen, die in ein gemütliches MacBook passt. Gleichzeitig brauchten wir verteilte Modelle, da diese sonst nicht trainierbar wären. Mit der Einführung von Computer Vision in die Produktion werden solche Beispiele immer häufiger, da es sich bei Bildern um große Datenmengen handelt und zum Trainieren eines großen Modells Millionen von Bildern benötigt werden.

Es stellt sich sofort die Frage: Wie speichert man all diese Informationen, wie verarbeitet man sie effektiv, wie nutzt man verteilte Lernalgorithmen – der Schwerpunkt verlagert sich von der reinen Mathematik hin zu den Ingenieurwissenschaften. Auch wenn Sie keinen Code in der Produktion schreiben, müssen Sie in der Lage sein, mit Engineering-Tools zu arbeiten, um ein Experiment durchzuführen.

— Wie hat sich die Herangehensweise an offene Stellen im Bereich Data Science in den letzten Jahren verändert?

— Big Data ist kein Hype mehr, sondern Realität. Festplatten sind recht günstig, was es ermöglicht, alle Daten zu sammeln, sodass in Zukunft genügend Daten vorhanden sind, um etwaige Hypothesen zu testen. Infolgedessen wird das Wissen über Tools für die Arbeit mit Big Data immer beliebter und es entstehen immer mehr Stellen für Dateningenieure.

Nach meinem Verständnis ist das Ergebnis der Arbeit eines Datenwissenschaftlers kein Experiment, sondern ein Produkt, das die Produktion erreicht hat. Und gerade unter diesem Gesichtspunkt war der Prozess vor dem Aufkommen des Hypes um Big Data einfacher: Ingenieure beschäftigten sich mit maschinellem Lernen, um spezifische Probleme zu lösen, und es gab keine Probleme, die Algorithmen in die Produktion zu bringen.

— Was braucht es, um ein gefragter Spezialist zu bleiben?

— Mittlerweile sind viele Menschen zur Datenwissenschaft gekommen, die Mathematik und die Theorie des maschinellen Lernens studiert und an Datenanalysewettbewerben teilgenommen haben, bei denen eine vorgefertigte Infrastruktur bereitgestellt wird: Die Daten werden bereinigt, die Metriken werden definiert und es gibt keine Anforderungen an die Reproduzierbarkeit und Schnelligkeit der Lösung.

Infolgedessen kommen die Leute schlecht auf die Realität des Geschäfts vorbereitet zur Arbeit und es entsteht eine Kluft zwischen Neulingen und erfahrenen Entwicklern.

Mit der Entwicklung von Tools, die es ermöglichen, aus vorgefertigten Modulen ein eigenes Modell zusammenzustellen – und Microsoft, Google und viele andere verfügen bereits über solche Lösungen – und der Automatisierung des maschinellen Lernens wird diese Lücke noch deutlicher. In Zukunft wird der Beruf gefragt sein: ernsthafte Forscher, die neue Algorithmen entwickeln, und Mitarbeiter mit ausgeprägten Ingenieurskenntnissen, die Modelle implementieren und Prozesse automatisieren. Der Ozon-Masterstudiengang in Datentechnik ist darauf ausgelegt, technische Fähigkeiten und die Fähigkeit zu entwickeln, verteilte maschinelle Lernalgorithmen für große Datenmengen zu verwenden. Wir versuchen, die Lücke zwischen dem, was ein Datenwissenschaftler kann, und dem, was er in der Praxis können sollte, zu verringern.

— Warum sollte ein Diplom-Mathematiker BWL studieren?

— Die russische Data-Science-Community hat verstanden, dass sich Fähigkeiten und Erfahrung sehr schnell in Geld umwandeln lassen. Sobald also ein Spezialist über praktische Erfahrung verfügt, beginnen seine Kosten sehr schnell zu steigen, die qualifiziertesten Leute sind sehr teuer – und das ist zum gegenwärtigen Zeitpunkt der Marktentwicklung wahr.

Ein großer Teil der Arbeit eines Datenwissenschaftlers besteht darin, sich mit den Daten auseinanderzusetzen, zu verstehen, was sich darin befindet, sich mit den Personen zu beraten, die für Geschäftsprozesse verantwortlich sind, diese Daten zu generieren – und sie erst dann zum Erstellen von Modellen zu verwenden. Um mit Big Data arbeiten zu können, ist es äußerst wichtig, über technische Fähigkeiten zu verfügen. Dies macht es viel einfacher, scharfe Ecken zu vermeiden, von denen es in der Datenwissenschaft viele gibt.

Eine typische Geschichte: Sie haben eine Abfrage in SQL geschrieben, die mithilfe des Hive-Frameworks für Big Data ausgeführt wird. Die Anfrage wird in zehn Minuten bearbeitet, im schlimmsten Fall in ein oder zwei Stunden, und oft stellen Sie beim Herunterladen dieser Daten fest, dass Sie vergessen haben, einen Faktor oder zusätzliche Informationen zu berücksichtigen. Sie müssen die Anfrage erneut senden und diese Minuten und Stunden warten. Wenn Sie ein Effizienzgenie sind, werden Sie eine andere Aufgabe übernehmen, aber wie die Praxis zeigt, gibt es bei uns nur wenige Effizienzgenies und die Leute warten nur. Daher werden wir in den Kursen viel Zeit auf die Arbeitseffizienz verwenden, um zunächst Anfragen zu schreiben, die nicht zwei Stunden, sondern mehrere Minuten lang funktionieren. Diese Fähigkeit vervielfacht die Produktivität und damit den Wert eines Spezialisten.

– Wie unterscheidet sich Ozon Masters von anderen Kursen?

— Ozon Masters wird von Ozon-Mitarbeitern unterrichtet und die Aufgaben basieren auf realen Geschäftsfällen, die in Unternehmen gelöst werden. Tatsächlich hat jemand, der an der Universität Data Science studiert hat, neben den fehlenden Ingenieurskenntnissen noch ein weiteres Problem: Die Aufgabe eines Unternehmens ist in der Sprache der Wirtschaft formuliert, und das Ziel ist ganz einfach: mehr Geld zu verdienen. Und ein Mathematiker weiß gut, wie man mathematische Metriken optimiert – aber einen Indikator zu finden, der mit einer Geschäftsmetrik korreliert, ist schwierig. Und Sie müssen verstehen, dass Sie ein Geschäftsproblem lösen, und gemeinsam mit dem Unternehmen Kennzahlen formulieren, die mathematisch optimiert werden können. Diese Fähigkeit wird durch reale Fälle erworben und von Ozon vermittelt.
Und selbst wenn wir die Fälle ignorieren, wird die Schule von vielen Praktikern unterrichtet, die Geschäftsprobleme in echten Unternehmen lösen. Dadurch ist der Lehransatz selbst noch praxisorientierter. Zumindest in meinem Kurs werde ich versuchen, den Fokus auf die Verwendung der Tools, die vorhandenen Ansätze usw. zu verlagern. Gemeinsam mit den Studierenden werden wir verstehen, dass jede Aufgabe ihr eigenes Werkzeug hat und jedes Werkzeug seinen Anwendungsbereich hat.

— Das bekannteste Datenanalyse-Schulungsprogramm ist natürlich ShAD – was genau ist der Unterschied dazu?

— Es ist klar, dass ShAD und Ozon Masters neben der Bildungsfunktion auch das lokale Problem der Personalausbildung lösen. Top-SHAD-Absolventen werden in erster Linie von Yandex rekrutiert, aber der Haken ist, dass Yandex aufgrund seiner Besonderheiten – es ist groß und wurde erstellt, als es nur wenige gute Tools für die Arbeit mit Big Data gab – über eine eigene Infrastruktur und Tools für die Arbeit mit Daten verfügt , was bedeutet, dass Sie sie beherrschen müssen. Ozon Masters hat eine andere Botschaft: Wenn Sie das Programm erfolgreich gemeistert haben und Ozon oder eines der 99 % der anderen Unternehmen Sie zur Arbeit einlädt, wird es viel einfacher sein, dem Unternehmen von den im Rahmen von Ozon Masters erworbenen Fähigkeiten zu profitieren wird ausreichen, um einfach mit der Arbeit zu beginnen.

— Der Kurs dauert zwei Jahre. Warum müssen Sie so viel Zeit damit verbringen?

- Gute Frage. Es dauert lange, denn inhaltlich und vom Niveau der Lehrkräfte her handelt es sich um ein integrales Masterstudium, dessen Bewältigung inklusive Hausaufgaben viel Zeit erfordert.

Aus meiner Kursperspektive ist es üblich, von einem Studenten zu erwarten, dass er 2-3 Stunden pro Woche für Aufgaben aufwendet. Erstens werden Aufgaben auf einem Trainingscluster ausgeführt, und jeder gemeinsam genutzte Cluster impliziert, dass mehrere Personen ihn gleichzeitig verwenden. Das heißt, Sie müssen warten, bis die Ausführung der Aufgabe beginnt; einige Ressourcen werden möglicherweise ausgewählt und in eine Warteschlange mit höherer Priorität übertragen. Andererseits nimmt jede Arbeit mit Big Data viel Zeit in Anspruch.

Wenn Sie weitere Fragen zum Programm, zur Arbeit mit Big Data oder zu technischen Fähigkeiten haben, veranstaltet Ozon Masters am Samstag, den 25. April um 12:00 Uhr einen Online-Tag der offenen Tür. Wir treffen uns mit Lehrern und Schülern in Zoom und YouTube.

Source: habr.com

Kommentar hinzufügen