Pavel Klemenkov, NVIDIA: We proberen de kloof te verkleinen tussen wat een datawetenschapper kan en wat hij zou moeten kunnen doen

De tweede instroom van studenten van de masteropleiding data science en business intelligence Ozon Masters is begonnen - en om het makkelijker te maken om te beslissen om een ​​aanmelding achter te laten en de online test te doen, vroegen we de docenten van de opleiding wat ze konden verwachten van studeren en werken met gegevens.

Pavel Klemenkov, NVIDIA: We proberen de kloof te verkleinen tussen wat een datawetenschapper kan en wat hij zou moeten kunnen doen Chief Data Scientist NVIDIA en docent cursussen over Big Data en Data Engineering Pavel Klemenkov vertelde waarom wiskundigen twee jaar lang code moeten schrijven en studeren aan Ozon Masters.

— Zijn er veel bedrijven die data science-algoritmen gebruiken?

- Eigenlijk best veel. Heel wat grote bedrijven die over echt big data beschikken, beginnen er effectief mee te werken of werken er al heel lang mee. Het is duidelijk dat de helft van de markt data gebruikt die in een Excel-spreadsheet passen of op een grote server kunnen worden berekend, maar er kan niet worden gezegd dat er maar een paar bedrijven zijn die met data kunnen werken.

— Vertel ons iets over de projecten waarbij datawetenschap wordt gebruikt.

— Toen we bij Rambler werkten, waren we bijvoorbeeld een advertentiesysteem aan het maken dat werkte volgens de principes van RTB (Real Time Bidding). We moesten veel modellen bouwen die de aankoop van advertenties zouden optimaliseren of bijvoorbeeld de waarschijnlijkheid konden voorspellen van een klik, conversie, enzovoort. Tegelijkertijd genereert een advertentieveiling veel gegevens: logboeken van siteverzoeken aan potentiële advertentiekopers, logboeken van advertentievertoningen, logboeken van klikken - dit zijn tientallen terabytes aan gegevens per dag.

Bovendien hebben we voor deze taken een interessant fenomeen waargenomen: hoe meer gegevens je geeft om het model te trainen, hoe hoger de kwaliteit ervan. Meestal stopt de kwaliteit van de voorspelling na een bepaalde hoeveelheid gegevens met verbeteren, en om de nauwkeurigheid verder te verbeteren, moet u een fundamenteel ander model gebruiken, een andere benadering voor het voorbereiden van gegevens, functies, enzovoort. Hier hebben we meer gegevens geüpload en is de kwaliteit toegenomen.

Dit is een typisch geval waarin analisten eerst met grote datasets moesten werken om op zijn minst een experiment uit te voeren, en waar het onmogelijk was rond te komen met een klein monster dat in een gezellige MacBook past. Tegelijkertijd hadden we gedistribueerde modellen nodig, omdat ze anders niet getraind konden worden. Met de introductie van computer vision in de productie komen dergelijke voorbeelden steeds vaker voor, omdat afbeeldingen een grote hoeveelheid gegevens zijn en er miljoenen afbeeldingen nodig zijn om een ​​groot model te trainen.

De vraag rijst meteen: hoe al deze informatie op te slaan, hoe deze effectief te verwerken, hoe gedistribueerde leeralgoritmen te gebruiken - de focus verschuift van pure wiskunde naar techniek. Zelfs als u geen code in productie schrijft, moet u met technische hulpmiddelen kunnen werken om een ​​experiment uit te voeren.

— Hoe is de aanpak van data science vacatures de afgelopen jaren veranderd?

— Big data is niet langer een hype, maar werkelijkheid geworden. Harde schijven zijn vrij goedkoop, wat betekent dat het mogelijk is om alle gegevens te verzamelen, zodat er in de toekomst voldoende gegevens zijn om eventuele hypothesen te testen. Hierdoor wordt kennis van tools voor het werken met big data erg populair en ontstaan ​​er steeds meer vacatures voor data engineers.

Naar mijn mening is het resultaat van het werk van een datawetenschapper geen experiment, maar een product dat in productie is genomen. En juist vanuit dit gezichtspunt was het proces, vóór de opkomst van de hype rond big data, eenvoudiger: ingenieurs hielden zich bezig met machinaal leren om specifieke problemen op te lossen, en er waren geen problemen met het in productie brengen van de algoritmen.

— Wat is er nodig om een ​​veelgevraagde specialist te blijven?

– Nu zijn veel mensen naar de datawetenschap gekomen die wiskunde en de theorie van machinaal leren hebben gestudeerd, en hebben deelgenomen aan data-analysewedstrijden, waar een kant-en-klare infrastructuur wordt geboden: de gegevens worden opgeschoond, de metrieken worden gedefinieerd en er zijn geen eisen dat de oplossing reproduceerbaar en snel is.

Als gevolg hiervan komen jongens slecht voorbereid op de realiteit van het bedrijfsleven naar hun werk, en ontstaat er een kloof tussen nieuwelingen en ervaren ontwikkelaars.

Met de ontwikkeling van tools waarmee je je eigen model kunt samenstellen uit kant-en-klare modules - en Microsoft, Google en vele anderen hebben dergelijke oplossingen al - en de automatisering van machine learning zal deze kloof nog groter worden. In de toekomst zal er vraag zijn naar serieuze onderzoekers die nieuwe algoritmen bedenken, en naar medewerkers met ontwikkelde technische vaardigheden die modellen zullen implementeren en processen zullen automatiseren. De Ozon Masters-cursus in data-engineering is ontworpen om technische vaardigheden te ontwikkelen en de mogelijkheid om gedistribueerde machine learning-algoritmen op big data te gebruiken. We proberen de kloof te verkleinen tussen wat een datawetenschapper kan en wat hij in de praktijk zou moeten kunnen.

— Waarom zou een wiskundige met een diploma bedrijfskunde gaan studeren?

– De Russische datawetenschapsgemeenschap is gaan begrijpen dat vaardigheden en ervaring zeer snel in geld worden omgezet. Zodra een specialist praktische ervaring heeft, beginnen zijn kosten dus zeer snel te stijgen, de meest bekwame mensen zijn erg duur – en dit is waar op het huidige moment van ontwikkelingsmarkt.

Een groot deel van de taak van een datawetenschapper is om in de data te duiken, te begrijpen wat daar ligt, te overleggen met de mensen die verantwoordelijk zijn voor bedrijfsprocessen en deze data te genereren - en deze vervolgens pas te gebruiken om modellen te bouwen. Om met big data te gaan werken, is het uiterst belangrijk om over technische vaardigheden te beschikken. Dit maakt het veel gemakkelijker om scherpe bochten te vermijden, waarvan er veel zijn in de datawetenschap.

Een typisch verhaal: je schreef een query in SQL die wordt uitgevoerd met behulp van het Hive-framework dat draait op big data. Het verzoek wordt in het ergste geval binnen tien minuten verwerkt, in een uur of twee, en vaak, wanneer u downloads van deze gegevens ontvangt, realiseert u zich dat u bent vergeten rekening te houden met een factor of aanvullende informatie. U moet het verzoek opnieuw verzenden en deze minuten en uren wachten. Als je een efficiëntiegenie bent, zul je een andere taak op je nemen, maar zoals de praktijk laat zien, hebben we weinig efficiëntiegenieën, en mensen wachten gewoon. Daarom zullen we in de cursussen veel tijd besteden aan werkefficiëntie om in eerste instantie vragen te schrijven die niet twee uur, maar enkele minuten werken. Deze vaardigheid vermenigvuldigt de productiviteit, en daarmee de waarde van een specialist.

– Waarin verschilt Ozon Masters van andere cursussen?

— Ozon Masters wordt gegeven door Ozon-medewerkers en de taken zijn gebaseerd op echte business cases die in bedrijven worden opgelost. Naast het gebrek aan technische vaardigheden heeft iemand die datawetenschap aan de universiteit heeft gestudeerd nog een ander probleem: de taak van een bedrijf is geformuleerd in de taal van het bedrijfsleven, en het doel is vrij eenvoudig: meer geld verdienen. En een wiskundige weet heel goed hoe hij wiskundige maatstaven moet optimaliseren, maar het vinden van een indicator die correleert met een bedrijfsmaatstaf is moeilijk. En je moet begrijpen dat je een zakelijk probleem aan het oplossen bent, en samen met het bedrijf statistieken formuleren die wiskundig kunnen worden geoptimaliseerd. Deze vaardigheid wordt verworven door middel van echte cases, en ze worden gegeven door Ozon.
En zelfs als we de gevallen negeren, wordt de school onderwezen door veel praktijkmensen die bedrijfsproblemen in echte bedrijven oplossen. De aanpak van het lesgeven zelf is daardoor nog meer praktijkgericht. In mijn cursus zal ik in ieder geval proberen de focus te verleggen naar het gebruik van de tools, welke benaderingen er bestaan, enzovoort. Samen met de studenten zullen we begrijpen dat elke taak zijn eigen tool heeft en dat elke tool zijn toepassingsgebied heeft.

– Het bekendste trainingsprogramma voor data-analyse is natuurlijk ShAD – wat is precies het verschil ermee?

— Het is duidelijk dat ShAD en Ozon Masters, naast de educatieve functie, het lokale probleem van de personeelsopleiding oplossen. Top SHAD-afgestudeerden worden voornamelijk gerekruteerd voor Yandex, maar het addertje onder het gras is dat Yandex, vanwege zijn specifieke kenmerken – en het is groot en werd opgericht toen er nog weinig goede tools waren om met big data te werken – zijn eigen infrastructuur en tools heeft om met data te werken. , wat betekent dat je ze onder de knie moet krijgen. Ozon Masters heeft een andere boodschap: als je het programma met succes onder de knie hebt en Ozon of een van de 99% van de andere bedrijven je uitnodigt om te komen werken, zal het veel gemakkelijker zijn om het bedrijf ten goede te komen; de vaardigheden die je hebt verworven als onderdeel van Ozon Masters zal genoeg zijn om gewoon te gaan werken.

— De cursus duurt twee jaar. Waarom moet je hier zoveel tijd aan besteden?

- Goede vraag. Het duurt lang, want het is qua inhoud en niveau van docenten een integrale masteropleiding die veel tijd vergt om onder de knie te krijgen, inclusief huiswerk.

Vanuit mijn cursusperspectief is het gebruikelijk dat een student 2-3 uur per week aan opdrachten besteedt. Ten eerste worden taken uitgevoerd op een trainingscluster, en elk gedeeld cluster houdt in dat meerdere mensen er tegelijkertijd gebruik van maken. Dat wil zeggen dat u moet wachten tot de taak wordt uitgevoerd; sommige bronnen kunnen worden geselecteerd en overgebracht naar een wachtrij met een hogere prioriteit. Aan de andere kant kost elk werk met big data veel tijd.

Mocht je nog vragen hebben over het programma, werken met big data of engineering skills, dan houdt Ozon Masters zaterdag 25 april om 12 uur een online open dag. We ontmoeten docenten en studenten in Zoom en YouTube.

Bron: www.habr.com

Voeg een reactie