Fra fysikere til datavitenskap (Fra vitenskapens motorer til kontorplankton). Den tredje delen

Fra fysikere til datavitenskap (Fra vitenskapens motorer til kontorplankton). Den tredje delen

Dette bildet er av Arthur Kuzin (n01z3), oppsummerer ganske nøyaktig innholdet i blogginnlegget. Som et resultat bør den følgende fortellingen oppfattes mer som en fredagshistorie enn som noe ekstremt nyttig og teknisk. I tillegg er det verdt å merke seg at teksten er rik på engelske ord. Jeg vet ikke hvordan jeg skal oversette noen av dem riktig, og jeg vil bare ikke oversette noen av dem.

Den første delen.
Andre del.

Hvordan overgangen fra et akademisk miljø til et industrimiljø foregikk, avsløres i de to første episodene. I denne vil samtalen handle om hva som skjedde videre.

Det var januar 2017. På den tiden hadde jeg litt mer enn ett års arbeidserfaring, og jeg jobbet i San Francisco i selskapet TrueAccord som Sr. Dataforsker.

TrueAccord er en oppstart av inkassovirksomhet. Enkelt sagt - et inkassobyrå. Samlere ringer vanligvis mye. Vi sendte mange e-poster, men ringte få. Hver e-post førte til selskapets nettside, hvor debitor ble tilbudt rabatt på gjelden, og til og med lov til å betale i avdrag. Denne tilnærmingen førte til bedre innsamling, tillot skalering og mindre eksponering for søksmål.

Selskapet var normalt. Produktet er klart. Ledelsen er tilregnelig. Beliggenheten er bra.

I snitt jobber folk i dalen på ett sted i rundt halvannet år. Det vil si at ethvert selskap du jobber for er bare et lite skritt. På dette trinnet vil du samle inn penger, tilegne deg ny kunnskap, ferdigheter, forbindelser og linjer i CV-en din. Etter dette er det en overgang til neste trinn.

Hos TrueAccord selv var jeg med på å legge ved anbefalingssystemer til nyhetsbrev på e-post, samt å prioritere telefonsamtaler. Effekten er forståelig og ble målt ganske godt i dollar gjennom A/B-testing. Siden det ikke var maskinlæring før min ankomst, var virkningen av arbeidet mitt ikke dårlig. Igjen, det er mye lettere å forbedre noe enn noe som allerede er sterkt optimalisert.

Etter seks måneders arbeid med disse systemene, hevet de til og med grunnlønnen min fra $150k til $163k. I samfunnet Open Data Science (ODS) det er et meme rundt $163k. Den vokser med bena herfra.

Alt dette var fantastisk, men det førte ingen vei, eller det førte, men ikke dit.

Jeg har stor respekt for TrueAccord, både selskapet og gutta jeg jobbet med der. Jeg lærte mye av dem, men jeg ønsket ikke å jobbe lenge med anbefalingssystemer hos et inkassobyrå. Fra dette trinnet måtte du gå i en eller annen retning. Om ikke fremover og oppover, så i hvert fall sidelengs.

Hva likte jeg ikke?

  1. Fra et maskinlæringsperspektiv begeistret ikke problemene meg. Jeg ville ha noe fasjonabelt, ungdommelig, det vil si Deep Learning, Computer Vision, noe ganske nær vitenskap eller i det minste alkymi.
  2. En oppstart, og til og med et inkassobyrå, har problemer med å ansette høyt kvalifisert personell. Som oppstart kan det ikke betale seg mye. Men som inkassobyrå taper det i status. Grovt sett, hvis en jente på date spør hvor du jobber? Svaret ditt: «På Google» høres størrelsesordener bedre ut enn «inkassobyrå». Jeg ble litt plaget av det faktum at for vennene mine som jobber på Google og Facebook, i motsetning til meg, åpnet navnet på selskapet deres dører som: du kan bli invitert til en konferanse eller et møte som foredragsholder, eller flere interessante personer skriver på LinkedIn med tilbud om å møtes og prate over et glass te. Jeg elsker virkelig å kommunisere med folk jeg ikke kjenner personlig. Så hvis du bor i San Francisco, ikke nøl med å skrive - la oss ta en kaffe og snakke.
  3. I tillegg til meg jobbet tre Data Scientists i selskapet. Jeg jobbet med maskinlæring, og de jobbet med andre datavitenskapelige oppgaver, som er vanlige i enhver oppstart her til i morgen. Som et resultat forsto de egentlig ikke maskinlæring. Men for å vokse må jeg kommunisere med noen, diskutere artikler og den siste utviklingen og spørre om råd til slutt.

Hva var tilgjengelig?

  1. Utdanning: fysikk, ikke informatikk.
  2. Det eneste programmeringsspråket jeg kunne var Python. Det var en følelse av at jeg trengte å bytte til C++, men jeg klarte fortsatt ikke å komme meg rundt.
  3. Halvannet år med jobb i bransjen. Dessuten studerte jeg verken Deep Learning eller Computer Vision på jobben.
  4. Ikke en eneste artikkel om Deep Learning / Computer Vision i CV-en.
  5. Det var en Kaggle Master-prestasjon.

Hva var det du ville?

  1. En stilling hvor det vil være nødvendig å trene mange nettverk, og nærmere datasyn.
  2. Det er bedre hvis det er et stort selskap som Google, Tesla, Facebook, Uber, LinkedIn, etc. Selv om det er i en klemme, ville en oppstart gjøre det.
  3. Jeg trenger ikke å være den største maskinlæringseksperten på laget. Det var et stort behov for seniorkamerater, mentorer og all slags kommunikasjon, noe som skulle fremskynde læringsprosessen.
  4. Etter å ha lest blogginnlegg om hvordan nyutdannede uten industriell erfaring har en total kompensasjon på $300-500k per år, ønsket jeg å gå inn i det samme området. Det er ikke det at dette plager meg så mye, men siden de sier at dette er et vanlig fenomen, men jeg har mindre, så er dette et signal.

Oppgaven virket fullstendig løsbar, dog ikke i den forstand at du kan hoppe inn i hvilket som helst selskap, men snarere at hvis du sulter, vil alt ordne seg. Det vil si at titalls eller hundrevis av forsøk, og smerten fra hver feil og hver avvisning, bør brukes til å skjerpe fokus, forbedre hukommelsen og strekke dagen til 36 timer.

Jeg finjusterte CV-en min, begynte å sende den ut og gikk på intervju. Jeg fløy forbi de fleste på kommunikasjonsstadiet med HR. Mange krevde C++, men jeg visste det ikke, og jeg hadde en sterk følelse av at jeg ikke ville være særlig interessert i stillinger som krevde C++.

Det er verdt å merke seg at det omtrent samtidig var en faseovergang i typen konkurranser på Kaggle. Før 2017 var det mye tabelldata og svært sjelden bildedata, men fra og med 2017 var det mange datasynsoppgaver.

Livet fløt i følgende modus:

  1. Arbeid på dagtid.
  2. Når teknisk skjerm / på stedet tar du fri.
  3. Kvelder og helger Kaggle + artikler / bøker / blogginnlegg

Slutten av 2016 var preget av at jeg ble med i fellesskapet Open Data Science (ODS), som forenklet mye. Det er mange gutter i samfunnet med rik industriell erfaring, noe som gjorde at vi kunne stille mange dumme spørsmål og få mange smarte svar. Det er også mange veldig sterke maskinlæringsspesialister av alle slag, som uventet tillot meg, gjennom ODS, å lukke problemet med regelmessig dybdekommunikasjon om Data Science. Til nå, når det gjelder ML, gir ODS meg mange ganger mer enn det jeg får på jobb.

Vel, som vanlig har ODS nok spesialister i konkurranser på Kaggle og andre sider. Å løse problemer i et team er morsommere og mer produktivt, så med vitser, banning, memer og annen nerdete underholdning begynte vi å løse problemer én etter én.

I mars 2017 – i lag med Serega Mushinsky – tredjeplass for Dstl-satellittbildefunksjonsgjenkjenning. Gullmedalje på Kaggle + $20k for to. På denne oppgaven ble arbeidet med satellittbilder + binær segmentering via UNet forbedret. Blogginnlegg på Habré om dette emnet.

Samme mars dro jeg på intervju hos NVidia med Self Driving-teamet. Jeg slet virkelig med spørsmål om objektdeteksjon. Det var ikke nok kunnskap.

Heldigvis begynte konkurransen Objektdeteksjon på flybilder fra samme DSTL samtidig. Gud selv beordret å løse problemet og oppgradere. En måned med kvelder og helger. Jeg plukket opp kunnskapen og ble nummer to. Denne konkurransen hadde en interessant nyanse i reglene, noe som førte til at jeg ble vist i Russland på føderale og ikke så føderale kanaler. Jeg gikk videre hjem Lenta.ru, og i en haug med trykte og nettbaserte publikasjoner. Mail Ru Group fikk litt positiv PR på min bekostning og deres egne penger, og grunnleggende vitenskap i Russland ble beriket med 12000 XNUMX pund. Som vanlig ble det skrevet om dette emnet blogginnlegg på hubr. Gå dit for detaljer.

Samtidig tok en Tesla-rekrutterer kontakt med meg og tilbød meg å snakke om Computer Vision-stillingen. Jeg er enig. Jeg sprang gjennom hjem, to teknologiskjermer, et intervju på stedet og hadde en veldig hyggelig samtale med Andrei Karpathy, som nettopp hadde blitt ansatt i Tesla som direktør for AI. Neste trinn er bakgrunnssjekk. Etter det måtte Elon Musk personlig godkjenne søknaden min. Tesla har en streng non-disclosure-avtale (NDA).
Jeg besto ikke bakgrunnssjekken. Rekruttereren sa at jeg chatter mye på nettet, noe som bryter NDA. Det eneste stedet jeg sa noe om et intervju hos Tesla var ODS, så den nåværende hypotesen er at noen tok et skjermbilde og skrev til HR hos Tesla, og jeg ble fjernet fra løpet av skade. Det var synd da. Nå er jeg glad det ikke gikk. Min nåværende stilling er mye bedre, selv om det ville vært veldig interessant å jobbe med Andrey.

Umiddelbart etter det stupte jeg inn i satellittbildekonkurransen på Kaggle fra Planet Labs - Forstå Amazonas fra verdensrommet. Problemet var enkelt og ekstremt kjedelig, ingen ønsket å løse det, men alle ville ha en gratis gullmedalje eller premiepenger. Derfor, med et team av Kaggle Masters på 7 personer, ble vi enige om at vi skulle kaste jern. Vi trente 480 nettverk i "fit_predict"-modus og laget et tre-etasjers ensemble av dem. Ble nummer sju. Blogginnlegg som beskriver løsningen fra Arthur Kuzin. Forresten, Jeremy Howard, som er viden kjent som skaperen Rask.AI ferdig 23.

Etter slutten av konkurransen, gjennom en venn som jobbet på AdRoll, arrangerte jeg et Meetup i deres lokaler. Representanter for Planet Labs snakket der om hvordan organiseringen av konkurransen og datamerkingen så ut fra deres side. Wendy Kwan, som jobber i Kaggle og hadde tilsyn med konkurransen, snakket om hvordan hun så det. Jeg beskrev vår løsning, triks, teknikker og tekniske detaljer. To tredjedeler av publikum løste dette problemet, så spørsmålene ble stilt til poenget og generelt var alt kult. Jeremy Howard var der også. Det viste seg at han endte på 23. plass fordi han ikke visste hvordan han skulle stable modellen og at han ikke visste om denne metoden for å konstruere ensembler i det hele tatt.

Meetups i dalen om maskinlæring er veldig forskjellige fra meetups i Moskva. Som regel er møter i dalen bunnen. Men vår ble bra. Dessverre trykket ikke kameraten som skulle trykke på knappen og ta opp alt :)

Etter det ble jeg invitert til å snakke med stillingen som Deep Learning Engineer ved samme Planet Labs, og umiddelbart på stedet. Jeg bestod det ikke. Ordlyden i avslaget er at det ikke er nok kunnskap i Deep Learning.

Jeg designet hver konkurranse som et prosjekt i Linkedin. For DSTL-problemet skrev vi forhåndstrykk og la det ut på arxiv. Ikke en artikkel, men fortsatt brød. Jeg anbefaler også alle andre å blåse opp sin LinkedIn-profil gjennom konkurranser, artikler, ferdigheter og så videre. Det er en positiv sammenheng mellom hvor mange søkeord du har i LinkedIn-profilen din og hvor ofte folk sender meldinger til deg.

Hvis jeg om vinteren og våren var veldig teknisk, så hadde jeg i august både kunnskap og selvtillit.

I slutten av juli tok en fyr som jobbet som Data Science-ansvarlig hos Lyft kontakt med meg på LinkedIn og inviterte meg til å ta en kaffe og prate om livet, om Lyft, om TrueAccord. Vi snakket. Han tilbød seg å intervjue med teamet sitt for stillingen som Data Scientist. Jeg sa at alternativet fungerer, forutsatt at det er Computer Vision / Deep Learning fra morgen til kveld. Han forsikret at det ikke var noen innvendinger fra hans side.

Jeg sendte CV-en min og han lastet den opp til Lyfts interne portal. Etter det ringte rekruttereren meg for å åpne CV-en min og finne ut mer om meg. Fra de første ordene var det klart at for ham var dette en formalitet, siden det var tydelig for ham fra CV-en hans at "Jeg er ikke et materiale for Lyft." Etter det gikk CV-en min i søppelbøtta.

Hele denne tiden, mens jeg ble intervjuet, diskuterte jeg mine feil og fall i ODS og gutta ga meg tilbakemeldinger og hjalp meg på alle mulige måter med råd, selv om det som vanlig også var mye vennlig trolling der.

Et av ODS-medlemmene tilbød seg å koble meg med vennen sin, som er ingeniørdirektør ved Lyft. Ikke før sagt enn gjort. Jeg kommer til Lyft for lunsj, og i tillegg til denne vennen er det også en Head of Data Science og en produktsjef som er en stor fan av Deep Learning. Til lunsj pratet vi over DL. Og siden jeg har trent nettverk 24/7 i et halvt år, lest kubikkmeter litteratur og kjørt oppgaver på Kaggle med mer eller mindre klare resultater, kunne jeg snakket om Deep Learning i timevis, både når det gjelder nye artikler og praktiske teknikker.

Etter lunsj så de på meg og sa - det er umiddelbart tydelig at du er kjekk, vil du snakke med oss? Dessuten la de til at det er klart for meg at take home + tech-skjermen kan hoppes over. Og at jeg umiddelbart vil bli invitert til stedet. Jeg er enig.

Etter det ringte rekruttereren meg for å avtale et intervju på stedet, og han var misfornøyd. Han mumlet noe om å ikke hoppe over hodet ditt.

Kom. Intervju på stedet. Fem timers kommunikasjon med forskjellige mennesker. Det var ikke et eneste spørsmål om Deep Learning, eller om maskinlæring i prinsippet. Siden det ikke finnes Deep Learning / Computer Vision, så er jeg ikke interessert. Dermed var intervjuresultatene ortogonale.

Denne rekruttereren ringer og sier - gratulerer, du kom til det andre intervjuet på stedet. Alt dette er overraskende. Hva er den andre på stedet? Jeg har aldri hørt om noe slikt. Jeg gikk. Det er et par timer der, denne gangen handler det om tradisjonell maskinlæring. Det er bedre. Men fortsatt ikke interessant.

Rekruttereren ringer og gratulerer med at jeg bestod det tredje intervjuet på stedet og lover at dette blir det siste. Jeg gikk for å se den og det var både en DL og en CV.

Jeg hadde en prior i mange måneder som fortalte meg at det ikke ville komme noe tilbud. Jeg skal ikke trene på tekniske ferdigheter, men på myke. Ikke på den myke siden, men på at stillingen legges ned eller at selskapet ikke ansetter ennå, men rett og slett tester markedet og nivået på kandidater.

Midten av august. Jeg drakk øl greit. Mørke tanker. 8 måneder har gått og fortsatt ingen tilbud. Det er godt å være kreativ under øl, spesielt hvis kreativiteten er merkelig. En idé kommer til meg. Jeg deler det med Alexey Shvets, som på den tiden var postdoktor ved MIT.

Hva om du tar nærmeste DL/CV-konferanse, ser på konkurransene som avholdes som en del av den, trener noe og sender inn? Siden alle ekspertene der bygger sin karriere på dette og har gjort dette i mange måneder eller til og med år, har vi ingen sjanse. Men det er ikke skummelt. Vi gjør en meningsfull innsending, flyr til siste plass, og etter det skriver vi et forhåndstrykk eller en artikkel om hvordan vi ikke er som alle andre og snakker om avgjørelsen vår. Og artikkelen er allerede på LinkedIn og i CV-en din.

Det vil si at det ser ut til å være relevant og det er flere korrekte søkeord i CV-en, noe som bør øke sjansene litt for å komme til tech-skjermen. Kode og bidrag fra meg, tekster fra Alexey. Spill, selvfølgelig, men hvorfor ikke?

Ikke før sagt enn gjort. Den nærmeste konferansen vi googlet var MICCAI, og det var faktisk konkurranser der. Vi traff den første. Det var Gastrointestinal bildeanalyse (GIANA). Oppgaven har 3 deloppgaver. Det var 8 dager igjen før fristen gikk ut. Jeg ble edru om morgenen, men jeg ga ikke opp ideen. Jeg tok rørledningene mine fra Kaggle og byttet dem fra satellittdata til medisinske data. 'fit_predict'. Alexey utarbeidet en to-siders beskrivelse av løsninger for hvert problem, og vi sendte den. Klar. I teorien kan du puste ut. Men det viste seg at det var en annen oppgave for samme verksted (Segmentering av robotinstrumenter) med tre deloppgaver og at fristen hennes ble flyttet opp med 4 dager, det vil si at vi kan gjøre 'fit_predict' der og sende den. Det var det vi gjorde.

I motsetning til Kaggle, hadde disse konkurransene sine egne akademiske spesifikasjoner:

  1. Ingen ledertavle. Innleveringer sendes på e-post.
  2. Du vil bli fjernet dersom en teamrepresentant ikke kommer for å presentere løsningen på konferansen på Workshopen.
  3. Din plass på ledertavlen blir kjent bare under konferansen. Et slags akademisk drama.

MICCAI 2017-konferansen ble holdt i Quebec City. For å være ærlig, i september begynte jeg å brenne ut, så ideen om å ta en uke fri fra jobben og reise til Canada så interessant ut.

Kom til konferansen. Jeg kom til dette verkstedet, jeg kjenner ingen, jeg sitter i hjørnet. Alle kjenner hverandre, de kommuniserer, de kaster ut smarte medisinske ord. Gjennomgang av den første konkurransen. Deltakerne snakker og snakker om sine beslutninger. Det er kult der, med glimt. Min tur. Og jeg skammer meg på en eller annen måte. De løste problemet, jobbet med det, avanserte vitenskapen, og vi er rent "fit_predict" fra tidligere utvikling, ikke for vitenskapen, men for å øke CVen vår.

Han kom ut og sa at jeg heller ikke er noen ekspert på medisin, unnskyldte seg for å kaste bort tiden deres og viste meg ett lysbilde med løsningen. Jeg gikk ned til gangen.

De annonserer den første deloppgaven – vi er først, og med margin.
Den andre og tredje er annonsert.
De annonserer den tredje - igjen først og igjen med en ledelse.
General er den første.

Fra fysikere til datavitenskap (Fra vitenskapens motorer til kontorplankton). Den tredje delen

Offisiell pressemelding.

Noen i salen smiler og ser på meg med respekt. Andre, de som tilsynelatende ble ansett som eksperter på området, hadde vunnet stipend for denne oppgaven og hadde gjort dette i mange år, hadde et litt forvrengt ansiktsuttrykk.

Neste er den andre oppgaven, den med tre deloppgaver og som er flyttet frem med fire dager.

Her ba jeg også om unnskyldning og viste frem vårt ene lysbilde igjen.
Den samme historien. To først, ett sekund, felles først.

Jeg tror dette sannsynligvis er første gang i historien at et inkassobyrå vinner en medisinsk bildekonkurranse.

Og nå står jeg på scenen, de gir meg et slags diplom og jeg blir bombardert. Hvordan i helvete kan det være? Disse akademikerne bruker skattebetalernes penger, jobber med å forenkle og forbedre kvaliteten på arbeidet for leger, det vil si i teorien min forventede levetid, og noen kropp rev hele denne akademiske staben inn i det britiske flagget på noen få kvelder.

En bonus til dette er at i andre team vil avgangsstudenter som har jobbet med disse oppgavene i mange måneder ha en CV som er attraktiv for HR, det vil si at de lett kommer til tech-skjermen. Og foran øynene mine er det en nylig mottatt e-post:

A Googler recently referred you for the Research Scientist, Google Brain (United States) role. We carefully reviewed your background and experience and decided not to proceed with your application at this time.

Generelt, rett fra scenen, spør jeg publikum: "Vet noen hvor jeg jobber?" En av arrangørene av konkurransen visste – han googlet hva TrueAccord var. Resten er ikke det. Jeg fortsetter: «Jeg jobber for et inkassobyrå, og på jobb driver jeg verken Computer Vision eller Deep Learning. Og på mange måter skjer dette fordi HR-avdelingene til Google Brain og Deepmind filtrerer CV-en min, og gir meg ikke en sjanse til å vise teknisk opplæring. "

De overleverte sertifikatet, en pause. En gruppe akademikere trekker meg til side. Det viste seg at dette er en Helsegruppe med Deepmind. De ble så imponert at de umiddelbart ønsket å snakke med meg om den ledige stillingen for forskningsingeniør i teamet deres. (Vi snakket sammen. Denne samtalen varte i 6 måneder, jeg bestod ta hjem, quiz, men ble avkortet på teknologiskjermen. 6 måneder fra kommunikasjonsstart til teknologiskjerm er lang tid. Den lange ventetiden gir en smakebit av ubrukelig. Forskningsingeniør ved Deepmind i London, på bakgrunn av TrueAccord var det et sterkt steg opp, men på bakgrunn av min nåværende stilling er det et steg ned. Fra en avstand på to år som har gått siden den gang, er det bra at det ikke gjorde det.)

Konklusjon

Omtrent samtidig fikk jeg et tilbud fra Lyft, som jeg takket ja til.
Basert på resultatene fra disse to konkurransene med MICCAI, ble følgende publisert:

  1. Automatisk instrumentsegmentering i robotassistert kirurgi ved bruk av dyp læring
  2. Angiodysplasi-deteksjon og lokalisering ved bruk av dype konvolusjonelle nevrale nettverk
  3. 2017 Robotinstrumentsegmenteringsutfordring

Det vil si, til tross for villskapen i ideen, fungerer det bra å legge til inkrementelle artikler og forhåndstrykk gjennom konkurranser. Og i årene etter gjorde vi det enda verre.

Fra fysikere til datavitenskap (Fra vitenskapens motorer til kontorplankton). Den tredje delen

Jeg har jobbet hos Lyft de siste par årene med Computer Vision/Deep Learning for selvkjørende biler. Det vil si at jeg fikk det jeg ville. Og oppgaver, og en bedrift med høy status, og sterke kollegaer, og alt det andre godsakene.

I løpet av disse månedene hadde jeg kommunikasjon med både store selskaper Google, Facebook, Uber, LinkedIn og med et hav av startups i ulike størrelser.

Det gjorde vondt i alle disse månedene. Universet forteller deg noe som ikke er særlig hyggelig hver dag. Regelmessig avvisning, regelmessig å gjøre feil og alt dette er smaksatt med en vedvarende følelse av håpløshet. Det er ingen garantier for at du vil lykkes, men det er en følelse av at du er en tosk. Det minner veldig om hvordan jeg prøvde å finne en jobb rett etter universitetet.

Jeg tror at mange søkte arbeid i dalen og alt var mye lettere for dem. Trikset, etter min mening, er dette. Hvis du ser etter en jobb i et felt som du forstår, har mye erfaring, og CV-en din sier det samme, er det ingen problemer. Jeg tok den og fant den. Det er mange ledige stillinger.

Men hvis du ser etter en jobb innen et felt som er nytt for deg, det vil si når det ikke er kunnskap, ingen forbindelser og CV-en din sier noe galt - i dette øyeblikket blir alt ekstremt interessant.

Akkurat nå skriver rekrutterere regelmessig til meg og tilbyr å gjøre det samme som jeg gjør nå, men i et annet selskap. Det er virkelig på tide å bytte jobb. Men det er ingen vits i å gjøre det jeg allerede er god på. For hva?

Men for det jeg vil, har jeg igjen verken kunnskapen eller linjene i CV-en min. La oss se hvordan dette ender. Hvis alt går bra, skriver jeg neste del. 🙂

Kilde: www.habr.com

Legg til en kommentar