Fra fysikere til datavidenskab (Fra videnskabens motorer til kontorplankton). Den tredje del

Fra fysikere til datavidenskab (Fra videnskabens motorer til kontorplankton). Den tredje del

Dette billede er af Arthur Kuzin (n01z3), ret præcist opsummerer indholdet af blogindlægget. Som følge heraf skal den følgende fortælling mere opfattes som en fredagshistorie end som noget yderst brugbart og teknisk. Derudover er det værd at bemærke, at teksten er rig på engelske ord. Jeg ved ikke, hvordan jeg oversætter nogle af dem korrekt, og jeg vil bare ikke oversætte nogle af dem.

Første del.
Anden del.

Hvordan overgangen fra et akademisk miljø til et industrielt miljø foregik, afsløres i de to første afsnit. I denne vil samtalen handle om, hvad der derefter skete.

Det var januar 2017. På det tidspunkt havde jeg lidt mere end et års erhvervserfaring, og jeg arbejdede i San Francisco i virksomheden TrueAccord ligesom Sr. Data Scientist.

TrueAccord er en opstart af inkassovirksomhed. Enkelt sagt - et inkassobureau. Samlere ringer normalt meget. Vi sendte mange e-mails, men lavede få opkald. Hver e-mail førte til virksomhedens hjemmeside, hvor debitor blev tilbudt rabat på gælden og endda fik lov til at betale i rater. Denne tilgang førte til bedre indsamling, gav mulighed for skalering og mindre eksponering for retssager.

Selskabet var normalt. Produktet er klart. Ledelsen er fornuftig. Placeringen er god.

I gennemsnit arbejder folk i dalen ét sted i cirka halvandet år. Det vil sige, at enhver virksomhed, du arbejder for, kun er et lille skridt. På dette trin vil du rejse nogle penge, tilegne dig ny viden, færdigheder, forbindelser og linjer i dit CV. Herefter er der overgang til næste fase.

Hos TrueAccord selv var jeg med til at vedhæfte anbefalingssystemer til e-mail nyhedsbreve, samt til at prioritere telefonopkald. Effekten er forståelig og blev målt ganske godt i dollars gennem A/B-test. Da der ikke var nogen maskinlæring før min ankomst, var virkningen af ​​mit arbejde ikke dårlig. Igen er det meget nemmere at forbedre noget end noget, der allerede er stærkt optimeret.

Efter seks måneders arbejde med disse systemer hævede de endda min grundløn fra $150k til $163k. I samfundet Open Data Science (ODS) der er et meme omkring $163k. Den vokser med benene herfra.

Alt dette var vidunderligt, men det førte ingen steder hen, eller det førte, men ikke derhen.

Jeg har stor respekt for TrueAccord, både virksomheden og de fyre, jeg arbejdede med der. Jeg lærte meget af dem, men jeg havde ikke lyst til at arbejde længe med anbefalingssystemer på et inkassobureau. Fra dette trin skulle du træde i en eller anden retning. Hvis ikke fremad og opad, så i hvert fald sidelæns.

Hvad kunne jeg ikke lide?

  1. Fra et maskinlæringsperspektiv ophidsede problemerne mig ikke. Jeg ville have noget moderigtigt, ungdommeligt, det vil sige Deep Learning, Computer Vision, noget temmelig tæt på videnskab eller i det mindste alkymi.
  2. En startup, og endda et inkassobureau, har problemer med at ansætte højt kvalificeret personale. Som startup kan det ikke betale sig meget. Men som inkassobureau mister det i status. Groft sagt, hvis en pige på date spørger, hvor du arbejder? Dit svar: "På Google" lyder størrelsesordener bedre end "inkassobureau." Jeg var lidt generet af det faktum, at for mine venner, der arbejder hos Google og Facebook, i modsætning til mig, åbnede navnet på deres virksomhed døre som: du kan blive inviteret til en konference eller et møde som foredragsholder, eller flere interessante mennesker skriver på LinkedIn med et tilbud om at mødes og sludre over et glas te. Jeg elsker virkelig at kommunikere med mennesker, jeg ikke kender personligt. Så hvis du bor i San Francisco, så tøv ikke med at skrive - lad os tage en kop kaffe og snakke.
  3. Udover mig arbejdede tre Data Scientists i virksomheden. Jeg arbejdede på maskinlæring, og de arbejdede på andre Data Science-opgaver, som er almindelige i enhver start herfra til i morgen. Som et resultat forstod de ikke rigtig maskinlæring. Men for at vokse, er jeg nødt til at kommunikere med nogen, diskutere artikler og den seneste udvikling og spørge om råd til sidst.

Hvad var tilgængeligt?

  1. Uddannelse: fysik, ikke datalogi.
  2. Det eneste programmeringssprog, jeg kendte, var Python. Der var en følelse af, at jeg skulle skifte til C++, men jeg kunne stadig ikke komme udenom.
  3. Halvandet års arbejde i branchen. Desuden studerede jeg hverken Deep Learning eller Computer Vision på arbejdet.
  4. Ikke en eneste artikel om Deep Learning / Computer Vision i CV'et.
  5. Der var en Kaggle Master præstation.

Hvad vil du have?

  1. En stilling, hvor det vil være nødvendigt at træne mange netværk, og tættere på computersyn.
  2. Det er bedre, hvis det er en stor virksomhed som Google, Tesla, Facebook, Uber, LinkedIn osv. Selvom i en klemme, ville en startup gøre det.
  3. Jeg behøver ikke at være den største maskinlæringsekspert på holdet. Der var et stort behov for seniorkammerater, mentorer og alle former for kommunikation, som skulle fremskynde læringsprocessen.
  4. Efter at have læst blogindlæg om, hvordan kandidater uden erhvervserfaring har en samlet kompensation på $300-500k om året, ville jeg gå ind i samme område. Det er ikke, at det generer mig så meget, men da de siger, at det er et almindeligt fænomen, men jeg har mindre, så er det et signal.

Opgaven virkede fuldstændig løselig, dog ikke i den forstand, at man kan springe ind i ethvert selskab, men derimod, at hvis man sulter, så går det hele. Det vil sige, at titusindvis eller hundredvis af forsøg, og smerten fra hver fejl og hver afvisning, skal bruges til at skærpe fokus, forbedre hukommelsen og strække dagen til 36 timer.

Jeg tilpassede mit CV, begyndte at sende det ud og gik til samtaler. Jeg fløj forbi de fleste af dem i kommunikationsfasen med HR. Mange mennesker krævede C++, men jeg vidste det ikke, og jeg havde en stærk fornemmelse af, at jeg ikke ville være særlig interesseret i stillinger, der krævede C++.

Det er værd at bemærke, at der omkring samme tid var en faseovergang i typen af ​​konkurrencer på Kaggle. Før 2017 var der en masse tabeldata og meget sjældent billeddata, men fra og med 2017 var der mange computervisionsopgaver.

Livet flød i følgende tilstand:

  1. Arbejde i dagtimerne.
  2. Når tech screen / onsite holder du fri.
  3. Aftener og weekender Kaggle + artikler / bøger / blogindlæg

Slutningen af ​​2016 var præget af, at jeg meldte mig ind i fællesskabet Open Data Science (ODS), hvilket forenklede en masse ting. Der er mange fyre i samfundet med rig industriel erfaring, hvilket gjorde det muligt for os at stille en masse dumme spørgsmål og få en masse smarte svar. Der er også en masse meget stærke maskinlæringsspecialister af alle slags, som uventet tillod mig, gennem ODS, at lukke problemet med regelmæssig dybdegående kommunikation om Data Science. Indtil nu, hvad angår ML, giver ODS mig mange gange mere, end hvad jeg får på arbejdet.

Nå, som sædvanlig har ODS nok specialister i konkurrencer på Kaggle og andre sider. At løse problemer i et team er sjovere og mere produktivt, så med jokes, bandeord, memes og anden nørdet underholdning begyndte vi at løse problemer én efter én.

I marts 2017 - i et hold med Serega Mushinsky - tredjepladsen for Detektion af Dstl-satellitbilleder. Guldmedalje på Kaggle + $20k for to. På denne opgave blev arbejdet med satellitbilleder + binær segmentering via UNet forbedret. Blogindlæg om Habré om dette emne.

Samme marts gik jeg til et interview hos NVidia med Self Driving-teamet. Jeg kæmpede virkelig med spørgsmål om objektdetektion. Der var ikke viden nok.

Heldigvis begyndte samtidig Objekt Detection-konkurrencen om luftbilleder fra den samme DSTL. Gud selv beordrede at løse problemet og opgradere. En måned med aftener og weekender. Jeg samlede viden op og blev nummer to. Denne konkurrence havde en interessant nuance i reglerne, hvilket førte til, at jeg blev vist i Rusland på føderale og ikke så føderale kanaler. Jeg kom videre hjem Lenta.ru, og i en masse trykte og online publikationer. Mail Ru Group modtog lidt positiv PR på min bekostning og dets egne penge, og grundlæggende videnskab i Rusland blev beriget med 12000 pund. Som sædvanlig blev det skrevet om dette emne blogindlæg på hubr. Gå der for detaljer.

Samtidig kontaktede en Tesla-rekrutterer mig og tilbød at tale om Computer Vision-stillingen. Jeg er enig. Jeg styrtede gennem take home, to tech-skærme, et interview på stedet og havde en meget behagelig samtale med Andrei Karpathy, som netop var blevet ansat hos Tesla som direktør for AI. Næste trin er baggrundstjek. Herefter skulle Elon Musk personligt godkende min ansøgning. Tesla har en streng Non Disclosure Agreement (NDA).
Jeg bestod ikke baggrundskontrollen. Rekruttereren sagde, at jeg chatter meget online, hvilket overtræder NDA. Det eneste sted, hvor jeg sagde noget om et interview hos Tesla, var ODS, så den nuværende hypotese er, at nogen tog et skærmbillede og skrev til HR hos Tesla, og jeg blev fjernet fra løbet af fare. Det var da en skam. Nu er jeg glad for, at det ikke lykkedes. Min nuværende stilling er meget bedre, selvom det ville være meget interessant at arbejde sammen med Andrey.

Umiddelbart efter det kastede jeg mig ud i satellitbilledkonkurrencen på Kaggle fra Planet Labs - Forstå Amazonas fra rummet. Problemet var enkelt og ekstremt kedeligt; ingen ville løse det, men alle ville have en gratis guldmedalje eller præmiepenge. Derfor blev vi med et hold Kaggle Masters på 7 personer enige om, at vi ville kaste jern. Vi trænede 480 netværk i 'fit_predict'-tilstanden og lavede et tre-etagers ensemble ud af dem. Vi blev nummer syv. Blogindlæg, der beskriver løsningen fra Arthur Kuzin. I øvrigt Jeremy Howard, der er almindeligt kendt som skaberen Hurtig.AI sluttede 23.

Efter afslutningen af ​​konkurrencen, gennem en ven, der arbejdede hos AdRoll, arrangerede jeg et Meetup i deres lokaler. Repræsentanter for Planet Labs fortalte der om, hvordan tilrettelæggelsen af ​​konkurrencen og datamærkningen så ud fra deres side. Wendy Kwan, der arbejder hos Kaggle og overvågede konkurrencen, fortalte om, hvordan hun så det. Jeg beskrev vores løsning, tricks, teknikker og tekniske detaljer. To tredjedele af publikum løste dette problem, så spørgsmålene blev stillet til punkt og prikke, og generelt var alt fedt. Jeremy Howard var der også. Det viste sig, at han endte på en 23. plads, fordi han ikke vidste, hvordan han skulle stable modellen, og at han slet ikke kendte til denne metode til at konstruere ensembler.

Meetups i dalen om maskinlæring er meget forskellige fra meetups i Moskva. Som regel er møder i dalen bunden. Men vores blev godt. Desværre trykkede kammeraten, der skulle trykke på knappen og optage alt, ikke på knappen :)

Derefter blev jeg inviteret til at tale med stillingen som Deep Learning Engineer på samme Planet Labs og straks på stedet. Jeg bestod det ikke. Ordlyden i afslaget er, at der ikke er viden nok i Deep Learning.

Jeg designede hver konkurrence som et projekt i LinkedIn. Til DSTL-problemet skrev vi fortryk og postede det på arxiv. Ikke en artikel, men stadig brød. Jeg anbefaler også alle andre at puste deres LinkedIn-profil op gennem konkurrencer, artikler, færdigheder og så videre. Der er en positiv sammenhæng mellem, hvor mange søgeord du har på din LinkedIn-profil, og hvor ofte folk sender besked til dig.

Hvis jeg om vinteren og foråret var meget teknisk, så havde jeg i august både viden og selvtillid.

I slutningen af ​​juli kontaktede en fyr, der arbejdede som Data Science-chef hos Lyft, mig på LinkedIn og inviterede mig til en kop kaffe og en snak om livet, om Lyft, om TrueAccord. Vi talte. Han tilbød at interviewe sit team til stillingen som Data Scientist. Jeg sagde, at muligheden virker, forudsat at det er Computer Vision / Deep Learning fra morgen til aften. Han forsikrede, at der ikke var nogen indvendinger fra hans side.

Jeg sendte mit CV, og han uploadede det til Lyfts interne portal. Derefter ringede rekruttereren til mig for at åbne mit CV og finde ud af mere om mig. Allerede fra de første ord var det klart, at for ham var dette en formalitet, da det var tydeligt for ham fra hans CV, at "Jeg er ikke et materiale for Lyft." Efter at mit CV gik i skraldespanden.

Hele denne tid, mens jeg blev interviewet, diskuterede jeg mine fejl og fald i ODS, og fyrene gav mig feedback og hjalp mig på alle mulige måder med råd, selvom der som sædvanlig også var en masse venlig trolling der.

Et af ODS-medlemmerne tilbød at forbinde mig med sin ven, som er direktør for Engineering hos Lyft. Ikke før sagt end gjort. Jeg kommer til Lyft til frokost, og udover denne ven er der også en Head of Data Science og en Product Manager, som er stor fan af Deep Learning. Til frokost snakkede vi over DL. Og da jeg har trænet netværk 24/7 i et halvt år, læst kubikmeter litteratur og kørt opgaver på Kaggle med mere eller mindre klare resultater, kunne jeg snakke om Deep Learning i timevis, både i form af nye artikler og praktiske teknikker.

Efter frokost kiggede de på mig og sagde - det er umiddelbart tydeligt, at du er smuk, vil du tale med os? Desuden tilføjede de, at det er klart for mig, at take home + tech screen kan springes over. Og at jeg straks vil blive inviteret til onsite. Jeg er enig.

Derefter ringede den rekrutterer til mig for at planlægge en samtale på stedet, og han var utilfreds. Han mumlede noget om ikke at hoppe over hovedet på dig.

Kom. interview på stedet. Fem timers kommunikation med forskellige mennesker. Der var ikke et eneste spørgsmål om Deep Learning, eller om maskinlæring i princippet. Da der ikke er nogen Deep Learning / Computer Vision, så er jeg ikke interesseret. Således var interviewresultaterne ortogonale.

Denne rekrutterer ringer og siger - tillykke, du nåede frem til det andet onsite-interview. Det er alt sammen overraskende. Hvad er den anden onsite? Jeg har aldrig hørt om sådan noget. Jeg gik. Der er et par timer der, denne gang handler det om traditionel maskinlæring. Det er bedre. Men stadig ikke interessant.

Rekruttereren ringer med tillykke med, at jeg bestod det tredje onsite-interview og lover, at dette bliver det sidste. Jeg gik for at se den, og der var både en DL og et CV.

Jeg havde en prior i mange måneder, som fortalte mig, at der ikke ville være noget tilbud. Jeg vil ikke træne på tekniske færdigheder, men på bløde. Ikke på den bløde side, men på at stillingen nedlægges, eller at virksomheden ikke ansætter endnu, men blot tester markedet og niveauet af kandidater.

Midt i august. Jeg drak øl okay. Mørke tanker. Der er gået 8 måneder og stadig intet tilbud. Det er godt at være kreativ under øl, især hvis kreativiteten er mærkelig. En idé kommer til mit sind. Jeg deler det med Alexey Shvets, som på det tidspunkt var postdoc ved MIT.

Hvad hvis du tager den nærmeste DL/CV-konference, ser de konkurrencer, der afholdes som en del af den, træner noget og afleverer? Da alle eksperterne der bygger deres karriere på dette og har gjort dette i mange måneder eller endda år, har vi ingen chance. Men det er ikke skræmmende. Vi laver noget meningsfuldt indlæg, flyver til sidstepladsen, og derefter skriver vi et pre-print eller en artikel om, hvordan vi ikke er som alle andre og taler om vores beslutning. Og artiklen er allerede på LinkedIn og i dit CV.

Det vil sige, at det ser ud til at være relevant, og der er flere korrekte søgeord i CV'et, hvilket burde øge chancerne for at komme til tech-skærmen lidt. Kode og indlæg fra mig, tekster fra Alexey. Spil, selvfølgelig, men hvorfor ikke?

Ikke før sagt end gjort. Den nærmeste konference, vi googlede, var MICCAI, og der var faktisk konkurrencer der. Vi ramte den første. Det var Gastrointestinal billedanalyse (GIANA). Opgaven har 3 delopgaver. Der var 8 dage tilbage før deadline. Jeg blev ædru om morgenen, men jeg opgav ikke tanken. Jeg tog mine pipelines fra Kaggle og skiftede dem fra satellitdata til medicinske. 'fit_predict'. Alexey udarbejdede en to-siders beskrivelse af løsninger til hvert problem, og vi sendte den. Parat. I teorien kan du puste ud. Men det viste sig, at der var en anden opgave til samme værksted (Segmentering af robotinstrumenter) med tre delopgaver og at hendes deadline blev rykket op med 4 dage, det vil sige at vi kan lave 'fit_predict' der og sende det. Det var, hvad vi gjorde.

I modsætning til Kaggle havde disse konkurrencer deres egne akademiske detaljer:

  1. Ingen Leaderboard. Indlæg sendes på e-mail.
  2. Du bliver fjernet, hvis en teamrepræsentant ikke kommer for at præsentere løsningen på konferencen på Workshoppen.
  3. Din plads på ranglisten bliver først kendt under konferencen. En slags akademisk drama.

MICCAI 2017-konferencen blev afholdt i Quebec City. For at være ærlig begyndte jeg i september at brænde ud, så ideen om at tage en uge fri fra arbejde og tage til Canada så interessant ud.

Kom til konferencen. Jeg kom til dette værksted, jeg kender ingen, jeg sidder i hjørnet. Alle kender hinanden, de kommunikerer, de smider kloge medicinske ord ud. Gennemgang af den første konkurrence. Deltagerne taler og fortæller om deres beslutninger. Det er fedt der, med et glimt. Min tur. Og jeg skammer mig på en eller anden måde endda. De løste problemet, arbejdede på det, avancerede videnskaben, og vi er rent "fit_predict" fra tidligere udviklinger, ikke for videnskaben, men for at booste vores CV.

Han kom ud og sagde, at jeg heller ikke er ekspert i medicin, undskyldte for at spilde deres tid og viste mig et dias med løsningen. Jeg gik ned i hallen.

De annoncerer den første delopgave – vi er først, og med en margin.
Den anden og tredje er annonceret.
De annoncerer den tredje - igen først og igen med en føring.
General er den første.

Fra fysikere til datavidenskab (Fra videnskabens motorer til kontorplankton). Den tredje del

Officiel pressemeddelelse.

Nogle blandt publikum smiler og ser på mig med respekt. Andre, som tilsyneladende blev betragtet som eksperter på området, havde vundet en bevilling til denne opgave og havde gjort dette i mange år, havde et lidt forvrænget ansigtsudtryk.

Dernæst er den anden opgave, den med tre delopgaver og som er rykket fire dage frem.

Her undskyldte jeg også og viste vores ene slide igen.
Den samme historie. To først, et sekund, fælles først.

Jeg tror, ​​det formentlig er første gang i historien, at et inkassobureau har vundet en medicinsk billedkonkurrence.

Og nu står jeg på scenen, de giver mig en form for diplom, og jeg bliver bombarderet. Hvordan fanden kan det være? Disse akademikere bruger skatteydernes penge, arbejder på at forenkle og forbedre kvaliteten af ​​arbejdet for læger, det vil sige i teorien, min forventede levetid, og en eller anden krop rev hele denne akademiske stab ind i det britiske flag på få aftener.

En bonus ved dette er, at i andre teams vil kandidatstuderende, der har arbejdet med disse opgaver i mange måneder, have et CV, der er attraktivt for HR, det vil sige, at de nemt kommer til tech-skærmen. Og foran mine øjne er der en frisk modtaget mail:

A Googler recently referred you for the Research Scientist, Google Brain (United States) role. We carefully reviewed your background and experience and decided not to proceed with your application at this time.

Generelt, lige fra scenen, spørger jeg publikum: "Er der nogen, der ved, hvor jeg arbejder?" En af arrangørerne af konkurrencen vidste – han Googlede, hvad TrueAccord var. Resten er ikke. Jeg fortsætter: ”Jeg arbejder for et inkassobureau, og på arbejdet laver jeg hverken Computer Vision eller Deep Learning. Og på mange måder sker dette, fordi HR-afdelingerne i Google Brain og Deepmind filtrerer mit CV, hvilket ikke giver mig en chance for at vise teknisk træning. "

De afleverede certifikatet, en pause. En gruppe akademikere trækker mig til side. Det viste sig, at dette er en Sundhedsgruppe med Deepmind. De var så imponerede, at de straks ville tale med mig om den ledige forskningsingeniør i deres team. (Vi snakkede. Denne samtale varede i 6 måneder, jeg bestod take home, quiz, men blev afkortet på tech-skærmen. 6 måneder fra start af kommunikation til tech-skærmen er lang tid. Den lange ventetid giver smag af ubrugelighed Forskningsingeniør ved Deepmind i London, på baggrund af TrueAccord var der et stærkt skridt op, men på baggrund af min nuværende stilling er det et skridt ned. Fra en afstand på to år, der er gået siden da, er det godt at det ikke gjorde det.)

Konklusion

Omtrent samtidig fik jeg et tilbud fra Lyft, som jeg takkede ja til.
Baseret på resultaterne af disse to konkurrencer med MICCAI blev følgende offentliggjort:

  1. Automatisk instrumentsegmentering i robotassisteret kirurgi ved hjælp af dyb læring
  2. Angiodysplasi-detektion og lokalisering ved hjælp af dybe foldede neurale netværk
  3. 2017 Robotisk instrumentsegmenteringsudfordring

Det vil sige, på trods af den vilde idé, at tilføje trinvise artikler og fortryk gennem konkurrencer fungerer godt. Og i de efterfølgende år gjorde vi det endnu værre.

Fra fysikere til datavidenskab (Fra videnskabens motorer til kontorplankton). Den tredje del

Jeg har arbejdet hos Lyft i de sidste par år med Computer Vision/Deep Learning til selvkørende biler. Det vil sige, jeg fik det, jeg ville have. Og opgaver, og en højstatus virksomhed, og stærke kollegaer, og alt det andet godt.

I løbet af disse måneder har jeg haft kommunikation med både store virksomheder Google, Facebook, Uber, LinkedIn og med et hav af startups i forskellige størrelser.

Det gjorde ondt i alle disse måneder. Universet fortæller dig noget, der ikke er særlig behageligt hver dag. Regelmæssig afvisning, regelmæssig begåelse af fejl og alt dette er smagt til med en vedvarende følelse af håbløshed. Der er ingen garantier for, at du vil lykkes, men der er en følelse af, at du er et fjols. Det minder meget om, hvordan jeg forsøgte at finde et job lige efter universitetet.

Jeg tror, ​​at mange søgte arbejde i dalen, og alt var meget lettere for dem. Tricket er efter min mening dette. Hvis du leder efter et job inden for et felt, som du forstår, har masser af erfaring, og dit CV siger det samme, er der ingen problemer. Jeg tog den og fandt den. Der er mange ledige stillinger.

Men hvis du leder efter et job inden for et felt, der er nyt for dig, det vil sige, når der ingen viden er, ingen forbindelser og dit CV siger noget forkert - i dette øjeblik bliver alt ekstremt interessant.

Lige nu skriver rekrutterere jævnligt til mig og tilbyder at gøre det samme, som jeg gør nu, men i en anden virksomhed. Det er virkelig tid til at skifte job. Men det nytter ikke noget at gøre det, jeg allerede er god til. For hvad?

Men for hvad jeg vil, har jeg igen hverken viden eller streg i mit CV. Lad os se, hvordan det hele ender. Hvis alt går godt, skriver jeg den næste del. 🙂

Kilde: www.habr.com

Tilføj en kommentar