Od fyziků k datové vědě (Od motorů vědy ke kancelářskému planktonu). Třetí díl

Od fyziků k datové vědě (Od motorů vědy ke kancelářskému planktonu). Třetí díl

Autorem tohoto obrázku je Arthur Kuzin (n01z3), celkem přesně shrnuje obsah blogového příspěvku. Ve výsledku by následující vyprávění mělo být vnímáno spíše jako páteční příběh, než jako něco extrémně užitečného a technického. Navíc stojí za zmínku, že text je bohatý na anglická slova. Nevím, jak některé z nich správně přeložit, a některé z nich prostě překládat nechci.

První díl.
Druhá část.

Jak probíhal přechod z akademického prostředí do průmyslového, odhalují první dvě epizody. V tomto bude rozhovor o tom, co se dělo dál.

Byl leden 2017. V té době jsem měl za sebou něco více než rok praxe a pracoval jsem v San Franciscu ve firmě TrueAccord jako Sr. Data Scientist.

TrueAccord je startup pro vymáhání pohledávek. Jednoduše řečeno – inkasní agentura. Sběratelé většinou hodně volají. Poslali jsme spoustu e-mailů, ale málo volali. Každý e-mail vedl na webové stránky společnosti, kde byla dlužníkovi nabídnuta sleva z dluhu a dokonce mu bylo umožněno platit ve splátkách. Tento přístup vedl k lepšímu sběru, umožnil škálování a menší vystavení soudním sporům.

Společnost byla normální. Výrobek je čirý. Vedení je při smyslech. Poloha je dobrá.

V průměru lidé v údolí pracují na jednom místě zhruba jeden a půl roku. To znamená, že každá společnost, pro kterou pracujete, je jen malý krůček. V tomto kroku získáte nějaké peníze, získáte nové znalosti, dovednosti, souvislosti a řádky ve vašem životopise. Poté následuje přechod k dalšímu kroku.

V samotném TrueAccord jsem se podílel na připojování systémů doporučení k e-mailovým newsletterům a také na upřednostňování telefonních hovorů. Dopad je pochopitelný a byl měřen docela dobře v dolarech prostřednictvím A/B testování. Vzhledem k tomu, že před mým příchodem neexistovalo strojové učení, dopad mé práce nebyl špatný. Opět je mnohem snazší něco vylepšit než něco, co je již silně optimalizováno.

Po šesti měsících práce na těchto systémech dokonce zvýšili můj základní plat ze 150 163 $ na XNUMX XNUMX $. V komunitě Open Data Science (ODS) tam je meme o $ 163k. Roste odsud nohama.

To všechno bylo úžasné, ale nikam to nevedlo, nebo to vedlo, ale ne tam.

Velmi respektuji TrueAccord, jak společnost, tak lidi, se kterými jsem tam pracoval. Hodně jsem se od nich naučil, ale nechtěl jsem dlouho pracovat na doporučovacích systémech v inkasní agentuře. Od tohoto kroku jste museli vykročit nějakým směrem. Když ne dopředu a nahoru, tak alespoň do stran.

Co se mi nelíbilo?

  1. Z pohledu strojového učení mě problémy nevzrušovaly. Chtěl jsem něco módního, mladistvého, tedy Deep Learning, Computer Vision, něco spíše blízkého vědě nebo alespoň alchymii.
  2. Startup a dokonce i inkasní agentura mají problémy s najímáním vysoce kvalifikovaných pracovníků. Jako startup se to moc vyplatit nemůže. Ale jako inkasní agentura ztrácí na postavení. Zhruba řečeno, když se dívka na rande zeptá, kde pracujete? Vaše odpověď: „Na Googlu“ zní řádově lépe než „inkasní agentura“. Mírně mi vadilo, že mým přátelům, kteří pracují v Googlu a Facebooku, na rozdíl ode mě otevřelo jméno jejich firmy dveře typu: můžete být pozváni na konferenci nebo meetup jako řečník, nebo na LinkedIn píší zajímavější lidé s nabídkou sejít se a popovídat si u sklenky čaje. Opravdu rád komunikuji s lidmi, které osobně neznám. Takže pokud žijete v San Franciscu, neváhejte napsat - pojďme na kávu a pokecáme.
  3. Kromě mě ve firmě pracovali tři Data Scientists. Pracoval jsem na strojovém učení a oni pracovali na dalších úkolech Data Science, které jsou běžné v každém startupu odsud do zítřka. Výsledkem bylo, že ve skutečnosti strojovému učení nerozuměli. Ale abych mohl růst, potřebuji s někým komunikovat, diskutovat o článcích a nejnovějším vývoji a nakonec požádat o radu.

Co bylo k dispozici?

  1. Vzdělání: fyzika, ne informatika.
  2. Jediný programovací jazyk, který jsem znal, byl Python. Měl jsem pocit, že potřebuji přejít na C++, ale stále jsem se k tomu nemohl dostat.
  3. Rok a půl práce v oboru. Navíc jsem v práci nestudoval ani Deep Learning, ani Computer Vision.
  4. V životopise není jediný článek o Deep Learning / Computer Vision.
  5. Tam byl úspěch Kaggle Master.

Co jsi chtěl?

  1. Pozice, kde bude nutné trénovat mnoho sítí, a blíže počítačovému vidění.
  2. Je lepší, když je to velká společnost jako Google, Tesla, Facebook, Uber, LinkedIn atd. I když v nouzi by startup stačil.
  3. Nepotřebuji být největším expertem na strojové učení v týmu. Byla zde velká potřeba starších soudruhů, rádců a všech druhů komunikace, která měla urychlit proces učení.
  4. Po přečtení blogových příspěvků o tom, jak mají absolventi bez průmyslové praxe celkovou kompenzaci 300–500 XNUMX $ ročně, jsem chtěl jít do stejného rozmezí. Ne, že by mi to tolik vadilo, ale protože se říká, že je to běžný jev, ale já mám méně, tak je to signál.

Úkol se zdál zcela řešitelný, i když ne v tom smyslu, že můžete skočit do jakékoli společnosti, ale spíše že když budete hladovět, všechno se vyřeší. To znamená, že desítky nebo stovky pokusů a bolest z každého selhání a každého odmítnutí by měly být použity k zaostření pozornosti, zlepšení paměti a prodloužení dne na 36 hodin.

Upravil jsem svůj životopis, začal ho rozesílat a chodit na pohovory. Většinu z nich jsem proletěl ve fázi komunikace s HR. Mnoho lidí vyžadovalo C++, ale já jsem to nevěděl a měl jsem silný pocit, že by mě pozice, které vyžadovaly C++, moc nezajímaly.

Stojí za zmínku, že přibližně ve stejné době došlo k fázovému přechodu v typu soutěží na Kaggle. Před rokem 2017 bylo k dispozici mnoho tabulkových dat a velmi zřídka obrazových dat, ale od roku 2017 bylo mnoho úkolů počítačového vidění.

Život plynul v následujícím režimu:

  1. Práce přes den.
  2. Při technické obrazovce / na místě si vezmete volno.
  3. Večery a víkendy Kaggle + články / knihy / příspěvky na blogu

Konec roku 2016 byl ve znamení toho, že jsem vstoupil do komunity Open Data Science (ODS), který spoustu věcí zjednodušil. V komunitě je spousta kluků s bohatými průmyslovými zkušenostmi, což nám umožnilo položit spoustu hloupých otázek a získat spoustu chytrých odpovědí. Je tu také spousta velmi silných specialistů na strojové učení všech kategorií, což mi nečekaně umožnilo prostřednictvím ODS uzavřít problém pravidelnou hloubkovou komunikací o Data Science. Doposud mi v rámci ML dává ODS mnohonásobně víc, než dostanu v práci.

No, jak už to tak bývá, specialistů na soutěže na Kaggle a dalších stránkách má ODS dostatek. Řešení problémů v týmu je zábavnější a produktivnější, takže s vtipy, nadávkami, memy a další praštěnou zábavou jsme začali řešit problémy jeden po druhém.

V březnu 2017 - v týmu se Serega Mushinsky - třetí místo pro Detekce funkcí satelitního snímkování Dstl. Zlatá medaile na Kaggle + 20 XNUMX $ pro dva. Na tomto úkolu byla vylepšena práce se satelitními snímky + binární segmentace přes UNet. Blogový příspěvek na Habré na toto téma.

Téhož března jsem šel na pohovor do NVidia s týmem Self Driving. Opravdu jsem bojoval s otázkami o detekci objektů. Nebylo dost znalostí.

Naštěstí ve stejnou dobu začala soutěž Object Detection na leteckých snímcích ze stejného DSTL. Bůh sám nařídil problém vyřešit a upgradovat. Měsíc večerů a víkendů. Sebral jsem znalosti a skončil druhý. Tato soutěž měla zajímavou nuanci v pravidlech, což vedlo k tomu, že jsem byl v Rusku vysílán na federálních a ne tak federálních kanálech. Nastoupil jsem domov Lenta.rua ve spoustě tištěných a online publikací. Skupina Mail Ru získala na mé náklady a vlastní peníze trochu pozitivního PR a základní věda v Rusku byla obohacena o 12000 XNUMX liber. Jako obvykle se psalo na toto téma blogový příspěvek na hubr. Podrobnosti najdete tam.

Zároveň mě kontaktoval náborář Tesly a nabídl mi, že si promluvíme o pozici Computer Vision. Souhlasím. Proběhl jsem si domů, dvě technické obrazovky, rozhovor na místě a velmi příjemný rozhovor s Andrei Karpathym, který byl právě přijat do Tesly jako ředitel AI. Další fází je kontrola pozadí. Poté musel Elon Musk osobně schválit moji žádost. Tesla má přísnou dohodu o mlčenlivosti (NDA).
Neprošel jsem prověrkou. Náborář řekl, že hodně chatuji online, čímž porušuji NDA. Jediným místem, kde jsem něco řekl o rozhovoru v Tesle, byla ODS, takže současná hypotéza je, že někdo udělal snímek obrazovky a napsal HR v Tesle a já jsem byl ze závodu vyloučen. Tehdy to byla ostuda. Teď jsem rád, že to nevyšlo. Moje současná pozice je mnohem lepší, i když by bylo velmi zajímavé spolupracovat s Andrey.

Ihned poté jsem se vrhl do soutěže o satelitní snímky na Kaggle od Planet Labs - Pochopení Amazonie z vesmíru. Problém byl jednoduchý a extrémně nudný, nikdo ho nechtěl řešit, ale každý chtěl zlatou medaili nebo finanční odměnu zdarma. Proto jsme se s týmem Kaggle Masters o 7 lidech dohodli, že budeme házet železo. Natrénovali jsme 480 sítí v režimu 'fit_predict' a vytvořili z nich třípatrový soubor. Skončili jsme sedmí. Blogový příspěvek popisující řešení od Arthura Kuzina. Mimochodem, Jeremy Howard, který je všeobecně známý jako tvůrce Rychle.AI skončilo 23.

Po skončení soutěže jsem přes kamaráda, který pracoval v AdRoll, uspořádal v jejich prostorách Meetup. Zástupci Planet Labs tam hovořili o tom, jak z jejich strany vypadala organizace soutěže a značení dat. Wendy Kwan, která pracuje v Kaggle a dohlížela na soutěž, promluvila o tom, jak to viděla. Popsal jsem naše řešení, triky, techniky a technické detaily. Dvě třetiny publika tento problém vyřešily, takže otázky byly položeny k věci a celkově bylo vše v pohodě. Byl tam i Jeremy Howard. Ukázalo se, že skončil na 23. místě, protože neuměl skládat model a že o tomto způsobu stavby souborů vůbec nevěděl.

Setkání v údolí na strojovém učení se velmi liší od setkání v Moskvě. Srazy v údolí jsou zpravidla dno. Ale ten náš dopadl dobře. Bohužel soudruh, který měl stisknout tlačítko a vše nahrát, tlačítko nestiskl :)

Poté jsem byl pozván, abych si promluvil na pozici Deep Learning Engineer ve stejné laboratoři Planet Labs a okamžitě jsem byl na místě. Neprošel jsem to. Znění odmítnutí je, že v Deep Learning není dostatek znalostí.

Každou soutěž jsem koncipoval jako projekt v LinkedIn. Pro problém DSTL jsme psali předtisk a zveřejnil to na arxiv. Ne článek, ale pořád chleba. Všem ostatním také doporučuji nafouknout svůj LinkedIn profil prostřednictvím soutěží, článků, dovedností a tak dále. Existuje pozitivní korelace mezi tím, kolik klíčových slov máte ve svém profilu na LinkedIn a jak často vám lidé posílají zprávy.

Jestliže jsem byl v zimě a na jaře velmi technický, pak v srpnu jsem měl znalosti i sebevědomí.

Na konci července mě na LinkedIn kontaktoval člověk, který pracoval jako Data Science manager v Lyftu a pozval mě na kávu a popovídat si o životě, o Lyftu, o TrueAccordu. Jsme si povídali. Nabídl pohovor se svým týmem na pozici Data Scientist. Řekl jsem, že možnost funguje za předpokladu, že jde o počítačové vidění / hluboké učení od rána do večera. Ujistil, že z jeho strany nejsou žádné námitky.

Poslal jsem svůj životopis a on ho nahrál na interní portál Lyftu. Poté mi personalista zavolal, abych otevřel svůj životopis a zjistil o mně více. Už od prvních slov bylo jasné, že to pro něj byla formalita, protože z jeho životopisu mu bylo zřejmé, že „nejsem materiál pro Lyft“. Myslím, že poté můj životopis šel do koše.

Celou tu dobu, co jsem byl na pohovorech, jsem probíral své neúspěchy a pády v ODS a kluci mi dávali zpětnou vazbu a všemožně mi pomáhali radami, i když jako obvykle tam bylo i hodně přátelského trollování.

Jeden z členů ODS mi nabídl spojení se svým přítelem, který je ředitelem inženýrství ve společnosti Lyft. Sotva řečeno, než uděláno. Přicházím do Lyftu na oběd a kromě tohoto přítele je zde také vedoucí oddělení datové vědy a produktový manažer, který je velkým fanouškem Deep Learning. U oběda jsme si povídali přes DL. A jelikož jsem půl roku 24 hodin denně 7 dní v týdnu trénoval sítě, četl kubíky literatury a spouštěl úkoly na Kaggle s víceméně jasnými výsledky, mohl bych o Deep Learningu mluvit hodiny, jak z hlediska nových článků, tak i praktické techniky.

Po obědě se na mě podívali a řekli - hned je vidět, že jsi hezký, chceš s námi mluvit? Navíc dodali, že je mi jasné, že obrazovka take home + tech se dá přeskočit. A že budu okamžitě pozván na místo. Souhlasím.

Poté mi náborář zavolal, abych naplánoval pohovor na místě, a byl nespokojený. Zamumlal něco o tom, že vám nesmí skákat přes hlavu.

Přišel. Pohovor na místě. Pět hodin komunikace s různými lidmi. Nebyla tam jediná otázka ohledně Deep Learning nebo v zásadě o strojovém učení. Vzhledem k tomu, že neexistuje žádné hluboké učení / počítačové vidění, nemám zájem. Výsledky rozhovorů byly tedy ortogonální.

Tento náborář volá a říká - gratuluji, dostali jste se na druhý pohovor na místě. To vše je překvapivé. Co je to druhé na místě? Nikdy jsem o něčem takovém neslyšel. Šel jsem. Je tam několik hodin, tentokrát o tradičním strojovém učení. To je lepší. Ale stále to není zajímavé.

Personalista volá s gratulací, že jsem absolvoval třetí pohovor na místě, a slibuje, že to bude poslední. Byl jsem se tam podívat a bylo tam DL i CV.

Měl jsem mnoho měsíců převora, který mi říkal, že žádná nabídka nebude. Trénovat nebudu na technické dovednosti, ale na měkké. Ne na měkké straně, ale na tom, že pozice bude uzavřena nebo že společnost zatím nepřijímá, ale prostě testuje trh a úroveň kandidátů.

Polovina srpna. Pivo jsem pil v pořádku. Černé myšlenky. Uplynulo 8 měsíců a stále žádná nabídka. Pod pivem je dobré být kreativní, zvlášť když je kreativita zvláštní. Napadá mě nápad. Sdílím to s Alexey Shvetsem, který byl v té době postdoktorem na MIT.

Co když si vezmete nejbližší konferenci DL/CV, kouknete na soutěže, které se v rámci ní konají, něco natrénujete a odevzdáte? Vzhledem k tomu, že všichni tamní odborníci na tom staví svou kariéru a věnují se tomu řadu měsíců nebo dokonce let, nemáme šanci. Ale není to děsivé. Uděláme nějaké smysluplné podání, letíme na poslední místo a poté napíšeme předtisk nebo článek o tom, jak nejsme jako ostatní a promluvíme si o svém rozhodnutí. A článek už je na LinkedIn a ve vašem životopise.

To znamená, že se zdá být relevantní a v životopisu je více správných klíčových slov, což by mělo mírně zvýšit šance na to, že se dostanete na technickou obrazovku. Kód a příspěvky ode mě, texty od Alexeyho. Hra, samozřejmě, ale proč ne?

Sotva řečeno, než uděláno. Nejbližší konference, kterou jsme si vygooglili, byla MICCAI a tam skutečně byly soutěže. Trefili jsme první. to bylo ANALÝZA gastrointestinálního obrazu (GIANA). Úkol má 3 dílčí úkoly. Do uzávěrky zbývalo 8 dní. Ráno jsem vystřízlivěl, ale nevzdal jsem se té myšlenky. Vzal jsem své potrubí od Kaggle a převedl je ze satelitních dat na lékařská. 'fit_predict'. Alexey připravil dvoustránkový popis řešení pro každý problém a my jsme jej poslali. Připraveno. Teoreticky můžete vydechnout. Ukázalo se však, že pro stejný workshop byl ještě jeden úkol (Segmentace robotických nástrojů) se třemi dílčími úkoly a že její termín byl posunut o 4 dny nahoru, to znamená, že tam můžeme udělat 'fit_predict' a poslat to. To jsme udělali.

Na rozdíl od Kaggle měly tyto soutěže svá akademická specifika:

  1. Žádný žebříček. Příspěvky se zasílají e-mailem.
  2. Pokud zástupce týmu nepřijde prezentovat řešení na konferenci na Workshopu, budete vyloučeni.
  3. Vaše místo na žebříčku se dozvíme až během konference. Něco jako akademické drama.

Konference MICCAI 2017 se konala v Quebec City. Abych byl upřímný, v září jsem začínal vyhořet, takže nápad vzít si týden v práci volno a vydat se do Kanady vypadal zajímavě.

Přišel na konferenci. Přišel jsem na tento workshop, nikoho neznám, sedím v rohu. Všichni se znají, komunikují, chrlí chytrá lékařská slovíčka. Recenze první soutěže. Účastníci mluví a mluví o svých rozhodnutích. Je to tam cool, s jiskrou. Můj tah. A dokonce se nějak stydím. Vyřešili problém, pracovali na něm, pokročilá věda a my jsme čistě „fit_predict“ z minulého vývoje, ne pro vědu, ale pro posílení našeho životopisu.

Vyšel ven a řekl, že ani já nejsem odborník na medicínu, omluvil se, že ztrácím čas, a ukázal mi jeden sklíčko s řešením. Šel jsem dolů do haly.

Vyhlašují první dílčí úkol – jsme první, a to s rezervou.
Vyhlášena je druhá a třetí.
Vyhlašují třetí – opět první a znovu s náskokem.
Generál je první.

Od fyziků k datové vědě (Od motorů vědy ke kancelářskému planktonu). Třetí díl

Oficiální tisková zpráva.

Někteří z publika se usmívají a dívají se na mě s respektem. Jiní, ti, kteří byli zjevně považováni za odborníky v oboru, získali na tento úkol grant a dělali to mnoho let, měli mírně zkreslený výraz ve tváři.

Následuje druhý úkol, ten se třemi dílčími úkoly, který byl posunut o čtyři dny dopředu.

Zde jsem se také omluvil a opět ukázal náš jeden snímek.
Stejný příběh. Dva první, jeden druhý, první společný.

Myslím, že je to pravděpodobně poprvé v historii, kdy inkasní agentura vyhrála soutěž v lékařském zobrazování.

A teď stojím na pódiu, dávají mi nějaký diplom a jsem bombardován. Jak to sakra může být? Tito akademici utrácejí peníze daňových poplatníků, snaží se zjednodušit a zkvalitnit práci lékařů, tedy teoreticky délku mého života, a nějaký orgán za pár večerů roztrhal celý tento akademický personál pod britskou vlajku.

Bonusem k tomu je, že v jiných týmech budou mít postgraduální studenti, kteří na těchto úkolech pracují řadu měsíců, životopis atraktivní pro HR, to znamená, že se snadno dostanou na technickou obrazovku. A před mýma očima je čerstvě přijatý e-mail:

A Googler recently referred you for the Research Scientist, Google Brain (United States) role. We carefully reviewed your background and experience and decided not to proceed with your application at this time.

Obecně se přímo z jeviště ptám publika: "Ví někdo, kde pracuji?" Jeden z organizátorů soutěže věděl – vygoogloval, co je TrueAccord. Zbytek ne. Pokračuji: „Pracuji pro inkasní agenturu a v práci nedělám ani Computer Vision, ani Deep Learning. A v mnoha ohledech se to děje proto, že HR oddělení Google Brain a Deepmind filtrují můj životopis a nedávají mi šanci ukázat technické školení. "

Předali vysvědčení, přestávka. Skupina akademiků mě táhne stranou. Ukázalo se, že jde o skupinu Health s Deepmind. Byli tak ohromeni, že se mnou okamžitě chtěli mluvit o volném místě výzkumného inženýra v jejich týmu. (Povídali jsme si. Tato konverzace trvala 6 měsíců, prošel jsem kvízem „take home“, ale byl jsem přerušen na technické obrazovce. 6 měsíců od zahájení komunikace na technickou obrazovku je dlouhá doba. Dlouhé čekání dává chuť zbytečnosti.Výzkumný inženýr v Deepmind v Londýně, na pozadí TrueAccord došlo k silnému kroku nahoru, ale na pozadí mé současné pozice je to krok dolů.Z odstupu dvou let, které od té doby uplynuly, je to dobré že ne.)

Závěr

Zhruba ve stejnou dobu jsem dostal nabídku od Lyftu, kterou jsem přijal.
Na základě výsledků těchto dvou soutěží s MICCAI byly zveřejněny následující:

  1. Automatická segmentace nástrojů v roboticky asistované chirurgii pomocí hlubokého učení
  2. Detekce a lokalizace angiodysplazie pomocí hlubokých konvolučních neuronových sítí
  3. 2017 Výzva segmentace robotických nástrojů

To znamená, že i přes divokost nápadu funguje přidávání přírůstkových článků a preprintů prostřednictvím soutěží dobře. A v dalších letech jsme to ještě zhoršili.

Od fyziků k datové vědě (Od motorů vědy ke kancelářskému planktonu). Třetí díl

Posledních pár let pracuji v Lyftu a dělám počítačové vidění/hloubkové učení pro samořídící auta. To znamená, že jsem dostal, co jsem chtěl. A úkoly a vysoce postavená společnost a silní kolegové a všechny ostatní dobroty.

Během těchto měsíců jsem komunikoval jak s velkými společnostmi Google, Facebook, Uber, LinkedIn, tak s mořem startupů různých velikostí.

Bolelo to celé ty měsíce. Vesmír vám každý den říká něco nepříliš příjemného. Pravidelné odmítání, pravidelné chybování a to vše je ochuceno přetrvávajícím pocitem beznaděje. Neexistují žádné záruky, že uspějete, ale existuje pocit, že jste hlupáci. Velmi mi to připomíná, jak jsem se hned po univerzitě snažil najít práci.

Myslím, že mnozí hledali práci v údolí a vše pro ně bylo mnohem jednodušší. Trik je podle mě v tomhle. Pokud hledáte práci v oboru, kterému rozumíte, máte dostatek zkušeností a totéž říká váš životopis, nejsou žádné problémy. Vzal jsem to a našel. Volných míst je hodně.

Pokud ale hledáte práci v oboru, který je pro vás nový, tedy když chybí znalosti, souvislosti a váš životopis říká něco špatně – v tuto chvíli začíná být vše nesmírně zajímavé.

Právě teď mi náboráři pravidelně píší a nabízejí mi to samé, co dělám teď, ale v jiné společnosti. Je opravdu čas změnit práci. Ale nemá smysl dělat to, v čem už jsem dobrý. Proč?

Ale na to, co chci, zase nemám ani znalosti, ani řádky v životopise. Pojďme se podívat, jak to všechno skončí. Pokud vše půjde dobře, napíšu další díl. 🙂

Zdroj: www.habr.com

Přidat komentář