От физици до Data Science (От двигатели на науката до офис планктон). Третата част

От физици до Data Science (От двигатели на науката до офис планктон). Третата част

Тази снимка е от Артър Кузин (n01z3), доста точно обобщава съдържанието на публикацията в блога. В резултат на това следващият разказ трябва да се възприема повече като петъчна история, отколкото като нещо изключително полезно и техническо. Освен това си струва да се отбележи, че текстът е богат на английски думи. Не знам как да преведа някои от тях правилно и просто не искам да превеждам някои от тях.

Първа част.
Втора част.

Как е станал преходът от академична среда към индустриална среда разкриваме в първите два епизода. В този разговор ще бъде за това какво се случи след това.

Беше януари 2017 г. По това време имах малко повече от година трудов стаж и работех в Сан Франциско в компанията TrueAccord като Sr. Учен по данни.

TrueAccord е стартираща компания за събиране на дългове. На прост език - колекторска агенция. Колекционерите обикновено се обаждат много. Изпратихме много имейли, но направихме малко обаждания. Всеки имейл водеше до уебсайта на компанията, където на длъжника беше предложена отстъпка от дълга и дори му беше позволено да плати на вноски. Този подход доведе до по-добро събиране, позволи мащабиране и по-малко излагане на съдебни дела.

Компанията беше нормална. Продуктът е ясен. Управлението е разумно. Локацията е добра.

Средно хората в долината работят на едно място около година и половина. Тоест, всяка компания, в която работите, е само малка стъпка. На тази стъпка ще съберете пари, ще придобиете нови знания, умения, връзки и редове в автобиографията си. След това има преход към следващия етап.

В самия TrueAccord участвах в прикачването на системи за препоръки към имейл бюлетини, както и в приоритизирането на телефонните обаждания. Въздействието е разбираемо и беше измерено доста добре в долари чрез A/B тестване. Тъй като нямаше машинно обучение преди пристигането ми, въздействието на работата ми не беше лошо. Отново, много по-лесно е да подобриш нещо, отколкото нещо, което вече е силно оптимизирано.

След шест месеца работа по тези системи те дори повишиха основното ми заплащане от $150k на $163k. В общността Open Data Science (ODS) има мем за $163k. Оттук расте с краката си.

Всичко това беше прекрасно, но не водеше доникъде или водеше, но не дотам.

Имам голямо уважение към TrueAccord, както към компанията, така и към момчетата, с които работих там. Научих много от тях, но не исках да работя дълго време върху системи за препоръки в колекторска агенция. От тази стъпка трябваше да стъпите в някаква посока. Ако не напред и нагоре, то поне настрани.

Какво не ми хареса?

  1. От гледна точка на машинното обучение, проблемите не ме вълнуваха. Исках нещо модерно, младежко, тоест Deep Learning, Computer Vision, нещо доста близко до науката или поне до алхимията.
  2. Стартъп и дори колекторска агенция има проблеми с наемането на висококвалифициран персонал. Като стартираща компания не може да плати много. Но като колекторска агенция губи статут. Грубо казано, ако момиче на среща попита къде работите? Вашият отговор: „В Google“ звучи с порядък по-добре от „агенция за събиране“. Бях малко притеснен от факта, че за моите приятели, които работят в Google и Facebook, за разлика от мен, името на тяхната компания отваря врати като: можете да бъдете поканени на конференция или среща като лектор или по-интересни хора пишат в LinkedIn с предложение за среща и разговор на чаша чай. Много обичам да общувам с хора, които не познавам лично. Така че, ако живеете в Сан Франциско, не се колебайте да пишете - да отидем на кафе и да поговорим.
  3. Освен мен в компанията работеха трима Data Scientists. Работех върху машинно обучение, а те работеха върху други задачи в областта на Data Science, които са често срещани във всеки стартиращ бизнес оттук до утре. В резултат на това те наистина не разбират машинното обучение. Но за да се развивам, трябва да общувам с някого, да обсъждам статии и най-новите разработки и в крайна сметка да искам съвет.

Какво беше налично?

  1. Образование: физика, не информатика.
  2. Единственият език за програмиране, който знаех, беше Python. Имах чувството, че трябва да премина към C++, но все още не можех да го направя.
  3. Година и половина работа в бранша. Освен това по време на работа не съм изучавал нито Deep Learning, нито Computer Vision.
  4. Нито една статия за Deep Learning/Computer Vision в резюмето.
  5. Имаше постижение на Kaggle Master.

Какво искаше?

  1. Позиция, където ще е необходимо да се обучават много мрежи и по-близо до компютърното зрение.
  2. По-добре е да е голяма компания като Google, Tesla, Facebook, Uber, LinkedIn и т.н. Макар и в краен случай, едно стартиране би свършило работа.
  3. Не е нужно да съм най-големият експерт по машинно обучение в екипа. Имаше голяма нужда от старши другари, наставници и всякакъв вид комуникация, която трябваше да ускори процеса на обучение.
  4. След като прочетох публикации в блогове за това как завършилите без индустриален опит имат обща компенсация от $300-500 XNUMX на година, исках да вляза в същия диапазон. Не че това много ме притеснява, но тъй като казват, че това е често срещано явление, но аз имам по-малко, това е сигнал.

Задачата изглеждаше напълно разрешима, макар и не в смисъл, че можеш да скочиш във всяка компания, а по-скоро, че ако гладуваш, всичко ще се нареди. Тоест десетки или стотици опити и болката от всеки провал и всяко отхвърляне трябва да се използват за изостряне на фокуса, подобряване на паметта и удължаване на деня до 36 часа.

Ощипах автобиографията си, започнах да я изпращам и да ходя на интервюта. Прелетях покрай повечето от тях на етапа на комуникация с HR. Много хора изискваха C++, но аз не го знаех и имах силното чувство, че няма да се интересувам много от позиции, които изискват C++.

Заслужава да се отбележи, че приблизително по същото време имаше фазов преход във вида на състезанията на Kaggle. Преди 2017 г. имаше много таблични данни и много рядко графични данни, но от 2017 г. имаше много задачи за компютърно зрение.

Животът течеше в следния режим:

  1. Работа през деня.
  2. Когато техническият екран / на място си вземете почивка.
  3. Вечер и уикенди Kaggle + статии / книги / публикации в блогове

Краят на 2016 г. беше белязан от факта, че се присъединих към общността Open Data Science (ODS), което опрости много неща. Има много хора в общността с богат индустриален опит, което ни позволи да зададем много глупави въпроси и да получим много интелигентни отговори. Има и много силни специалисти по машинно обучение от всякакъв вид, което неочаквано ми позволи чрез ODS да затворя проблема с редовна задълбочена комуникация относно Data Science. Досега, по отношение на ML, ODS ми дава в пъти повече от това, което получавам на работа.

Е, както обикновено, ODS има достатъчно специалисти по състезания в Kaggle и други сайтове. Решаването на проблеми в екип е по-забавно и продуктивно, така че с шеги, псувни, мемове и други изперкали забавления започнахме да решаваме проблемите един по един.

През март 2017 г. - в отбор със Серега Мушински - трето място за Откриване на функции за сателитни изображения Dstl. Златен медал на Kaggle + $20k за двама. По тази задача беше подобрена работата със сателитни изображения + двоична сегментация през UNet. Публикация в блога на Habré по тази тема.

През същия март отидох на интервю в NVidia с екипа на Self Driving. Наистина се затрудних с въпроси относно откриването на обекти. Нямаше достатъчно знания.

За щастие по същото време започна състезанието за откриване на обекти на въздушни изображения от същия DSTL. Самият Бог нареди да се реши проблема и да се надстрои. Месец на вечери и почивни дни. Взех знанията и завърших втори. Това състезание имаше интересен нюанс в правилата, което доведе до показването ми в Русия по федерални и не толкова федерални канали. Качих се начало Lenta.ru, както и в куп печатни и онлайн публикации. Mail Ru Group получи малко положителен PR за моя сметка и собствени пари, а фундаменталната наука в Русия се обогати с 12000 XNUMX паунда. Както обикновено се писа по тази тема публикация в блога на hubr. Отидете там за подробности.

По същото време служител на Tesla се свърза с мен и ми предложи да говорим за позицията Computer Vision. Съгласих се. Втурнах се през прибирането вкъщи, два технически екрана, интервю на място и проведох много приятен разговор с Андрей Карпати, който току-що беше назначен в Tesla като директор на AI. Следващият етап е проверка на миналото. След това Илон Мъск трябваше лично да одобри кандидатурата ми. Tesla има строго споразумение за неразкриване на информация (NDA).
Не преминах проверката на миналото. Служителят по подбор на персонал каза, че чатя много онлайн, нарушавайки NDA. Единственото място, където казах нещо за интервю в Tesla, беше ODS, така че текущата хипотеза е, че някой е направил екранна снимка и е писал на HR в Tesla и съм бил отстранен от състезанието без опасност. Тогава беше срам. Сега се радвам, че не се получи. Сегашната ми позиция е много по-добра, въпреки че би било много интересно да работя с Андрей.

Веднага след това се потопих в състезанието за сателитни изображения на Kaggle от Planet Labs - Разбиране на Amazon от космоса. Проблемът беше прост и изключително скучен; никой не искаше да го реши, но всеки искаше безплатен златен медал или парична награда. Затова с екип от Kaggle Masters от 7 души се разбрахме да хвърляме желязо. Обучихме 480 мрежи в режим „fit_predict“ и направихме триетажен ансамбъл от тях. Завършихме седми. Публикация в блога, описваща решението от Артър Кузин. Между другото, Джеръми Хауърд, който е широко известен като създател Бърз.AI завърши 23.

След края на състезанието, чрез приятел, който работеше в AdRoll, организирах Meetup в техните помещения. Там представители на Planet Labs разказаха как е изглеждала организацията на състезанието и маркирането на данните от тяхна страна. Уенди Куан, която работи в Kaggle и ръководеше състезанието, разказа как го е видяла. Описах нашето решение, трикове, техники и технически подробности. Две трети от публиката решиха този проблем, така че въпросите бяха зададени по същество и като цяло всичко беше готино. Джереми Хауърд също беше там. Оказа се, че той завършва на 23-то място, защото не знае как да подреди модела и изобщо не знае за този метод за изграждане на ансамбли.

Срещите в долината относно машинното обучение са много различни от срещите в Москва. По правило срещите в долината са дъното. Но нашите се оказаха добри. За съжаление, другарят, който трябваше да натисне бутона и да запише всичко, не го натисна :)

След това бях поканен да говоря с позицията на инженер по задълбочено обучение в същата тази Planet Labs и веднага на място. Не го минах. Формулировката на отказа е, че няма достатъчно знания в Deep Learning.

Проектирах всяко състезание като проект в LinkedIn. За проблема с DSTL написахме предпечат и го публикува в arxiv. Не статия, но все пак хляб. Препоръчвам и на всички останали да раздуят профила си в LinkedIn чрез състезания, статии, умения и т.н. Има положителна връзка между това колко ключови думи имате в профила си в LinkedIn и колко често хората ви изпращат съобщения.

Ако през зимата и пролетта бях много техничен, то през август имах и знания, и самочувствие.

В края на юли едно момче, което работеше като мениджър Data Science в Lyft, се свърза с мен в LinkedIn и ме покани да пием кафе и да поговорим за живота, за Lyft, за TrueAccord. Говорихме. Той предложи интервю с неговия екип за позицията Data Scientist. Казах, че опцията работи, при положение, че е Computer Vision / Deep Learning от сутрин до вечер. Той увери, че няма възражения от негова страна.

Изпратих автобиографията си и той я качи във вътрешния портал на Lyft. След това специалистът по подбор на персонала ми се обади, за да отвори автобиографията ми и да разбере повече за мен. Още с първите думи стана ясно, че за него това е формалност, тъй като от автобиографията му беше очевидно, че „не съм материал за Lyft“. Предполагам, че след това автобиографията ми отиде в кошчето.

През цялото това време, докато ме интервюираха, обсъждах моите неуспехи и падения в ODS и момчетата ми дадоха обратна връзка и ми помогнаха по всякакъв начин със съвети, въпреки че, както обикновено, имаше и много приятелско тролене.

Един от членовете на ODS предложи да ме свърже с негов приятел, който е инженерен директор в Lyft. Казано, сторено. Идвам в Lyft за обяд и освен този приятел има също ръководител на Data Science и продуктов мениджър, който е голям фен на Deep Learning. На обяд си поговорихме през DL. И тъй като тренирах мрежи 24/7 в продължение на половин година, четох кубически метри литература и изпълнявах задачи на Kaggle с повече или по-малко ясни резултати, мога да говоря за Deep Learning с часове, както по отношение на нови статии, така и практически техники.

След обяда ме погледнаха и казаха - веднага се вижда, че си красив, искаш ли да говориш с нас? Освен това добавиха, че ми е ясно, че екранът take home + tech може да се пропусне. И че веднага ще бъда поканен на място. Съгласих се.

След това този специалист по подбор на персонала ми се обади, за да си насрочим интервю на място и той беше недоволен. Той измърмори нещо за това да не скачаш над главата си.

дойде. Интервю на място. Пет часа общуване с различни хора. Нямаше нито един въпрос за Deep Learning или за машинното обучение по принцип. Тъй като няма Deep Learning / Computer Vision, тогава не се интересувам. По този начин резултатите от интервюто бяха ортогонални.

Този специалист по подбор на персонал се обажда и казва - поздравления, стигнахте до второто интервю на място. Всичко това е изненадващо. Какво е второто на място? Никога не съм чувал за такова нещо. Отидох. Има няколко часа там, този път всичко за традиционното машинно обучение. Това е по-добре. Но пак не е интересно.

Служителят по подбор на персонал се обажда с поздравления, че съм преминал третото интервю на място и обещава, че това ще бъде последното. Отидох да го видя и имаше и DL, и CV.

Имах предшественик от много месеци, който ми каза, че няма да има оферта. Ще тренирам не на технически умения, а на меки. Не от меката страна, а от факта, че позицията ще бъде закрита или че компанията все още не наема, а просто тества пазара и нивото на кандидатите.

Средата на август. Пих бира добре. Черни мисли. Минаха 8 месеца и все още няма оферта. Хубаво е да си креативен под бира, особено ако креативността е странна. Хрумва ми идея. Споделям го с Алексей Швец, който по това време беше постдоктор в MIT.

Какво ще стане, ако вземете най-близката DL/CV конференция, гледате състезанията, които се провеждат като част от нея, тренирате нещо и изпратите? Тъй като всички експерти там градят кариерата си върху това и го правят от много месеци или дори години, нямаме шанс. Но не е страшно. Правим някакво смислено представяне, летим до последното място и след това пишем предпечат или статия за това как не сме като всички останали и говорим за нашето решение. И статията вече е в LinkedIn и в автобиографията ви.

Тоест изглежда, че е подходящо и има по-правилни ключови думи в резюмето, което би трябвало леко да увеличи шансовете за достигане до техническия екран. Код и изявления от мен, текстове от Алексей. Игра, разбира се, но защо не?

Казано, сторено. Най-близката конференция, която намерихме в Google, беше MICCAI и там наистина имаше състезания. Ние ударихме първия. Беше Анализ на стомашно-чревния образ (GIANA). Задачата има 3 подзадачи. До крайния срок оставаха 8 дни. На сутринта изтрезнях, но не се отказах от идеята. Взех тръбопроводите си от Kaggle и ги превключих от сателитни данни към медицински. 'fit_predict'. Алексей подготви двустранно описание на решенията за всеки проблем и ние го изпратихме. Готов. На теория можете да издишате. Но се оказа, че има друга задача за същата работилница (Сегментиране на роботизирани инструменти) с три подзадачи и че нейният срок е преместен с 4 дни нагоре, тоест можем да направим 'fit_predict' там и да го изпратим. Това и направихме.

За разлика от Kaggle, тези състезания имаха свои собствени академични специфики:

  1. Няма класация. Представленията се изпращат по имейл.
  2. Ще бъдете отстранен, ако представител на екипа не дойде да представи решението на конференцията в Работната среща.
  3. Вашето място в класацията става известно само по време на конференцията. Нещо като академична драма.

Конференцията MICCAI 2017 се проведе в град Квебек. Честно казано, до септември започнах да се изтощавам, така че идеята да си взема една седмица почивка от работа и да се отправя към Канада изглеждаше интересна.

Дойде на конференцията. Дойдох в тази работилница, не познавам никого, седя в ъгъла. Всички се познават, общуват, хвърлят умни медицински думи. Преглед на първото състезание. Участниците говорят и говорят за своите решения. Там е готино, с блясък. Мой ред. И някак дори ме е срам. Те решиха проблема, работиха върху него, напреднаха в науката и ние сме чисто „fit_predict“ от минали разработки, не за наука, а за да подобрим автобиографията си.

Той излезе и каза, че и аз не съм специалист по медицина, извини се, че им губя времето и ми показа един слайд с решението. Слязох в антрето.

Обявяват първата подзадача - първи сме, и то с разлика.
Обявяват се вторият и третият.
Обявяват трети – пак първи и пак с преднина.
Генерал е първият.

От физици до Data Science (От двигатели на науката до офис планктон). Третата част

Официално прессъобщение.

Някои от публиката се усмихват и ме гледат с уважение. Други, които очевидно се смятаха за експерти в областта, бяха спечелили субсидия за тази задача и се занимаваха с това от много години, имаха леко изкривено изражение на лицата.

Следва втората задача, тази с три подзадачи и която е преместена с четири дни напред.

Тук също се извиних и отново показах нашия един слайд.
Същата история. Две първи, една втора, обща първа.

Мисля, че това вероятно е първият път в историята, когато агенция за събиране на вземания печели състезание по медицински изображения.

И сега стоя на сцената, връчват ми някаква диплома и съм бомбардиран. Как, по дяволите, е възможно това? Тези академици харчат парите на данъкоплатците, работейки за опростяване и подобряване на качеството на работата на лекарите, тоест, на теория, моята очаквана продължителност на живота, и някакво тяло разкъса целия този академичен персонал на британското знаме за няколко вечери.

Бонус към това е, че в други екипи завършилите студенти, които са работили по тези задачи в продължение на много месеци, ще имат резюме, което е привлекателно за HR, тоест те лесно ще стигнат до техническия екран. И пред очите ми има току-що получен имейл:

A Googler recently referred you for the Research Scientist, Google Brain (United States) role. We carefully reviewed your background and experience and decided not to proceed with your application at this time.

Като цяло, още от сцената, питам публиката: „Някой знае ли къде работя?“ Един от организаторите на състезанието знаеше - той потърси в Google какво е TrueAccord. Останалите не са. Продължавам: „Работя за колекторска агенция и на работа не се занимавам нито с компютърно зрение, нито с дълбоко обучение. И в много отношения това се случва, защото отделите по човешки ресурси на Google Brain и Deepmind филтрират автобиографията ми, като не ми дават шанс да покажа техническо обучение. "

Връчиха удостоверението, почивка. Група академици ме дръпна настрана. Оказа се, че това е Health group с Deepmind. Бяха толкова впечатлени, че веднага пожелаха да говорят с мен за свободното място за инженер-изследовател в техния екип. (Разговаряхме. Този разговор продължи 6 месеца, преминах тестове за вкъщи, но бях прекъснат на технологичния екран. 6 месеца от началото на комуникацията до техническия екран са много време. Дългото чакане дава вкус на безполезност. Инженер-изследовател в Deepmind в Лондон, на фона на TrueAccord имаше силна стъпка нагоре, но на фона на сегашната ми позиция е стъпка надолу. От разстояние от две години, изминали оттогава, е добре че не е така.)

Заключение

Приблизително по същото време получих оферта от Lyft, която приех.
Въз основа на резултатите от тези две състезания с MICCAI бяха публикувани следните:

  1. Автоматично сегментиране на инструменти в робот-асистирана хирургия с помощта на дълбоко обучение
  2. Откриване и локализиране на ангиодисплазия с помощта на дълбоки конволюционни невронни мрежи
  3. 2017 предизвикателство за сегментиране на роботизирани инструменти

Тоест, въпреки необуздаността на идеята, добавянето на допълнителни статии и предварителни отпечатъци чрез състезания работи добре. И през следващите години го направихме още по-лош.

От физици до Data Science (От двигатели на науката до офис планктон). Третата част

Работя в Lyft през последните няколко години, занимавайки се с компютърно зрение/задълбочено обучение за самоуправляващи се автомобили. Тоест получих каквото исках. И задачи, и компания с висок статус, и силни колеги, и всички други екстри.

През тези месеци имах комуникация както с големи компании Google, Facebook, Uber, LinkedIn, така и с море от стартъпи от различни размери.

Боли ме през всичките тези месеци. Вселената всеки ден ви казва нещо не особено приятно. Редовно отхвърляне, редовно правене на грешки и всичко това е подправено с постоянно чувство на безнадеждност. Няма гаранции, че ще успеете, но има чувството, че сте глупак. Това много напомня как се опитвах да си намеря работа веднага след университета.

Мисля, че мнозина търсеха работа в долината и всичко беше много по-лесно за тях. Уловката според мен е следната. Ако търсите работа в сфера, в която разбирате, имате много опит и в автобиографията ви пише същото, няма проблеми. Взех го и го намерих. Има много свободни места.

Но ако търсите работа в нова за вас сфера, тоест когато нямате познания, нямате връзки и в автобиографията ви пише нещо грешно – в този момент всичко става изключително интересно.

В момента специалистите по подбор на персонал редовно ми пишат и предлагат да направят същото, което правя сега, но в друга компания. Наистина е време за смяна на работата. Но няма смисъл да правя това, в което вече съм добър. За какво?

Но за това, което искам, отново нямам нито знанията, нито редовете в автобиографията си. Да видим как ще свърши всичко това. Ако всичко е наред, ще напиша следващата част. 🙂

Източник: www.habr.com

Добавяне на нов коментар