Од физичари до наука за податоци (Од мотори на науката до канцелариски планктони). Третиот дел

Од физичари до наука за податоци (Од мотори на науката до канцелариски планктони). Третиот дел

Оваа слика е на Артур Кузин (n01z3), сосема точно ја сумира содржината на објавата на блогот. Како резултат на тоа, следниов наратив треба да биде сфатен повеќе како петочна приказна отколку како нешто исклучително корисно и техничко. Покрај тоа, вреди да се напомене дека текстот е богат со англиски зборови. Некои од нив не знам како правилно да ги преведам, а некои едноставно не сакам да ги преведам.

Првиот дел.
Втор дел.

Како се одвиваше преминот од академска средина во индустриска средина е откриено во првите две епизоди. Во оваа, разговорот ќе биде за тоа што се случило потоа.

Беше јануари 2017 година. Во тоа време имав нешто повеќе од една година работно искуство и работев во Сан Франциско во компанијата TrueAccord како Ср. Научник за податоци.

TrueAccord е стартап за наплата на долгови. Во едноставни термини - агенција за наплата. Колекционерите обично се јавуваат многу. Испративме многу мејлови, но направивме неколку повици. Секоја е-пошта водеше до веб-страницата на компанијата, каде што на должникот му беше понуден попуст на долгот, па дури и беше дозволено да плати на рати. Овој пристап доведе до подобра наплата, дозволено скалирање и помала изложеност на тужби.

Друштвото беше нормално. Производот е јасен. Раководството е разумно. Локацијата е добра.

Во просек, луѓето во долината работат на едно место околу една и пол година. Односно, секоја компанија во која работите е само мал чекор. На овој чекор ќе соберете пари, ќе стекнете нови знаења, вештини, врски и линии во вашата биографија. После ова има премин кон следниот чекор.

Во самиот TrueAccord бев вклучен во прикачување на системи за препораки на билтени за е-пошта, како и во давањето приоритет на телефонските повици. Влијанието е разбирливо и беше доста добро измерено во долари преку A/B тестирање. Бидејќи немаше машинско учење пред моето доаѓање, влијанието на мојата работа не беше лошо. Повторно, многу е полесно да се подобри нешто отколку нешто што е веќе многу оптимизирано.

По шест месеци работа на овие системи, тие дури ми ја зголемија основната плата од 150 илјади на 163 илјади долари. Во заедницата Наука за отворени податоци (ОДС) има мем околу 163 илјади долари. Од тука расте со нозете.

Сето ова беше прекрасно, но не доведе никаде, или доведе, но не таму.

Имам голема почит кон TrueAccord, и компанијата и момците со кои работев таму. Научив многу од нив, но не сакав да работам долго време на системи за препораки во агенција за наплата. Од овој чекор требаше да зачекориш во некоја насока. Ако не напред и нагоре, тогаш барем настрана.

Што не ми се допадна?

  1. Од перспектива на машинско учење, проблемите не ме возбудија. Сакав нешто модерно, младешко, односно длабоко учење, компјутерска визија, нешто прилично блиско до науката или барем до алхемијата.
  2. Стартап, па дури и агенција за наплата, има проблеми со вработување на висококвалификуван персонал. Како стартап, не може да плати многу. Но, како агенција за наплата, губи статус. Грубо кажано, ако девојката на состанок праша каде работиш? Вашиот одговор: „На Google“ звучи подобро од „агенција за наплата“. Малку ми пречеше тоа што за моите пријатели кои работат во Гугл и Фејсбук, за разлика од мене, името на нивната компанија отвори врати како: може да бидете поканети на конференција или средба како говорник, или поинтересни луѓе да пишуваат на LinkedIn со понуда да се запознаеме и да разговараме со чаша чај. Навистина сакам да комуницирам со луѓе кои не ги познавам лично. Значи, ако живеете во Сан Франциско, не двоумете се да пишете - ајде да одиме на кафе и да разговараме.
  3. Покрај мене, во компанијата работеа и тројца Data Scientists. Работев на машинско учење, а тие работеа на други задачи на Data Science, кои се вообичаени во секој стартап од овде до утре. Како резултат на тоа, тие навистина не го разбираа машинското учење. Но, за да пораснам, треба да комуницирам со некого, да разговарам за статиите и најновите случувања и на крајот да побарам совет.

Што беше достапно?

  1. Образование: физика, не компјутерски науки.
  2. Единствениот програмски јазик што го знаев беше Python. Имаше чувство дека треба да се префрлам на C++, но сепак не можев да се приближам до тоа.
  3. Година и пол работа во индустријата. Покрај тоа, на работа не учев ниту длабоко учење, ниту компјутерска визија.
  4. Ниту една статија за длабоко учење / компјутерска визија во резимето.
  5. Имаше достигнување на Kaggle Master.

Што сакаше?

  1. Позиција каде што ќе биде неопходно да се обучат многу мрежи, а поблиску до компјутерската визија.
  2. Подобро е ако се работи за голема компанија како Google, Tesla, Facebook, Uber, LinkedIn итн. Иако во малку, стартап би направил.
  3. Не треба да бидам најголемиот експерт за машинско учење во тимот. Имаше голема потреба од постари другари, ментори и секаква комуникација, која требаше да го забрза процесот на учење.
  4. Откако ги прочитав постовите на блогот за тоа како дипломираните студенти без индустриско искуство имаат вкупен надоместок од 300-500 илјади долари годишно, сакав да одам во истиот опсег. Не дека тоа ми пречи толку многу, но бидејќи велат дека ова е вообичаен феномен, но јас имам помалку, тогаш ова е сигнал.

Задачата изгледаше целосно решлива, иако не во смисла дека можете да скокнете во која било компанија, туку дека ако гладувате, сè ќе успее. Односно, десетици или стотици обиди и болката од секој неуспех и секое отфрлање, треба да се искористат за да се изостри фокусот, да се подобри меморијата и да се продолжи денот до 36 часа.

Ја дотерав мојата биографија, почнав да ја испраќам и да одам на интервјуа. Прелетав покрај повеќето од нив во фазата на комуникација со човечки ресурси. Многу луѓе бараа C++, но јас не го знаев тоа и имав силно чувство дека нема да бидам многу заинтересиран за позиции за кои е потребен C++.

Вреди да се напомене дека приближно во исто време имаше фазна транзиција во типот на натпревари на Kaggle. Пред 2017 година имаше многу табеларни податоци и многу ретко податоци за слики, но почнувајќи од 2017 година имаше многу задачи за компјутерска визија.

Животот течеше во следниот режим:

  1. Работете во текот на денот.
  2. Кога технолошкиот екран / лице место земате одмор.
  3. Вечери и викенди Kaggle + статии / книги / објави на блогови

Крајот на 2016 година беше одбележан со фактот дека се приклучив на заедницата Наука за отворени податоци (ОДС), што поедностави многу работи. Има многу момци во заедницата со богато индустриско искуство, што ни овозможи да поставуваме многу глупави прашања и да добиеме многу паметни одговори. Има и многу силни специјалисти за машинско учење од сите ленти, што, неочекувано, ми овозможи, преку ODS, да го затворам проблемот со редовна длабинска комуникација за Data Science. Досега во однос на МЛ, ОДС ми дава многукратно повеќе од она што го добивам на работа.

Па, како и обично, ODS има доволно специјалисти за натпревари на Kaggle и други сајтови. Решавањето на проблемите во тим е позабавно и попродуктивно, па со шеги, пцовки, мемиња и друга гадна забава, почнавме да ги решаваме проблемите еден по еден.

Во март 2017 година - во тим со Серега Мушински - трето место за Детекција на функции за сателитски слики на Dstl. Златен медал на Kaggle + $20k за двајца. На оваа задача, работата со сателитски слики + бинарна сегментација преку UNet беше подобрена. Објава на блог на Хабре на оваа тема.

Истиот март, отидов на интервју во NVidia со тимот на Self Driving. Навистина се борев со прашања за откривање објекти. Немаше доволно знаење.

За среќа, во исто време, започна натпреварот за откривање објекти на воздушни снимки од истиот DSTL. Самиот Бог нареди да се реши проблемот и да се надгради. Месец на вечери и викенди. Го собрав знаењето и завршив втор. Овој натпревар имаше интересна нијанса во правилата, што доведе до тоа да ме прикажуваат во Русија на федерални и не така федерални канали. Се качив дома Lenta.ru, и во еден куп печатени и онлајн публикации. Mail Ru Group доби малку позитивен ПР на моја сметка и нивни сопствени пари, а фундаменталната наука во Русија беше збогатена за 12000 фунти. Како и обично, пишуваше на оваа тема блог пост на hubr. Одете таму за детали.

Во исто време, регрутер на Tesla ме контактираше и ми понуди да разговараме за позицијата Computer Vision. Се согласив. Поминував низ пакетот за дома, два технолошки екрани, интервју на лице место и имав многу пријатен разговор со Андреј Карпати, кој штотуку беше вработен во Тесла како директор на ВИ. Следната фаза е проверка на позадината. После тоа, Илон Маск мораше лично да ја одобри мојата апликација. Тесла има строг договор за необјавување (NDA).
Не ја поминав проверката на заднината. Регрутерот рече дека разговарам многу на интернет, кршејќи ја НДА. Единственото место каде што кажав нешто за интервју во Tesla беше ODS, така што сегашната хипотеза е дека некој направил скриншот и му напишал на HR во Tesla, а јас бев отстранет од трката без опасност. Тогаш беше срамота. Сега ми е драго што не успеа. Мојата сегашна позиција е многу подобра, иако би било многу интересно да работам со Андреј.

Веднаш потоа се вклучив во натпреварот за сателитски снимки на Kaggle од Planet Labs - Разбирање на Амазон од вселената. Проблемот беше едноставен и крајно досаден, никој не сакаше да го реши, но сите сакаа бесплатен златен медал или парична награда. Затоа, со тим од Kaggle Masters од 7 луѓе, се договоривме да фрламе железо. Трениравме 480 мрежи во режимот 'fit_predict' и направивме трикатен ансамбл од нив. Завршивме седми. Објава на блог што го опишува решението од Артур Кузин. Патем, Џереми Хауард, кој е надалеку познат како креатор Брзо.АИ заврши 23.

По завршувањето на натпреварот, преку пријател кој работеше во AdRoll, организирав Meetup во нивните простории. Претставниците на Planet Labs таму зборуваа за тоа како изгледала организацијата на натпреварот и означувањето на податоците од нивна страна. Венди Кван, која работи во Kaggle и го надгледуваше натпреварот, зборуваше за тоа како го гледала тоа. Го опишав нашето решение, трикови, техники и технички детали. Две третини од публиката го решија овој проблем, па прашањата беа поставени до точка и генерално сè беше кул. Таму беше и Џереми Хауард. Се испостави дека завршил на 23-то место бидејќи не знаел да го нареди моделот и дека воопшто не знаел за овој метод на градење ансамбли.

Состаноците во долината за машинско учење се многу различни од состаноците во Москва. Како по правило, средбите во долината се на дното. Но, нашето испадна добро. За жал, другарот што требаше да го притисне копчето и да снима се, не го притисна копчето :)

После тоа, бев поканет да разговарам со позицијата инженер за длабоко учење во истата Планета Лаб, и веднаш на лице место. Не го поминав. Формулацијата на одбивањето е дека нема доволно знаење во Deep Learning.

Секој натпревар го дизајнирав како проект во Скопје. За проблемот со DSTL напишавме претходно печатење и го објави на arxiv. Не е статија, но сепак леб. Исто така, им препорачувам на сите други да го зголемат својот профил на LinkedIn преку натпревари, написи, вештини и така натаму. Постои позитивна корелација помеѓу тоа колку клучни зборови имате на вашиот профил на LinkedIn и колку често луѓето ви испраќаат пораки.

Ако во зима и пролет бев многу технички, тогаш до август имав и знаење и самодоверба.

На крајот на јули, еден дечко кој работеше како менаџер за Data Science во Lyft ме контактираше на LinkedIn и ме покани да пиеме кафе и да разговараме за животот, за Lyft, за TrueAccord. Ние разговаравме. Тој понуди интервју со неговиот тим за позицијата научник за податоци. Реков дека опцијата работи, под услов да е Computer Vision / Deep Learning од утро до вечер. Тој увери дека нема забелешки од негова страна.

Ја испратив мојата биографија и тој ја постави на внатрешниот портал на Lyft. После тоа, регрутерот ме повика да ја отворам мојата биографија и да дознае повеќе за мене. Уште од првите зборови, беше јасно дека за него ова беше формалност, бидејќи од неговата биографија му беше очигледно дека „јас не сум материјал за Лифт“. Претпоставувам дека после тоа мојата биографија отиде во корпата за отпадоци.

Сето тоа време, додека бев на интервју, разговарав за моите неуспеси и падови во ОДС и момците ми даваа повратни информации и ми помагаа на секој можен начин со совети, иако, како и обично, таму имаше и многу пријателско тролање.

Еден од членовите на ОДС ми понуди да ме поврзе со неговиот пријател, кој е директор за инженерство во Lyft. Не порано кажано отколку направено. Доаѓам на ручек во Lyft, а покрај овој пријател има и шеф на Data Science и менаџер за производи кој е голем љубител на Deep Learning. На ручек разговаравме преку ДЛ. И бидејќи половина година тренирам мрежи 24/7, читав кубни метри литература и извршував задачи на Kaggle со повеќе или помалку јасни резултати, можев да зборувам за длабоко учење со часови, и во смисла на нови статии и практични техники.

По ручекот ме погледнаа и ми рекоа - веднаш е очигледно дека си згоден, сакаш да разговараш со нас? Згора на тоа, тие додадоа дека ми е јасно дека екранот take home + tech може да се прескокне. И дека веднаш ќе бидам поканет на лице место. Се согласив.

После тоа, тој регрутер ме повика да закажам интервју на лице место, и тој беше незадоволен. Промрморе нешто за тоа што не ти прескокнал преку глава.

Дојде. Интервју на лице место. Пет часа комуникација со различни луѓе. Немаше ниту едно прашање за длабокото учење или за машинското учење во принцип. Бидејќи нема Deep Learning / Computer Vision, тогаш не ме интересира. Така, резултатите од интервјуто беа ортогонални.

Овој регрутер се јавува и вели - честитки, стигнавте до второто интервју на лице место. Сето ова е изненадувачки. Која е втората на лице место? Никогаш не сум слушнал за такво нешто. Отидов. Има неколку часа таму, овој пат за традиционалното машинско учење. Тоа е подобро. Но, сепак не е интересно.

Регрутерот се јавува со честитки што го поминав третото интервју на лице место и вети дека ова ќе биде последно. Отидов да го видам и имаше и DL и CV.

Имав претприемач многу месеци кој ми кажа дека нема да има понуда. Ќе тренирам не на технички вештини, туку на меки. Не на меката страна, туку на фактот дека позицијата ќе биде затворена или дека компанијата сè уште не вработува, туку едноставно го тестира пазарот и нивото на кандидати.

Средината на август. Испив пиво во ред. Мрачни мисли. Поминаа 8 месеци и се уште нема понуда. Добро е да се биде креативен под пиво, особено ако креативноста е чудна. Ми доаѓа на памет една идеја. Го споделувам со Алексеј Шветс, кој во тоа време беше постдоктор на МИТ.

Што ако ја земете најблиската конференција DL/CV, ги гледате натпреварите што се одржуваат како дел од неа, тренирате нешто и поднесете? Бидејќи сите експерти таму ја градат својата кариера на ова и го прават тоа многу месеци, па дури и години, немаме шанса. Но, тоа не е страшно. Правиме некое значајно поднесување, летаме до последното место, а потоа пишуваме однапред печатење или статија за тоа како не сме како сите други и зборуваме за нашата одлука. А статијата е веќе на LinkedIn и во вашата биографија.

Односно, се чини дека е релевантно и има поточни клучни зборови во резимето, што треба малку да ги зголеми шансите да стигнете до технолошкиот екран. Код и поднесоци од мене, текстови од Алексеј. Игра, се разбира, но зошто да не?

Не порано кажано отколку направено. Најблиската конференција што ја баравме беше MICCAI и таму всушност имаше натпревари. Го погодивме првиот. Беше Анализа на слика на гастроинтестиналниот тракт (GIANA). Задачата има 3 подзадачи. До истекот на рокот останаа уште 8 дена. Се отрезнив наутро, но не се откажав од идејата. Ги зедов моите гасоводи од Kaggle и ги префрлив од сателитски податоци на медицински. 'fit_predict'. Алексеј подготви опис на две страници на решенија за секој проблем и ние го испративме. Подготвени. Во теорија, можете да издишите. Но, се покажа дека има друга задача за истата работилница (Сегментација на роботски инструменти) со три подзадачи и дека нејзиниот рок е поместен за 4 дена, односно, таму можеме да направиме 'fit_predict' и да го испратиме. Тоа е она што го направивме.

За разлика од Kaggle, овие натпревари имаа свои академски специфики:

  1. Нема табла на водачи. Поднесоците се испраќаат по е-пошта.
  2. Ќе бидете отстранети доколку претставник на тимот не дојде да го претстави решението на конференцијата на Работилницата.
  3. Вашето место на таблата на водачи станува познато само за време на конференцијата. Еден вид академска драма.

Конференцијата MICCAI 2017 се одржа во Квебек Сити. Да бидам искрен, до септември почнав да согорувам, па идејата да се одморам една недела од работа и да се упатам во Канада изгледаше интересна.

Дојде на конференцијата. Дојдов на оваа работилница, не познавам никого, седам во аголот. Сите се познаваат, комуницираат, исфрлаат паметни медицински зборови. Преглед на првиот натпревар. Учесниците зборуваат и зборуваат за нивните одлуки. Таму е кул, со сјај. Мој ред. И некако дури и се срамам. Тие го решија проблемот, работеа на него, ја унапредија науката, а ние сме чисто „fit_predict“ од минатите случувања, не за наука, туку за зајакнување на нашата биографија.

Тој излезе и рече дека и јас не сум експерт за медицина, се извини што им го губев времето и ми покажа еден слајд со решението. Слегов во ходникот.

Ја најавуваат првата подзадача - први сме, и тоа со разлика.
Се најавуваат второто и третото.
Го најавуваат третиот - повторно прв и пак со водство.
Генералот е првиот.

Од физичари до наука за податоци (Од мотори на науката до канцелариски планктони). Третиот дел

Официјално соопштение за медиумите.

Некои од публиката се смешкаат и ме гледаат со почит. Други, оние кои очигледно важеа за експерти во областа, добија грант за оваа задача и тоа го работеа долги години, имаа малку искривен израз на нивните лица.

Следува втората задача, онаа со три подзадачи и која е поместена за четири дена.

Тука и јас се извинив и повторно го покажав нашиот еден слајд.
Истата приказна. Две први, една секунда, заеднички први.

Мислам дека ова е веројатно првпат во историјата агенција за собирање да победи на натпревар за медицинска слика.

И сега стојам на сцената, ми даваат некаква диплома и сум бомбардиран. Како по ѓаволите може да биде тоа? Овие академици ги трошат парите на даночните обврзници, работат на поедноставување и подобрување на квалитетот на работата на лекарите, односно, теоретски, мојот животен век, а некое тело го искина целиот овој академски кадар во британското знаме за неколку вечери.

Бонус за ова е што во другите тимови, дипломирани студенти кои работат на овие задачи многу месеци ќе имаат резиме што е привлечно за човечки ресурси, односно лесно ќе стигнат до технолошкиот екран. И пред моите очи има свежо примен мејл:

A Googler recently referred you for the Research Scientist, Google Brain (United States) role. We carefully reviewed your background and experience and decided not to proceed with your application at this time.

Во принцип, веднаш од сцената, ја прашувам публиката: „Дали некој знае каде работам? Еден од организаторите на натпреварот знаел - прогуглал што е тоа TrueAccord. Останатите не се. Продолжувам: „Работам во агенција за наплата, а на работа не правам ниту Computer Vision, ниту Deep Learning. И на многу начини, ова се случува затоа што одделенијата за човечки ресурси на Google Brain и Deepmind ја филтрираат мојата биографија, не ми даваат шанса да покажам техничка обука. "

Го предадоа сертификатот, пауза. Група академици ме тргаат настрана. Се испостави дека ова е здравствена група со Deepmind. Беа толку импресионирани што веднаш сакаа да разговараат со мене за конкурсот за истражувачки инженер во нивниот тим. (Разговаравме. Муабетов траеше 6 месеци, положив take home, квиз, но беше скратен на екранот за технологија. 6 месеци од почетокот на комуникацијата до технолошкиот екран е многу време. Долгото чекање дава вкус на бескорисноста. Истражувачки инженер во Deepmind во Лондон, наспроти позадината на TrueAccord имаше силен чекор напред, но наспроти позадината на мојата сегашна позиција тоа е чекор надолу. Од растојание од две години што поминаа оттогаш, добро е дека не.)

Заклучок

Отприлика во исто време добив понуда од Lyft, која ја прифатив.
Врз основа на резултатите од овие два натпревари со MICCAI, објавени се следните:

  1. Автоматска сегментација на инструменти во хирургија со помош на роботи користејќи длабоко учење
  2. Откривање и локализација на ангиодисплазија со помош на длабоки конволутивни невронски мрежи
  3. Предизвик за сегментација на роботски инструменти 2017 година

Односно, и покрај дивината на идејата, додавањето на поединечни написи и претходно печатење преку натпревари функционира добро. И во следните години го направивме уште полошо.

Од физичари до наука за податоци (Од мотори на науката до канцелариски планктони). Третиот дел

Работев во Lyft во последните неколку години и работев на Computer Vision/Deep Learning за самоуправувачки автомобили. Односно, го добив тоа што го сакав. И задачи, и компанија со висок статус, и силни колеги, и сите други добрини.

Во текот на овие месеци, имав комуникација со двете големи компании Гугл, Фејсбук, Убер, Линкедин и со море од стартапи од различни големини.

Болеше сите овие месеци. Универзумот секој ден ви кажува нешто не многу пријатно. Редовно одбивање, редовно правење грешки и сето тоа е зачинето со постојано чувство на безнадежност. Нема гаранции дека ќе успеете, но постои чувство дека сте будала. Тоа многу потсетува на тоа како се обидов да најдам работа веднаш по универзитетот.

Мислам дека многумина бараа работа во долината и сè им беше многу полесно. Финтата, според мене, е ова. Ако барате работа во област во која се разбирате, имате многу искуство, а вашата биографија го кажува истото, нема проблеми. Го зедов и го најдов. Има многу слободни места.

Но, ако барате работа во поле што е ново за вас, односно кога нема знаење, нема врски и вашата биографија кажува нешто погрешно - во овој момент сè станува исклучително интересно.

Во моментов, регрутерите редовно ми пишуваат и ми нудат да го направат истото што го правам сега, но во друга компанија. Навистина е време да ја смените работата. Но, нема смисла да го правам она во што веќе сум добар. За што?

Но, за она што го сакам, повторно немам знаење ниту линии во мојата биографија. Ајде да видиме како ќе заврши сето ова. Ако се биде добро, ќе го напишам следниот дел. 🙂

Извор: www.habr.com

Додадете коментар