De físics a ciència de dades (De motors de ciència al plàncton d'oficina). La tercera part

De físics a ciència de dades (De motors de ciència al plàncton d'oficina). La tercera part

Aquesta imatge és d'Arthur Kuzin (n01z3), resumeix amb força precisió el contingut de l'entrada del bloc. Com a resultat, la següent narració s'ha de percebre més com una història de divendres que com una cosa extremadament útil i tècnica. A més, val la pena assenyalar que el text és ric en paraules angleses. No sé com traduir-ne algunes correctament, i simplement no vull traduir-ne algunes.

Primera part.
Segona part.

Com es va produir la transició d'un entorn acadèmic a un entorn industrial es revela en els dos primers episodis. En aquest, la conversa tractarà del que va passar després.

Era el gener del 2017. En aquell moment, tenia una mica més d'un any d'experiència laboral i treballava a San Francisco a l'empresa TrueAccord com Sr. Científic de dades.

TrueAccord és una startup de cobrament de deutes. En termes simples - una agència de cobrament. Els col·leccionistes solen trucar molt. Hem enviat molts correus electrònics, però hem fet poques trucades. Cada correu electrònic conduïa al lloc web de l'empresa, on se li oferia al deutor un descompte sobre el deute, i fins i tot es permetia pagar a terminis. Aquest enfocament va conduir a una millor recollida, va permetre l'escala i una menor exposició a les demandes.

L'empresa era normal. El producte és clar. La gestió és sana. La ubicació és bona.

De mitjana, la gent de la vall treballa en un mateix lloc durant aproximadament un any i mig. És a dir, qualsevol empresa per a la qual treballis és només un petit pas. En aquest pas recaptaràs diners, adquiriràs nous coneixements, habilitats, connexions i línies al teu currículum. Després d'això, hi ha una transició al següent pas.

A TrueAccord mateix, vaig participar en l'adjunció de sistemes de recomanació als butlletins de correu electrònic, així com en la priorització de les trucades telefòniques. L'impacte és comprensible i es va mesurar força bé en dòlars mitjançant proves A/B. Com que no hi havia aprenentatge automàtic abans de la meva arribada, l'impacte del meu treball no va ser dolent. De nou, és molt més fàcil millorar alguna cosa que una cosa que ja està molt optimitzada.

Després de sis mesos de treballar en aquests sistemes, fins i tot van augmentar el meu sou base de 150 a 163 dòlars. A la comunitat Ciència de dades obertes (ODS) hi ha un meme d'uns 163 dòlars. Creix amb les potes d'aquí.

Tot això va ser meravellós, però no va portar enlloc, o va portar, però no allà.

Tinc un gran respecte per TrueAccord, tant l'empresa com els nois amb els quals he treballat. Vaig aprendre molt d'ells, però no volia treballar durant molt de temps en sistemes de recomanació en una agència de cobrament. A partir d'aquest pas calia fer un pas en alguna direcció. Si no cap endavant i cap amunt, almenys de costat.

Què no em va agradar?

  1. Des de la perspectiva de l'aprenentatge automàtic, els problemes no em van entusiasmar. Volia quelcom de moda, juvenil, és a dir, Deep Learning, Computer Vision, quelcom més aviat proper a la ciència o almenys a l'alquímia.
  2. Una startup, i fins i tot una agència de cobrament, té problemes per contractar personal altament qualificat. Com a startup, no pot pagar gaire. Però com a agència de cobrament, perd d'estatus. A grans trets, si una noia en una cita et pregunta on treballes? La teva resposta: "A Google" sona millor que "agència de cobrament". Em va molestar una mica el fet que per als meus amics que treballen a Google i Facebook, a diferència de mi, el nom de la seva empresa obria portes com: pots ser convidat a una conferència o trobada com a ponent, o persones més interessants que escriguin a LinkedIn amb una oferta per conèixer i xerrar amb una copa de te. M'agrada molt comunicar-me amb gent que no conec en persona. Així que si vius a San Francisco, no dubtis a escriure: anem a prendre un cafè i parlar.
  3. A més de mi, tres Data Scientists van treballar a l'empresa. Estava treballant en l'aprenentatge automàtic, i ells estaven treballant en altres tasques de Data Science, que són habituals en qualsevol startup d'aquí a demà. Com a resultat, no entenien realment l'aprenentatge automàtic. Però per créixer, necessito comunicar-me amb algú, discutir articles i les darreres novetats i demanar consell, al final.

Què estava disponible?

  1. Educació: física, no informàtica.
  2. L'únic llenguatge de programació que coneixia era Python. Hi havia la sensació que necessitava canviar a C++, però encara no hi podia fer-ho.
  3. Un any i mig de feina al sector. A més, a la feina no vaig estudiar ni aprenentatge profund ni visió per computador.
  4. Ni un sol article sobre aprenentatge profund / visió per ordinador al currículum.
  5. Hi va haver un èxit Kaggle Master.

Què volies?

  1. Una posició on caldrà entrenar moltes xarxes, i més propera a la visió per computador.
  2. És millor si es tracta d'una gran empresa com Google, Tesla, Facebook, Uber, LinkedIn, etc. Encara que en un pessic, una startup ho faria.
  3. No necessito ser l'expert en aprenentatge automàtic més gran de l'equip. Hi havia una gran necessitat de companys sèniors, mentors i tot tipus de comunicació, que suposadament havia d'accelerar el procés d'aprenentatge.
  4. Després de llegir publicacions al bloc sobre com els graduats sense experiència industrial tenen una compensació total de 300-500 dòlars anuals, volia entrar al mateix rang. No és que això em molesti tant, però com que diuen que això és un fenomen comú, però en tinc menys, això és un senyal.

La tasca semblava completament resoluble, encara que no en el sentit que pugueu saltar a qualsevol empresa, sinó que si mors de gana, tot sortirà bé. És a dir, desenes o centenars d'intents, i el dolor de cada fracàs i cada rebuig, s'han d'utilitzar per aguditzar l'enfocament, millorar la memòria i estirar el dia a 36 hores.

Vaig modificar el meu currículum, vaig començar a enviar-lo i vaig anar a fer entrevistes. Vaig passar per davant de la majoria d'ells en l'etapa de comunicació amb RRHH. Molta gent necessitava C++, però jo no ho sabia, i tenia la forta sensació que no m'interessaria gaire les posicions que requerissin C++.

Val la pena assenyalar que al mateix temps hi va haver una transició de fase en el tipus de competicions a Kaggle. Abans del 2017 hi havia moltes dades tabulars i molt poques dades d'imatge, però a partir del 2017 hi havia moltes tasques de visió per ordinador.

La vida va fluir de la següent manera:

  1. Treballar durant el dia.
  2. Quan la pantalla tecnològica / in situ et prens temps lliure.
  3. Tardes i caps de setmana Kaggle + articles / llibres / publicacions de bloc

El final del 2016 va estar marcat pel fet d'entrar a la comunitat Ciència de dades obertes (ODS), que va simplificar moltes coses. Hi ha molts nois a la comunitat amb una gran experiència industrial, cosa que ens va permetre fer moltes preguntes estúpides i obtenir moltes respostes intel·ligents. També hi ha molts especialistes en aprenentatge automàtic molt forts de tots els àmbits, que, inesperadament, em van permetre, a través d'ODS, tancar el problema amb una comunicació regular i profunda sobre Data Science. Fins ara, pel que fa a ML, l'ODS em dona moltes vegades més del que tinc a la feina.

Bé, com és habitual, ODS té prou especialistes en competicions a Kaggle i altres llocs. Resoldre problemes en equip és més divertit i productiu, així que amb acudits, juraments, mems i altres entreteniments nerds, vam començar a resoldre els problemes un per un.

Al març de 2017 - en un equip amb Serega Mushinsky - tercer lloc per Detecció de funcions d'imatges de satèl·lit Dstl. Medalla d'or a Kaggle + 20 dòlars per a dos. En aquesta tasca, es va millorar el treball amb imatges de satèl·lit + segmentació binària mitjançant UNet. Publicació de bloc sobre Habré sobre aquest tema.

Aquell mateix març vaig anar a una entrevista a NVidia amb l'equip de Self Driving. Em va costar molt amb preguntes sobre la detecció d'objectes. No hi havia prou coneixement.

Per sort, al mateix temps, va començar la competició de detecció d'objectes sobre imatges aèries del mateix DSTL. Déu mateix va ordenar resoldre el problema i actualitzar-lo. Un mes de vespres i caps de setmana. Vaig recollir els coneixements i vaig acabar segon. Aquesta competició tenia un matís interessant en les regles, que va fer que em mostrés a Rússia per canals federals i no tan federals. Em vaig posar casa Lenta.ru, i en un munt de publicacions impreses i en línia. Mail Ru Group va rebre una mica de relacions públiques positives a costa meva i els seus propis diners, i la ciència fonamental a Rússia es va enriquir amb 12000 lliures. Com és habitual, s'ha escrit sobre aquest tema entrada al blog a hubr. Aneu-hi per obtenir més detalls.

Al mateix temps, un reclutador de Tesla es va posar en contacte amb mi i es va oferir a parlar sobre la posició de Visió per Computador. Vaig estar d'acord. Vaig passar per la porta a casa, dues pantalles tecnològiques, una entrevista in situ i vaig tenir una conversa molt agradable amb Andrei Karpathy, que acabava de ser contractat a Tesla com a director d'IA. La següent etapa és la comprovació de fons. Després d'això, Elon Musk va haver d'aprovar personalment la meva sol·licitud. Tesla té un estricte acord de no divulgació (NDA).
No vaig passar el control de fons. El reclutador va dir que xatejo molt en línia, violant la NDA. L'únic lloc on vaig dir alguna cosa sobre una entrevista a Tesla va ser l'ODS, així que la hipòtesi actual és que algú va fer una captura de pantalla i va escriure a HR a Tesla, i em van treure de la cursa fora de perill. Aleshores va ser una llàstima. Ara m'alegro que no hagi sortit bé. La meva posició actual és molt millor, tot i que seria molt interessant treballar amb Andrey.

Immediatament després d'això, em vaig submergir al concurs d'imatges per satèl·lit a Kaggle de Planet Labs - Comprendre l'Amazones des de l'espai. El problema era senzill i extremadament avorrit; ningú volia resoldre'l, però tothom volia una medalla d'or o un premi en diners gratuïts. Per això, amb un equip de Kaggle Masters de 7 persones, vam acordar que llençaríem ferro. Vam entrenar 480 xarxes en el mode "fit_predict" i vam fer-ne un conjunt de tres pisos. Hem acabat setès. Entrada de bloc que descriu la solució d'Arthur Kuzin. Per cert, Jeremy Howard, que és àmpliament conegut com el creador Ràpid.AI acabat 23.

Després d'acabar el concurs, a través d'un amic que treballava a AdRoll, vaig organitzar un Meetup a les seves instal·lacions. Els representants de Planet Labs hi van parlar de com era l'organització del concurs i el marcatge de dades per la seva banda. Wendy Kwan, que treballa a Kaggle i va supervisar la competició, va parlar de com ho va veure. Vaig descriure la nostra solució, trucs, tècniques i detalls tècnics. Dos terços de l'audiència van resoldre aquest problema, així que les preguntes es van fer al punt i en general tot va ser genial. Jeremy Howard també hi era. Va resultar que va acabar en el lloc 23 perquè no sabia com apilar la maqueta i que no coneixia gens aquest mètode de construcció de conjunts.

Les trobades a la vall sobre aprenentatge automàtic són molt diferents de les trobades a Moscou. Per regla general, les trobades a la vall són el fons. Però el nostre va sortir bé. Malauradament, el company que havia de prémer el botó i gravar-ho tot no va prémer el botó :)

Després d'això, em van convidar a parlar amb la posició d'enginyer d'aprenentatge profund en aquest mateix Planet Labs, i immediatament al lloc. No ho vaig passar. La redacció de la negativa és que no hi ha prou coneixement en Deep Learning.

Vaig dissenyar cada concurs com un projecte LinkedIn. Per al problema DSTL que vam escriure preimpressió i el va publicar a arxiv. No és un article, però encara pa. També recomano a tothom que augmenti el seu perfil de LinkedIn mitjançant concursos, articles, habilitats, etc. Hi ha una correlació positiva entre quantes paraules clau teniu al vostre perfil de LinkedIn i la freqüència amb què la gent us envia missatges.

Si a l'hivern i a la primavera era molt tècnic, a l'agost ja tenia coneixements i confiança en mi mateix.

A finals de juliol, un noi que treballava com a gerent de Data Science a Lyft es va posar en contacte amb mi a LinkedIn i em va convidar a prendre un cafè i xerrar sobre la vida, sobre Lyft, sobre TrueAccord. Vam parlar. Es va oferir a entrevistar-se amb el seu equip per a la posició de Data Scientist. Vaig dir que l'opció funciona, sempre que sigui Computer Vision / Deep Learning del matí a la tarda. Va assegurar que no hi havia objeccions per part seva.

Vaig enviar el meu currículum i el va penjar al portal intern de Lyft. Després d'això, el reclutador em va trucar per obrir el meu currículum i saber més sobre mi. Des de les primeres paraules, va quedar clar que per a ell això era un tràmit, ja que des del seu currículum era obvi que "no sóc un material per a Lyft". Suposo que després d'això el meu currículum va anar a la paperera.

Durant tot aquest temps, mentre m'entrevistaven, vaig comentar els meus fracassos i caigudes en ODS i els nois em van donar comentaris i em van ajudar de totes les maneres possibles amb consells, tot i que, com és habitual, també hi va haver un munt de troll amistosos.

Un dels membres de l'ODS es va oferir a connectar-me amb el seu amic, que és el director d'enginyeria de Lyft. No més aviat dir que fet. Vinc a Lyft a dinar i, a més d'aquest amic, també hi ha un cap de ciència de dades i un gestor de producte que és un gran fan de l'aprenentatge profund. Al dinar vam xerrar sobre DL. I com que he estat mig any entrenant xarxes les 24 hores del dia, els 7 dies de la setmana, he llegit metres cúbics de literatura i he fet tasques a Kaggle amb resultats més o menys clars, podria parlar de Deep Learning durant hores, tant pel que fa a nous articles com a tècniques pràctiques.

Després de dinar em van mirar i em van dir: de seguida és obvi que ets guapo, vols parlar amb nosaltres? A més, van afegir que tinc clar que es pot saltar la pantalla per portar a casa + tecnologia. I que em convidaran immediatament al lloc. Vaig estar d'acord.

Després d'això, el reclutador em va trucar per programar una entrevista in situ i no estava satisfet. Va murmurar alguna cosa sobre no saltar-te per sobre del cap.

va venir. Entrevista in situ. Cinc hores de comunicació amb diferents persones. No hi havia una sola pregunta sobre l'aprenentatge profund, ni sobre l'aprenentatge automàtic en principi. Com que no hi ha aprenentatge profund / visió per ordinador, no m'interessa. Així, els resultats de l'entrevista eren ortogonals.

Aquest reclutador truca i diu: enhorabona, heu arribat a la segona entrevista in situ. Tot això és sorprenent. Quin és el segon lloc? Mai he sentit parlar d'una cosa així. Vaig anar. Hi ha un parell d'hores, aquesta vegada tot sobre l'aprenentatge automàtic tradicional. Això està millor. Però encara no és interessant.

El reclutador truca amb felicitacions perquè he superat la tercera entrevista in situ i promet que aquesta serà l'última. El vaig anar a veure i hi havia tant un DL com un CV.

Vaig tenir un anterior durant molts mesos que em va dir que no hi hauria oferta. Entrenaré no en habilitats tècniques, sinó en habilitats suaus. No pel costat tou, sinó pel fet que la posició es tancarà o que l'empresa encara no contracta, sinó que simplement està provant el mercat i el nivell de candidats.

Mitjans d'agost. Vaig beure cervesa bé. Pensaments foscos. Han passat 8 mesos i encara no hi ha oferta. És bo ser creatiu sota la cervesa, sobretot si la creativitat és estranya. Em ve al cap una idea. Ho comparteixo amb Alexey Shvets, que en aquell moment era postdoctoral al MIT.

Què passa si agafeu la conferència de DL/CV més propera, mireu les competicions que se celebren com a part d'aquesta, entreneu alguna cosa i us presenteu? Com que tots els experts d'allà estan construint la seva carrera en això i han estat fent-ho durant molts mesos o fins i tot anys, no tenim cap possibilitat. Però no fa por. Fem una presentació significativa, volem a l'últim lloc i després escrivim una preimpressió o un article sobre com no som com tots i parlem de la nostra decisió. I l'article ja està a LinkedIn i al teu currículum.

És a dir, sembla que és rellevant i hi ha paraules clau més correctes al currículum, la qual cosa hauria d'augmentar lleugerament les possibilitats d'arribar a la pantalla tecnològica. Codi i enviaments meus, textos d'Alexei. Joc, és clar, però per què no?

No més aviat dir que fet. La conferència més propera que vam buscar a Google va ser MICCAI i, de fet, hi havia competicions. Vam colpejar el primer. Va ser Anàlisi d'imatges gastrointestinals (GIANA). La tasca té 3 subtasques. Quedaven 8 dies per a la data límit. Em vaig posar tranquil al matí, però no vaig renunciar a la idea. Vaig agafar les meves canonades de Kaggle i les vaig canviar de dades de satèl·lit a dades mèdiques. 'ajustar_predir'. Alexey va preparar una descripció de dues pàgines de solucions per a cada problema i la vam enviar. A punt. En teoria, pots exhalar. Però va resultar que hi havia una altra tasca per al mateix taller (Segmentació d'instruments robòtics) amb tres subtasques i que la seva data límit es va avançar 4 dies, és a dir, podem fer-hi 'fit_predict' i enviar-la. Això és el que vam fer.

A diferència de Kaggle, aquestes competicions tenien les seves pròpies característiques acadèmiques:

  1. Sense classificació. Les presentacions s'envien per correu electrònic.
  2. Seràs eliminat si un representant de l'equip no ve a presentar la solució a la conferència al Taller.
  3. El vostre lloc a la classificació només es coneix durant la conferència. Una mena de drama acadèmic.

La conferència MICCAI 2017 es va celebrar a la ciutat de Quebec. Per ser sincer, al setembre ja estava començant a esgotar-me, així que la idea de prendre una setmana de descans de la feina i anar al Canadà semblava interessant.

Va venir a la conferència. Vaig venir a aquest Taller, no conec ningú, estic assegut al racó. Tothom es coneix, es comuniquen, llencen paraules mèdiques intel·ligents. Revisió del primer concurs. Els participants parlen i parlen de les seves decisions. Allà està genial, amb una brillantor. El meu torn. I d'alguna manera fins i tot em fa vergonya. Van resoldre el problema, van treballar-hi, van avançar en ciència i estem purament "fit_predict" dels desenvolupaments passats, no per a la ciència, sinó per impulsar el nostre currículum.

Va sortir i va dir que tampoc sóc un expert en medicina, es va disculpar per haver perdut el temps i em va mostrar una diapositiva amb la solució. Vaig baixar al passadís.

Anuncian la primera subtasca: som els primers, i per un marge.
S'anuncien el segon i el tercer.
Anuncian el tercer, un altre cop primer i un altre cop amb avantatge.
El general és el primer.

De físics a ciència de dades (De motors de ciència al plàncton d'oficina). La tercera part

Nota de premsa oficial.

Alguns del públic somriuen i em miren amb respecte. Altres, aquells que aparentment eren considerats experts en la matèria, havien guanyat una beca per aquesta tasca i feia molts anys que ho feien, tenien una expressió una mica distorsionada a la cara.

A continuació hi ha la segona tasca, la de tres subtasques i que s'ha avançat quatre dies.

Aquí també em vaig disculpar i vaig tornar a mostrar la nostra diapositiva.
La mateixa història. Dos primer, un segon, comú primer.

Crec que és probablement la primera vegada a la història que una agència de cobrament guanya un concurs d'imatge mèdica.

I ara estic a l'escenari, m'entreguen una mena de diploma i estic bombardejat. Com pot ser això? Aquests acadèmics estan gastant els diners dels contribuents, treballant per simplificar i millorar la qualitat del treball dels metges, és a dir, en teoria, la meva esperança de vida, i algun cos va esquinçar tot aquest personal acadèmic a la bandera britànica en poques nits.

Un avantatge d'això és que en altres equips, els estudiants de postgrau que porten molts mesos treballant en aquestes tasques tindran un currículum atractiu per a RRHH, és a dir, arribaran fàcilment a la pantalla tecnològica. I davant els meus ulls hi ha un correu electrònic acabat de rebre:

A Googler recently referred you for the Research Scientist, Google Brain (United States) role. We carefully reviewed your background and experience and decided not to proceed with your application at this time.

En general, des de l'escenari, pregunto al públic: "Algú sap on treballo?" Un dels organitzadors de la competició ho sabia: va buscar a Google què era TrueAccord. La resta no ho són. Continuo: “Treball per a una agència de cobrament, i a la feina no faig ni visió per computador ni aprenentatge profund. I de moltes maneres, això passa perquè els departaments de recursos humans de Google Brain i Deepmind filtren el meu currículum, sense donar-me l'oportunitat de mostrar formació tècnica. "

Van lliurar el certificat, un descans. Un grup d'acadèmics em fa a un costat. Va resultar que aquest és un grup de salut amb Deepmind. Estaven tan impressionats que de seguida van voler parlar amb mi sobre la vacant d'Enginyer de recerca al seu equip. (Vam parlar. Aquesta conversa va durar 6 mesos, vaig aprovar el test per emportar-se a casa, però em van interrompre a la pantalla tecnològica. 6 mesos des de l'inici de la comunicació fins a la pantalla tecnològica és molt de temps. La llarga espera dóna un tast d'inutilitat. Enginyer d'investigació a Deepmind a Londres, amb el rerefons de TrueAccord hi va haver un gran pas endavant, però amb el rerefons de la meva posició actual és un pas cap avall. Des d'una distància de dos anys que han passat des d'aleshores, és bo que no ho va fer.)

Conclusió

Al mateix temps, vaig rebre una oferta de Lyft, que vaig acceptar.
A partir dels resultats d'aquests dos concursos amb el MICCAI, es van publicar els següents:

  1. Segmentació automàtica d'instruments en cirurgia assistida per robot mitjançant aprenentatge profund
  2. Detecció i localització d'angiodisplàsia mitjançant xarxes neuronals convolucionals profundes
  3. 2017 Repte de segmentació d'instruments robòtics

És a dir, malgrat el caràcter salvatge de la idea, afegir articles incrementals i preprints a través de concursos funciona bé. I els anys següents ho vam fer encara pitjor.

De físics a ciència de dades (De motors de ciència al plàncton d'oficina). La tercera part

He estat treballant a Lyft durant els darrers dos anys fent visió per ordinador/aprenentatge profund per a cotxes de conducció autònoma. És a dir, vaig aconseguir el que volia. I tasques, i una empresa d'alt estatus, i companys forts, i totes les altres llaminadures.

Durant aquests mesos he tingut comunicació tant amb grans empreses Google, Facebook, Uber, LinkedIn, com amb un mar de startups de diferents mides.

Ha fet mal tots aquests mesos. L'univers et diu alguna cosa no gaire agradable cada dia. El rebuig periòdic, els errors regulars i tot això s'aromes d'un sentiment persistent de desesperança. No hi ha garanties que tingueu èxit, però hi ha la sensació que sou un ximple. Recorda molt com vaig intentar trobar feina just després de la universitat.

Crec que molts buscaven feina a la vall i tot els va ser molt més fàcil. El truc, al meu entendre, és aquest. Si busques feina en un camp en el qual entens, tens molta experiència i el teu currículum diu el mateix, no hi ha problemes. El vaig agafar i el vaig trobar. Hi ha moltes vacants.

Però si estàs buscant una feina en un camp que és nou per a tu, és a dir, quan no hi ha coneixements, no hi ha connexions i el teu currículum diu alguna cosa malament, en aquest moment tot es torna molt interessant.

Ara mateix, els reclutadors m'escriuen regularment i m'ofereixen fer el mateix que estic fent ara, però en una empresa diferent. Realment és hora de canviar de feina. Però no té sentit anar a fer allò en què ja sóc bo. Per a què?

Però pel que vull, de nou no tinc ni els coneixements ni les línies al meu currículum. A veure com acaba tot això. Si tot va bé, escriuré la següent part. 🙂

Font: www.habr.com

Afegeix comentari