De físicos á ciencia de datos (De motores de ciencia ao plancto de oficina). A terceira parte

De físicos á ciencia de datos (De motores de ciencia ao plancto de oficina). A terceira parte

Esta imaxe é de Arthur Kuzin (n01z3), resume con bastante precisión o contido da publicación do blog. Como resultado, a seguinte narración debería ser percibida máis como unha historia do venres que como algo extremadamente útil e técnico. Ademais, cabe destacar que o texto é rico en palabras inglesas. Non sei como traducir correctamente algúns deles, e simplemente non quero traducir algúns deles.

A primeira parte.
Segunda parte.

Nos dous primeiros episodios revélase como se produciu a transición dun ámbito académico a outro industrial. Neste, a conversa versará sobre o que pasou a continuación.

Era xaneiro de 2017. Daquela, tiña algo máis dun ano de experiencia laboral e traballaba en San Francisco na empresa TrueAccord como Sr. Científico de datos.

TrueAccord é unha empresa de cobro de débedas. En termos sinxelos - unha axencia de cobro. Os coleccionistas adoitan chamar moito. Enviamos moitos correos electrónicos, pero fixemos poucas chamadas. Cada correo electrónico conducía ao sitio web da empresa, onde se lle ofrecía ao debedor un desconto na débeda e mesmo se lle permitía pagar a prazos. Este enfoque levou a unha mellor recollida, permitiu a escala e unha menor exposición a demandas.

A empresa era normal. O produto é claro. A xestión é sensata. A localización é boa.

De media, a xente do val traballa nun lugar durante aproximadamente un ano e medio. É dicir, calquera empresa na que traballes é só un pequeno paso. Neste paso conseguirás cartos, adquirirás novos coñecementos, habilidades, conexións e liñas no teu currículo. Despois disto, hai unha transición ao seguinte paso.

No propio TrueAccord, estiven involucrado en anexar sistemas de recomendación aos boletíns de correo electrónico, así como en priorizar as chamadas telefónicas. O impacto é comprensible e mediuse bastante ben en dólares mediante probas A/B. Como non había aprendizaxe automática antes da miña chegada, o impacto do meu traballo non foi malo. De novo, é moito máis doado mellorar algo que algo que xa está moi optimizado.

Despois de seis meses de traballar nestes sistemas, incluso aumentaron o meu salario base de $ 150k a $ 163k. Na comunidade Ciencia de datos abertos (ODS) hai un meme de 163 mil dólares. Crece coas patas dende aquí.

Todo isto foi marabilloso, pero non levou a ningún lado, ou levou, pero non alí.

Teño un gran respecto por TrueAccord, tanto pola empresa como polos rapaces cos que traballei alí. Aprendín moito con eles, pero non quería traballar durante moito tempo en sistemas de recomendación nunha axencia de recadación. A partir deste paso había que dar un paso nalgunha dirección. Se non cara adiante e cara arriba, polo menos de lado.

Que non me gustou?

  1. Desde a perspectiva da aprendizaxe automática, os problemas non me entusiasmaron. Quería algo de moda, xuvenil, é dicir, Deep Learning, Computer Vision, algo máis ben próximo á ciencia ou polo menos á alquimia.
  2. Unha startup, e mesmo unha axencia de cobranza, ten problemas para contratar persoal altamente cualificado. Como startup, non pode pagar moito. Pero como axencia de cobranza, perde status. En liñas xerais, se unha rapaza nunha cita pregunta onde traballas? A túa resposta: "En Google" soa a ordes de magnitude mellor que "axencia de cobro". Molestábame un pouco o feito de que para os meus amigos que traballan en Google e Facebook, a diferenza de min, o nome da súa empresa abría portas como: podes convidarte a unha conferencia ou reunión como relator, ou a xente máis interesante que escribe en LinkedIn cunha oferta para reunirse para falar cunha copa de té. Encántame moito comunicarme con persoas que non coñezo en persoa. Entón, se vives en San Francisco, non dubides en escribir: imos tomar un café e falar.
  3. Ademais de min, traballaban na empresa tres Data Scientists. Estaba traballando na aprendizaxe automática, e eles estaban traballando noutras tarefas de Data Science, que son habituais en calquera startup de aquí a mañá. Como resultado, non entendían realmente a aprendizaxe automática. Pero para crecer, teño que comunicarme con alguén, discutir artigos e as últimas novidades e, ao final, pedir consello.

Que estaba dispoñible?

  1. Educación: física, non informática.
  2. A única linguaxe de programación que coñecía era Python. Houbo a sensación de que necesitaba cambiar a C++, pero aínda non podía facelo.
  3. Ano e medio de traballo no sector. Ademais, no traballo non estudei nin Deep Learning nin Computer Vision.
  4. Nin un só artigo sobre Deep Learning / Computer Vision no currículo.
  5. Houbo un logro Kaggle Master.

Que querías?

  1. Unha posición na que será necesario adestrar moitas redes, e máis preto da visión por ordenador.
  2. É mellor se é unha empresa grande como Google, Tesla, Facebook, Uber, LinkedIn, etc. Aínda que nunha pitada, unha startup faría.
  3. Non necesito ser o maior experto en aprendizaxe automática do equipo. Había unha gran necesidade de compañeiros maiores, mentores e todo tipo de comunicación, que se supoñía que aceleraría o proceso de aprendizaxe.
  4. Despois de ler as publicacións do blog sobre como os graduados sen experiencia industrial teñen unha compensación total de $ 300-500k ao ano, quería entrar no mesmo rango. Non é que isto me moleste tanto, pero como din que este é un fenómeno común, pero teño menos, isto é un sinal.

A tarefa parecía completamente resolubel, aínda que non no sentido de que poidas saltar a calquera empresa, senón de que se morres de fame, todo funcionará. É dicir, decenas ou centos de intentos, e a dor de cada fracaso e cada rexeitamento, deberían utilizarse para afinar o foco, mellorar a memoria e estirar o día ata as 36 horas.

Axustei o meu currículo, comecei a envialo e a ir a entrevistas. Pasei por diante da maioría deles na fase de comunicación con RRHH. Moita xente necesitaba C++, pero eu non o sabía, e tiña unha forte sensación de que non estaría moi interesado en postos que requiran C++.

Paga a pena notar que ao mesmo tempo houbo unha transición de fase no tipo de competicións en Kaggle. Antes de 2017 había moitos datos tabulares e moi raramente datos de imaxes, pero a partir de 2017 había moitas tarefas de visión por ordenador.

A vida fluíu do seguinte xeito:

  1. Traballar durante o día.
  2. Cando a pantalla tecnolóxica / no lugar tomas un tempo libre.
  3. Tardes e fins de semana Kaggle + artigos / libros / publicacións de blog

O final de 2016 estivo marcado polo feito de entrar na comunidade Ciencia de datos abertos (ODS), que simplificou moitas cousas. Hai moitos rapaces na comunidade cunha rica experiencia industrial, o que nos permitiu facer moitas preguntas estúpidas e obter moitas respostas intelixentes. Tamén hai moitos especialistas en aprendizaxe automática de todos os niveis, o que, de forma inesperada, permitiume, a través de ODS, pechar o problema cunha comunicación regular e en profundidade sobre Data Science. Ata agora, en termos de ML, ODS dáme moitas veces máis do que teño no traballo.

Ben, como é habitual, ODS ten suficientes especialistas en competicións en Kaggle e outros sitios. Resolver problemas en equipo é máis divertido e produtivo, polo que con chistes, insultos, memes e outros entretementos nerds, comezamos a resolver os problemas un por un.

En marzo de 2017 - nun equipo con Serega Mushinsky - terceiro lugar para Detección de funcións de imaxes de satélite Dstl. Medalla de ouro en Kaggle + $20k para dous. Nesta tarefa mellorouse o traballo con imaxes de satélite + segmentación binaria a través de UNet. Publicación do blog sobre Habré sobre este tema.

Ese mesmo marzo, fun a unha entrevista na NVidia co equipo de Self Driving. Loitei moito coas preguntas sobre a detección de obxectos. Non había coñecemento suficiente.

Afortunadamente, ao mesmo tempo, comezou o concurso de Detección de obxectos sobre imaxes aéreas do mesmo DSTL. Deus mesmo ordenou resolver o problema e actualizar. Un mes de noites e fins de semana. Collín os coñecementos e quedei segundo. Esta competición tiña un matiz interesante nas bases, o que levou a que me mostrara en Rusia en canles federais e non tan federais. púxenme casa Lenta.ru, e nunha chea de publicacións impresas e en liña. Mail Ru Group recibiu un pouco de RRPP positivo á miña conta e o seu propio diñeiro, e a ciencia fundamental en Rusia enriqueceuse con 12000 libras. Como é habitual, escribiuse sobre este tema publicación do blog sobre hubr. Vaia alí para obter máis detalles.

Ao mesmo tempo, un reclutador de Tesla púxose en contacto comigo e ofreceuse para falar sobre o posto de Computer Vision. Aceptei. Corrín pola casa, dúas pantallas de tecnoloxía, unha entrevista no lugar e tiven unha conversa moi agradable con Andrei Karpathy, que acababa de ser contratado en Tesla como director de IA. A seguinte etapa é a verificación de antecedentes. Despois diso, Elon Musk tivo que aprobar persoalmente a miña solicitude. Tesla ten un estrito acordo de non divulgación (NDA).
Non pasei a comprobación de antecedentes. O reclutador dixo que chato moito en liña, violando a NDA. O único lugar onde dixen algo sobre unha entrevista en Tesla foi ODS, polo que a hipótese actual é que alguén tomou unha captura de pantalla e escribiu a HR en Tesla, e saínme da carreira fóra de perigo. Daquela foi unha mágoa. Agora alégrome de que non funcionou. A miña posición actual é moito mellor, aínda que sería moi interesante traballar con Andrey.

Inmediatamente despois diso, mergulleime no concurso de imaxes de satélite en Kaggle de Planet Labs: entendendo o Amazonas desde o espazo. O problema era sinxelo e moi aburrido; ninguén quería solucionalo, pero todos querían unha medalla de ouro ou un premio en diñeiro gratis. Por iso, cun equipo de Kaggle Masters de 7 persoas, acordamos que tiraríamos ferro. Adestramos 480 redes no modo "fit_predict" e fixemos con elas un conxunto de tres pisos. Rematamos sétimos. Publicación de blog que describe a solución de Arthur Kuzin. Por certo, Jeremy Howard, que é amplamente coñecido como o creador Rápido.AI rematou 23.

Tras o final do concurso, a través dun amigo que traballaba en AdRoll, organicei un Meetup nas súas instalacións. Representantes de Planet Labs falaron alí de como era a organización do concurso e a marcaxe de datos pola súa banda. Wendy Kwan, que traballa en Kaggle e supervisou a competición, falou sobre como o viu. Describín a nosa solución, trucos, técnicas e detalles técnicos. Dous terzos dos asistentes resolveron este problema, polo que as preguntas foron feitas ao grano e en xeral todo foi xenial. Jeremy Howard tamén estaba alí. Resultou que rematou no posto 23 porque non sabía como apilar a maqueta e que non sabía nada deste método de construción de conxuntos.

As reunións no val sobre aprendizaxe automática son moi diferentes das reunións en Moscova. Como regra xeral, as reunións no val son o fondo. Pero o noso saíu ben. Desafortunadamente, o compañeiro que debía premer o botón e gravar todo non premeu o botón :)

Despois diso, invitáronme a falar co posto de Enxeñeiro de Aprendizaxe Profunda neste mesmo Planet Labs e inmediatamente no lugar. Non o pasei. A redacción da negativa é que non hai coñecementos suficientes en Deep Learning.

Deseñei cada concurso como un proxecto LinkedIn. Para o problema DSTL escribimos preimpresión e publicouno en arxiv. Non é un artigo, senón pan. Tamén recomendo a todos os demais que inflen o seu perfil de LinkedIn mediante concursos, artigos, habilidades, etc. Hai unha correlación positiva entre cantas palabras clave tes no teu perfil de LinkedIn e a frecuencia con que a xente che envía mensaxes.

Se no inverno e na primavera era moi técnico, entón en agosto tiña coñecemento e confianza en si mesmo.

A finais de xullo, un rapaz que traballaba como xestor de Data Science en Lyft púxose en contacto comigo en LinkedIn e invitoume a tomar un café e falar sobre a vida, sobre Lyft, sobre TrueAccord. Falamos. Ofreceuse a entrevista co seu equipo para o posto de Data Scientist. Dixen que a opción funciona, sempre que sexa Computer Vision/Deep Learning da mañá á noite. Asegurou que non había obxeccións pola súa parte.

Enviei o meu currículo e cargouno ao portal interno de Lyft. Despois diso, o reclutador chamoume para abrir o meu currículo e saber máis sobre min. Desde as primeiras palabras, quedou claro que para el era unha formalidade, xa que no seu currículo era obvio para el que "non son un material para Lyft". Supoño que despois o meu currículo foi ao lixo.

Durante todo este tempo, mentres me entrevistaban, comentei os meus fracasos e caídas en ODS e os mozos me deron comentarios e axudáronme de todos os xeitos posibles con consellos, aínda que, como é habitual, tamén houbo moito troleo amigable alí.

Un dos membros da ODS ofreceuse a conectarme co seu amigo, que é o director de Enxeñaría de Lyft. Nada máis dicir que feito. Veño a Lyft para xantar, e ademais deste amigo tamén hai un xefe de Data Science e un xestor de produtos que é un gran fan do Deep Learning. No xantar conversamos sobre DL. E xa que levo medio ano adestrando redes 24 horas ao día, 7 días ao día, lin metros cúbicos de literatura e realizo tarefas en Kaggle con resultados máis ou menos claros, podería falar de Deep Learning durante horas, tanto en termos de artigos novos como de técnicas prácticas.

Despois de xantar miráronme e dixéronme: inmediatamente é obvio que es guapo, queres falar connosco? Ademais, engadiron que teño claro que se pode omitir a pantalla de levar a casa + tecnoloxía. E que me invitarán inmediatamente a entrar no lugar. Aceptei.

Despois diso, ese reclutador chamoume para programar unha entrevista in situ e non estaba satisfeito. Murmurou algo sobre non saltar por riba da túa cabeza.

Chegou. Entrevista in situ. Cinco horas de comunicación con diferentes persoas. Non houbo unha soa pregunta sobre a aprendizaxe profunda, nin sobre a aprendizaxe automática en principio. Dado que non hai Deep Learning / Computer Vision, non estou interesado. Así, os resultados da entrevista foron ortogonais.

Este reclutador chama e di: parabéns, chegaches á segunda entrevista in situ. Todo isto é sorprendente. Cal é o segundo lugar? Nunca oín falar de tal cousa. Eu fun. Hai un par de horas alí, esta vez todo sobre aprendizaxe automática tradicional. Iso está mellor. Pero aínda non é interesante.

O reclutador chama con parabéns porque pasei a terceira entrevista in situ e promete que esta será a última. Fun velo e había tanto un DL como un CV.

Tiven moitos meses un prior que me dixo que non habería ningunha oferta. Adestrarei non en habilidades técnicas, senón en habilidades brandas. Non polo lado suave, senón polo feito de que o posto estará pechado ou de que a empresa aínda non contrata, senón que simplemente está a probar o mercado e o nivel dos candidatos.

Mediados de agosto. Bebín cervexa ben. Os pensamentos escuros. Pasaron 8 meses e aínda non hai oferta. É bo ser creativo baixo a cervexa, especialmente se a creatividade é estraña. Vénme unha idea á cabeza. Compártoo con Alexey Shvets, que naquel momento era posdoctoral no MIT.

E se tomas a conferencia DL/CV máis próxima, miras as competicións que se celebran como parte dela, adestras algo e envías? Xa que todos os expertos alí están construíndo a súa carreira sobre isto e levan moitos meses ou mesmo anos facendo isto, non temos ningunha posibilidade. Pero non dá medo. Facemos un envío significativo, volamos ao último lugar e, despois, escribimos unha preimpresión ou un artigo sobre como non somos como todos os demais e falamos da nosa decisión. E o artigo xa está en LinkedIn e no teu currículo.

É dicir, parece que é relevante e hai palabras clave máis correctas no currículo, o que debería aumentar lixeiramente as posibilidades de chegar á pantalla tecnolóxica. Código e envíos min, textos de Alexey. Xogo, claro, pero por que non?

Nada máis dicir que feito. A conferencia máis próxima na que buscamos en Google foi MICCAI e en realidade houbo competicións alí. Acertamos coa primeira. Foi Análise de imaxes gastrointestinais (GIANA). A tarefa ten 3 subtarefas. Quedaban 8 días para o prazo. Estaba sobrio pola mañá, pero non abandonei a idea. Tomei os meus oleodutos de Kaggle e cambiei de datos de satélite a médicos. 'axustar_prever'. Alexey preparou unha descrición de dúas páxinas de solucións para cada problema e enviámola. Listo. En teoría, podes exhalar. Pero resultou que había outra tarefa para o mesmo obradoiro (Segmentación de instrumentos robóticos) con tres subtarefas e que o seu prazo se adiantou 4 días, é dicir, podemos facer alí 'fit_predict' e envialo. Iso foi o que fixemos.

A diferenza de Kaggle, estas competicións tiñan as súas propias características académicas:

  1. Sen clasificación. Os envíos envíanse por correo electrónico.
  2. Serás eliminado se un representante do equipo non acude a presentar a solución na conferencia do Obradoiro.
  3. O teu lugar na táboa de clasificación só se coñece durante a conferencia. Unha especie de drama académico.

A conferencia MICCAI 2017 celebrouse na cidade de Quebec. Para ser honesto, en setembro estaba empezando a esgotarme, así que a idea de tomar unha semana de descanso do traballo e ir a Canadá parecía interesante.

Chegou á conferencia. Vin a este Obradoiro, non coñezo a ninguén, estou sentado na esquina. Todos coñécense, comunícanse, lanzan palabras médicas intelixentes. Revisión do primeiro concurso. Os participantes falan e falan das súas decisións. Alí está ben, cun brillo. A miña quenda. E dalgunha maneira mesmo teño vergoña. Resolveron o problema, traballaron nel, avanzaron na ciencia e estamos puramente "fit_predict" a partir de desenvolvementos pasados, non para a ciencia, senón para impulsar o noso currículo.

Saíu e dixo que tampouco son un experto en medicina, pediu desculpas por perder o tempo e ensinoume unha diapositiva coa solución. Baixei ao corredor.

Anuncian a primeira subtarefa: somos os primeiros, e por unha marxe.
Anúncianse o segundo e o terceiro.
Anuncian o terceiro, de novo primeiro e de novo con vantaxe.
Xeral é o primeiro.

De físicos á ciencia de datos (De motores de ciencia ao plancto de oficina). A terceira parte

Nota de prensa oficial.

Algúns do público sorrín e míranme con respecto. Outros, os que ao parecer eran considerados expertos na materia, conseguiran unha subvención para esta tarefa e levaban moitos anos facendo isto, tiñan unha expresión lixeiramente distorsionada na cara.

A continuación está a segunda tarefa, a de tres subtarefas e que se adiantou catro días.

Aquí tamén pedín desculpas e volvín mostrar a nosa única diapositiva.
A mesma historia. Dous primeiro, un segundo, común primeiro.

Creo que esta é probablemente a primeira vez na historia que unha axencia de recadación gaña un concurso de imaxes médicas.

E agora estou de pé no escenario, estánme entregando algún tipo de diploma e estou bombardeado. Como carallo pode ser iso? Estes académicos están gastando o diñeiro dos contribuíntes, traballando para simplificar e mellorar a calidade do traballo dos médicos, é dicir, en teoría, a miña esperanza de vida, e algún organismo arrincou a todo este persoal académico na bandeira británica nunhas poucas noites.

Unha vantaxe disto é que noutros equipos, os estudantes de posgrao que levan moitos meses traballando nestas tarefas terán un currículo atractivo para RRHH, é dicir, accederán facilmente á pantalla tecnolóxica. E diante dos meus ollos hai un correo electrónico recén recibido:

A Googler recently referred you for the Research Scientist, Google Brain (United States) role. We carefully reviewed your background and experience and decided not to proceed with your application at this time.

En xeral, desde o escenario, pregunto ao público: "¿Alguén sabe onde traballo?" Un dos organizadores da competición sabía: buscou en Google o que era TrueAccord. O resto non. Sigo: “Traballo para unha axencia de cobro, e no traballo non fago nin Visión por Computadora nin Aprendizaxe Profunda. E en moitos sentidos, isto ocorre porque os departamentos de RRHH de Google Brain e Deepmind filtran o meu currículo, sen que me dean a oportunidade de mostrar formación técnica. "

Entregaron o certificado, un descanso. Un grupo de académicos tírame a un lado. Resultou que este é un grupo de saúde con Deepmind. Quedaron tan impresionados que de inmediato quixeron falar comigo sobre a vacante de Enxeñeiro de Investigación no seu equipo. (Falamos. Esta conversa durou 6 meses, aprobei levar a casa, proba, pero quedei curto na pantalla tecnolóxica. 6 meses desde o inicio da comunicación ata a pantalla tecnolóxica son moito tempo. A longa espera dá gusto de inutilidade.Enxeñeiro de investigación en Deepmind en Londres, no contexto de TrueAccord houbo un forte paso arriba, pero no contexto da miña posición actual é un paso abaixo. Dende unha distancia de dous anos que pasaron desde entón, é bo que non.)

Conclusión

Ao mesmo tempo, recibín unha oferta de Lyft, que aceptei.
A partir dos resultados destes dous concursos co MICCAI, publicáronse os seguintes:

  1. Segmentación automática de instrumentos en cirurxía asistida por robot mediante a aprendizaxe profunda
  2. Detección e localización da angiodisplasia mediante redes neuronais convolucionais profundas
  3. 2017 Desafío de segmentación de instrumentos robóticos

É dicir, a pesar do salvaxe da idea, engadir artigos incrementais e preimpresións a través de concursos funciona ben. E nos anos seguintes empeoramos aínda máis.

De físicos á ciencia de datos (De motores de ciencia ao plancto de oficina). A terceira parte

Estiven traballando en Lyft durante os últimos anos facendo Visión por Computador/Aprendizaxe Profundo para automóbiles. É dicir, conseguín o que quería. E tarefas, e unha empresa de alto status, e compañeiros fortes, e todas as demais golosinas.

Durante estes meses, tiven comunicación tanto con grandes empresas Google, Facebook, Uber, LinkedIn, como cun mar de startups de varios tamaños.

Doeu todos estes meses. O universo diche algo non moi agradable todos os días. Rexeitamento regular, cometer erros regularmente e todo iso está aromatizado cunha persistente sensación de desesperanza. Non hai garantías de que teñas éxito, pero hai a sensación de que es un parvo. É unha reminiscencia de como tente buscar traballo despois da universidade.

Creo que moitos buscaban traballo no val e todo lles foi moito máis doado. O truco, na miña opinión, é este. Se buscas un traballo nun campo no que entendes, tes moita experiencia e o teu currículo di o mesmo, non hai problemas. Colleino e atopeino. Hai moitas prazas libres.

Pero se estás a buscar un traballo nun campo que é novo para ti, é dicir, cando non hai coñecementos, non hai conexións e o teu currículo di algo mal, neste momento todo vólvese moi interesante.

Agora mesmo, os reclutadores escríbenme regularmente e ofrécense facer o mesmo que estou facendo agora, pero nunha empresa diferente. Realmente é hora de cambiar de traballo. Pero non serve de nada ir facer o que xa son bo. Para qué?

Pero para o que quero, de novo non teño nin os coñecementos nin as liñas no meu currículo. A ver como acaba todo isto. Se todo vai ben, escribirei a seguinte parte. 🙂

Fonte: www.habr.com

Engadir un comentario