Notas Data Científico: por onde comezar e é necesario?

Notas Data Científico: por onde comezar e é necesario?

TL;DR é unha publicación para preguntas/respostas sobre Data Science e como entrar na profesión e desenvolverse nela. No artigo analizarei os principios básicos e as preguntas frecuentes e estou preparado para responder ás túas preguntas específicas: escribe nos comentarios (ou nunha mensaxe privada), tentarei responder todo nuns días.

Coa chegada da serie de notas "Data satanista", chegaron moitas mensaxes e comentarios con preguntas sobre como comezar e onde cavar, e hoxe analizaremos as principais habilidades e preguntas que xurdiron tras as publicacións.

Todo o exposto aquí non pretende ser a verdade última e é a opinión subxectiva do autor. Observaremos as principais cousas que nos parecen máis importantes no proceso.

Por que é exactamente isto necesario?

Para que o obxectivo sexa mellor alcanzable, para que pareza polo menos algo específico - queres converterte nun DS ou un científico investigador en Facebook/Apple/Amazon/Netflix/Google - mira os requisitos, os idiomas e as habilidades necesarias. concretamente para que posto. Cal é o proceso de contratación? Como pasa un día típico nun papel así? Como é o perfil medio dunha persoa que traballa alí?

A miúdo, a imaxe xeral é que unha persoa non entende realmente o que quere exactamente e non está do todo claro como prepararse para esta imaxe pouco clara, polo que paga a pena ter polo menos un plan aproximado do que quere exactamente.

Concreta a visión actual do obxectivo

Aínda que cambie ao longo do camiño, e en xeral é normal cambiar de plans durante o transcurso da obra, paga a pena ter un obxectivo e centrarse nel, avaliándoo e repensando periodicamente.

Será ou segue sendo relevante?

No momento en que creces nunha posición.

Imaxina que antes do teu posto necesitas obter un doutoramento, traballar durante 2-3 anos na industria e, en xeral, cortarte o pelo mentres meditas nun mosteiro. avogados? Cambiará todo máis alá do recoñecemento no ámbito que queres perseguir?

Non hai unha boa oportunidade de que todo o mundo se apresure alí agora e vexamos unha imaxe na que hai unha ampla capa de persoas que están tentando entrar na profesión, e simplemente haberá unha escasa posición inicial.

Pode valer a pena ter en conta as tendencias actuais á hora de escoller un camiño, non só o estado actual do mercado laboral, senón tamén a túa idea de como está cambiando e onde está.

Por exemplo, o autor non planeaba converterse nun satanista, pero durante o seu doutoramento traballou en proxectos de terceiros que tiñan fortes habilidades en común con DS, e ao final da escola de posgrao cambiou naturalmente ao medio ambiente, vendo un bo posición.

Se durante o transcurso da obra resulta que será necesario moverse a outro lugar, porque agora hai máis movementos e todas as accións máis interesantes están a suceder, entón moverémonos alí de forma natural.

Desglose de habilidades

Estas son categorías condicionais de habilidades que me parecen clave para un traballo completo e eficaz en DS. Destacarei o inglés por separado: aprende o que fagas en CS. A continuación están as categorías clave.

Programación/Scripting

Con que idiomas estás seguro de familiarizarte? Python? Java? Script de shell? Lua? SQL? C++?

O que precisa para poder facer exactamente e por que en termos de programación - o rango de posicións aquí varía moito.

Por exemplo, moitas veces teño que implementar lóxica complexa, consultas, modelos, análises e, en xeral, desenvolver sistemas interpretados, pero case nunca hai requisitos para a velocidade do código, excepto os máis xerais e razoables.

Polo tanto, o meu conxunto de habilidades é moi diferente dos que escriben a biblioteca Tensorflow e pensan en optimizar o código para un uso eficiente da caché l1 e cousas similares, así que mira o que precisas exactamente e avalía o camiño correcto para aprender.

Por exemplo, para python, a xente xa se maquilla un mapa aprendizaxe de idiomas.

Seguramente, xa hai consellos experimentados e boas fontes para as túas necesidades: tes que decidir sobre unha lista e comezar a traballar nela.

Comprensión dos procesos de negocio

Non podes ir a ningún lado sen el: cómpre entender por que é necesario neste proceso, que estás facendo e por que. Moitas veces isto é o que pode aforrarche moito tempo, maximizar o teu beneficio e non perder tempo e recursos en tonterías.

Normalmente, fágome as seguintes preguntas:

  • Que fago exactamente na empresa?
  • Por que?
  • Quen o usará e como?
  • Que opcións teño?
  • Cales son os límites dos parámetros?

Aquí tes un pouco máis de detalle sobre os parámetros: moitas veces podes cambiar moito o escenario de traballo se sabes que se pode sacrificar algo: por exemplo, a interpretabilidade ou viceversa, un par de por cento non xogará un papel aquí e temos unha solución moi rápida. solución, e o cliente a necesita, porque paga polo tempo que se está a executar a canalización en AWS.

Matemáticas

Aquí pensas e entendes todo ti mesmo -sen coñecementos de matemáticas básicas non eres máis que monos cunha granada (perdón Random Forest)-, polo que tes que entender polo menos as cousas básicas. Se tivese que compilar unha lista moi mínima, incluiría:

  • Álxebra lineal: un gran número de recursos son fáciles de buscar en Google, busca o que máis che convén;
  • Análise matemática - (polo menos nos dous primeiros semestres);
  • A teoría da probabilidade está en todas partes na aprendizaxe automática;
  • Combinatoria - en realidade é complementaria á teoría;
  • Teoría de gráficos - polo menos BÁSICA;
  • Algoritmos - polo menos durante os dous primeiros semestres (ver as recomendacións de Cormen no seu libro);
  • Mathlogic - polo menos básico.

Análise e visualización de datos prácticos

Unha das cousas máis importantes é poder non ter medo de ensuciarse as mans cos datos e realizar unha análise completa do conxunto de datos, do proxecto e crear unha visualización rápida de datos.

A análise exploratoria de datos simplemente debería converterse en algo natural, como todas as outras transformacións de datos e a capacidade de crear unha canalización sinxela a partir de nodos Unix (ver artigos anteriores) ou escribir un caderno lexible e comprensible.

Gustaríame mencionar a visualización: é mellor ver unha vez que escoitar cen veces.

Mostrar un gráfico a un xestor é cen veces máis fácil e claro que un conxunto de números, polo que matplotlib, seaborn e ggplot2 son os teus amigos.

Habilidades brandas

É igualmente importante poder comunicar as túas ideas, así como os resultados e as preocupacións (etc.) aos demais; asegúrate de poder indicar claramente a tarefa en termos técnicos e comerciais.

Podes explicar a compañeiros, xestores, superiores, clientes e a calquera outra persoa que o necesite o que está a suceder, que datos está a usar e que resultados obtivo.

Os teus gráficos e documentación deberían lerse sen ti. É dicir, non é preciso acudir a ti para entender o que alí está escrito.

Podes facer unha presentación clara para entender o punto e/ou documentar o proxecto/o teu traballo.

Podes transmitir a túa posición de forma razoada e sen emoción, dicir "si/non" ou cuestionar/apoiar unha decisión.

formación

Hai moitos lugares diferentes onde podes aprender todo isto. Darei unha pequena lista: probei todo e, para ser honesto, cada elemento ten os seus pros e contras. Probao e decide o que che convén, pero recoméndoche probar varias opcións e non quedarse atrapado nunha.

  • Cursos en liña: coursera, udacity, Edx, etc;
  • Novas escolas: en liña e fóra de liña - SkillFactory, ShAD, MADE;
  • Escolas clásicas: programas de máster universitario e ciclos formativos de perfeccionamento;
  • Proxectos: simplemente podes seleccionar tarefas que che interesen e cortalas, cargándoas a github;
  • Prácticas: é difícil suxerir algo aquí; tes que buscar o que hai dispoñible e atopar opcións adecuadas.

É necesario?

En conclusión, probablemente engadirei tres principios persoais que intento seguir eu mesmo.

  • Debe ser interesante;
  • Traer pracer interior (= polo menos non causar sufrimento);
  • "Para ser teu".

Por que eles? É difícil imaxinar facer algo todos os días e non gozar ou non estar interesado. Imaxina que es médico e que odia comunicarse coa xente - isto, por suposto, pode funcionar dalgún xeito, pero estarás constantemente incómodo co fluxo de pacientes que queren preguntarche algo. Isto non funciona a longo prazo.

Por que mencionei específicamente o pracer interno? Paréceme que isto é necesario para un posterior desenvolvemento e, en principio, o proceso de aprendizaxe. Gústame moito cando logro completar algunha característica complexa e construír un modelo ou calcular un parámetro importante. Gústame cando o meu código é esteticamente fermoso e ben escrito. Polo tanto, aprender algo novo é interesante e non require directamente ningunha motivación significativa.

"Ser teu" é a mesma sensación de que isto é aproximadamente o que querías facer. Teño unha pequena historia. Desde neno interesoume a música rock (e o metal - SALMON!) e, como tantos outros, quería aprender a tocar e iso é todo. Resultou que non tiña oído nin voz, isto non me molestaba en absoluto (e debo dicir que isto non molesta a moitos intérpretes no escenario), e cando aínda estaba na escola conseguín unha guitarra... e quedou claro que non me gusta moito estar sentado durante horas e xogar nel. Estaba indo duro, sempre me pareceu que saía algún tipo de merda: non me gustaba nada e simplemente sentíame pésimo, estúpido e completamente incapaz. Obrigueime literalmente a sentarme ás clases e, en xeral, non era boa comida para o cabalo.

Ao mesmo tempo, podía sentarme con bastante calma durante horas desenvolvendo algún xoguete, usando un guión para animar algo en flash (ou outra cousa) e estaba moi motivado para rematar elementos do xogo ou tratar coa mecánica do movemento e/ou conectar bibliotecas de terceiros, complementos e todo o demais.

E nalgún momento deime conta de que tocar a guitarra non é cousa miña e que me gusta moito escoitar, non tocar. E os meus ollos brillaban cando escribía xogos e código (escoitando todo tipo de metal nese momento) e iso é o que me gustaba entón, e iso debería estar facendo.

Tes outras preguntas?

Por suposto, non puidemos repasar todos os temas e preguntas, así que escríbeme comentarios e envíame un correo electrónico. Sempre estou feliz de ter preguntas.

Notas Data Científico: por onde comezar e é necesario?

Notas Data Científico: por onde comezar e é necesario?

Fonte: www.habr.com

Engadir un comentario