TL;DR é unha publicación para preguntas/respostas sobre Data Science e como entrar na profesión e desenvolverse nela. No artigo analizarei os principios básicos e as preguntas frecuentes e estou preparado para responder ás túas preguntas específicas: escribe nos comentarios (ou nunha mensaxe privada), tentarei responder todo nuns días.
Coa chegada da serie de notas "Data satanista", chegaron moitas mensaxes e comentarios con preguntas sobre como comezar e onde cavar, e hoxe analizaremos as principais habilidades e preguntas que xurdiron tras as publicacións.
Todo o exposto aquí non pretende ser a verdade última e é a opinión subxectiva do autor. Observaremos as principais cousas que nos parecen máis importantes no proceso.
Por que é exactamente isto necesario?
Para que o obxectivo sexa mellor alcanzable, para que pareza polo menos algo específico - queres converterte nun DS ou un científico investigador en Facebook/Apple/Amazon/Netflix/Google - mira os requisitos, os idiomas e as habilidades necesarias. concretamente para que posto. Cal é o proceso de contratación? Como pasa un día típico nun papel así? Como é o perfil medio dunha persoa que traballa alí?
A miúdo, a imaxe xeral é que unha persoa non entende realmente o que quere exactamente e non está do todo claro como prepararse para esta imaxe pouco clara, polo que paga a pena ter polo menos un plan aproximado do que quere exactamente.
Concreta a visión actual do obxectivo
Aínda que cambie ao longo do camiño, e en xeral é normal cambiar de plans durante o transcurso da obra, paga a pena ter un obxectivo e centrarse nel, avaliándoo e repensando periodicamente.
Será ou segue sendo relevante?
No momento en que creces nunha posición.
Imaxina que antes do teu posto necesitas obter un doutoramento, traballar durante 2-3 anos na industria e, en xeral, cortarte o pelo mentres meditas nun mosteiro. avogados? Cambiará todo máis alá do recoñecemento no ámbito que queres perseguir?
Non hai unha boa oportunidade de que todo o mundo se apresure alí agora e vexamos unha imaxe na que hai unha ampla capa de persoas que están tentando entrar na profesión, e simplemente haberá unha escasa posición inicial.
Pode valer a pena ter en conta as tendencias actuais á hora de escoller un camiño, non só o estado actual do mercado laboral, senón tamén a túa idea de como está cambiando e onde está.
Por exemplo, o autor non planeaba converterse nun satanista, pero durante o seu doutoramento traballou en proxectos de terceiros que tiñan fortes habilidades en común con DS, e ao final da escola de posgrao cambiou naturalmente ao medio ambiente, vendo un bo posición.
Se durante o transcurso da obra resulta que será necesario moverse a outro lugar, porque agora hai máis movementos e todas as accións máis interesantes están a suceder, entón moverémonos alí de forma natural.
Desglose de habilidades
Estas son categorías condicionais de habilidades que me parecen clave para un traballo completo e eficaz en DS. Destacarei o inglés por separado: aprende o que fagas en CS. A continuación están as categorías clave.
Programación/Scripting
Con que idiomas estás seguro de familiarizarte? Python? Java? Script de shell? Lua? SQL? C++?
O que precisa para poder facer exactamente e por que en termos de programación - o rango de posicións aquí varía moito.
Por exemplo, moitas veces teño que implementar lóxica complexa, consultas, modelos, análises e, en xeral, desenvolver sistemas interpretados, pero case nunca hai requisitos para a velocidade do código, excepto os máis xerais e razoables.
Polo tanto, o meu conxunto de habilidades é moi diferente dos que escriben a biblioteca Tensorflow e pensan en optimizar o código para un uso eficiente da caché l1 e cousas similares, así que mira o que precisas exactamente e avalía o camiño correcto para aprender.
Por exemplo, para python, a xente xa se maquilla
Seguramente, xa hai consellos experimentados e boas fontes para as túas necesidades: tes que decidir sobre unha lista e comezar a traballar nela.
Comprensión dos procesos de negocio
Non podes ir a ningún lado sen el: cómpre entender por que é necesario neste proceso, que estás facendo e por que. Moitas veces isto é o que pode aforrarche moito tempo, maximizar o teu beneficio e non perder tempo e recursos en tonterías.
Normalmente, fágome as seguintes preguntas:
- Que fago exactamente na empresa?
- Por que?
- Quen o usará e como?
- Que opcións teño?
- Cales son os límites dos parámetros?
Aquí tes un pouco máis de detalle sobre os parámetros: moitas veces podes cambiar moito o escenario de traballo se sabes que se pode sacrificar algo: por exemplo, a interpretabilidade ou viceversa, un par de por cento non xogará un papel aquí e temos unha solución moi rápida. solución, e o cliente a necesita, porque paga polo tempo que se está a executar a canalización en AWS.
Matemáticas
Aquí pensas e entendes todo ti mesmo -sen coñecementos de matemáticas básicas non eres máis que monos cunha granada (perdón Random Forest)-, polo que tes que entender polo menos as cousas básicas. Se tivese que compilar unha lista moi mínima, incluiría:
- Álxebra lineal: un gran número de recursos son fáciles de buscar en Google, busca o que máis che convén;
- Análise matemática - (polo menos nos dous primeiros semestres);
- A teoría da probabilidade está en todas partes na aprendizaxe automática;
- Combinatoria - en realidade é complementaria á teoría;
- Teoría de gráficos - polo menos BÁSICA;
- Algoritmos - polo menos durante os dous primeiros semestres (ver as recomendacións de Cormen no seu libro);
- Mathlogic - polo menos básico.
Análise e visualización de datos prácticos
Unha das cousas máis importantes é poder non ter medo de ensuciarse as mans cos datos e realizar unha análise completa do conxunto de datos, do proxecto e crear unha visualización rápida de datos.
A análise exploratoria de datos simplemente debería converterse en algo natural, como todas as outras transformacións de datos e a capacidade de crear unha canalización sinxela a partir de nodos Unix (ver artigos anteriores) ou escribir un caderno lexible e comprensible.
Gustaríame mencionar a visualización: é mellor ver unha vez que escoitar cen veces.
Mostrar un gráfico a un xestor é cen veces máis fácil e claro que un conxunto de números, polo que matplotlib, seaborn e ggplot2 son os teus amigos.
Habilidades brandas
É igualmente importante poder comunicar as túas ideas, así como os resultados e as preocupacións (etc.) aos demais; asegúrate de poder indicar claramente a tarefa en termos técnicos e comerciais.
Podes explicar a compañeiros, xestores, superiores, clientes e a calquera outra persoa que o necesite o que está a suceder, que datos está a usar e que resultados obtivo.
Os teus gráficos e documentación deberían lerse sen ti. É dicir, non é preciso acudir a ti para entender o que alí está escrito.
Podes facer unha presentación clara para entender o punto e/ou documentar o proxecto/o teu traballo.
Podes transmitir a túa posición de forma razoada e sen emoción, dicir "si/non" ou cuestionar/apoiar unha decisión.
formación
Hai moitos lugares diferentes onde podes aprender todo isto. Darei unha pequena lista: probei todo e, para ser honesto, cada elemento ten os seus pros e contras. Probao e decide o que che convén, pero recoméndoche probar varias opcións e non quedarse atrapado nunha.
- Cursos en liña: coursera, udacity, Edx, etc;
- Novas escolas: en liña e fóra de liña - SkillFactory, ShAD, MADE;
- Escolas clásicas: programas de máster universitario e ciclos formativos de perfeccionamento;
- Proxectos: simplemente podes seleccionar tarefas que che interesen e cortalas, cargándoas a github;
- Prácticas: é difícil suxerir algo aquí; tes que buscar o que hai dispoñible e atopar opcións adecuadas.
É necesario?
En conclusión, probablemente engadirei tres principios persoais que intento seguir eu mesmo.
- Debe ser interesante;
- Traer pracer interior (= polo menos non causar sufrimento);
- "Para ser teu".
Por que eles? É difícil imaxinar facer algo todos os días e non gozar ou non estar interesado. Imaxina que es médico e que odia comunicarse coa xente - isto, por suposto, pode funcionar dalgún xeito, pero estarás constantemente incómodo co fluxo de pacientes que queren preguntarche algo. Isto non funciona a longo prazo.
Por que mencionei específicamente o pracer interno? Paréceme que isto é necesario para un posterior desenvolvemento e, en principio, o proceso de aprendizaxe. Gústame moito cando logro completar algunha característica complexa e construír un modelo ou calcular un parámetro importante. Gústame cando o meu código é esteticamente fermoso e ben escrito. Polo tanto, aprender algo novo é interesante e non require directamente ningunha motivación significativa.
"Ser teu" é a mesma sensación de que isto é aproximadamente o que querías facer. Teño unha pequena historia. Desde neno interesoume a música rock (e o metal - SALMON!) e, como tantos outros, quería aprender a tocar e iso é todo. Resultou que non tiña oído nin voz, isto non me molestaba en absoluto (e debo dicir que isto non molesta a moitos intérpretes no escenario), e cando aínda estaba na escola conseguín unha guitarra... e quedou claro que non me gusta moito estar sentado durante horas e xogar nel. Estaba indo duro, sempre me pareceu que saía algún tipo de merda: non me gustaba nada e simplemente sentíame pésimo, estúpido e completamente incapaz. Obrigueime literalmente a sentarme ás clases e, en xeral, non era boa comida para o cabalo.
Ao mesmo tempo, podía sentarme con bastante calma durante horas desenvolvendo algún xoguete, usando un guión para animar algo en flash (ou outra cousa) e estaba moi motivado para rematar elementos do xogo ou tratar coa mecánica do movemento e/ou conectar bibliotecas de terceiros, complementos e todo o demais.
E nalgún momento deime conta de que tocar a guitarra non é cousa miña e que me gusta moito escoitar, non tocar. E os meus ollos brillaban cando escribía xogos e código (escoitando todo tipo de metal nese momento) e iso é o que me gustaba entón, e iso debería estar facendo.
Tes outras preguntas?
Por suposto, non puidemos repasar todos os temas e preguntas, así que escríbeme comentarios e envíame un correo electrónico. Sempre estou feliz de ter preguntas.
Fonte: www.habr.com