Notes Data Científic: per on començar i és necessari?

Notes Data Científic: per on començar i és necessari?

TL;DR és una publicació per a preguntes/respostes sobre Data Science i com entrar a la professió i desenvolupar-s'hi. A l'article analitzaré els principis bàsics i les preguntes freqüents i estic preparat per respondre les vostres preguntes específiques: escriviu als comentaris (o en un missatge privat), intentaré respondre-ho tot en pocs dies.

Amb l'arribada de la sèrie d'apunts "Cita satanista", van arribar molts missatges i comentaris amb preguntes sobre com començar i on excavar, i avui analitzarem les principals habilitats i preguntes que van sorgir després de les publicacions.

Tot el que s'exposa aquí no pretén ser la veritat última i és l'opinió subjectiva de l'autor. Veurem les coses principals que semblen més importants en el procés.

Per què precisament això és necessari?

Per tal que l'objectiu sigui millor assolible, de manera que sembli almenys una mica específic: voleu convertir-vos en DS o investigador científic a Facebook/Apple/Amazon/Netflix/Google, mireu els requisits, els idiomes i les habilitats necessàries. concretament per a quina posició. Quin és el procés de contractació? Com passa un dia típic en aquest paper? Com és el perfil mitjà d'una persona que hi treballa?

Sovint, el panorama general és que una persona no entén realment què vol exactament i no està del tot clar com preparar-se per a aquesta imatge poc clara, per la qual cosa val la pena tenir almenys un pla aproximat del que vol exactament.

Concreta la visió actual de l'objectiu

Encara que canviï al llarg del camí, i en general és normal canviar de plans durant el transcurs de l'obra, val la pena tenir un objectiu i centrar-s'hi, avaluar i repensar periòdicament.

Serà o encara és rellevant?

Quan creixes en una posició.

Imagineu-vos que abans de la vostra posició necessiteu obtenir un doctorat, treballar durant 2 o 3 anys a la indústria i, en general, tallar-vos els cabells mentre mediteu en un monestir: la situació de Data Science no serà la mateixa que abans amb els economistes i? advocats? Canviarà tot més enllà del reconeixement en l'àmbit que vols dedicar-te?

No hi ha una bona probabilitat que tothom s'afanyi allà ara i veurem una imatge on hi ha una àmplia capa de persones que estan intentant entrar a la professió, i només hi haurà una posició inicial escassa.

Pot ser que val la pena tenir en compte les tendències actuals a l'hora de triar un camí, no només l'estat actual del mercat laboral, sinó també la teva idea de com està canviant i on es troba.

Per exemple, l'autor no tenia previst convertir-se en satanista, però durant el seu doctorat va treballar en projectes de tercers que tenien fortes habilitats en comú amb DS, i al final de l'escola de postgrau es va canviar naturalment al medi ambient, veient una bona posició.

Si durant el transcurs de l'obra resulta que caldrà moure's a un altre lloc, perquè ara hi ha més moviment i s'estan produint totes les accions més interessants, llavors ens traslladarem allà amb naturalitat.

Desglossament d'habilitats

Aquestes són categories condicionals d'habilitats que em semblen clau per a un treball complet i eficaç a DS. Destacaré l'anglès per separat: apreneu el que feu a CS. A continuació es troben les categories clau.

Programació/Scripting

Quins idiomes segur que coneixeràs? Python? Java? Escriptura de Shell? Lua? Sql? C++?

Què necessiteu exactament per poder fer i per què en termes de programació: la gamma de posicions aquí varia molt.

Per exemple, sovint he d'implementar lògica complexa, consultes, models, analítiques i, en general, desenvolupar sistemes interpretats, però gairebé mai hi ha requisits per a la velocitat del codi, excepte els més generals i raonables.

Per tant, el meu conjunt d'habilitats és molt diferent dels que escriuen la biblioteca Tensorflow i pensen en optimitzar el codi per a un ús eficient de la memòria cau l1 i coses similars, així que mireu què necessiteu i avalueu el camí correcte per a l'aprenentatge.

Per exemple, per a Python, la gent ja es fa mapa aprenentatge d'idiomes.

Segurament, ja hi ha consells experimentats i bones fonts per a les vostres necessitats: heu de decidir una llista i començar a treballar-hi.

Entendre els processos de negoci

No pots anar enlloc sense ell: has d'entendre per què et necessiten en aquest procés, què estàs fent i per què. Sovint això és el que us pot estalviar molt de temps, maximitzar els vostres beneficis i no perdre temps i recursos en merda.

Normalment, em faig les preguntes següents:

  • Què faig exactament a l'empresa?
  • Per què?
  • Qui l'utilitzarà i com?
  • Quines opcions tinc?
  • Quins són els límits dels paràmetres?

Aquí teniu una mica més de detall sobre els paràmetres: sovint podeu canviar molt l'escenari de treball si sabeu que alguna cosa es pot sacrificar: per exemple, la interpretabilitat o viceversa, un parell de per cent no jugarà un paper aquí i tenim un molt ràpid. solució, i el client la necessita, perquè paga pel temps que s'executa el pipeline a AWS.

Matemàtiques

Aquí ho penses i ho entens tot tu mateix -sense coneixements de matemàtiques bàsiques no ets més que micos amb granada (perdó Random Forest)-, així que has d'entendre almenys les coses bàsiques. Si hagués de compilar una llista molt mínima, inclouria:

  • Àlgebra lineal: un gran nombre de recursos són fàcils de Google, busqueu el que més us convingui;
  • Anàlisi matemàtica - (almenys en els dos primers semestres);
  • La teoria de la probabilitat està a tot arreu en l'aprenentatge automàtic;
  • Combinatòria - en realitat és complementària a la teoria;
  • Teoria de grafs - almenys BÀSICA;
  • Algoritmes - almenys durant els dos primers semestres (vegeu les recomanacions de Cormen al seu llibre);
  • Matemàtica - almenys bàsica.

Anàlisi i visualització de dades pràctiques

Una de les coses més importants és poder no tenir por d'embrutar-se les mans amb dades i realitzar una anàlisi exhaustiva del conjunt de dades, el projecte i crear una visualització ràpida de dades.

L'anàlisi exploratòria de dades simplement hauria de convertir-se en quelcom natural, com totes les altres transformacions de dades i la capacitat de crear un pipeline senzill a partir de nodes Unix (vegeu articles anteriors) o escriure un quadern llegible i entenedor.

M'agradaria esmentar la visualització: és millor veure una vegada que escoltar cent vegades.

Mostrar un gràfic a un gestor és cent vegades més fàcil i clar que un conjunt de números, de manera que matplotlib, seaborn i ggplot2 són els teus amics.

Habilitats suaus

És igualment important poder comunicar les vostres idees, així com els resultats i les preocupacions (etc.) als altres; assegureu-vos que podeu indicar clarament la tasca tant en termes tècnics com comercials.

Pots explicar als companys, directius, superiors, clients i qualsevol altra persona que ho necessiti què està passant, quines dades estàs utilitzant i quins resultats has obtingut.

Els vostres gràfics i documentació s'han de llegir sense vosaltres. És a dir, no cal que vagis a tu per entendre el que hi ha escrit.

Podeu fer una presentació clara per transmetre el punt i/o documentar el projecte/el vostre treball.

Pots transmetre la teva posició d'una manera raonada i sense emocions, dir "sí/no" o preguntar/donar una decisió.

formació

Hi ha molts llocs diferents on pots aprendre tot això. Faré una llista breu: he provat tot i, per ser sincer, cada article té els seus avantatges i contres. Proveu-ho i decidiu què us convé, però us recomano provar diverses opcions i no quedar-vos enganxats en una.

  • Cursos en línia: coursera, udacity, Edx, etc;
  • Escoles noves: en línia i fora de línia - SkillFactory, ShAD, MADE;
  • Escoles clàssiques: màsters universitaris i cicles formatius de grau superior;
  • Projectes: només podeu seleccionar les tasques que us interessen i tallar-les, penjant-les a github;
  • Pràctiques: aquí és difícil suggerir res; heu de buscar el que hi ha disponible i trobar opcions adequades.

És necessari?

En conclusió, probablement afegiré tres principis personals que intento seguir jo mateix.

  • Hauria de ser interessant;
  • Aportar plaer interior (= almenys no causar patiment);
  • "Ser teu".

Per què ells? És difícil imaginar-se fent alguna cosa cada dia i no gaudir-ne o no interessar-se. Imagina que ets metge i odies comunicar-te amb la gent; això, per descomptat, pot funcionar d'alguna manera, però et sentiràs constantment incòmode amb el flux de pacients que vulguin preguntar-te alguna cosa. Això no funciona a la llarga.

Per què he esmentat específicament el plaer intern? Em sembla que això és necessari per al desenvolupament posterior i, en principi, el procés d'aprenentatge. M'agrada molt quan aconsegueixo completar alguna característica complexa i construir un model o calcular un paràmetre important. M'agrada quan el meu codi és estèticament bonic i està ben escrit. Per tant, aprendre alguna cosa nova és interessant i no requereix directament cap motivació significativa.

"Ser teu" és la mateixa sensació que això és aproximadament el que volies fer. Tinc una petita història. Des de petita m'ha interessat la música rock (i el metall - SALMON!) i, com tants d'altres, volia aprendre a tocar i això és tot. Va resultar que no tenia ni oïda ni veu, això no em va molestar gens (i he de dir que això no molesta a molts intèrprets a l'escenari), i quan encara estava a l'escola vaig aconseguir una guitarra... i va quedar clar que no m'agrada molt estar assegut durant hores i jugar-hi. Anava difícil, sempre m'ha semblat que sortia una mena de merda: no m'apassionava gens i només em sentia pèssim, estúpid i completament incapaç. Em vaig obligar literalment a seure a les classes i, en general, no era un bon menjar per al cavall.

Al mateix temps, podia estar tranquil·lament assegut durant hores desenvolupant alguna joguina, utilitzant un guió per animar alguna cosa en flash (o una altra cosa) i estava molt motivat per acabar elements del joc o tractar amb la mecànica del moviment i/o connectant biblioteques de tercers, connectors i tota la resta.

I en algun moment em vaig adonar que tocar la guitarra no és el meu i que m'agrada molt escoltar, no tocar. I els meus ulls brillaven quan escrivia jocs i codi (escoltant tota mena de metall en aquell moment) i això és el que em va agradar aleshores, i això és el que hauria d'haver fet.

Tens altres preguntes?

Per descomptat, no hem pogut repassar tots els temes i preguntes, així que escriu comentaris i envia'm un MP: sempre m'alegra tenir preguntes.

Notes Data Científic: per on començar i és necessari?

Notes Data Científic: per on començar i és necessari?

Font: www.habr.com

Afegeix comentari