Notas Data Scientist: waar om te begin en is dit nodig?

Notas Data Scientist: waar om te begin en is dit nodig?

TL;DR is 'n pos vir vrae/antwoorde oor Datawetenskap en hoe om die beroep te betree en daarin te ontwikkel. In die artikel sal ek die basiese beginsels en FAQ ontleed en is gereed om jou spesifieke vrae te beantwoord - skryf in die kommentaar (of in 'n privaat boodskap), ek sal probeer om alles binne 'n paar dae te beantwoord.

Met die koms van die "Satanist Date" reeks notas, het baie boodskappe en kommentaar gekom met vrae oor hoe om te begin en waar om te grawe, en vandag sal ons die hoofvaardighede en vrae wat na die publikasies ontstaan ​​het, ontleed.

Alles wat hier gestel word, maak nie daarop aanspraak dat dit die uiteindelike waarheid is nie en is die subjektiewe mening van die skrywer. Ons sal kyk na die belangrikste dinge wat in die proses die belangrikste lyk.

Hoekom presies is dit nodig?

Om die doelwit beter haalbaar te maak, sodat dit ten minste ietwat spesifiek lyk - jy wil 'n DS of Navorsingswetenskaplike by Facebook/Apple/Amazon/Netflix/Google word - kyk na die vereistes, tale en nodige vaardighede spesifiek vir watter pos. Wat is die aanstellingsproses? Hoe gaan 'n tipiese dag deur in so 'n rol? Hoe lyk die gemiddelde profiel van 'n persoon wat daar werk?

Dikwels is die geheelbeeld dat 'n persoon nie regtig verstaan ​​wat presies hy wil hê nie en dit is nie heeltemal duidelik hoe om vir hierdie onduidelike beeld voor te berei nie - daarom is dit die moeite werd om ten minste 'n rowwe plan te hê van wat presies jy wil hê.

Konkretiseer die huidige doelwitaansig

Selfs al verander dit langs die pad, en dit is oor die algemeen normaal om planne te verander in die loop van die toneelstuk, is dit die moeite werd om 'n doel te hê en daarop te fokus, periodiek te evalueer en te heroorweeg.

Sal dit wees of is dit steeds relevant?

Teen die tyd dat jy in 'n posisie groei.

Stel jou voor dat jy voor jou pos 'n PhD moet kry, vir 2-3 jaar in die bedryf moet werk en oor die algemeen jou hare moet sny terwyl jy in 'n klooster mediteer - sal die situasie met Data Science nie dieselfde wees as wat dit eens met ekonome en prokureurs? Sal alles onherkenbaar verander in die gebied wat jy wil nastreef?

Is daar nie 'n goeie kans dat almal nou soontoe sal jaag en ons 'n prentjie sal sien waar daar 'n wye laag mense is wat die beroep probeer betree nie - en daar sal bloot 'n karige beginposisie wees.

Dit kan die moeite werd wees om huidige neigings te oorweeg wanneer jy 'n pad kies, nie net die huidige stand van die arbeidsmark nie, maar ook jou idee van hoe dit verander en waar dit is.

Die skrywer het byvoorbeeld nie beplan om 'n Satanis te word nie, maar tydens sy PhD het hy aan derdeparty-projekte gewerk wat sterk vaardighede in gemeen het met DS, en aan die einde van die nagraadse skool het hy natuurlik oorgeskakel na die omgewing, aangesien 'n goeie posisie.

As dit in die loop van die toneelstuk blyk dat dit nodig sal wees om iewers anders heen te beweeg - want daar is nou die meeste beweging en al die interessantste aksies gebeur, dan beweeg ons natuurlik soontoe.

Vaardigheidsontleding

Dit is voorwaardelike kategorieë van vaardighede wat vir my die sleutel is vir volle en effektiewe werk in DS. Ek sal Engels apart uitlig - leer wat jy ook al in CS doen. Volgende is die sleutelkategorieë.

Programmering/Skript

Met watter tale sal jy seker kennis maak? Python? Java? Shell scripting? Lua? SQL? C++?

Wat presies jy moet kan doen en hoekom in terme van programmering – die reeks poste hier verskil baie.

Ek moet byvoorbeeld dikwels komplekse logika, navrae, modelle, analise implementeer en oor die algemeen geïnterpreteerde stelsels ontwikkel, maar daar is byna nooit vereistes vir die spoed van kode nie, behalwe die mees algemene en redelike.

Daarom is my vaardighede baie anders as diegene wat die Tensorflow-biblioteek skryf en daaraan dink om die kode te optimaliseer vir doeltreffende gebruik van die l1-kas en soortgelyke dinge, so kyk wat presies jy nodig het en evalueer die regte pad na leer.

Byvoorbeeld, vir luislang maak mense reeds op 'n kaart taal aanleer.

Daar is sekerlik reeds ervare raad en goeie bronne vir jou behoeftes – jy moet op ’n lys besluit en daaraan begin werk.

Besigheidsprosesse te verstaan

Jy kan nêrens daarsonder gaan nie: jy moet verstaan ​​hoekom jy nodig is in hierdie proses, wat jy doen en hoekom. Dikwels is dit wat jou baie tyd kan bespaar, jou voordeel kan maksimeer en nie tyd en hulpbronne op snert mors nie.

Gewoonlik vra ek myself die volgende vrae:

  • Wat presies doen ek in die maatskappy?
  • Зачем?
  • Wie sal dit gebruik en hoe?
  • Watter opsies het ek?
  • Wat is die grense van die parameters?

Hier is 'n bietjie meer besonderhede oor die parameters: jy kan dikwels die werkscenario grootliks verander as jy weet dat iets opgeoffer kan word: byvoorbeeld interpreteerbaarheid of omgekeerd, 'n paar persent sal nie hier 'n rol speel nie en ons het 'n baie vinnige oplossing, en die kliënt het dit nodig, want hy betaal vir die tyd wat die pyplyn in AWS loop.

wiskunde

Hier dink en verstaan ​​jy alles self - sonder kennis van basiese wiskunde is jy niks meer as ape met 'n granaat nie (jammer Random Forest) - so jy moet ten minste die basiese dinge verstaan. As ek 'n baie minimale lys sou saamstel, sou dit die volgende insluit:

  • Lineêre algebra - 'n groot aantal hulpbronne is maklik om te Google, soek wat jou die beste pas;
  • Wiskundige analise - (ten minste in die eerste twee semesters);
  • Waarskynlikheidsteorie is oral in masjienleer;
  • Kombinatorika - dit is eintlik aanvullend tot die teorie;
  • Grafiekteorie - ten minste BASIES;
  • Algoritmes - ten minste vir die eerste twee semesters (sien Cormen se aanbevelings in sy boek);
  • Wiskunde - ten minste basies.

Praktiese data-analise en visualisering

Een van die belangrikste dinge is om nie bang te wees om jou hande vuil te maak met data nie en 'n omvattende ontleding van die datastel, projek te doen en 'n vinnige datavisualisering te skep.

Verkennende data-analise moet eenvoudig iets natuurlik word, soos alle ander datatransformasies en die vermoë om 'n eenvoudige pyplyn van unix-nodusse te skep (sien vorige artikels) of 'n leesbare en verstaanbare notaboek te skryf.

Ek wil graag visualisering noem: dit is beter om een ​​keer te sien as om honderd keer te hoor.

Om 'n grafiek aan 'n bestuurder te wys is honderd keer makliker en duideliker as 'n stel getalle, so matplotlib, seaborn en ggplot2 is jou vriende.

Sagte vaardighede

Dit is ewe belangrik om jou idees, asook resultate en bekommernisse (ensovoorts) aan ander te kan kommunikeer – maak seker dat jy die taak duidelik kan stel in beide tegniese en besigheidsterme.

Jy kan aan kollegas, bestuurders, meerderes, kliënte en enigiemand anders wat dit nodig het verduidelik wat gebeur, watter data jy gebruik en watter resultate jy gekry het.

Jou kaarte en dokumentasie moet sonder jou gelees word. Dit wil sê, jy hoef nie na jou toe te gaan om te verstaan ​​wat daar geskryf is nie.

Jy kan 'n duidelike aanbieding maak om die punt oor te dra en/of die projek/jou werk te dokumenteer.

Jy kan jou standpunt op 'n beredeneerde en onemosionele wyse oordra, "ja/nee" sê of 'n besluit bevraagteken/ondersteun.

opleiding

Daar is baie verskillende plekke waar jy dit alles kan leer. Ek sal 'n kort lys gee - ek het alles daaruit probeer en, om eerlik te wees, elke item het sy voor- en nadele. Probeer dit uit en besluit wat jou pas, maar ek beveel sterk aan dat jy verskeie opsies probeer en nie by een vashaak nie.

  • Aanlyn kursusse: coursera, udacity, Edx, ens;
  • Nuwe skole: aanlyn en vanlyn - SkillFactory, ShAD, MADE;
  • Klassieke skole: universiteitsmeestersprogramme en gevorderde opleidingskursusse;
  • Projekte - jy kan eenvoudig take kies wat jou interesseer en dit sny, dit oplaai na github;
  • Stages - dit is moeilik om enigiets hier voor te stel, jy moet soek na wat beskikbaar is en geskikte opsies vind.

Is dit nodig?

Ten slotte sal ek waarskynlik drie persoonlike beginsels byvoeg wat ek self probeer volg.

  • Behoort interessant te wees;
  • Bring innerlike plesier (= ten minste nie lyding veroorsaak nie);
  • "Om joune te wees."

Hoekom hulle? Dit is moeilik om te dink dat jy elke dag iets doen en dit nie geniet of nie belangstel nie. Stel jou voor dat jy 'n dokter is en jy haat dit om met mense te kommunikeer - dit kan natuurlik op een of ander manier werk, maar jy sal voortdurend ongemaklik wees met die stroom pasiënte wat jou iets wil vra. Dit werk nie op die lang termyn nie.

Hoekom het ek spesifiek interne plesier genoem? Dit lyk vir my of dit nodig is vir verdere ontwikkeling en in beginsel die leerproses. Ek geniet dit baie wanneer ek dit regkry om een ​​of ander komplekse kenmerk te voltooi en 'n model te bou of 'n belangrike parameter te bereken. Ek geniet dit as my kode esteties mooi en goed geskryf is. Om iets nuuts te leer is dus interessant en vereis nie direk enige noemenswaardige motivering nie.

"Om joune te wees" is dieselfde gevoel dat dit ongeveer is wat jy wou doen. Ek het 'n klein storie. Van kleintyd af het ek in rockmusiek (en metal - SALMON!) belang gestel en, soos soveel ander, wou ek leer speel en dis al. Dit het geblyk dat ek geen gehoor en geen stem gehad het nie - dit het my glad nie gepla nie (en ek moet sê dit pla nie baie kunstenaars reg op die verhoog nie), en toe ek nog op skool was, het ek 'n kitaar gekry... en dit het duidelik geword dat ek nie regtig daarvan hou om ure lank te sit en daarop te speel nie. Dit het moeilik gegaan, dit het altyd vir my gelyk of daar 'n soort snert uitkom - ek het glad nie plesier daaruit gekry nie en het net gemeen, dom en heeltemal onbekwaam gevoel. Ek het myself letterlik gedwing om vir klasse aan te sit en oor die algemeen was dit nie goeie kos vir die perd nie.

Terselfdertyd kon ek vir ure rustig sit om 'n speelding te ontwikkel, 'n draaiboek te gebruik om iets op flits (of iets anders) te animeer en ek was wild gemotiveerd om elemente in die speletjie klaar te maak of om die meganika van beweging en/of te hanteer. derdeparty-biblioteke, plugins en alles anders te koppel.

En op 'n stadium het ek besef kitaar speel is nie my ding nie en dat ek baie daarvan hou om te luister, nie om te speel nie. En my oë het geblink toe ek speletjies en kode geskryf het (op daardie oomblik na allerhande metale geluister) en dit is waarvan ek toe gehou het, en dit is wat ek moes doen.

Het jy enige ander vrae?

Natuurlik kon ons nie deur al die onderwerpe en vrae gaan nie, so skryf kommentaar en PM my - ek is altyd bly om vrae te hê.

Notas Data Scientist: waar om te begin en is dit nodig?

Notas Data Scientist: waar om te begin en is dit nodig?

Bron: will.com

Voeg 'n opmerking