Huomautuksia Date Scientist: mistä aloittaa ja onko se tarpeellista?

Huomautuksia Date Scientist: mistä aloittaa ja onko se tarpeellista?

TL;DR on postaus kysymyksille/vastauksille datatieteestä ja siitä, miten päästä ammattiin ja kehittyä siinä. Artikkelissa analysoin perusperiaatteita ja usein kysyttyjä kysymyksiä ja olen valmis vastaamaan tiettyihin kysymyksiisi - kirjoita kommentteihin (tai yksityisviestillä), yritän vastata kaikkeen muutaman päivän sisällä.

"Satanist Date" -muistiinpanosarjan tultua vastaan ​​tuli monia viestejä ja kommentteja, joissa oli kysymyksiä siitä, miten aloittaa ja mistä kaivaa, ja tänään analysoimme julkaisujen jälkeen nousseita tärkeimpiä taitoja ja kysymyksiä.

Kaikki tässä esitetty ei väitä olevan lopullinen totuus ja on kirjoittajan subjektiivinen mielipide. Tarkastelemme tärkeimpiä asioita, jotka vaikuttavat tärkeimmiltä prosessissa.

Miksi tätä juuri tarvitaan?

Jotta tavoite olisi paremmin saavutettavissa, jotta se näyttää ainakin hieman erityiseltä - haluat tulla DS:ksi tai tutkijaksi Facebookissa/Applessa/Amazonissa/Netflixissä/Googlessa - katso vaatimuksia, kieliä ja tarvittavia taitoja nimenomaan mihin asemaan. Mikä on palkkausprosessi? Miten tyypillinen päivä tällaisessa roolissa sujuu? Miltä siellä työskentelevän henkilön keskimääräinen profiili näyttää?

Usein kokonaiskuva on sellainen, että ihminen ei todellakaan ymmärrä mitä hän tarkalleen haluaa, eikä ole täysin selvää, miten tähän epäselvään kuvaan varautua - joten kannattaa tehdä ainakin karkea suunnitelma siitä, mitä tarkalleen haluaa.

Tarkenna nykyistä tavoitenäkymää

Vaikka se muuttuisikin matkan varrella ja suunnitelmien muuttaminen on yleensä normaalia näytelmän aikana, kannattaa ottaa tavoite ja keskittyä siihen, arvioida ja pohtia uudelleen.

Tuleeko se vai onko se edelleen ajankohtainen?

Kun kasvat asemaan.

Kuvittele, että ennen asemaasi sinun on suoritettava tohtorin tutkinto, työskenneltävä 2-3 vuotta alalla ja yleensä leikattava hiuksesi meditoimalla luostarissa - eikö Datatieteen tilanne ole sama kuin ennen taloustieteilijöiden ja lakimiehet? Muuttuuko kaikki tuntemattomasti sillä alueella, jota haluat harjoittaa?

Eikö olekin hyvä mahdollisuus, että kaikki ryntäävät sinne nyt ja näemme kuvan, jossa on laaja kerros ihmisiä, jotka yrittävät päästä ammattiin - ja siellä on yksinkertaisesti niukka lähtöasema.

Polkua valittaessa kannattaa ehkä ottaa huomioon tämänhetkiset trendit, ei vain työmarkkinoiden nykytila, vaan myös käsityksesi siitä, miten se muuttuu ja missä se on.

Kirjoittaja ei esimerkiksi suunnitellut ryhtyvänsä satanistiksi, mutta tohtorintutkinnon aikana hän työskenteli kolmannen osapuolen projekteissa, joilla oli vahvat yhteiset taidot DS:n kanssa, ja tutkijakoulun lopussa hän siirtyi luonnollisesti ympäristöön nähdessään hyvän asema.

Jos näytelmän aikana käy ilmi, että on pakko muuttaa jonnekin muualle - koska siellä on nyt eniten liikettä ja kaikkea mielenkiintoisinta tapahtuu, niin sinne siirrytään luonnollisesti.

Taitojen erittely

Nämä ovat ehdollisia taitojen luokkia, jotka mielestäni ovat avainasemassa täydellisessä ja tehokkaassa työssä DS:ssä. Korostan englantia erikseen – opi mitä tahansa CS:ssä. Seuraavaksi ovat tärkeimmät luokat.

Ohjelmointi/komentosarja

Mihin kieliin sinä varmasti tulet tutustumaan? Python? Java? Shellin käsikirjoitus? Lua? sql? C++?

Mitä sinun on tarkalleen osattava tehdä ja miksi ohjelmoinnin kannalta - asemien valikoima vaihtelee suuresti.

Esimerkiksi joudun usein toteuttamaan monimutkaista logiikkaa, kyselyjä, malleja, analytiikkaa ja yleisesti kehitellä tulkittuja järjestelmiä, mutta koodin nopeudelle ei ole juuri koskaan vaatimuksia, paitsi yleisimmät ja järkevimmät.

Siksi taitosarjani on hyvin erilainen kuin niillä, jotka kirjoittavat Tensorflow-kirjastoa ja ajattelevat koodin optimointia l1-välimuistin ja vastaavien asioiden tehokkaaseen käyttöön, joten katso mitä tarkalleen tarvitset ja arvioi oikea tapa oppimiseen.

Esimerkiksi pythonille ihmiset jo sovittavat kartta kielten oppiminen.

Varmasti on jo kokeneita neuvoja ja hyviä lähteitä tarpeisiisi - sinun on päätettävä luettelosta ja aloitettava sen työstäminen.

Liiketoimintaprosessien ymmärtäminen

Et voi mennä minnekään ilman sitä: sinun on ymmärrettävä, miksi sinua tarvitaan tässä prosessissa, mitä teet ja miksi. Usein tämä voi säästää paljon aikaa, maksimoida hyödysi ja olla tuhlaamatta aikaa ja resursseja paskapuheisiin.

Yleensä kysyn itseltäni seuraavat kysymykset:

  • Mitä tarkalleen ottaen teen yrityksessä?
  • Miksi?
  • Kuka sitä käyttää ja miten?
  • Mitä vaihtoehtoja minulla on?
  • Mitkä ovat parametrien rajat?

Tässä hieman tarkempaa tietoa parametreista: työskenaariota voi usein muuttaa suuresti, jos tietää, että jotain voidaan uhrata: esimerkiksi tulkittavuus tai päinvastoin, parilla prosentilla ei ole tässä merkitystä ja meillä on erittäin nopea ratkaisu, ja asiakas tarvitsee sitä, koska hän maksaa putkilinjan ajan AWS:ssä.

Matematiikka

Täällä ajattelet ja ymmärrät kaiken itse - ilman perusmatematiikan tietämystä et ole muuta kuin apinoita kranaatin kanssa (anteeksi Random Forest) - joten sinun on ymmärrettävä ainakin perusasiat. Jos kokoaisin hyvin minimaalisen luettelon, se sisältäisi:

  • Lineaarinen algebra - valtava määrä resursseja on helppo Googlettaa, etsi mikä sopii sinulle parhaiten;
  • Matemaattinen analyysi - (ainakin kahdella ensimmäisellä lukukaudella);
  • Todennäköisyysteoria on kaikkialla koneoppimisessa;
  • Kombinatoriikka - se itse asiassa täydentää teoriaa;
  • Graafiteoria - vähintään BASIC;
  • Algoritmit - ainakin kahdelle ensimmäiselle lukukaudelle (katso Cormenin suositukset kirjassaan);
  • Mathlogic - ainakin perus.

Käytännön tietojen analysointi ja visualisointi

Yksi tärkeimmistä asioista on osata olla pelkäämättä likaamaan käsiäsi datalla ja tehdä kattava analyysi tietojoukosta, projektista ja luoda nopea datavisualisointi.

Tutkivasta data-analyysistä tulee yksinkertaisesti tulla jotain luonnollista, kuten kaikista muista datamuunnoksista ja kyvystä luoda yksinkertainen liukuhihna unix-solmuista (katso aiemmat artikkelit) tai kirjoittaa luettava ja ymmärrettävä muistikirja.

Haluaisin mainita visualisoinnin: on parempi nähdä kerran kuin kuulla sata kertaa.

Kaavion näyttäminen johtajalle on sata kertaa helpompaa ja selkeämpää kuin numerosarja, joten matplotlib, seaborn ja ggplot2 ovat ystäviäsi.

Pehmeitä taitoja

Yhtä tärkeää on pystyä viestimään ideoistasi, tuloksistasi ja huolenaiheistasi (mm.) muille - varmista, että pystyt ilmaisemaan tehtävän selkeästi sekä teknisesti että liiketoiminnallisesti.

Voit selittää kollegoille, esimiehille, esimiehille, asiakkaille ja muille sitä tarvitseville, mitä tapahtuu, mitä tietoja käytät ja mitä tuloksia olet saanut.

Kaaviot ja dokumentaatiosi tulee lukea ilman sinua. Eli sinun ei tarvitse mennä luoksesi ymmärtääksesi, mitä siellä on kirjoitettu.

Voit tehdä selkeän esityksen saadaksesi asian selväksi ja/tai dokumentoida projektin/työsi.

Voit ilmaista kantasi perustellusti ja tunteettomasti, sanoa "kyllä/ei" tai kyseenalaistaa/tukea päätöstä.

koulutus

On monia eri paikkoja, joissa voit oppia kaiken tämän. Annan lyhyen luettelon - kokeilin kaikkea siitä ja rehellisesti sanottuna jokaisella tuotteella on hyvät ja huonot puolensa. Kokeile sitä ja päätä, mikä sopii sinulle, mutta suosittelen kokeilemaan useita vaihtoehtoja ja olemaan takertumatta yhteen.

  • Verkkokurssit: coursera, udacity, Edx jne;
  • Uudet koulut: online ja offline - SkillFactory, ShaD, MADE;
  • Klassiset koulut: yliopistojen maisteriohjelmat ja jatkokoulutukset;
  • Projektit - voit yksinkertaisesti valita sinua kiinnostavat tehtävät ja leikata ne lataamalla ne Githubiin;
  • Harjoittelupaikat - täällä on vaikea ehdottaa mitään; sinun on etsittävä mitä on tarjolla ja löydettävä sopivat vaihtoehdot.

Onko se tarpeellista?

Lopuksi lisään todennäköisesti kolme henkilökohtaista periaatetta, joita yritän itse noudattaa.

  • Pitäisi olla mielenkiintoinen;
  • Tuo sisäistä nautintoa (= älä ainakaan aiheuta kärsimystä);
  • "Olla sinun."

Miksi he? On vaikea kuvitella tekeväni jotain joka päivä, enkä nauttisi siitä tai olisi kiinnostunut. Kuvittele, että olet lääkäri ja vihaat kommunikointia ihmisten kanssa - tämä voi tietysti jotenkin toimia, mutta tunnet jatkuvasti olosi epämukavaksi potilasvirrassa, joka haluaa kysyä sinulta jotain. Tämä ei toimi pitkällä aikavälillä.

Miksi mainitsin erityisesti sisäisen nautinnon? Minusta tämä on välttämätöntä jatkokehityksen ja periaatteessa oppimisprosessin kannalta. Nautin todella siitä, kun onnistun suorittamaan jonkin monimutkaisen ominaisuuden ja rakentamaan mallin tai laskemaan tärkeän parametrin. Nautin siitä, kun koodini on esteettisesti kaunis ja hyvin kirjoitettu. Siksi uuden oppiminen on mielenkiintoista eikä vaadi suoraan mitään merkittävää motivaatiota.

"Olla sinun" on sama tunne, että tämä on suunnilleen mitä halusit tehdä. Minulla on pieni tarina. Olen lapsuudesta asti ollut kiinnostunut rock-musiikista (ja metallista - SALMON!) ja, kuten monet muut, halusin oppia soittamaan ja siinä kaikki. Kävi ilmi, että minulla ei ollut kuuloa eikä ääntä - tämä ei häirinnyt minua ollenkaan (ja täytyy sanoa, että tämä ei häiritse monia esiintyjiä suoraan lavalla), ja kun olin vielä koulussa, sain kitaran... ja kävi selväksi, etten todellakaan tykkää istua tuntikausia ja leikkiä sillä. Se meni vaikeaksi, minusta tuntui aina siltä, ​​että jotain paskaa oli tulossa ulos - en saanut siitä mitään iloa ja tunsin itseni vain surkeaksi, tyhmäksi ja täysin kykenemättömäksi. Pakotin itseni kirjaimellisesti istumaan tunneille ja yleensä se ei ollut hyvää ruokaa hevoselle.

Samaan aikaan saatoin aika rauhassa istua tuntikausia kehittämässä jotain lelua, käyttäen käsikirjoitusta animoidakseni jotain flashillä (tai jollain muulla) ja olin hurjasti motivoitunut viimeistelemään elementtejä pelissä tai käsittelemään liikemekaniikkaa ja/tai kolmansien osapuolien kirjastojen, laajennusten ja kaiken muun yhdistäminen.

Ja jossain vaiheessa tajusin, että kitaran soittaminen ei ole minun juttuni ja että tykkään todella kuunnella, en soittaa. Ja silmäni loistivat, kun kirjoitin pelejä ja koodia (kuuntelin sillä hetkellä kaikenlaista metallia) ja siitä pidin silloin, ja sitä minun olisi pitänyt tehdä.

Onko sinulla muita kysymyksiä?

Emme tietenkään pystyneet käymään kaikkia aiheita ja kysymyksiä läpi, joten kirjoita kommentteja ja lähetä minulle PM - olen aina iloinen kysymyksistä.

Huomautuksia Date Scientist: mistä aloittaa ja onko se tarpeellista?

Huomautuksia Date Scientist: mistä aloittaa ja onko se tarpeellista?

Lähde: will.com

Lisää kommentti