Opombe Date Scientist: kje začeti in ali je to potrebno?

Opombe Date Scientist: kje začeti in ali je to potrebno?

TL;DR je objava za vprašanja/odgovore o Data Science in kako vstopiti v poklic in se v njem razvijati. V članku bom analiziral osnovna načela in pogosta vprašanja ter sem pripravljen odgovoriti na vaša konkretna vprašanja - pišite v komentarjih (ali v zasebnem sporočilu), na vse bom poskušal odgovoriti v nekaj dneh.

S pojavom serije zapiskov »Satanistični datum« je prišlo veliko sporočil in komentarjev z vprašanji o tem, kako začeti in kje kopati, danes pa bomo analizirali glavne veščine in vprašanja, ki so se pojavila po publikacijah.

Vse, kar je tukaj navedeno, ne trdi, da je zadnja resnica in je subjektivno mnenje avtorja. Ogledali si bomo glavne stvari, ki se zdijo najpomembnejše v procesu.

Zakaj točno je to potrebno?

Da bo cilj lažje dosegljiv, da bo videti vsaj nekoliko specifičen – želite postati DS ali Research Scientist pri Facebook/Apple/Amazon/Netflix/Google – poglejte zahteve, jezike in potrebna znanja. konkretno za katero pozicijo. Kakšen je postopek zaposlovanja? Kako poteka običajen dan v takšni vlogi? Kakšen je povprečen profil osebe, ki tam dela?

Pogosto je splošna slika takšna, da oseba v resnici ne razume, kaj točno hoče, in ni povsem jasno, kako se pripraviti na to nejasno podobo - zato je vredno imeti vsaj približen načrt, kaj točno si želite.

Konkretizirajte trenutni ciljni pogled

Tudi če se na poti spreminja in je na splošno normalno, da med igro spreminjamo načrte, je vredno imeti cilj in se osredotočiti nanj, občasno ocenjevati in premisliti.

Ali bo ali je še aktualno?

Do trenutka, ko zrasteš v položaj.

Predstavljajte si, da morate pred svojim položajem pridobiti doktorat, delati 2-3 leta v industriji in se na splošno postriči med meditacijo v samostanu – ali ne bo situacija s podatkovno znanostjo enaka kot je bila nekoč z ekonomisti in odvetniki? Se bo na področju, ki mu želite slediti, vse spremenilo do nerazpoznavnosti?

Ali ni velika verjetnost, da bodo zdaj vsi hiteli tja in bomo videli sliko, kjer je široka plast ljudi, ki poskušajo vstopiti v poklic - in tam bo preprosto skromen začetni položaj.

Pri izbiri poti je morda vredno upoštevati trenutne trende, ne le trenutno stanje na trgu dela, ampak tudi svojo predstavo o tem, kako se spreminja in kje je.

Avtor na primer ni nameraval postati satanist, ampak je med doktoratom delal na projektih tretjih oseb, ki so imeli močne skupne veščine z DS, ob koncu podiplomskega študija pa se je seveda preusmeril v okolje, saj je videl dobro položaj.

Če se med predstavo izkaže, da se bo treba preseliti kam drugam - ker je zdaj največ gibanja in se dogaja vse najbolj zanimivo dogajanje, potem se bomo tja preselili po naravni poti.

Razčlenitev spretnosti

Gre za pogojne kategorije veščin, ki se mi zdijo ključne za polno in učinkovito delo v DS. Ločeno bom izpostavil angleščino - naučite se, karkoli počnete v CS. Sledijo ključne kategorije.

Programiranje/skriptiranje

S katerimi jeziki se boste zagotovo seznanili? Python? Java? Skriptna lupina? Lua? Sql? C++?

Kaj točno morate biti sposobni delati in zakaj v smislu programiranja - razpon položajev se tukaj zelo razlikuje.

Na primer, pogosto moram implementirati kompleksno logiko, poizvedbe, modele, analitiko in na splošno razvijati interpretirane sisteme, vendar skoraj nikoli ni zahtev glede hitrosti kode, razen najbolj splošnih in razumnih.

Zato je moj nabor veščin zelo drugačen od tistih, ki pišejo knjižnico Tensorflow in razmišljajo o optimizaciji kode za učinkovito uporabo predpomnilnika l1 in podobnih stvari, zato poglejte, kaj točno potrebujete in ocenite pravo pot do učenja.

Na primer, za python se ljudje že sestavljajo kartu učenje jezikov.

Zagotovo že obstajajo izkušeni nasveti in dobri viri za vaše potrebe - odločiti se morate za seznam in začeti delati na njem.

Razumevanje poslovnih procesov

Brez tega ne morete nikamor: razumeti morate, zakaj ste potrebni v tem procesu, kaj počnete in zakaj. Pogosto je to tisto, kar vam lahko prihrani veliko časa, poveča vaše koristi in ne izgublja časa in sredstev za sranje.

Ponavadi si zastavljam naslednja vprašanja:

  • Kaj točno počnem v podjetju?
  • Zakaj?
  • Kdo ga bo uporabljal in kako?
  • Kakšne možnosti imam?
  • Kakšne so meje parametrov?

Tukaj je nekaj več podrobnosti o parametrih: pogosto lahko zelo spremenite delovni scenarij, če veste, da je mogoče nekaj žrtvovati: na primer interpretabilnost ali obratno, nekaj odstotkov tukaj ne bo igralo vloge in imamo zelo hitro rešitev, naročnik pa jo potrebuje, saj plača čas, ko cevovod teče v AWS.

Matematika

Tukaj vse misliš in razumeš sam - brez znanja osnovne matematike nisi nič več kot opica z granato (oprosti Random Forest) - zato moraš razumeti vsaj osnovne stvari. Če bi sestavil zelo minimalen seznam, bi vključeval:

  • Linearna algebra - ogromno virov je enostavno poguglati, poiščite tisto, kar vam najbolj ustreza;
  • Matematična analiza - (vsaj v prvih dveh semestrih);
  • Teorija verjetnosti je povsod v strojnem učenju;
  • Kombinatorika – je pravzaprav komplementarna teoriji;
  • Teorija grafov - vsaj BASIC;
  • Algoritmi - vsaj za prva dva semestra (glej Cormenova priporočila v njegovi knjigi);
  • Mathlogic - vsaj osnovno.

Praktična analiza in vizualizacija podatkov

Ena najpomembnejših stvari je, da se lahko ne bojite umazati rok s podatki in opraviti celovito analizo nabora podatkov, projektirati in ustvariti hitro vizualizacijo podatkov.

Raziskovalna analiza podatkov mora preprosto postati nekaj naravnega, tako kot vse druge transformacije podatkov in zmožnost ustvarjanja preprostega cevovoda iz unix vozlišč (glej prejšnje članke) ali pisanja berljivega in razumljivega zvezka.

Rad bi omenil vizualizacijo: bolje je videti enkrat kot slišati stokrat.

Prikaz grafa upravitelju je stokrat lažji in jasnejši od nabora številk, zato so matplotlib, seaborn in ggplot2 vaši prijatelji.

Mehke veščine

Enako pomembno je, da lahko svoje ideje, pa tudi rezultate in pomisleke (itd.) sporočite drugim – poskrbite, da boste nalogo jasno opisali tako v tehničnem kot poslovnem smislu.

Kolegom, vodjem, nadrejenim, strankam in vsem, ki to potrebujejo, lahko razložite, kaj se dogaja, katere podatke uporabljate in kakšne rezultate ste dobili.

Vaše karte in dokumentacijo je treba brati brez vas. To pomeni, da vam ni treba iti k sebi, da bi razumeli, kaj je tam napisano.

Naredite lahko jasno predstavitev, da poveste bistvo in/ali dokumentirate projekt/svoje delo.

Svoje stališče lahko izrazite na razumen in brezčustven način, rečete "da/ne" ali dvomite/podprete odločitev.

usposabljanje

Obstaja veliko različnih krajev, kjer se lahko naučite vsega tega. Dal bom kratek seznam - poskusil sem vse iz njega in, če sem iskren, ima vsak izdelek svoje prednosti in slabosti. Preizkusite in se odločite, kaj vam ustreza, vendar toplo priporočam, da preizkusite več možnosti in ne obstanete pri eni.

  • Spletni tečaji: coursera, udacity, Edx itd.;
  • Nove šole: online in offline - SkillFactory, ShAD, MADE;
  • Klasične šole: univerzitetni magistrski programi in izpopolnjevanja;
  • Projekti - lahko preprosto izberete naloge, ki vas zanimajo, in jih izrežete ter naložite v github;
  • Pripravništva - tukaj je težko karkoli predlagati; poiskati morate, kaj je na voljo, in najti ustrezne možnosti.

Ali je potrebno?

Najverjetneje bom za zaključek dodal tri osebna načela, ki jim poskušam slediti tudi sam.

  • Moralo bi biti zanimivo;
  • Prinašati notranje zadovoljstvo (= vsaj ne povzročati trpljenja);
  • "Biti tvoj."

Zakaj njih? Težko si je predstavljati, da bi vsak dan nekaj počeli in v tem ne bi uživali ali bi vas to ne zanimalo. Predstavljajte si, da ste zdravnik in sovražite komunikacijo z ljudmi - to seveda lahko nekako deluje, vendar vam bo nenehno neprijetno zaradi toka bolnikov, ki vas želijo nekaj vprašati. Dolgoročno to ne deluje.

Zakaj sem posebej omenil notranji užitek? Zdi se mi, da je to nujno za nadaljnji razvoj in načeloma učni proces. Zelo uživam, ko mi uspe dokončati kakšno kompleksno funkcijo in zgraditi model ali izračunati pomemben parameter. Uživam, ko je moja koda estetsko lepa in dobro napisana. Zato je učenje novega zanimivo in ne zahteva neposredne motivacije.

"Biti tvoj" je enak občutek, da je to približno tisto, kar ste želeli početi. Imam malo zgodbo. Že od otroštva me je zanimala rock glasba (in metal - SALMON!) in kot mnogi drugi sem se želel naučiti igrati in to je vse. Izkazalo se je, da nimam ne sluha ne glasu - to me sploh ni motilo (in moram reči, da to ne moti veliko nastopajočih prav na odru), ko sem bil še v šoli, pa sem dobil kitaro ... in postalo je jasno, da ne maram večurnega sedenja in igranja na njem. Bilo mi je težko, vedno se mi je zdelo, da prihaja nekakšna bedarija - v tem sploh nisem imel nobenega užitka in počutil sem se zanič, neumno in popolnoma nesposobno. Za pouk sem se dobesedno prisilil, da sem se usedel in na splošno to ni bila dobra hrana za konja.

Hkrati sem lahko povsem mirno ure in ure razvijal neko igračo, s skriptom nekaj animiral na flash (ali kaj drugega) in bil sem divje motiviran, da dokončam elemente v igri ali se ukvarjam z mehaniko gibanja in/ali povezovanje knjižnic tretjih oseb, vtičnikov in vsega drugega.

In v nekem trenutku sem ugotovil, da igranje kitare ni moja stvar in da zelo rad poslušam, ne igram. In oči so se mi iskrile, ko sem pisal igre in kodo (v tistem trenutku sem poslušal vse vrste metala) in to mi je bilo takrat všeč in to bi moral početi.

Imate še kakšno vprašanje?

Seveda nismo mogli pregledati vseh tem in vprašanj, zato mi pišite komentarje in mi pošljite ZS - vedno sem vesel vprašanj.

Opombe Date Scientist: kje začeti in ali je to potrebno?

Opombe Date Scientist: kje začeti in ali je to potrebno?

Vir: www.habr.com

Dodaj komentar