Shënime Data Scientist: nga të filloni dhe a është e nevojshme?

Shënime Data Scientist: nga të filloni dhe a është e nevojshme?

TL;DR është një postim për pyetje/përgjigje në lidhje me Shkencën e të Dhënave dhe mënyrën e hyrjes në profesion dhe zhvillimit në të. Në artikull do të analizoj parimet bazë dhe FAQ dhe jam gati t'u përgjigjem pyetjeve tuaja specifike - shkruani në komente (ose në një mesazh privat), do të përpiqem t'i përgjigjem gjithçkaje brenda pak ditësh.

Me ardhjen e serisë së shënimeve "Data Sataniste", shumë mesazhe dhe komente erdhën me pyetje se si të filloni dhe ku të gërmoni, dhe sot do të analizojmë aftësitë dhe pyetjet kryesore që lindën pas botimeve.

Gjithçka e thënë këtu nuk pretendon të jetë e vërteta përfundimtare dhe është mendim subjektiv i autorit. Ne do të shohim gjërat kryesore që duken më të rëndësishme në proces.

Pse saktësisht është e nevojshme kjo?

Në mënyrë që qëllimi të jetë më i arritshëm, në mënyrë që të duket të paktën disi specifik - dëshironi të bëheni një DS ose Shkencëtar Kërkimor në Facebook/Apple/Amazon/Netflix/Google - shikoni kërkesat, gjuhët dhe aftësitë e nevojshme konkretisht për cilin pozicion. Cili është procesi i punësimit? Si kalon një ditë e zakonshme në një rol të tillë? Si duket profili mesatar i një personi që punon atje?

Shpesh, pamja e përgjithshme është se një person nuk e kupton me të vërtetë se çfarë dëshiron saktësisht dhe nuk është plotësisht e qartë se si të përgatitet për këtë imazh të paqartë - kështu që ia vlen të kesh të paktën një plan të përafërt se çfarë saktësisht dëshiron.

Konkretizoni pamjen aktuale të qëllimit

Edhe nëse ndryshon gjatë rrugës dhe në përgjithësi është normale të ndryshohen planet gjatë rrjedhës së shfaqjes, ia vlen të kesh një qëllim dhe të fokusohesh tek ai, të vlerësosh dhe të rimendosh periodikisht.

A do të jetë apo është ende e rëndësishme?

Deri në kohën kur rriteni në një pozicion.

Imagjinoni që përpara pozicionit tuaj, ju duhet të merrni një doktoraturë, të punoni për 2-3 vjet në industri dhe në përgjithësi të prisni flokët gjatë meditimit në një manastir - a nuk do të jetë situata me Data Science e njëjtë si dikur me ekonomistët dhe ekonomistët dhe avokatët? A do të ndryshojë gjithçka përtej njohjes në fushën që dëshironi të ndiqni?

A nuk ka një shans të mirë që të gjithë të nxitojnë atje tani dhe ne do të shohim një foto ku ka një shtresë të gjerë njerëzish që po përpiqen të hyjnë në profesion - dhe do të ketë thjesht një pozicion fillestar të varfër.

Mund të ia vlen të merren parasysh tendencat aktuale kur zgjidhni një rrugë, jo vetëm gjendjen aktuale të tregut të punës, por edhe idenë tuaj se si po ndryshon dhe ku është.

Për shembull, autori nuk kishte në plan të bëhej satanist, por gjatë doktoratës së tij ai punoi në projekte të palëve të treta që kishin aftësi të forta të përbashkëta me DS, dhe në fund të shkollës pasuniversitare ai natyrisht kaloi në mjedis, duke parë një të mirë pozicion.

Nëse gjatë rrjedhës së shfaqjes rezulton se do të jetë e nevojshme të lëvizni diku tjetër - sepse tani ka më së shumti lëvizje dhe po ndodh i gjithë veprimi më interesant, atëherë ne do të lëvizim natyrshëm atje.

Ndarja e aftësive

Këto janë kategori aftësish të kushtëzuara që më duken si kyçe për një punë të plotë dhe efektive në DS. Unë do të theksoj anglishten veçmas - mësoni çfarëdo që bëni në CS. Më pas janë kategoritë kryesore.

Programim/Skriptim

Me cilat gjuhë jeni të sigurt që do të njiheni? Python? Java? Skriptimi i guaskës? Lua? Sql? C++?

Çfarë saktësisht duhet të jeni në gjendje të bëni dhe pse për sa i përket programimit - diapazoni i pozicioneve këtu ndryshon shumë.

Për shembull, shpesh më duhet të zbatoj logjikë komplekse, pyetje, modele, analitikë dhe në përgjithësi të zhvilloj sisteme të interpretuara, por pothuajse kurrë nuk ka kërkesa për shpejtësinë e kodit, përveç atyre më të përgjithshme dhe të arsyeshme.

Prandaj, grupi im i aftësive është shumë i ndryshëm nga ata që shkruajnë bibliotekën Tensorflow dhe mendojnë për optimizimin e kodit për përdorim efikas të cache-it l1 dhe gjëra të ngjashme, kështu që shikoni se çfarë saktësisht ju nevojitet dhe vlerësoni rrugën e duhur për të mësuar.

Për shembull, për python, njerëzit tashmë përbëjnë një hartë mësimi i gjuhës.

Sigurisht, ka tashmë këshilla me përvojë dhe burime të mira për nevojat tuaja - duhet të vendosni për një listë dhe të filloni të punoni për të.

Kuptimi i proceseve të biznesit

Ju nuk mund të shkoni askund pa të: duhet të kuptoni pse ju nevojiten në këtë proces, çfarë po bëni dhe pse. Shpesh kjo është ajo që mund t'ju kursejë shumë kohë, të maksimizojë përfitimin tuaj dhe të mos humbni kohë dhe burime për budallallëqe.

Zakonisht, i bëj vetes pyetjet e mëposhtme:

  • Çfarë të bëj saktësisht në kompani?
  • Pse?
  • Kush do ta përdorë dhe si?
  • Çfarë opsionesh kam?
  • Cilat janë kufijtë e parametrave?

Këtu ka pak më shumë detaje rreth parametrave: shpesh mund të ndryshoni shumë skenarin e punës nëse e dini që diçka mund të sakrifikohet: për shembull, interpretueshmëria ose anasjelltas, nja dy përqind nuk do të luajnë një rol këtu dhe ne kemi një shumë të shpejtë. zgjidhje, dhe klienti ka nevojë për të, sepse ai paguan për kohën që gazsjellësi po funksionon në AWS.

Matematikë

Këtu ju mendoni dhe kuptoni gjithçka vetë - pa njohuri të matematikës bazë nuk jeni asgjë më shumë se majmunë me një granatë (më falni Random Forest) - kështu që ju duhet të kuptoni të paktën gjërat themelore. Nëse do të përpiloja një listë shumë minimale, ajo do të përfshinte:

  • Algjebër lineare - një numër i madh burimesh janë të lehta për Google, kërkoni atë që ju përshtatet më së miri;
  • Analiza matematikore - (të paktën në dy semestrat e parë);
  • Teoria e probabilitetit është kudo në mësimin e makinerive;
  • Kombinatorika - në fakt është plotësuese e teorisë;
  • Teoria e grafikut - të paktën BAZË;
  • Algoritmet - të paktën për dy semestrat e parë (shih rekomandimet e Cormen në librin e tij);
  • Matologjia - të paktën themelore.

Analiza dhe vizualizimi praktik i të dhënave

Një nga gjërat më të rëndësishme është të jeni në gjendje të mos keni frikë të pisni duart me të dhënat dhe të bëni një analizë gjithëpërfshirëse të grupit të të dhënave, projektit dhe të krijoni një vizualizim të shpejtë të të dhënave.

Analiza e të dhënave eksploruese duhet thjesht të bëhet diçka e natyrshme, si të gjitha transformimet e tjera të të dhënave dhe aftësia për të krijuar një tubacion të thjeshtë nga nyjet unix (shih artikujt e mëparshëm) ose për të shkruar një fletore të lexueshme dhe të kuptueshme.

Do të doja të përmendja vizualizimin: është më mirë të shohësh një herë sesa të dëgjosh njëqind herë.

Shfaqja e një grafiku te një menaxher është njëqind herë më e lehtë dhe më e qartë se një grup numrash, kështu që matplotlib, seaborn dhe ggplot2 janë miqtë tuaj.

Aftësi të buta

Është po aq e rëndësishme që të jeni në gjendje t'i komunikoni idetë tuaja, si dhe rezultatet dhe shqetësimet (etj.) me të tjerët - sigurohuni që ta shprehni qartë detyrën si në aspektin teknik ashtu edhe në atë të biznesit.

Ju mund t'u shpjegoni kolegëve, menaxherëve, eprorëve, klientëve dhe kujtdo tjetër që ka nevojë për atë se çfarë po ndodh, çfarë të dhënash po përdorni dhe çfarë rezultatesh keni marrë.

Grafikët dhe dokumentacioni juaj duhet të lexohen pa ju. Kjo do të thotë, nuk keni nevojë të shkoni tek ju për të kuptuar se çfarë është shkruar atje.

Ju mund të bëni një prezantim të qartë për të kuptuar dhe/ose dokumentuar projektin/punën tuaj.

Ju mund ta përcillni pozicionin tuaj në një mënyrë të arsyetuar dhe pa emocione, të thoni "po/jo" ose të pyesni/mbështesni një vendim.

stërvitje

Ka shumë vende të ndryshme ku mund të mësoni të gjitha këto. Unë do të jap një listë të shkurtër - kam provuar gjithçka prej saj dhe, për të qenë i sinqertë, çdo artikull ka të mirat dhe të këqijat e veta. Provojeni dhe vendosni se çfarë ju përshtatet, por unë rekomandoj shumë të provoni disa opsione dhe të mos ngecni në një.

  • Kurse online: coursera, udacity, Edx, etj;
  • Shkollat ​​e reja: online dhe offline - SkillFactory, ShAD, MADE;
  • Shkollat ​​klasike: programet master universitare dhe kurset e avancuara të trajnimit;
  • Projektet - thjesht mund të zgjidhni detyrat që ju interesojnë dhe t'i shkurtoni ato, duke i ngarkuar në github;
  • Praktika - është e vështirë të sugjerosh diçka këtu; duhet të kërkosh atë që është në dispozicion dhe të gjesh opsionet e përshtatshme.

Është e nevojshme?

Si përfundim, ndoshta do të shtoj tre parime personale që përpiqem t'i ndjek vetë.

  • Duhet të jetë interesant;
  • Sillni kënaqësi të brendshme (= të paktën mos shkaktoni vuajtje);
  • "Të jesh i yti."

Pse ata? Është e vështirë të imagjinohet të bëni diçka çdo ditë dhe të mos e shijoni atë ose të mos jeni të interesuar. Imagjinoni që jeni mjek dhe e urreni komunikimin me njerëzit - kjo, natyrisht, mund të funksionojë disi, por do të jeni vazhdimisht të pakëndshëm me fluksin e pacientëve që duan t'ju pyesin diçka. Kjo nuk funksionon në planin afatgjatë.

Pse e përmenda në mënyrë specifike kënaqësinë e brendshme? Më duket se kjo është e nevojshme për zhvillimin e mëtejshëm dhe, në parim, procesin e të mësuarit. Më pëlqen shumë kur arrij të plotësoj disa veçori komplekse dhe të ndërtoj një model ose të llogaris një parametër të rëndësishëm. Më pëlqen kur kodi im është estetikisht i bukur dhe i shkruar mirë. Prandaj, të mësuarit e diçkaje të re është interesante dhe nuk kërkon drejtpërdrejt ndonjë motivim të rëndësishëm.

"Të jesh i yti" është e njëjta ndjenjë se kjo është përafërsisht ajo që ke dashur të bësh. Unë kam një histori të vogël. Që nga fëmijëria, unë kam qenë i interesuar për muzikën rock (dhe metal - SALMON!) dhe, si shumë të tjerë, doja të mësoja se si të luaja dhe kjo është e gjitha. Doli që nuk kisha dëgjim dhe as zë - kjo nuk më shqetësoi fare (dhe duhet të them që kjo nuk shqetëson shumë interpretues pikërisht në skenë), dhe kur isha ende në shkollë mora një kitarë ... dhe u bë e qartë se nuk më pëlqen shumë të ulem me orë të tëra dhe të luaj me të. Po shkonte vështirë, gjithmonë më dukej se po dilte një lloj budallallëku - nuk kisha fare kënaqësi prej tij dhe thjesht u ndjeva i keq, budalla dhe plotësisht i paaftë. Unë fjalë për fjalë e detyrova veten të ulesha për klasa dhe në përgjithësi nuk ishte ushqim i mirë për kalin.

Në të njëjtën kohë, mund të rrija i qetë për orë të tëra duke zhvilluar një lodër, duke përdorur një skenar për të animuar diçka në flash (ose diçka tjetër) dhe isha jashtëzakonisht i motivuar për të përfunduar elementët në lojë ose për t'u marrë me mekanikën e lëvizjes dhe/ose duke lidhur bibliotekat e palëve të treta, shtojcat dhe gjithçka tjetër.

Dhe në një moment kuptova se luajtja e kitarës nuk është gjëja ime dhe se më pëlqen shumë të dëgjoj, jo të luaj. Dhe sytë e mi shkëlqenin kur shkruaja lojëra dhe kode (duke dëgjuar të gjitha llojet e metaleve në atë moment) dhe kjo është ajo që më pëlqeu atëherë, dhe kjo është ajo që duhet të kisha bërë.

A keni ndonjë pyetje tjetër?

Sigurisht, ne nuk mund t'i kalonim të gjitha temat dhe pyetjet, kështu që shkruani komente dhe më dërgoni PM - Unë jam gjithmonë i lumtur që kam pyetje.

Shënime Data Scientist: nga të filloni dhe a është e nevojshme?

Shënime Data Scientist: nga të filloni dhe a është e nevojshme?

Burimi: www.habr.com

Shto një koment