Mga Tala Petsa Scientist: saan magsisimula at kailangan ba ito?

Mga Tala Petsa Scientist: saan magsisimula at kailangan ba ito?

Ang TL;DR ay isang post para sa mga tanong/sagot tungkol sa Data Science at kung paano pumasok sa propesyon at umunlad dito. Sa artikulong susuriin ko ang mga pangunahing prinsipyo at FAQ at handa akong sagutin ang iyong mga partikular na katanungan - sumulat sa mga komento (o sa isang pribadong mensahe), susubukan kong sagutin ang lahat sa loob ng ilang araw.

Sa pagdating ng serye ng mga tala na "Satanist Date", maraming mga mensahe at komento ang dumating na may mga tanong tungkol sa kung paano magsisimula at kung saan maghukay, at ngayon ay susuriin natin ang mga pangunahing kasanayan at tanong na lumitaw pagkatapos ng mga publikasyon.

Ang lahat ng nakasaad dito ay hindi inaangkin na ang tunay na katotohanan at ito ay pansariling opinyon ng may-akda. Titingnan natin ang mga pangunahing bagay na tila pinakamahalaga sa proseso.

Bakit nga ba ito kailangan?

Upang ang layunin ay maging mas mahusay na makamit, upang ito ay mukhang kahit na medyo partikular - gusto mong maging isang DS o Research Scientist sa Facebook/Apple/Amazon/Netflix/Google - tingnan ang mga kinakailangan, wika at mga kinakailangang kasanayan partikular para sa kung anong posisyon. Ano ang proseso ng pagkuha? Paano dumadaan ang isang karaniwang araw sa ganoong tungkulin? Ano ang hitsura ng karaniwang profile ng isang taong nagtatrabaho doon?

Kadalasan ang pangkalahatang larawan ay hindi talaga naiintindihan ng isang tao kung ano ang eksaktong gusto niya at hindi lubos na malinaw kung paano maghanda para sa hindi malinaw na imaheng ito - kaya sulit na magkaroon ng hindi bababa sa isang magaspang na plano kung ano ang eksaktong gusto mo.

Konkreto ang kasalukuyang view ng layunin

Kahit na magbago ito, at karaniwan nang normal na baguhin ang mga plano sa panahon ng paglalaro, sulit na magkaroon ng layunin at tumuon dito, pana-panahong suriin at muling pag-isipan.

Magiging may kaugnayan ba ito o may kaugnayan pa rin ba ito?

Sa oras na lumaki ka sa isang posisyon.

Isipin na bago ang iyong posisyon ay kailangan mong makakuha ng PhD, magtrabaho ng 2-3 taon sa industriya at sa pangkalahatan ay gupitin ang iyong buhok habang nagmumuni-muni sa isang monasteryo - hindi ba ang sitwasyon sa Data Science ay magiging katulad ng dati sa mga ekonomista at abogado? Magbabago ba ang lahat nang lampas sa pagkilala sa lugar na gusto mong ituloy?

Hindi ba't malaki ang posibilidad na lahat ay magmadali doon ngayon at makikita natin ang isang larawan kung saan mayroong isang malawak na layer ng mga tao na nagsisikap na pumasok sa propesyon - at magkakaroon lamang ng isang maliit na panimulang posisyon.

Maaaring sulit na isaalang-alang ang kasalukuyang mga uso kapag pumipili ng isang landas, hindi lamang ang kasalukuyang estado ng merkado ng paggawa, kundi pati na rin ang iyong ideya kung paano ito nagbabago at kung nasaan ito.

Halimbawa, ang may-akda ay hindi nagplano na maging isang Satanista, ngunit sa panahon ng kanyang PhD ay nagtrabaho siya sa mga proyekto ng third-party na may malakas na kasanayan sa karaniwan sa DS, at sa pagtatapos ng graduate school natural siyang lumipat sa kapaligiran, na nakakita ng magandang posisyon.

Kung sa panahon ng paglalaro ay lumalabas na kinakailangan na lumipat sa ibang lugar - dahil mayroon na ngayong pinakamaraming paggalaw at lahat ng mga pinaka-kagiliw-giliw na aksyon ay nangyayari, pagkatapos ay lilipat tayo doon nang natural.

Pagkakasira ng Kasanayan

Ito ay mga kondisyonal na kategorya ng mga kasanayan na sa tingin ko ay susi para sa ganap at epektibong trabaho sa DS. I-highlight ko ang English nang hiwalay - alamin kung ano ang gagawin mo sa CS. Susunod ay ang mga pangunahing kategorya.

Programming/Scripting

Anong mga wika ang siguradong makikilala mo? sawa? Java? Shell scripting? Lua? Sql? C++?

Ano ang eksaktong kailangan mong magawa at bakit sa mga tuntunin ng programming - ang hanay ng mga posisyon dito ay lubhang nag-iiba.

Halimbawa, madalas kong kailangang magpatupad ng kumplikadong lohika, mga query, mga modelo, analytics, at sa pangkalahatan ay bumuo ng mga na-interpret na sistema, ngunit halos walang mga kinakailangan para sa bilis ng code, maliban sa mga pinaka-pangkalahatan at makatwiran.

Samakatuwid, ang aking set ng kasanayan ay ibang-iba sa mga sumulat ng aklatan ng Tensorflow at nag-iisip tungkol sa pag-optimize ng code para sa mahusay na paggamit ng l1 cache at mga katulad na bagay, kaya tingnan kung ano ang eksaktong kailangan mo at suriin ang tamang landas sa pag-aaral.

Halimbawa, para sa sawa, ang mga tao ay bumubuo na card pag-aaral ng wika.

Tiyak, mayroon nang nakaranas na payo at mahusay na mga mapagkukunan para sa iyong mga pangangailangan - kailangan mong magpasya sa isang listahan at simulan ang paggawa nito.

Pag-unawa sa mga proseso ng negosyo

Hindi ka makakapunta kahit saan kung wala ito: kailangan mong maunawaan kung bakit ka kailangan sa prosesong ito, kung ano ang iyong ginagawa at bakit. Ito ang kadalasang makakapagtipid sa iyo ng isang toneladang oras, mapakinabangan ang iyong mga benepisyo, at maiwasan ang pag-aaksaya ng oras at mga mapagkukunan sa kalokohan.

Kadalasan, tinatanong ko sa sarili ko ang mga sumusunod na katanungan:

  • Ano nga ba ang gagawin ko sa kumpanya?
  • Bakit?
  • Sino ang gagamit nito at paano?
  • Anong mga pagpipilian ang mayroon ako?
  • Ano ang mga limitasyon ng mga parameter?

Narito ang kaunti pang detalye tungkol sa mga parameter: madalas mong mababago nang malaki ang senaryo ng trabaho kung alam mong may isang bagay na maaaring isakripisyo: halimbawa, interpretability o vice versa, ang ilang porsyento ay hindi gaganap dito at mayroon kaming napakabilis solusyon, at kailangan ito ng kliyente, dahil nagbabayad siya para sa oras na tumatakbo ang pipeline sa AWS.

Matematika

Dito mo iniisip at nauunawaan ang lahat ng iyong sarili - nang walang kaalaman sa pangunahing matematika, ikaw ay walang iba kundi mga unggoy na may granada (paumanhin sa Random Forest) - kaya kailangan mong maunawaan ang hindi bababa sa mga pangunahing bagay. Kung mag-compile ako ng napakaliit na listahan, isasama nito ang:

  • Linear algebra - isang malaking bilang ng mga mapagkukunan ay madali sa Google, hanapin kung ano ang pinakaangkop sa iyo;
  • Pagsusuri sa matematika - (hindi bababa sa unang dalawang semestre);
  • Ang teorya ng probabilidad ay nasa lahat ng dako sa machine learning;
  • Combinatorics - ito ay aktwal na pantulong sa teorya;
  • Teorya ng graph - hindi bababa sa BASIC;
  • Algorithm - hindi bababa sa unang dalawang semestre (tingnan ang mga rekomendasyon ni Cormen sa kanyang aklat);
  • Mathlogic - hindi bababa sa basic.

Praktikal na pagsusuri at visualization ng data

Isa sa pinakamahalagang bagay ay ang hindi matakot na madumihan ang iyong mga kamay ng data at magsagawa ng komprehensibong pagsusuri ng dataset, proyekto, at gumawa ng mabilis na visualization ng data.

Ang pagsusuri ng data sa pag-explore ay dapat na maging natural lamang, tulad ng lahat ng iba pang pagbabagong-anyo ng data at ang kakayahang lumikha ng isang simpleng pipeline mula sa mga unix node (tingnan ang mga nakaraang artikulo) o magsulat ng isang nababasa at naiintindihan na notebook.

Gusto kong banggitin ang visualization: mas mabuting makakita ng isang beses kaysa makarinig ng isang daang beses.

Ang pagpapakita ng graph sa isang manager ay isang daang beses na mas madali at mas malinaw kaysa sa isang hanay ng mga numero, kaya ang matplotlib, seaborn at ggplot2 ay iyong mga kaibigan.

Malambot na kasanayan

Parehong mahalaga na maiparating ang iyong mga ideya, gayundin ang mga resulta at alalahanin (atbp.) sa iba - tiyaking malinaw mong maisasaad ang gawain sa parehong teknikal at pangnegosyong termino.

Maaari mong ipaliwanag sa mga kasamahan, tagapamahala, superyor, kliyente at sinumang nangangailangan nito kung ano ang nangyayari, anong data ang iyong ginagamit at kung anong mga resulta ang iyong nakuha.

Ang iyong mga chart at dokumentasyon ay dapat basahin nang wala ka. Ibig sabihin, hindi mo kailangang pumunta sa iyo para maunawaan kung ano ang nakasulat doon.

Maaari kang gumawa ng isang malinaw na presentasyon upang maiparating ang punto at/o idokumento ang proyekto/iyong gawain.

Maaari mong ipahiwatig ang iyong posisyon sa isang makatwiran at hindi emosyonal na paraan, sabihin ang "oo/hindi" o tanungin/suportahan ang isang desisyon.

pagsasanay

Mayroong maraming iba't ibang mga lugar kung saan maaari mong malaman ang lahat ng ito. Magbibigay ako ng maikling listahan - Sinubukan ko ang lahat mula rito at, sa totoo lang, may mga kalamangan at kahinaan ang bawat item. Subukan ito at magpasya kung ano ang nababagay sa iyo, ngunit lubos kong inirerekumenda na subukan ang ilang mga pagpipilian at hindi makaalis sa isa.

  • Mga online na kurso: coursera, udacity, Edx, atbp;
  • Mga bagong paaralan: online at offline - SkillFactory, ShAD, MADE;
  • Mga klasikal na paaralan: mga programa ng master sa unibersidad at mga advanced na kurso sa pagsasanay;
  • Mga Proyekto - maaari mo lamang piliin ang mga gawain na interesado ka at i-cut ang mga ito, i-upload ang mga ito sa github;
  • Mga internship - mahirap magmungkahi ng anuman dito; kailangan mong hanapin kung ano ang available at maghanap ng mga angkop na opsyon.

kailangan ba?

Sa konklusyon, malamang na magdagdag ako ng tatlong personal na prinsipyo na sinusubukan kong sundin ang aking sarili.

  • Dapat ay kawili-wili;
  • Magdala ng panloob na kasiyahan (= hindi bababa sa hindi maging sanhi ng pagdurusa);
  • "Para maging iyo."

bakit sila? Mahirap isipin na gumagawa ng isang bagay araw-araw at hindi nag-e-enjoy o hindi interesado. Isipin na ikaw ay isang doktor at ayaw mong makipag-usap sa mga tao - ito, siyempre, ay maaaring gumana sa anumang paraan, ngunit palagi kang hindi komportable sa daloy ng mga pasyente na gustong magtanong sa iyo ng isang bagay. Hindi ito gumagana sa katagalan.

Bakit ko partikular na binanggit ang panloob na kasiyahan? Para sa akin, ito ay kinakailangan para sa karagdagang pag-unlad at, sa prinsipyo, ang proseso ng pag-aaral. Talagang nasisiyahan ako kapag nagawa kong kumpletuhin ang ilang kumplikadong tampok at bumuo ng isang modelo o kalkulahin ang isang mahalagang parameter. Nasisiyahan ako kapag ang aking code ay aesthetically maganda at mahusay na pagkakasulat. Samakatuwid, ang pag-aaral ng bago ay kawili-wili at hindi direktang nangangailangan ng anumang makabuluhang pagganyak.

Ang "pagiging sa iyo" ay ang parehong pakiramdam na ito ay halos kung ano ang gusto mong gawin. May kaunting kwento ako. Simula pagkabata, interesado na ako sa rock music (at metal - SALMON!) at, tulad ng marami pang iba, gusto kong matutong tumugtog at iyon lang. Ito ay lumabas na wala akong pandinig at walang boses - hindi ito nag-abala sa akin (at dapat kong sabihin na hindi ito nakakaabala sa maraming mga performer sa entablado), at noong nasa paaralan pa ako nakakuha ako ng gitara... at naging malinaw na hindi ko talaga gusto ang pag-upo ng maraming oras at paglalaro dito. Ito ay mahirap, tila sa akin ay palaging may isang uri ng kalokohan na lumalabas - hindi ako nasiyahan mula dito at naramdaman ko na ang pangit, hangal at ganap na walang kakayahan. Literal kong pinilit ang aking sarili na umupo para sa mga klase at sa pangkalahatan ay hindi ito masarap na pagkain para sa kabayo.

Kasabay nito, maaari akong medyo mahinahon na umupo nang maraming oras sa pagbuo ng ilang laruan, gamit ang isang script upang i-animate ang isang bagay sa flash (o iba pa) at ako ay napaka-motivated na tapusin ang mga elemento sa laro o harapin ang mga mekanika ng paggalaw at/o pagkonekta ng mga third-party na aklatan, plugin at lahat ng iba pa.

At sa ilang mga punto ay napagtanto ko na ang pagtugtog ng gitara ay hindi bagay sa akin at na gusto ko talagang makinig, hindi tumugtog. At kumikinang ang aking mga mata nang magsulat ako ng mga laro at code (nakikinig sa lahat ng uri ng metal sa sandaling iyon) at iyon ang nagustuhan ko noon, at iyon ang dapat kong ginagawa.

Mayroon ka bang iba pang mga katanungan?

Siyempre, hindi namin masagot ang lahat ng mga paksa at tanong, kaya sumulat ng mga komento at mag-PM sa akin - Lagi akong masaya na may mga tanong.

Mga Tala Petsa Scientist: saan magsisimula at kailangan ba ito?

Mga Tala Petsa Scientist: saan magsisimula at kailangan ba ito?

Pinagmulan: www.habr.com

Magdagdag ng komento