Ano ang dapat basahin bilang isang data scientist sa 2020

Ano ang dapat basahin bilang isang data scientist sa 2020
Sa post na ito, ibinabahagi namin sa iyo ang isang seleksyon ng mga mapagkukunan ng kapaki-pakinabang na impormasyon tungkol sa Data Science mula sa co-founder at CTO ng DAGsHub, isang komunidad at web platform para sa kontrol sa bersyon ng data at pakikipagtulungan sa pagitan ng mga data scientist at mga machine learning engineer. Kasama sa pagpili ang iba't ibang mga mapagkukunan, mula sa mga Twitter account hanggang sa ganap na mga blog sa engineering, na naka-target sa mga nakakaalam kung ano mismo ang kanilang hinahanap. Mga detalye sa ilalim ng hiwa.

Mula sa may-akda:
Ikaw ang iyong kinakain, at bilang isang manggagawang may kaalaman, kailangan mo ng isang mahusay na diyeta na nagbibigay-kaalaman. Gusto kong magbahagi ng mga mapagkukunan ng impormasyon tungkol sa Data Science, artificial intelligence at mga kaugnay na teknolohiya na sa tingin ko ay pinakakapaki-pakinabang o kaakit-akit. Sana makatulong din ito sa iyo!

Dalawang Minute Papers

Isang channel sa YouTube na angkop na manatiling napapanahon sa mga pinakabagong kaganapan. Ang channel ay madalas na ina-update at ang host ay may nakakahawang sigasig at positibo sa lahat ng paksang sakop. Asahan ang saklaw ng kawili-wiling gawain hindi lamang sa AI, kundi pati na rin sa mga computer graphics at iba pang mga paksang nakakaakit sa paningin.

Yannick Kilcher

Sa kanyang channel sa YouTube, ipinaliwanag ni Yannick ang makabuluhang pananaliksik sa malalim na pag-aaral sa teknikal na detalye. Sa halip na magbasa ng isang pag-aaral nang mag-isa, kadalasan ay mas mabilis at mas madaling manood ng isa sa mga video nito upang magkaroon ng mas malalim na pag-unawa sa mahahalagang artikulo. Ang mga paliwanag ay naghahatid ng kakanyahan ng mga artikulo nang hindi pinababayaan ang matematika o naliligaw sa tatlong pine. Ibinahagi din ni Yannick ang kanyang mga pananaw sa kung paano magkatugma ang mga pag-aaral, kung gaano kaseryoso ang mga resulta, mas malawak na interpretasyon, at iba pa. Mas nahihirapan ang mga baguhan (o non-academic practitioner) na makarating sa mga pagtuklas na ito nang mag-isa.

distill.pub

Sa kanilang sariling mga salita:

Kailangang malinaw, dynamic, at masigla ang pananaliksik sa machine learning. At ang Distill ay nilikha upang makatulong sa pananaliksik.

Ang Distill ay isang natatanging machine learning research publication. Ang mga artikulo ay pino-promote ng mga nakamamanghang visualization upang bigyan ang mambabasa ng isang mas madaling maunawaan na pag-unawa sa mga paksa. Ang spatial na pag-iisip at imahinasyon ay madalas na gumagana nang mahusay sa pagtulong sa iyong maunawaan ang mga paksa ng Machine Learning at Data Science. Ang mga tradisyonal na format ng publikasyon, sa kabilang banda, ay may posibilidad na maging matibay sa kanilang istraktura, static at tuyo, at kung minsan "matematika". Si Chris Olah, co-creator ng Distill, ay nagpapanatili din ng kamangha-manghang personal na blog sa GitHub. Ito ay hindi na-update sa loob ng mahabang panahon, ngunit nananatili pa ring isang koleksyon ng pinakamahusay na malalim na mga paliwanag sa pag-aaral na naisulat. Sa partikular, malaki ang naitulong nito sa akin описаниС LSTM!

Ano ang dapat basahin bilang isang data scientist sa 2020
pinagmulan

Sebastian Ruder

Si Sebastian Ruder ay nagsusulat ng isang napaka-kaalaman na blog at newsletter, pangunahin ang tungkol sa intersection ng mga neural network at natural na language text analysis. Nagbibigay din siya ng maraming payo sa mga mananaliksik at tagapagsalita sa kumperensya, na maaaring maging kapaki-pakinabang kung ikaw ay nasa akademya. Ang mga artikulo ni Sebastian ay may posibilidad na kumuha ng anyo ng mga pagsusuri, pagbubuod at pagpapaliwanag ng estado ng sining sa pananaliksik at mga pamamaraan sa isang partikular na lugar. Nangangahulugan ito na ang mga artikulo ay lubhang kapaki-pakinabang para sa mga practitioner na gustong mabilis na makuha ang kanilang mga bearings. Sumusulat din si Sebastian kaba.

Andrey Karpaty

Si Andrei Karpaty ay hindi nangangailangan ng pagpapakilala. Bilang karagdagan sa pagiging isa sa mga pinakasikat na deep learning researcher sa mundo, gumagawa siya ng malawakang ginagamit na mga tool tulad ng archive sanity preserver bilang mga side project. Hindi mabilang na mga tao ang pumasok sa kaharian na ito sa pamamagitan ng kanyang kursong Stanford. cs231n, at magiging kapaki-pakinabang para sa iyo na malaman ito recipe pagsasanay sa neural network. Inirerekomenda ko rin itong panoorin pagsasalita tungkol sa mga tunay na problema na dapat pagtagumpayan ni Tesla kapag sinusubukang ilapat ang machine learning sa isang napakalaking sukat sa totoong mundo. Ang pananalita ay nagbibigay-kaalaman, kahanga-hanga at matino. Bukod sa mga artikulo tungkol sa ML mismo, nagbibigay si Andrey Karpaty magandang payo sa buhay para sa ambisyosong mga siyentipiko. Basahin si Andrew sa kaba at Github.

Uber engineering

Ang Uber engineering blog ay talagang kahanga-hanga sa mga tuntunin ng sukat at lawak ng saklaw, na sumasaklaw sa maraming paksa, sa partikular Artipisyal na Katalinuhan. Ang pinakagusto ko sa kultura ng engineering ng Uber ay ang kanilang tendency na maglabas ng napaka-interesante at mahalaga Proyekto open source sa napakabilis na bilis. Narito ang ilang halimbawa:

OpenAI Blog

Bukod sa kontrobersya, hindi maikakailang mahusay ang OpenAI blog. Paminsan-minsan, ang blog ay nagpo-post ng nilalaman at mga insight tungkol sa malalim na pag-aaral na maaari lamang dumating sa sukat ng OpenAI: hypothetical kababalaghan malalim na double descent. Ang koponan ng OpenAI ay madalas na mag-post, ngunit ang mga ito ay mahalagang nilalaman.

Ano ang dapat basahin bilang isang data scientist sa 2020
pinagmulan

Taboola Blog

Ang Taboola blog ay hindi gaanong kilala gaya ng ilan sa iba pang mga mapagkukunan sa post na ito, ngunit sa palagay ko ito ay natatangi - ang mga may-akda ay nagsusulat tungkol sa napaka-mundo, totoong mga problema kapag sinusubukang ilapat ang ML sa produksyon para sa isang "normal" na negosyo: mas kaunti tungkol sa mga self-driving na kotse at mga ahente ng RL na nanalo ng mga kampeon sa mundo, higit pa tungkol sa "paano ko malalaman kung hinuhulaan na ngayon ng aking modelo ang mga bagay nang may maling kumpiyansa?". Ang mga isyung ito ay may kaugnayan sa halos lahat ng nagtatrabaho sa field at nakakatanggap ng mas kaunting coverage ng press kaysa sa mas karaniwang mga paksa ng AI, ngunit nangangailangan pa rin ng world-class na talento upang maayos na matugunan ang mga isyung ito. Sa kabutihang-palad, si Taboola ay may parehong talento at ang pagpayag at kakayahang magsulat tungkol dito upang ang ibang mga tao ay matuto rin.

reddit

Kasama ng Twitter, wala nang mas mahusay sa Reddit kaysa sa pagiging hooked sa pananaliksik, mga tool, o karunungan ng karamihan ng tao.

Estado ng AI

Ang mga post ay nai-publish taun-taon lamang, ngunit puno ng impormasyon nang napakakapal. Kung ikukumpara sa iba pang mga mapagkukunan sa listahang ito, ang isang ito ay mas naa-access sa mga taong hindi pang-tech na negosyo. Ang gusto ko sa mga pag-uusap ay sinusubukan nilang magbigay ng mas holistic na pananaw sa kung saan patungo ang industriya at pananaliksik, na pinagsasama-sama ang mga pagsulong sa hardware, pananaliksik, negosyo, at kahit geopolitics mula sa isang bird's eye view. Siguraduhing magsimula sa dulo upang basahin ang tungkol sa mga salungatan ng interes.

Mga Podcast

Sa totoo lang, sa tingin ko ang mga podcast ay hindi angkop para sa pag-aaral tungkol sa mga teknikal na paksa. Pagkatapos ng lahat, gumagamit lamang sila ng tunog upang ipaliwanag ang mga paksa, at ang agham ng data ay isang napaka-visual na larangan. Ang mga podcast ay kadalasang nagbibigay sa iyo ng dahilan upang mag-explore nang mas malalim sa ibang pagkakataon, o para sa nakakaengganyo na mga pilosopikal na talakayan. Gayunpaman, narito ang ilang mga rekomendasyon:

  • podcast ni lex friedmankapag nakikipag-usap siya sa mga kilalang mananaliksik sa larangan ng artificial intelligence. Ang mga episode na may Francois Chollet ay lalong maganda!
  • Podcast ng Data Engineering. Nakakatuwang marinig ang tungkol sa mga bagong tool sa imprastraktura ng data.

Kahanga-hangang mga listahan

Mas kaunti ang dapat bantayan dito, ngunit mas maraming mapagkukunan na makakatulong kapag alam mo kung ano ang iyong hinahanap:

kaba

  • Matty Mariansky
    Nakahanap si Matty ng magaganda, malikhaing paraan para gumamit ng mga neural network, at nakakatuwang makita ang kanyang mga resulta sa iyong Twitter feed. Tingnan mo man lang ito post.
  • Ori Cohen
    Ang Ori ay isang makina sa pagmamaneho mga blog. Nagsusulat siya nang husto tungkol sa mga problema at solusyon para sa mga data scientist. Tiyaking mag-subscribe upang maabisuhan kapag na-publish ang isang artikulo. Ang kanyang compilationsa partikular ay talagang kahanga-hanga.
  • Jeremy Howard
    Co-founder ng fast.ai, isang komprehensibong pinagmumulan ng pagkamalikhain at pagiging produktibo.
  • Hamel Hussein
    Isang staff ML engineer sa Github, si Hamel Hussain ay abala sa paggawa at pag-uulat sa maraming tool para sa mga coder sa domain ng data.
  • FranΓ§ois Chollet
    Tagalikha ng Keras, ngayon sinusubukan mong i-update ang aming pag-unawa sa kung ano ang katalinuhan at kung paano ito subukan.
  • hardmaru
    Research scientist sa Google Brain.

Konklusyon

Maaaring ma-update ang orihinal na post dahil nakahanap ang may-akda ng magagandang mapagkukunan ng nilalaman na nakakahiyang hindi isama sa listahan. Huwag mag-atubiling makipag-ugnay sa kanya kabakung gusto mong magrekomenda ng ilang bagong source! At gayundin ang DAGsHub hires Tagapagtanggol [approx. transl. Public Practitioner] sa Data Science, kaya kung gagawa ka ng sarili mong content ng Data Science, huwag mag-atubiling sumulat sa may-akda ng post.

Ano ang dapat basahin bilang isang data scientist sa 2020
Bumuo sa pamamagitan ng pagbabasa ng mga inirerekomendang mapagkukunan, at sa pamamagitan ng code na pang-promosyon HABR, maaari kang makakuha ng karagdagang 10% sa diskwento na nakasaad sa banner.

Higit pang mga kurso

Mga Itinatampok na Artikulo

Pinagmulan: www.habr.com