Što čitati kao podatkovni znanstvenik u 2020

Što čitati kao podatkovni znanstvenik u 2020
U ovom postu s vama dijelimo izbor izvora korisnih informacija o znanosti o podacima od suosnivača i tehničkog direktora DAGsHuba, zajednice i web platforme za kontrolu verzija podataka i suradnju između podatkovnih znanstvenika i inženjera strojnog učenja. Izbor uključuje različite izvore, od Twitter računa do potpunih inženjerskih blogova, koji su namijenjeni onima koji točno znaju što traže. Detalji ispod kroja.

Od autora:
Vi ste ono što jedete, a kao znanstveni radnik potrebna vam je dobra informativna prehrana. Želim podijeliti izvore informacija o znanosti o podacima, umjetnoj inteligenciji i povezanim tehnologijama koje smatram najkorisnijima ili najprivlačnijima. Nadam se da će i vama ovo pomoći!

Dvominutni radovi

YouTube kanal koji je pogodan za praćenje najnovijih događaja. Kanal se često ažurira, a voditelj ima zarazan entuzijazam i pozitivnost u svim temama koje obrađuje. Očekujte izvještavanje o zanimljivom radu ne samo o umjetnoj inteligenciji, već io računalnoj grafici i drugim vizualno privlačnim temama.

Yannick Kilcher

Na svom YouTube kanalu Yannick tehnički detaljno objašnjava značajna istraživanja dubokog učenja. Umjesto da sami čitate studiju, često je brže i lakše pogledati neki od njezinih videozapisa kako biste dublje razumjeli važne članke. Objašnjenja prenose bit članaka bez zanemarivanja matematike ili gubljenja u tri bora. Yannick također dijeli svoje poglede na to kako se studije uklapaju, koliko ozbiljno treba shvatiti rezultate, šira tumačenja i tako dalje. Početnici (ili neakademski praktičari) teže sami dolaze do ovih otkrića.

destilirati.pub

Njihovim riječima:

Istraživanje strojnog učenja mora biti jasno, dinamično i živahno. A Distill je stvoren da pomogne u istraživanju.

Distill je jedinstvena istraživačka publikacija o strojnom učenju. Članci se promoviraju sa zadivljujućim vizualizacijama kako bi se čitatelju dalo intuitivnije razumijevanje tema. Prostorno razmišljanje i mašta obično rade vrlo dobro u pomaganju u razumijevanju tema o strojnom učenju i znanosti o podacima. Tradicionalni formati publikacija, s druge strane, imaju tendenciju biti kruti u svojoj strukturi, statični i suhi, a ponekad "matematički". Chris Olah, sukreator Distilla, također vodi nevjerojatan osobni blog na GitHub. Dugo nije ažuriran, ali je i dalje zbirka najboljih objašnjenja dubokog učenja ikada napisanih. Konkretno, meni je to puno pomoglo описание LSTM!

Što čitati kao podatkovni znanstvenik u 2020
izvor

Sebastijan Ruder

Sebastian Ruder piše vrlo informativan blog i newsletter, prvenstveno o raskrižju neuronskih mreža i analize teksta prirodnog jezika. Također daje puno savjeta istraživačima i govornicima na konferencijama, što može biti od velike pomoći ako ste u akademskoj zajednici. Sebastianovi članci uglavnom su u obliku recenzija, sažimajući i objašnjavajući najnovija dostignuća u istraživanju i metodama u određenom području. To znači da su članci izuzetno korisni za praktičare koji se žele brzo snaći. Sebastian također piše X / Twitter.

Andrej Karpati

Andrei Karpaty ne treba predstavljati. Osim što je jedan od najpoznatijih istraživača dubokog učenja na svijetu, on stvara široko korištene alate kao što su arhiva sanity čuvar kao sporedni projekti. Nebrojeni su ljudi ušli u ovo područje kroz njegov tečaj na Stanfordu. cs231n, a bit će vam korisno da ga znate recept trening neuronske mreže. Također ga preporučam pogledati govor o stvarnim problemima koje Tesla mora prevladati kada pokušava primijeniti strojno učenje na masovnoj razini u stvarnom svijetu. Govor je informativan, dojmljiv i otrežnjujući. Osim članaka o samom ML-u, Andrey Karpaty daje dobar životni savjet za ambicioznih znanstvenika. Pročitajte Andriju na X / Twitter i Github.

Uber inženjering

Uberov inženjerski blog doista je impresivan u smislu razmjera i širine pokrivenosti, pokrivajući mnogo tema, posebno Umjetna inteligencija. Ono što mi se posebno sviđa kod Uberove inženjerske kulture je njihova tendencija da objavljuju vrlo zanimljive i vrijedne Projekti open source vrtoglavom brzinom. Evo nekoliko primjera:

OpenAI blog

Kontroverze na stranu, OpenAI blog je nedvojbeno izvrstan. S vremena na vrijeme blog objavljuje sadržaj i uvide o dubinskom učenju koji mogu biti samo na razini OpenAI-ja: hipotetski fenomen duboko dvostruko spuštanje. OpenAI tim ima tendenciju da rijetko objavljuje, ali ovo je važan sadržaj.

Što čitati kao podatkovni znanstvenik u 2020
izvor

Taboola blog

Blog Taboola nije toliko poznat kao neki drugi izvori u ovom postu, ali mislim da je jedinstven - autori pišu o vrlo svakodnevnim, stvarnim problemima kada pokušavaju primijeniti ML u proizvodnji za "normalno" poslovanje: manje o samovozeći automobili i RL agenti osvajaju svjetske prvake, više o tome "kako mogu znati predviđa li moj model sada stvari s lažnim povjerenjem?". Ta su pitanja relevantna za gotovo svakoga tko radi na tom području i dobivaju manje medijske pokrivenosti od uobičajenih tema AI-ja, ali još uvijek je potreban talent svjetske klase da se pravilno pozabavi tim problemima. Srećom, Taboola ima i taj talent i volju i sposobnost da piše o tome kako bi i drugi ljudi mogli učiti.

Reddit

Uz Twitter, nema ništa bolje na Redditu nego navući se na istraživanje, alate ili mudrost gomile.

Stanje AI

Postovi se objavljuju samo jednom godišnje, ali su vrlo gusto ispunjeni informacijama. U usporedbi s drugim izvorima na ovom popisu, ovaj je pristupačniji poslovnim ljudima koji se ne bave tehnologijom. Ono što mi se sviđa kod razgovora je to što pokušavaju dati holistički pogled na to kamo idu industrija i istraživanje, povezujući napredak u hardveru, istraživanju, poslovanju, pa čak i geopolitici iz ptičje perspektive. Obavezno počnite od kraja čitati o sukobima interesa.

Podcasti

Iskreno govoreći, mislim da podcasti nisu prikladni za učenje o tehničkim temama. Uostalom, oni koriste samo zvuk za objašnjenje tema, a znanost o podacima vrlo je vizualno polje. Podcasti vam obično daju izgovor za dublje istraživanje kasnije ili za zanimljive filozofske rasprave. Međutim, evo nekoliko preporuka:

  • lex friedman podcastkada razgovara s istaknutim istraživačima na području umjetne inteligencije. Posebno su dobre epizode s Francoisom Cholletom!
  • Podcast Data Engineering. Drago mi je čuti o novim alatima za podatkovnu infrastrukturu.

Sjajne liste

Ovdje ima manje na što morate paziti, ali više resursa koji će vam biti od pomoći kada znate što tražite:

X / Twitter

  • Matty Mariansky
    Matty pronalazi prekrasne, kreativne načine za korištenje neuronskih mreža i jednostavno je zabavno vidjeti njegove rezultate na svom Twitteru. Pogledajte barem ovo postavljati.
  • Ori Cohen
    Ori je samo pogonski stroj blogovima. Opširno piše o problemima i rješenjima za podatkovne znanstvenike. Obavezno se pretplatite na obavijest kada članak bude objavljen. Njegovo zbirkaposebno je stvarno impresivan.
  • Jeremy Howard
    Suosnivač fast.ai, sveobuhvatnog izvora kreativnosti i produktivnosti.
  • Hamel Husein
    Hamel Hussain, zaposlenik ML inženjera u Githubu, zaposlen je na stvaranju i izvješćivanju o mnogim alatima za programere u domeni podataka.
  • François Chollet
    Kreator Kerasa, sada pokušavajući ažurirati naše razumijevanje o tome što je inteligencija i kako je testirati.
  • hardmaru
    Istraživač u Google Brainu.

Zaključak

Izvorni post može se ažurirati jer autor pronađe izvrsne izvore sadržaja koje bi bilo šteta ne uključiti na popis. Slobodno mu se obratite X / Twitterako želite preporučiti neki novi izvor! I također DAGsHub zapošljava Zagovornik [cca. prev. Public Practitioner] u Data Science, pa ako kreirate vlastiti sadržaj Data Science, slobodno pišite autoru objave.

Što čitati kao podatkovni znanstvenik u 2020
Razvijajte se čitajući preporučene izvore i promotivni kod HABR, možete dobiti dodatnih 10% na popust naveden na banneru.

Više tečajeva

Istaknuti članci

Izvor: www.habr.com