Šta čitati kao naučnik podataka u 2020

Šta čitati kao naučnik podataka u 2020
U ovom postu s vama dijelimo izbor izvora korisnih informacija o Data Science od suosnivača i CTO-a DAGsHub-a, zajednice i web platforme za kontrolu verzija podataka i saradnju između naučnika podataka i inženjera mašinskog učenja. Izbor uključuje razne izvore, od Twitter naloga do punopravnih inženjerskih blogova, koji su namijenjeni onima koji tačno znaju šta traže. Detalji ispod reza.

Od autora:
Vi ste ono što jedete, a kao radnik znanja potrebna vam je dobra informativna dijeta. Želim podijeliti izvore informacija o nauci o podacima, umjetnoj inteligenciji i srodnim tehnologijama koje smatram najkorisnijim ili najprivlačnijim. Nadam se da će ovo pomoći i vama!

Dvominutni radovi

YouTube kanal koji je vrlo pogodan za praćenje najnovijih događaja. Kanal se često ažurira i domaćin ima zarazni entuzijazam i pozitivnost za sve teme koje se obrađuju. Očekujte pokrivanje zanimljivih radova ne samo na AI, već i na kompjuterskoj grafici i drugim vizuelno privlačnim temama.

Yannick Kilcher

Na svom YouTube kanalu, Yannick objašnjava značajna istraživanja dubokog učenja u tehničkim detaljima. Umjesto da sami čitate studiju, često je brže i lakše pogledati jedan od njenih videozapisa kako biste stekli dublje razumijevanje važnih članaka. Objašnjenja prenose suštinu članaka bez zanemarivanja matematike ili gubljenja u tri bora. Yannick također dijeli svoje stavove o tome kako se studije uklapaju, koliko ozbiljno shvatiti rezultate, šira tumačenja i još mnogo toga. Teže je početnicima (ili neakademskim praktičarima) da sami dođu do ovih otkrića.

destill.pub

Njihovim vlastitim riječima:

Istraživanje mašinskog učenja mora biti jasno, dinamično i živopisno. A Distill je stvoren da pomogne u istraživanju.

Distill je jedinstvena publikacija sa istraživanjem u oblasti mašinskog učenja. Članci sa zadivljujućim vizualizacijama se promoviraju kako bi se čitatelju dalo intuitivnije razumijevanje tema. Prostorno razmišljanje i mašta imaju tendenciju da funkcionišu veoma dobro u pomaganju da se razumeju teme mašinskog učenja i nauke o podacima. Tradicionalni formati publikacija, s druge strane, imaju tendenciju da budu kruti u svojoj strukturi, statični i suvi, a ponekad "matematički". Chris Olah, jedan od kreatora Distill-a, također ima sjajan lični blog na adresi GitHub. Već neko vrijeme nije ažuriran, ali i dalje ostaje zbirka najboljih objašnjenja na temu dubokog učenja ikada napisanih. Posebno mi je to puno pomoglo описание LSTM!

Šta čitati kao naučnik podataka u 2020
izvor

Sebastian Ruder

Sebastian Ruder piše vrlo pronicljiv blog i bilten, prvenstveno o ukrštanju neuronskih mreža i rudarenja teksta na prirodnom jeziku. On također ima mnogo savjeta za istraživače i govornike na konferencijama, što može biti od velike pomoći ako ste u akademskoj zajednici. Sebastianovi članci obično imaju oblik pregleda, sažimaju i objašnjavaju stanje trenutnog istraživanja i metoda u određenom polju. To znači da su članci izuzetno korisni za praktičare koji žele brzo da se snađu. Sebastian takođe piše cvrkut.

Andrey Karpathy

Andreju Karpatiju nije potrebno predstavljanje. Osim što je jedan od najpoznatijih istraživača dubokog učenja na Zemlji, on stvara široko korištene alate, npr. arxiv čuvar razuma kao sporedni projekti. Bezbroj ljudi je ušlo u ovu oblast kroz njegov kurs na Stanfordu cs231n, i biće vam korisno da to znate recept trening neuronske mreže. Takođe preporučujem da ga pogledate govor o izazovima u stvarnom svijetu koje Tesla mora savladati kada pokušava primijeniti mašinsko učenje u masovnoj mjeri u stvarnom svijetu. Govor je informativan, upečatljiv i otrežnjujući. Pored članaka o samom ML-u, Andrei Karpathy daje dobar životni savet do ambiciozni naučnici. Pročitajte Andreja cvrkut i dalje GitHub.

Uber inženjering

Uberov inženjerski blog je zaista impresivan u svojoj skali i širini pokrivenosti, pokrivajući mnogo tema, posebno Umjetna inteligencija. Ono što mi se posebno sviđa kod Uberove inženjerske kulture je njihova sklonost da proizvode vrlo zanimljive i vrijedne stvari projektima open source vrtoglavom brzinom. Evo nekoliko primjera:

OpenAI blog

Kontroverze na stranu, OpenAI-ov blog je nesumnjivo divan. S vremena na vrijeme, blog objavljuje sadržaj i ideje o dubokom učenju koje može doći samo na skali OpenAI: Hipotetički pojava duboko dvostruko spuštanje. OpenAI tim obično retko objavljuje, ali ovo je važna stvar.

Šta čitati kao naučnik podataka u 2020
izvor

Taboola Blog

Blog Taboola nije toliko poznat kao neki drugi izvori u ovom postu, ali mislim da je jedinstven - autori pišu o vrlo prizemnim, stvarnim problemima kada pokušavaju primijeniti ML u proizvodnji za "normalne " poslovanja: manje o samovozećim automobilima i RL agentima koji osvajaju svjetske šampione, više o "kako da znam da moj model sada predviđa stvari s lažnim povjerenjem?" Ovi problemi su relevantni za skoro sve koji rade u ovoj oblasti, i dobijaju manje izvještavanja u štampi od uobičajenih AI tema, ali je i dalje potreban talent svjetske klase da bi se ovi problemi riješili ispravno. Srećom, Taboola ima i taj talenat i spremnost i sposobnost da piše o tome kako bi i drugi ljudi mogli naučiti.

Reddit

Uz Twitter, nema ničeg boljeg na Redditu nego navući se na istraživanja, alate ili mudrost gomile.

Stanje AI

Postovi se objavljuju samo jednom godišnje, ali su ispunjeni vrlo gustim informacijama. U poređenju s drugim izvorima na ovoj listi, ovaj je pristupačniji poslovnim ljudima koji se ne bave tehnologijom. Ono što mi se sviđa u razgovorima je to što pokušavaju pružiti holističkiji pogled na to kuda idu industrija i istraživanje, povezujući napredak u hardveru, istraživanju, poslovanju, pa čak i geopolitici iz ptičje perspektive. Obavezno počnite od kraja kako biste pročitali o sukobu interesa.

Podcasti

Iskreno, mislim da podcastovi nisu pogodni za istraživanje tehničkih tema. Na kraju krajeva, oni koriste samo zvuk za objašnjenje tema, a nauka o podacima je vrlo vizualno polje. Podcastovi vam obično daju izgovor da kasnije obavite detaljnije istraživanje ili vodite neke fascinantne filozofske rasprave. Ipak, evo nekoliko preporuka:

  • Lex Friedman podcast, kako razgovara sa istaknutim istraživačima iz oblasti veštačke inteligencije. Posebno su dobre epizode sa Francois Cholletom!
  • Podcast Data Engineering. Drago mi je čuti o novim alatima za podatkovnu infrastrukturu.

Sjajne liste

Ovdje je manje potrebno pratiti, ali više resursa koji su korisni kada znate šta tražite:

cvrkut

  • Matty Marianski
    Matty pronalazi prekrasne, kreativne načine korištenja neuronskih mreža i jednostavno je zabavno vidjeti njegove rezultate na svom Twitteru. Barem pogledajte ovo post
  • Ori Cohen
    Ori je samo mašina za vožnju blogovi. On opširno piše o problemima i rješenjima za naučnike podataka. Obavezno se pretplatite da budete obaviješteni kada članak bude objavljen. Njegovo kompilacija, posebno je zaista impresivan.
  • Jeremy Howard
    Suosnivač fast.ai, sveobuhvatnog izvora kreativnosti i produktivnosti.
  • Hamel Hussein
    Zaposleni ML inženjer u Githubu, Hamel Hussain je zauzet radom kreirajući i izvještavajući o mnogim alatima za koder podataka.
  • Francois Chollet
    Kreator Kerasa, sada pokušava da ažuriramo naše razumijevanje šta je inteligencija i kako je testirati.
  • Hardmaru
    Istraživač u Google Brain-u.

zaključak

Originalna objava se može ažurirati jer autor pronalazi sjajne izvore sadržaja koje bi bilo šteta ne uključiti na listu. Slobodno ga kontaktirajte na cvrkut, ako želite preporučiti novi izvor! I također DAGsHub hires Advocate [cca. prevod javni praktičar] u Data Science, pa ako kreirate svoj vlastiti sadržaj o Data Science, slobodno pišite autoru posta.

Šta čitati kao naučnik podataka u 2020
Razvijajte se čitanjem preporučenih izvora i korištenjem promotivnog koda HABR, možete dobiti dodatnih 10% na popust naznačen na baneru.

Više kurseva

Preporučeni članci

izvor: www.habr.com