Què llegir com a científic de dades el 2020

Què llegir com a científic de dades el 2020
En aquesta publicació, compartim amb vosaltres una selecció de fonts d'informació útil sobre Data Science del cofundador i CTO de DAGsHub, una comunitat i una plataforma web per al control de versions de dades i la col·laboració entre científics de dades i enginyers d'aprenentatge automàtic. La selecció inclou una varietat de fonts, des de comptes de Twitter fins a blocs d'enginyeria complets, que estan dirigits a aquells que saben exactament el que busquen. Detalls sota el tall.

De l'autor:
Ets el que menges i, com a treballador del coneixement, necessites una bona dieta informativa. Vull compartir les fonts d'informació sobre Data Science, intel·ligència artificial i tecnologies relacionades que em sembla més útils o atractives. Espero que això també us ajudi!

Documents de dos minuts

Un canal de YouTube molt adequat per estar al dia dels últims esdeveniments. El canal s'actualitza amb freqüència i l'amfitrió té un entusiasme i una positivitat contagiosos en tots els temes tractats. Espereu la cobertura de treballs interessants no només sobre IA, sinó també sobre gràfics per ordinador i altres temes visualment atractius.

Yannick Kilcher

Al seu canal de YouTube, Yannick explica amb detall tècnic investigacions importants sobre aprenentatge profund. En lloc de llegir un estudi pel vostre compte, sovint és més ràpid i fàcil veure un dels seus vídeos per obtenir una comprensió més profunda dels articles importants. Les explicacions transmeten l'essència dels articles sense deixar de banda les matemàtiques ni perdre's en tres pins. Yannick també comparteix les seves opinions sobre com encaixen els estudis, amb quina seriositat s'han de prendre els resultats, interpretacions més àmplies, etc. Als principiants (o als professionals no acadèmics) els costa més arribar a aquests descobriments pel seu compte.

destil·lar.pub

Amb les seves pròpies paraules:

La investigació sobre l'aprenentatge automàtic ha de ser clara, dinàmica i vibrant. I Distill va ser creat per ajudar en la investigació.

Distill és una publicació única de recerca d'aprenentatge automàtic. Els articles es promocionen amb visualitzacions impressionants per oferir al lector una comprensió més intuïtiva dels temes. El pensament espacial i la imaginació solen funcionar molt bé per ajudar-vos a entendre els temes d'aprenentatge automàtic i ciència de dades. Els formats de publicació tradicionals, en canvi, solen ser rígids en la seva estructura, estàtics i secs, i de vegades "matemàtica". Chris Olah, co-creador de Distill, també manté un bloc personal increïble a GitHub. Fa molt de temps que no s'actualitza, però segueix sent una col·lecció de les millors explicacions d'aprenentatge profund escrites mai. En particular, em va ajudar molt описание LSTM!

Què llegir com a científic de dades el 2020
font

Sebastià Ruder

Sebastian Ruder escriu un bloc i un butlletí molt informatiu, principalment sobre la intersecció de les xarxes neuronals i l'anàlisi de textos en llenguatge natural. També dóna molts consells als investigadors i conferenciants, que poden ser molt útils si ets a l'acadèmia. Els articles de Sebastian tendeixen a prendre la forma de ressenyes, que resumeixen i expliquen l'estat de l'art de la recerca i els mètodes en un àmbit determinat. Això vol dir que els articles són extremadament útils per als professionals que volen orientar-se ràpidament. Sebastià també escriu a Twitter.

Andrei Karpaty

Andrei Karpaty no necessita presentació. A més de ser un dels investigadors d'aprenentatge profund més famosos de la terra, crea eines àmpliament utilitzades com ara conservador de seny d'arxiu com a projectes paralels. Incomptables persones van entrar en aquest regne a través del seu curs de Stanford. cs231n, i us serà útil saber-ho recepta formació en xarxes neuronals. També recomano veure'l discurs sobre els problemes reals que Tesla ha de superar quan intenta aplicar l'aprenentatge automàtic a una escala massiva al món real. El discurs és informatiu, impressionant i aleccionador. A més d'articles sobre ML mateix, Andrey Karpaty ofereix bons consells de vida per científics ambiciosos. Llegeix Andrew a Twitter i Github.

Enginyeria Uber

El bloc d'enginyeria d'Uber és realment impressionant pel que fa a l'escala i l'amplitud de la cobertura, que cobreix molts temes, en particular Intel · ligència artificial. El que m'agrada especialment de la cultura d'enginyeria d'Uber és la seva tendència a publicar coses molt interessants i valuoses Projectes codi obert a un ritme vertiginós. Aquests són alguns exemples:

Bloc OpenAI

A part de la polèmica, el bloc d'OpenAI és sens dubte fantàstic. De tant en tant, el bloc publica contingut i coneixements sobre l'aprenentatge profund que només pot arribar a l'escala d'OpenAI: hipotètic fenomen doble baixada profunda. L'equip d'OpenAI acostuma a publicar amb poca freqüència, però aquests són continguts importants.

Què llegir com a científic de dades el 2020
font

Bloc Taboola

El bloc de Taboola no és tan conegut com algunes de les altres fonts d'aquesta publicació, però crec que és únic: els autors escriuen sobre problemes reals i molt mundans quan intenten aplicar ML a la producció per a un negoci "normal": menys sobre cotxes autònoms i agents RL guanyadors de campions del món, més sobre "com sé si el meu model està predint coses amb falsa confiança?". Aquests temes són rellevants per a gairebé tots els que treballen en el camp i reben menys cobertura de premsa que els temes d'IA més habituals, però encara es necessita talent de classe mundial per abordar aquests problemes correctament. Afortunadament, Taboola té tant aquest talent com la voluntat i la capacitat d'escriure sobre això perquè altres persones també puguin aprendre.

Reddit

Juntament amb Twitter, no hi ha res millor a Reddit que enganxar-se a la investigació, les eines o la saviesa de la multitud.

Estat de la IA

Les publicacions només es publiquen anualment, però plenes d'informació molt densament. En comparació amb altres fonts d'aquesta llista, aquesta és més accessible per als empresaris no tecnològics. El que m'agrada de les xerrades és que intenten donar una visió més holística d'on es dirigeixen la indústria i la investigació, unint els avenços en maquinari, investigació, negocis i fins i tot geopolítica des d'una vista d'ocell. Assegureu-vos de començar al final per llegir sobre els conflictes d'interessos.

Podcasts

Francament, crec que els podcasts no són adequats per aprendre sobre temes tècnics. Després de tot, només utilitzen el so per explicar temes, i la ciència de dades és un camp molt visual. Els podcasts acostumen a donar-vos una excusa per explorar amb més profunditat més endavant o per participar en discussions filosòfiques. Tanmateix, aquí teniu algunes recomanacions:

  • podcast de lex friedmanquan parla amb destacats investigadors en el camp de la intel·ligència artificial. Els episodis amb Francois Chollet són especialment bons!
  • Podcast d'enginyeria de dades. Encantat de conèixer les noves eines d'infraestructura de dades.

Llistes genials

Aquí hi ha menys per vigilar, però hi ha més recursos que són útils un cop saps què estàs buscant:

Twitter

  • Matty Mariansky
    En Matty troba maneres boniques i creatives d'utilitzar les xarxes neuronals, i és divertit veure els seus resultats al vostre canal de Twitter. Fes una ullada almenys aquest publicació
  • Ori Cohen
    Ori és només una màquina de conducció blocs. Escriu àmpliament sobre problemes i solucions per als científics de dades. Assegureu-vos de subscriure-us per rebre notificacions quan es publiqui un article. Seva compilacióen particular és realment impressionant.
  • Jeremy Howard
    Cofundador de fast.ai, una font integral de creativitat i productivitat.
  • Hamel Hussein
    Hamel Hussain, enginyer ML del personal de Github, està ocupat creant i informant sobre moltes eines per a codificadors del domini de dades.
  • François Chollet
    Creador de Keras, ara tractant de actualitzar la nostra comprensió de què és la intel·ligència i com provar-la.
  • hardmaru
    Investigador científic a Google Brain.

Conclusió

La publicació original es pot actualitzar a mesura que l'autor trobi grans fonts de contingut que seria una llàstima no incloure a la llista. No dubteu a contactar amb ell Twittersi voleu recomanar alguna font nova! I també DAGsHub contractes Advocat [aprox. transl. Public Practitioner] en Data Science, així que si creeu el vostre propi contingut de Data Science, no dubteu a escriure a l'autor de la publicació.

Què llegir com a científic de dades el 2020
Desenvolupa llegint les fonts recomanades i el codi promocional HABR, pots obtenir un 10% addicional al descompte indicat al bàner.

Més cursos

Articles destacats

Font: www.habr.com