Que lire en tant que data scientist en 2020

Que lire en tant que data scientist en 2020
Dans cet article, nous partageons avec vous une sélection de sources d'informations utiles sur la Data Science du co-fondateur et CTO de DAGsHub, une plateforme communautaire et web de contrôle de version de données et de collaboration entre data scientists et ingénieurs en machine learning. La sélection comprend une variété de sources, des comptes Twitter aux blogs d'ingénierie à part entière, qui s'adressent à ceux qui savent exactement ce qu'ils recherchent. Détails sous la coupe.

De l'auteur:
Vous êtes ce que vous mangez et, en tant que travailleur intellectuel, vous avez besoin d'un bon régime d'information. Je souhaite partager des sources d'informations sur la science des données, l'intelligence artificielle et les technologies connexes que je trouve les plus utiles ou attrayantes. J'espère que cela vous aidera aussi!

Documents de deux minutes

Une chaîne YouTube bien adaptée pour se tenir au courant des derniers événements. La chaîne est mise à jour fréquemment et l'hôte a un enthousiasme contagieux et une positivité sur tous les sujets abordés. Attendez-vous à une couverture de travaux intéressants non seulement sur l'IA, mais aussi sur l'infographie et d'autres sujets visuellement attrayants.

Yannick Kilcher

Sur sa chaîne YouTube, Yannick explique les recherches importantes en apprentissage profond dans les détails techniques. Au lieu de lire une étude par vous-même, il est souvent plus rapide et plus facile de regarder l'une de ses vidéos pour mieux comprendre les articles importants. Les explications transmettent l'essentiel des articles sans négliger les maths ni se perdre dans trois pins. Yannick partage également son point de vue sur la manière dont les études s'articulent, sur le sérieux avec lequel les résultats doivent être pris, sur des interprétations plus larges, etc. Les débutants (ou les praticiens non universitaires) ont plus de mal à arriver seuls à ces découvertes.

distill.pub

Dans leurs propres mots :

La recherche sur l'apprentissage automatique doit être claire, dynamique et dynamique. Et Disstill a été créé pour aider à la recherche.

Distill est une publication de recherche unique sur l'apprentissage automatique. Les articles sont promus avec des visualisations époustouflantes pour donner au lecteur une compréhension plus intuitive des sujets. La pensée spatiale et l'imagination ont tendance à très bien fonctionner pour vous aider à comprendre les sujets d'apprentissage automatique et de science des données. Les formats de publication traditionnels, en revanche, ont tendance à être rigides dans leur structure, statiques et secs, et parfois "mathématique". Chris Olah, co-créateur de Disstill, tient également un incroyable blog personnel sur GitHub. Il n'a pas été mis à jour depuis longtemps, mais reste une collection des meilleures explications d'apprentissage en profondeur jamais écrites. En particulier, cela m'a beaucoup aidé description LSTM !

Que lire en tant que data scientist en 2020
source

Sébastien Ruder

Sebastian Ruder écrit un blog et une newsletter très informatifs, principalement sur l'intersection des réseaux de neurones et l'analyse de texte en langage naturel. Il donne également de nombreux conseils aux chercheurs et aux conférenciers, ce qui peut être très utile si vous êtes dans le milieu universitaire. Les articles de Sebastian ont tendance à prendre la forme de critiques, résumant et expliquant l'état de l'art de la recherche et des méthodes dans un domaine donné. Cela signifie que les articles sont extrêmement utiles pour les praticiens qui veulent se repérer rapidement. Sebastian écrit également dans Twitter.

Andreï Karpaty

Andrei Karpaty n'a pas besoin d'être présenté. En plus d'être l'un des chercheurs en apprentissage profond les plus célèbres au monde, il crée des outils largement utilisés tels que conservateur de l'intégrité des archives comme projets parallèles. D'innombrables personnes sont entrées dans ce domaine grâce à son cours de Stanford. cs231n, et il vous sera utile de le savoir recette formation sur les réseaux de neurones. Je conseille aussi de le regarder discours sur les vrais problèmes que Tesla doit surmonter lorsqu'il essaie d'appliquer l'apprentissage automatique à grande échelle dans le monde réel. Le discours est informatif, impressionnant et donne à réfléchir. Outre des articles sur le ML lui-même, Andrey Karpaty donne bons conseils de vie pour scientifiques ambitieux. Lire Andrew sur Twitter et Github.

Ingénierie Uber

Le blog d'ingénierie Uber est vraiment impressionnant en termes d'échelle et d'étendue de la couverture, couvrant de nombreux sujets, en particulier intelligence artificielle. Ce que j'aime particulièrement dans la culture d'ingénierie d'Uber, c'est leur tendance à publier des contenus très intéressants et précieux. Projets open source à un rythme effréné. Voici quelques exemples:

Blog OpenAI

Controverse mise à part, le blog OpenAI est indéniablement génial. De temps en temps, le blog publie du contenu et des idées sur l'apprentissage en profondeur qui ne peuvent venir qu'à l'échelle d'OpenAI : hypothétique phénomène profonde double descente. L'équipe OpenAI a tendance à publier rarement, mais ce sont des contenus importants.

Que lire en tant que data scientist en 2020
source

Blog Taboola

Le blog Taboola n'est pas aussi connu que certaines des autres sources de cet article, mais je pense qu'il est unique - les auteurs écrivent sur des problèmes très banals et réels lorsqu'ils essaient d'appliquer ML en production pour une entreprise "normale": moins sur voitures autonomes et agents RL remportant des champions du monde, plus sur "comment savoir si mon modèle prédit maintenant les choses avec une fausse confiance ?". Ces problèmes concernent presque tous ceux qui travaillent sur le terrain et reçoivent moins de couverture médiatique que les sujets d'IA plus courants, mais il faut toujours des talents de classe mondiale pour résoudre correctement ces problèmes. Heureusement, Taboola a à la fois ce talent et la volonté et la capacité d'écrire à ce sujet afin que d'autres personnes puissent également apprendre.

Reddit

Avec Twitter, il n'y a rien de mieux sur Reddit que de devenir accro à la recherche, aux outils ou à la sagesse de la foule.

État de l'IA

Les messages ne sont publiés qu'une fois par an, mais remplis d'informations de manière très dense. Par rapport aux autres sources de cette liste, celle-ci est plus accessible aux hommes d'affaires non techniques. Ce que j'aime dans les discussions, c'est qu'elles essaient de donner une vision plus holistique de la direction que prennent l'industrie et la recherche, en reliant les progrès du matériel, de la recherche, des affaires et même de la géopolitique à vol d'oiseau. Assurez-vous de commencer par la fin pour en savoir plus sur les conflits d'intérêts.

Podcasts

Franchement, je pense que les podcasts sont mal adaptés pour apprendre sur des sujets techniques. Après tout, ils n'utilisent que le son pour expliquer les sujets, et la science des données est un domaine très visuel. Les podcasts ont tendance à vous donner une excuse pour explorer plus en profondeur plus tard ou pour engager des discussions philosophiques. Cependant, voici quelques recommandations :

  • podcast lex friedmanlorsqu'il s'entretient avec d'éminents chercheurs dans le domaine de l'intelligence artificielle. Les épisodes avec François Chollet sont particulièrement bons !
  • Podcast Ingénierie des données. Ravi d'entendre parler de nouveaux outils d'infrastructure de données.

Listes impressionnantes

Il y a moins à surveiller ici, mais plus de ressources utiles une fois que vous savez ce que vous recherchez :

Twitter

  • Matty Marianski
    Matty trouve de belles façons créatives d'utiliser les réseaux de neurones, et c'est juste amusant de voir ses résultats dans votre fil Twitter. Regarde au moins cette poster.
  • Ori Cohen
    Ori n'est qu'une machine à conduire blogging. Il écrit beaucoup sur les problèmes et les solutions pour les data scientists. N'oubliez pas de vous abonner pour être averti lorsqu'un article est publié. Son collectionen particulier est vraiment impressionnant.
  • Jérémy Howard
    Co-fondateur de fast.ai, une source complète de créativité et de productivité.
  • Hamel Hussein
    Ingénieur ML chez Github, Hamel Hussain est occupé à créer et à créer des rapports sur de nombreux outils pour les codeurs dans le domaine des données.
  • François Chollet
    Créateur de Keras, maintenant essaie mettre à jour notre compréhension de ce qu'est l'intelligence et comment la tester.
  • durmaru
    Chercheur scientifique chez Google Brain.

Conclusion

Le message d'origine peut être mis à jour au fur et à mesure que l'auteur trouve d'excellentes sources de contenu qu'il serait dommage de ne pas inclure dans la liste. N'hésitez pas à le contacter Twittersi vous voulez recommander une nouvelle source ! Et aussi DAGsHub embauche Avocat [env. trad. Public Practitioner] en Data Science, donc si vous créez votre propre contenu Data Science, n'hésitez pas à écrire à l'auteur du post.

Que lire en tant que data scientist en 2020
Développer en lisant les sources recommandées, et par le code promotionnel CHARME, vous pouvez obtenir 10% supplémentaires à la remise indiquée sur la bannière.

Plus de cours

Articles recommandés

Source: habr.com