Що читати фахівцю з Data Science у 2020 році

Що читати фахівцю з Data Science у 2020 році
У цьому пості ділимося з вами добіркою джерел корисної інформації про Data Science від співзасновника та CTO DAGsHub - спільноти та веб-платформи для контролю версій даних та спільної роботи дата-саентистів та інженерів з машинного навчання. У добірку потрапили різні джерела, від акаунтів у твіттері, до повноцінних інженерних блогів, які орієнтовані для тих, хто точно знає, що шукає. Деталі під катом.

Від автора:
Ви – це те, що ви їсте, і вам, як працівнику розумової праці, потрібна хороша інформаційна дієта. Я хочу поділитися джерелами інформації про Data Science, штучний інтелект та пов'язані з ним технології, які знаходжу найбільш корисними або привабливими. Я сподіваюся, що це допоможе і вам!

Двохвилинні статті

YouTube-канал, який добре підходить для того, щоб бути в курсі останніх подій. Канал часто оновлюється, а ведучий має заразний ентузіазм і позитив у всіх освітлюваних темах. Чекайте на висвітлення цікавих робіт не тільки про ІІ, а й про комп'ютерну графіку та інші візуально привабливі теми.

Яннік Кілчер

На своєму YouTube-каналі Яннік технічно докладно пояснює значні дослідження в глибокому навчанні. Замість того, щоб читати дослідження самостійно, часто буває швидше та простіше подивитися одне з його відео, щоб глибше зрозуміти важливі статті. Пояснення передають суть статей, не нехтуючи математикою і не гублячись у трьох соснах. Янник також ділиться своїми поглядами — у тому, як дослідження співвідносяться друг з одним, думкою у тому, наскільки серйозно потрібно ставитися до результатів, ширшими інтерпретаціями тощо. Новачкам (або неакадемічним практикам) важче дійти цих відкриттів самостійно.

Distill.pub

За їхніми словами:

Дослідження в галузі машинного навчання мають бути ясними, динамічними та яскравими. А Distill створено, щоб допомагати у дослідженнях.

Distill - унікальне видання з дослідженнями в галузі машинного навчання. Просуваються статті з приголомшливими візуалізаціями, щоб дати читачеві інтуїтивніше розуміння тем. Просторове мислення та уяву, як правило, працюють дуже добре, допомагаючи у розумінні тем машинного навчання та Data Science. Традиційні ж формати публікацій, навпаки, мають тенденцію бути жорсткими у своїй структурі, статичними та сухими, а іноді й «математичними». Кріс Ола (Chris Olah), один із творців Distill, також веде дивовижний особистий блог на GitHub. Він давно не оновлювався, але досі залишається колекцією найкращих з коли-небудь написаних пояснень на тему глибокого навчання. Зокрема мені дуже допомогло опис LSTM!

Що читати фахівцю з Data Science у 2020 році
джерело

Себастьян Рудер

Себастьян Рудер пише дуже змістовний блог та інформаційний бюлетень, насамперед про перетин нейронних мереж та аналізу текстів природними мовами. Він також дає багато порад дослідникам та доповідачам на наукових конференціях, вони можуть бути дуже корисними, якщо ви знаходитесь в академічних колах. Статті Себастьяна, як правило, мають форму оглядів, підбиваючи підсумки і пояснюючи стан сучасних досліджень та методів у тій чи іншій галузі. Це означає, що статті дуже корисні для практиків, які хочуть швидко зорієнтуватися. Себастьян також пише в Twitter.

Андрій Карпати

Андрій Карпати не потребує представлення. Крім того, що він є одним із найвідоміших дослідників глибокого навчання на Землі, він створює широко використовувані інструменти, наприклад, arxiv sanity preserver як сторонні проекти. Безліч людей увійшли в цю сферу через його Стенфордський курс cs231n, і вам буде корисно впізнати його рецепт навчання нейронної мережі. Я також рекомендую подивитися його мова про реальні проблеми, які Tesla має подолати, намагаючись застосувати машинне навчання у масовому масштабі у реальному світі. Мова інформативна, вона вражає та протвережує. Крім статей про ML безпосередньо, Андрій Карпати дає хороші життєві поради для амбітних вчених. Читайте Андрія в Twitter і на Github.

Uber Engineering

Інженерний блог Uber справді вражає масштабом та широтою охоплення, освячуючи масу тем, зокрема штучний інтелект. Що мені особливо подобається в інженерній культурі Uber, то це їх тенденція випускати дуже цікаві та цінні проекти з відкритим вихідним кодом у запаморочливому темпі. Ось деякі приклади:

  • Ludwig
  • h3
  • react-vis
  • aresdb
  • І цей список можна продовжувати та продовжувати… Знімаю капелюх, Uber

Блог OpenAI

Якщо відкинути розбіжності, блог OpenAI, безперечно, прекрасний. Іноді в блозі публікується контент та ідеї про глибоке навчання, які можуть прийти лише в масштабах OpenAI: гіпотетичний феномен глибокого подвійного спуску. Команда OpenAI зазвичай публікує пости нечасто, але це важливі матеріали.

Що читати фахівцю з Data Science у 2020 році
джерело

Taboola Blog

Блог Taboola не так добре відомий, як деякі інші джерела в цьому пості, але я вважаю його унікальним — автори пишуть про дуже приземлені, реальні проблеми при спробі застосовувати ML у виробництві для «нормального» бізнесу: менше про самоврядні автомобілі та агентів RL, які перемагають чемпіонів світу, більше про те, «як мені дізнатися, що моя модель тепер передбачає речі з фальшивою впевненістю?». Ці проблеми актуальні майже для всіх, хто працює в цій галузі, і вони менше висвітлюються в пресі, ніж більш поширені теми ІІ, але для правильного вирішення цих проблем все ще потрібний талант світового класу. На щастя, Taboola має як цей талант, так і готовність і здатність писати про нього, щоб інші люди теж могли вчитися.

Reddit

Поряд з Twitter, немає нічого кращого в Reddit, ніж зачепитися за дослідження, інструменти чи мудрість натовпу.

Стан ШІ

Пости публікуються щорічно, але наповнені інформацією дуже щільно. Порівняно з іншими джерелами цього списку, цей доступніше для не пов'язаних з технологіями ділових людей. Що мені подобається в доповідях, так це те, що він намагається дати більш цілісне уявлення про те, куди рухається галузь та дослідження, з висоти пташиного польоту пов'язуючи докупи досягнення в галузі апаратного забезпечення, досліджень, бізнесу та навіть геополітики. Обов'язково починайте з кінця, щоб прочитати конфлікт інтересів.

подкасти

Відверто кажучи, я вважаю, що подкасти погано пристосовані вивчення технічних тем. Адже для пояснення тим вони використовують лише звук, а наука про дані — це візуальна область. Подкасти, як правило, дають вам привід для більш глибокого дослідження пізніше або для захоплюючих філософських дискусій. Тим не менш, ось деякі рекомендації:

  • подкаст Лекса Фрідмана, коли він розмовляє з видатними дослідниками в галузі штучного інтелекту. Особливо гарні епізоди із Франсуа Шолле!
  • Data Engineering підкаст. Добре, щоб почути про нові інструменти інфраструктури даних.

Приголомшливі списки

Тут менше, ніж потрібно стежити, але більше ресурсів, які корисні, коли ви знаєте, що шукаєте:

Twitter

  • Метті Маріанські
    Метт знаходить красиві, творчі способи використання нейронних мереж, і це просто забавно - бачити його результати у вашій стрічці Twitter. Подивитися хоча б на цей пост.
  • Орі Коен
    Орі - просто машина для ведення блогів. Він багато пише про проблеми та рішення для дата-саентистів. Обов'язково підпишіться, щоб отримати повідомлення, коли публікується стаття. Його збірник, зокрема, справді вражає.
  • Джеремі Говард
    Співзасновник компанії fast.ai, всебічне джерело творчості та продуктивності.
  • Хамель Хусейн
    Штатний інженер ML у Github, Хамель Хусейн зайнятий на роботі створенням та звітністю за багатьма інструментами для кодерів у галузі даних.
  • Франсуа Шолле
    Автор Keras, зараз намагається оновити наші уявлення про те, що таке інтелект та як його перевірити.
  • Хардмару
    Вчений-дослідник у Google Brain.

Висновок

Оригінал посту може оновлюватися у міру того, як автор знаходить чудові джерела контенту, які було б соромно не включити до списку. Не соромтеся звертатися до нього в Twitter, якщо хочете порекомендувати якесь нове джерело! А ще DAGsHub наймає Advocate [прим. перев. публічного практикуючого прихильника] в Data Science, тому якщо ви створюєте свій власний контент по Data Science, не соромтеся написати автору посту.

Що читати фахівцю з Data Science у 2020 році
Розвивайтеся, читаючи рекомендовані джерела, а за промокодом HABR, ви зможете отримати додаткові 10% до знижки вказаної на банері.

Ще курси

Рекомендовані статті

Джерело: habr.com