2020 жылы деректер ғалымы ретінде не оқу керек

2020 жылы деректер ғалымы ретінде не оқу керек
Бұл постта біз сіздермен деректер нұсқасын басқаруға және деректер ғалымдары мен машиналық оқыту инженерлері арасындағы ынтымақтастыққа арналған қауымдастық пен веб-платформа DAGsHub негізін қалаушы және CTO-ның Data Science туралы пайдалы ақпарат көздерінің таңдауымен бөлісеміз. Таңдауда Twitter тіркелгілерінен бастап толыққанды инженерлік блогтарға дейін әртүрлі дереккөздер бар, олар нақты не іздейтінін білетіндерге бағытталған. Кесу астындағы мәліметтер.

Автордан:
Сіз жейтін нәрсесіз және білім қызметкері ретінде сізге жақсы ақпараттық диета қажет. Мен ең пайдалы немесе тартымды деп санайтын Data Science, жасанды интеллект және соған байланысты технологиялар туралы ақпарат көздерімен бөліскім келеді. Бұл сізге де көмектеседі деп үміттенемін!

Екі минуттық құжаттар

Соңғы оқиғалардан хабардар болу үшін өте қолайлы YouTube арнасы. Арна жиі жаңартылып отырады және хостта барлық тақырыптарда жұқпалы ынта мен позитив бар. Тек AI бойынша ғана емес, сонымен қатар компьютерлік графика және басқа да көрнекі тақырыптар бойынша қызықты жұмыстардың қамтылуын күтіңіз.

Янник Килчер

Янник өзінің YouTube арнасында терең оқытудағы маңызды зерттеулерді техникалық егжей-тегжейлі түсіндіреді. Зерттеуді өз бетіңізше оқудың орнына, маңызды мақалаларды тереңірек түсіну үшін оның бейнелерінің бірін көру жиірек және оңайырақ. Түсініктемелер математиканы елемей немесе үш қарағайда адаспастан мақалалардың мәнін береді. Янник сонымен қатар зерттеулердің бір-біріне қалай сәйкес келетіні, нәтижелерді қаншалықты байыпты қабылдау керектігі, кеңірек түсіндірулер және т.б. туралы өз пікірлерімен бөліседі. Жаңадан бастаушыларға (немесе академиялық емес тәжірибешілерге) бұл жаңалықтарға өздігінен келу қиынырақ.

distill.pub

Өз сөзімен айтқанда:

Машиналық оқыту зерттеулері анық, динамикалық және белсенді болуы керек. Ал Distill зерттеуге көмектесу үшін жасалған.

Distill - машиналық оқытуды зерттеуге арналған бірегей басылым. Оқырманға тақырыптарды неғұрлым интуитивті түсінуге мүмкіндік беру үшін мақалалар керемет визуализациялармен насихатталады. Кеңістіктік ойлау мен қиял сізге Machine Learning және Data Science тақырыптарын түсінуге көмектесу үшін өте жақсы жұмыс істейді. Дәстүрлі басылым форматтары, керісінше, құрылымы жағынан қатаң, статикалық және құрғақ, кейде «математикалық». Крис Олах, Distill компаниясының бірігіп жасаушысы, сонымен қатар керемет жеке блогын жүргізеді GitHub. Ол ұзақ уақыт бойы жаңартылмады, бірақ әлі күнге дейін жазылған ең жақсы терең оқу түсініктемелерінің жинағы болып қала береді. Әсіресе, бұл маған көп көмектесті Описание LSTM!

2020 жылы деректер ғалымы ретінде не оқу керек
көзі

Себастьян Рудер

Себастьян Рудер ең алдымен нейрондық желілердің қиылысуы және табиғи тілдегі мәтінді талдау туралы өте мазмұнды блог пен ақпараттық бюллетень жазады. Ол сондай-ақ зерттеушілер мен конференция спикерлеріне көптеген кеңестер береді, бұл сіз академияда болсаңыз өте пайдалы болуы мүмкін. Себастьянның мақалалары белгілі бір саладағы зерттеулер мен әдістердегі заманауи жағдайды қорытындылайтын және түсіндіретін шолулар түрінде болады. Бұл мақалалар өз ұстанымдарын тез алғысы келетін тәжірибешілер үшін өте пайдалы екенін білдіреді. Себастьян да жазады Twitter.

Андрей Карпаты

Андрей Карпатыға кіріспе қажет емес. Ол жер бетіндегі ең танымал терең зерттеушілердің бірі болумен қатар, кеңінен қолданылатын құралдарды жасайды мұрағаттық сананы сақтаушы қосалқы жобалар ретінде. Оның Стэнфорд курсы арқылы бұл салаға сансыз адамдар кірді. cs231n, және оны білу сізге пайдалы болады рецепті нейрондық желіні оқыту. Мен де көруге кеңес беремін сөйлеу Тесла машиналық оқытуды нақты әлемде жаппай масштабта қолдануға тырысқанда жеңуі керек нақты мәселелер туралы. Сөйлеу ақпаратты, әсерлі және байсалды. ML өзі туралы мақалалардан басқа, Андрей Карпаты береді жақсы өмірлік кеңес үшін өршіл ғалымдар. Эндрюді оқыңыз Twitter мен GitHub.

Uber инженериясы

Uber инженерлік блогы көптеген тақырыптарды қамтитын ауқымы мен кеңдігі жағынан өте әсерлі. жасанды интеллект. Маған әсіресе Uber инженерлік мәдениеті ұнайтыны - олардың өте қызықты және құнды шығаруға бейімділігі жобалар ашық дереккөз жоғары қарқынмен. Міне, кейбір мысалдар:

OpenAI блогы

Дауларды былай қойғанда, OpenAI блогы даусыз керемет. Блогта мезгіл-мезгіл тек OpenAI масштабында келетін терең білім туралы мазмұн мен түсініктер жарияланады: гипотетикалық құбылыс терең қос шөгу. OpenAI тобы сирек жариялауға бейім, бірақ бұл маңызды мазмұн.

2020 жылы деректер ғалымы ретінде не оқу керек
көзі

Табула блогы

Taboola блогы осы посттағы кейбір басқа көздер сияқты танымал емес, бірақ менің ойымша, бұл бірегей - авторлар «қалыпты» бизнес үшін ML-ді өндірісте қолдануға тырысқанда өте қарапайым, нақты мәселелер туралы жазады: аз өзін-өзі басқаратын көліктер және әлем чемпиондарын жеңіп алған RL агенттері, «менің үлгісім қазір жалған сеніммен нәрселерді болжайтынын қалай білемін?» туралы толығырақ. Бұл мәселелер осы салада жұмыс істейтіндердің барлығына дерлік қатысты және AI тақырыптарына қарағанда баспасөзде азырақ жарияланады, бірақ бұл мәселелерді дұрыс шешу үшін әлі де әлемдік деңгейдегі талант қажет. Бақытымызға орай, Табуланың бұл таланты да, басқа адамдар да үйренуі үшін бұл туралы жазуға дайындығы мен қабілеті бар.

Reddit

Twitter-мен қатар, Reddit-те зерттеуге, құралдарға немесе көпшіліктің даналығына тәуелді болудан жақсы ештеңе жоқ.

AI жағдайы

Жазбалар тек жыл сайын жарияланады, бірақ ақпарат өте тығыз. Осы тізімдегі басқа көздермен салыстырғанда, бұл технология емес бизнес өкілдері үшін қол жетімді. Келіссөздердің маған ұнайтыны - олар өнеркәсіп пен зерттеулердің қайда бағыт алып жатқаны туралы тұтас көзқарас беруге тырысады, аппараттық құралдардағы, зерттеулердегі, бизнестегі және тіпті геосаясаттағы жетістіктерді құстың көзімен байланыстырады. Мүдделер қақтығысы туралы оқуды соңынан бастаңыз.

Подкасттар

Шынымды айтсам, подкасттар техникалық тақырыптарды үйренуге жарамсыз деп ойлаймын. Өйткені, олар тақырыптарды түсіндіру үшін тек дыбысты пайдаланады, ал деректер ғылымы өте көрнекі сала. Подкасттар сізге кейінірек тереңірек зерттеуге немесе философиялық пікірталастарды тартуға сылтау береді. Дегенмен, мұнда кейбір ұсыныстар бар:

  • Лекс Фридман подкастжасанды интеллект саласындағы көрнекті зерттеушілермен сөйлескенде. Франсуа Чоллетпен эпизодтар әсіресе жақсы!
  • Data Engineering подкаст. Деректер инфрақұрылымының жаңа құралдары туралы естігеніме қуаныштымын.

Керемет тізімдер

Мұнда назар аударатын нәрсе аз, бірақ не іздеп жатқаныңызды білгенде пайдалы болатын ресурстар көбірек:

Twitter

  • Мэтти Марианский
    Мэтти нейрондық желілерді пайдаланудың әдемі, креативті жолдарын табады және оның нәтижелерін Twitter арнасында көру өте қызықты. Тым болмаса қараңызшы бұл пошта
  • Ори Коэн
    Ори - бұл жай ғана жүргізу машинасы блогтар. Ол деректер ғалымдары үшін мәселелер мен шешімдер туралы көп жазады. Мақала жарияланған кезде хабардар болу үшін жазылуды ұмытпаңыз. Оның коллекцияәсіресе өте әсерлі.
  • Джереми Ховард
    Шығармашылық пен өнімділіктің жан-жақты көзі fast.ai негізін қалаушы.
  • Хамел Хусейн
    Github-тың ML инженері Хамел Хуссейн деректер доменіндегі кодерлерге арналған көптеген құралдарды жасау және есеп беру жұмыстарымен айналысады.
  • Франсуа Чолле
    Керасты жаратушы, қазір тырысады интеллект деген не және оны қалай тексеруге болатыны туралы түсінігімізді жаңартыңыз.
  • хардмару
    Google Brain зерттеушісі.

қорытынды

Түпнұсқа жазба жаңартылуы мүмкін, өйткені автор тізімге қоспау ұят болатын тамаша мазмұн көздерін табады. Онымен байланысыңыз Twitterегер сіз жаңа дереккөзді ұсынғыңыз келсе! Сондай-ақ DAGsHub жалдайды Адвокат [шамамен. аударма Public Practitioner] Data Science саласында, сондықтан егер сіз өзіңіздің Data Science мазмұнын жасасаңыз, жазба авторына жазыңыз.

2020 жылы деректер ғалымы ретінде не оқу керек
Ұсынылған дереккөздерді және жарнамалық кодты оқу арқылы дамытыңыз HABR, баннерде көрсетілген жеңілдікке қосымша 10% ала аласыз.

Қосымша курстар

Таңдаулы мақалалар

Ақпарат көзі: www.habr.com