Đọc gì với tư cách là một nhà khoa học dữ liệu vào năm 2020

Đọc gì với tư cách là một nhà khoa học dữ liệu vào năm 2020
Trong bài đăng này, chúng tôi chia sẻ với bạn tuyển tập các nguồn thông tin hữu ích về Khoa học dữ liệu từ người đồng sáng lập và CTO của DAGsHub, một cộng đồng và nền tảng web để kiểm soát phiên bản dữ liệu và cộng tác giữa các nhà khoa học dữ liệu và kỹ sư máy học. Việc lựa chọn bao gồm nhiều nguồn khác nhau, từ tài khoản Twitter đến các blog kỹ thuật chính thức, nhắm đến những người biết chính xác những gì họ đang tìm kiếm. Chi tiết dưới vết cắt.

Từ tác giả:
Bạn là những gì bạn ăn, và là một người lao động tri thức, bạn cần một chế độ ăn uống thông tin tốt. Tôi muốn chia sẻ những nguồn thông tin về Khoa học dữ liệu, Trí tuệ nhân tạo và các công nghệ liên quan mà tôi thấy hữu ích hoặc hấp dẫn nhất. Tôi hy vọng điều này cũng sẽ giúp bạn!

Giấy tờ hai phút

Một kênh YouTube rất phù hợp để cập nhật những sự kiện mới nhất. Kênh được cập nhật thường xuyên và người dẫn chương trình có sự nhiệt tình và tích cực lan tỏa đối với tất cả các chủ đề được đề cập. Mong đợi những tác phẩm thú vị không chỉ về AI mà còn về đồ họa máy tính và các chủ đề hấp dẫn về mặt hình ảnh khác.

Yannick Kilcher

Trên kênh YouTube của mình, Yannick giải thích nghiên cứu quan trọng về học sâu một cách chi tiết về mặt kỹ thuật. Thay vì tự mình đọc nghiên cứu, việc xem một trong các video của nghiên cứu này thường nhanh hơn và dễ dàng hơn để hiểu sâu hơn về các bài viết quan trọng. Những lời giải thích truyền tải đúng bản chất của bài viết mà không bỏ qua toán học hay lạc vào ba cây thông. Yannick cũng chia sẻ quan điểm của mình về cách các nghiên cứu ăn khớp với nhau, mức độ nghiêm túc trong việc xem xét kết quả, cách diễn giải rộng hơn, v.v. Sẽ khó khăn hơn đối với những người mới (hoặc những người không phải là người hành nghề hàn lâm) khi tự mình đi đến những khám phá này.

Distill.pub

Nói theo cách riêng của họ:

Nghiên cứu về máy học cần phải rõ ràng, năng động và sống động. Và Distill được tạo ra để hỗ trợ nghiên cứu.

Distill là một ấn phẩm độc đáo có nghiên cứu về lĩnh vực học máy. Các bài viết có hình ảnh trực quan tuyệt đẹp được quảng bá để giúp người đọc hiểu trực quan hơn về các chủ đề. Tư duy không gian và trí tưởng tượng có xu hướng hoạt động rất tốt trong việc giúp hiểu các chủ đề về Học máy và Khoa học dữ liệu. Mặt khác, các hình thức xuất bản truyền thống có xu hướng cứng nhắc trong cấu trúc, tĩnh và khô khan, và đôi khi "toán học". Chris Olah, một trong những người sáng tạo ra Distill, cũng có một blog cá nhân tuyệt vời tại GitHub. Nó đã không được cập nhật trong một thời gian, nhưng nó vẫn là tập hợp những lời giải thích hay nhất về chủ đề deep learning từng được viết. Đặc biệt nó đã giúp tôi rất nhiều описание LSTM!

Đọc gì với tư cách là một nhà khoa học dữ liệu vào năm 2020
nguồn

Sebastian Ruder

Sebastian Ruder viết một blog và bản tin rất sâu sắc, chủ yếu về sự giao thoa giữa mạng lưới thần kinh và khai thác văn bản bằng ngôn ngữ tự nhiên. Anh ấy cũng có rất nhiều lời khuyên dành cho các nhà nghiên cứu và diễn giả hội nghị, những lời khuyên này có thể rất hữu ích nếu bạn đang làm việc trong giới học thuật. Các bài viết của Sebastian thường ở dạng đánh giá, tóm tắt và giải thích tình trạng nghiên cứu và phương pháp hiện tại trong một lĩnh vực cụ thể. Điều này có nghĩa là các bài viết cực kỳ hữu ích cho những học viên muốn nhanh chóng nắm bắt được phương hướng của mình. Sebastian cũng viết trong Twitter.

Andrey Karpathy

Andrei Karpathy không cần giới thiệu. Ngoài việc là một trong những nhà nghiên cứu deep learning nổi tiếng nhất trên Trái đất, anh còn tạo ra các công cụ được sử dụng rộng rãi, ví dụ: chất bảo quản vệ sinh arxiv như các dự án phụ. Vô số người đã bước vào lĩnh vực này thông qua khóa học Stanford của anh ấy cs231n, và sẽ rất hữu ích nếu bạn biết điều đó công thức huấn luyện mạng lưới thần kinh. Tôi cũng khuyên bạn nên xem nó bài phát biểu về những thách thức trong thế giới thực mà Tesla phải vượt qua khi cố gắng áp dụng học máy trên quy mô lớn vào thế giới thực. Bài phát biểu có nhiều thông tin, ấn tượng và tỉnh táo. Ngoài các bài viết về chính ML, Andrei Karpathy còn đưa ra lời khuyên cuộc sống tốt đẹp cho nhà khoa học đầy tham vọng. Đọc Andrey trong TwitterGithub.

Kỹ thuật Uber

Blog kỹ thuật của Uber thực sự ấn tượng về quy mô và phạm vi phủ sóng, bao gồm rất nhiều chủ đề, đặc biệt là Trí tuệ nhân tạo. Điều tôi đặc biệt thích về văn hóa kỹ thuật của Uber là xu hướng tạo ra những sản phẩm rất thú vị và có giá trị. Dự án nguồn mở với tốc độ chóng mặt. Dưới đây là một số ví dụ:

Blog OpenAI

Gạt những tranh cãi sang một bên, không thể phủ nhận blog của OpenAI rất tuyệt vời. Thỉnh thoảng, blog đăng nội dung và ý tưởng về deep learning mà chỉ có thể đạt được ở quy mô OpenAI: Giả thuyết hiện tượng độ dốc kép sâu. Nhóm OpenAI có xu hướng đăng bài không thường xuyên, nhưng đây là nội dung quan trọng.

Đọc gì với tư cách là một nhà khoa học dữ liệu vào năm 2020
nguồn

Blog Taboola

Blog Taboola không nổi tiếng như một số nguồn khác trong bài đăng này, nhưng tôi nghĩ nó độc đáo - các tác giả viết về những vấn đề rất thực tế, thực tế khi cố gắng áp dụng ML trong sản xuất cho "thông thường". " doanh nghiệp: ít nói về xe tự lái và đại lý RL giành chức vô địch thế giới mà nói nhiều hơn về “làm sao tôi biết rằng mô hình của tôi hiện đang dự đoán mọi thứ với sự tự tin sai lầm?” Những vấn đề này liên quan đến hầu hết mọi người làm việc trong lĩnh vực này và chúng ít được báo chí đưa tin hơn so với các chủ đề AI phổ biến hơn, nhưng vẫn cần có những tài năng đẳng cấp thế giới để giải quyết những vấn đề này một cách chính xác. May mắn thay, Taboola có cả tài năng này lẫn sự sẵn lòng cũng như khả năng viết về nó để những người khác cũng có thể học hỏi.

Reddit

Cùng với Twitter, không có gì tốt hơn trên Reddit ngoài việc say mê nghiên cứu, công cụ hoặc trí tuệ của đám đông.

Trạng thái của AI

Các bài viết chỉ được xuất bản hàng năm nhưng chứa đầy thông tin rất dày đặc. So với các nguồn khác trong danh sách này, nguồn này dễ tiếp cận hơn đối với những người kinh doanh phi công nghệ. Điều tôi thích ở các cuộc đàm phán là nó cố gắng cung cấp một cái nhìn toàn diện hơn về hướng đi của ngành và nghiên cứu, gắn kết những tiến bộ trong phần cứng, nghiên cứu, kinh doanh và thậm chí cả địa chính trị từ góc nhìn toàn cảnh. Hãy chắc chắn bắt đầu từ cuối để đọc về xung đột lợi ích.

Podcast

Thành thật mà nói, tôi nghĩ podcast không phù hợp để khám phá các chủ đề kỹ thuật. Suy cho cùng, họ chỉ sử dụng âm thanh để giải thích các chủ đề và khoa học dữ liệu là một lĩnh vực rất trực quan. Podcast có xu hướng cho bạn cái cớ để sau này nghiên cứu sâu hơn hoặc có một số cuộc thảo luận triết học hấp dẫn. Tuy nhiên, đây là một số khuyến nghị:

  • Podcast của Lex Friedman, khi ông nói chuyện với các nhà nghiên cứu nổi tiếng trong lĩnh vực trí tuệ nhân tạo. Các tập phim có Francois Chollet đặc biệt hay!
  • Podcast Kỹ thuật dữ liệu. Thật vui khi được nghe về các công cụ cơ sở hạ tầng dữ liệu mới.

Danh sách tuyệt vời

Ở đây có ít thứ để theo dõi hơn nhưng có nhiều tài nguyên hữu ích hơn khi bạn biết mình đang tìm kiếm gì:

Twitter

  • Matty Marianski
    Matty tìm ra những cách hay và sáng tạo để sử dụng mạng lưới thần kinh và thật thú vị khi xem kết quả của anh ấy trên nguồn cấp dữ liệu Twitter của bạn. Ít nhất hãy nhìn vào này bài
  • Ori Cohen
    Ori chỉ là một cỗ máy lái xe blog. Ông viết nhiều về các vấn đề và giải pháp cho các nhà khoa học dữ liệu. Hãy chắc chắn đăng ký để được thông báo khi một bài viết được xuất bản. Của anh ấy biên soạn, đặc biệt là thực sự ấn tượng.
  • Jeremy Howard
    Đồng sáng lập fast.ai, một nguồn sáng tạo và năng suất toàn diện.
  • Hamel Hussein
    Là một kỹ sư ML tại Github, Hamel Hussain đang bận rộn tạo ra và báo cáo về nhiều công cụ dành cho người lập mã dữ liệu.
  • Francois Chollet
    Người tạo ra Keras bây giờ đang cố gắng cập nhật hiểu biết của chúng ta về trí thông minh là gì và cách kiểm tra nó.
  • Hardmaru
    Nhà khoa học nghiên cứu tại Google Brain.

Kết luận

Bài đăng gốc có thể được cập nhật khi tác giả tìm thấy những nguồn nội dung tuyệt vời mà sẽ thật đáng tiếc nếu không đưa vào danh sách. Hãy liên hệ với anh ấy tại Twitter, nếu bạn muốn giới thiệu một nguồn mới! Và cả DAGsHub thuê mướn Người ủng hộ [khoảng. dịch người hành nghề công cộng] về Khoa học dữ liệu, vì vậy nếu bạn tạo nội dung Khoa học dữ liệu của riêng mình, vui lòng viết thư cho tác giả của bài đăng.

Đọc gì với tư cách là một nhà khoa học dữ liệu vào năm 2020
Phát triển bản thân bằng cách đọc các nguồn được đề xuất và sử dụng mã khuyến mại HABR, bạn có thể được giảm thêm 10% so với mức giảm giá ghi trên biểu ngữ.

Các khóa học khác

Bài báo nổi bật

Nguồn: www.habr.com