52 bộ dữ liệu cho dự án đào tạo

  1. Bộ dữ liệu khách hàng của trung tâm mua sắm — dữ liệu về khách truy cập cửa hàng: id, giới tính, độ tuổi, thu nhập, xếp hạng chi tiêu. (Tùy chọn ứng dụng: Dự án phân khúc khách hàng với Machine Learning)
  2. Bộ dữ liệu Iris - một tập dữ liệu dành cho người mới bắt đầu, chứa kích thước của đài hoa và cánh hoa của các loại hoa khác nhau.
  3. Bộ dữ liệu MNIST - một tập dữ liệu gồm các số viết tay. 60 hình ảnh đào tạo và 000 hình ảnh thử nghiệm.
  4. Bộ dữ liệu nhà ở Boston là một tập dữ liệu phổ biến để nhận dạng mẫu. Chứa thông tin về nhà ở Boston: số lượng căn hộ, giá cho thuê, chỉ số tội phạm.
  5. Bộ dữ liệu phát hiện tin tức giả — chứa 7796 mục có dấu tin tức: đúng hoặc sai. (Tùy chọn ứng dụng với mã nguồn bằng Python: Dự án Python phát hiện tin tức giả )
  6. Dữ liệu chất lượng rượu vang — chứa thông tin về rượu vang: 4898 bản ghi với 14 tham số.
  7. Dữ liệu SOCR - Bộ dữ liệu Chiều cao và Cân nặng - một lựa chọn tốt để bắt đầu. Chứa 25 hồ sơ về chiều cao và cân nặng của người 000 tuổi.

    52 bộ dữ liệu cho dự án đào tạo

    Bài viết được dịch với sự hỗ trợ của EDISON Software, công ty hoàn thành xuất sắc các đơn hàng từ miền Nam Trung Quốcphát triển các ứng dụng web và trang web.

  8. Bộ dữ liệu Parkinson — 195 hồ sơ bệnh nhân mắc bệnh Parkinson, với 25 thông số phân tích. Có thể dùng để đánh giá sơ bộ sự khác biệt giữa người bệnh và người khỏe mạnh. (Tùy chọn ứng dụng với mã nguồn bằng Python: Dự án học máy về phát hiện bệnh Parkinson)
  9. Tập dữ liệu Titanic — chứa thông tin về hành khách (tuổi, giới tính, người thân trên máy bay, v.v.) 891 trong tập huấn luyện và 418 trong tập kiểm tra.
  10. Bộ dữ liệu đón khách của Uber — thông tin về 4.5 triệu chuyến đi trên Uber vào năm 2014 và 14 triệu chuyến vào năm 2015. (Tùy chọn ứng dụng có mã nguồn trong R: Dự án phân tích dữ liệu Uber ở R)
  11. Bộ dữ liệu Chars74k — chứa hình ảnh các ký hiệu của Anh và Canada gồm 64 lớp: 0-9, AZ, az. 7700 ảnh tự nhiên 7.7k, 3400k viết tay, 62000 font chữ máy tính tổng hợp.
  12. Bộ dữ liệu phát hiện gian lận thẻ tín dụng — chứa thông tin về các giao dịch của thẻ tín dụng bị xâm phạm. (Tùy chọn ứng dụng với nguồn: Dự án học máy phát hiện gian lận thẻ tín dụng)
  13. Bộ dữ liệu ý định Chatbot - một tệp JSON chứa nhiều thẻ khác nhau: lời chào, lời tạm biệt, bệnh viện_search, dược_search, v.v. Chứa một tập hợp các mẫu câu hỏi-trả lời. (Tùy chọn ứng dụng với mã nguồn bằng Python: Dự án Chatbot bằng Python)
  14. Bộ dữ liệu email Enron - chứa nửa triệu lá thư từ 150 nhà quản lý Enron.
  15. Bộ dữ liệu Yelp — chứa 1,2 triệu đề xuất từ ​​1,6 triệu người dùng, khoảng 1,2 triệu tổ chức.
  16. Bộ dữ liệu nguy hiểm - hơn 200 bản ghi âm câu hỏi và câu trả lời từ trò chơi truyền hình nổi tiếng.
  17. Bộ dữ liệu hệ thống đề xuất - một cổng thông tin với bộ sưu tập dữ liệu từ Đại học UCSD. Chứa hồ sơ đánh giá trên các trang web phổ biến (Goodreads, Amazon). Tuyệt vời để tạo ra hệ thống gợi ý. (Tùy chọn ứng dụng có mã nguồn trong R: Dự án hệ thống đề xuất phim trong R )
  18. Bộ dữ liệu thư rác UCI — một tập dữ liệu đào tạo để phát hiện thư rác. Chứa 4601 chữ cái với 57 thông số siêu dữ liệu.
  19. Bộ dữ liệu Flickr 30k - hơn 30 hình ảnh và chú thích. (Bộ dữ liệu Flickr 8k - 8000 hình ảnh. Dự án nguồn Python: Dự án Python tạo chú thích hình ảnh)
  20. đánh giá IMDB — 25 bài đánh giá phim trong tập huấn luyện và 000 bài đánh giá trong tập kiểm tra. (Tùy chọn ứng dụng có mã nguồn trong R: Dự án khoa học dữ liệu phân tích tình cảm)
  21. Bộ dữ liệu MS COCO - 1,5 triệu hình ảnh được gắn thẻ.
  22. Bộ dữ liệu CIFAR-10 và CIFAR-100 — CIFAR-10 chứa 60,000 hình ảnh nhỏ 32 * 32 pixel có số 0-9. CIFAR-100 - tương ứng, 0-100.
  23. Bộ dữ liệu GTSRB (chuẩn mực nhận dạng biển báo giao thông của Đức) - 50 hình ảnh của 000 biển báo đường bộ. (Tùy chọn ứng dụng với mã nguồn bằng Python: Dự án Python nhận dạng biển báo giao thông)
  24. Tập dữ liệu ImageNet - chứa hơn 100 cụm từ và khoảng 000 hình ảnh cho mỗi cụm từ.
  25. Bộ dữ liệu hình ảnh mô bệnh học vú - tập dữ liệu chứa hình ảnh của các mẫu ung thư vú. (Tùy chọn ứng dụng có mã nguồn bật Dự án Python phân loại ung thư vú)
  26. Bộ dữ liệu cảnh quan thành phố - chứa các chú thích chất lượng cao về chuỗi video về các đường phố ở các thành phố khác nhau.
  27. Tập dữ liệu động học - chứa liên kết URL tới khoảng 6,5 triệu video chất lượng cao.
  28. Bộ dữ liệu tư thế con người MPII — tập dữ liệu chứa 25 hình ảnh về tư thế của con người kèm theo chú thích chung.
  29. Tập dữ liệu 20BN-thứ gì đó v2 - một bộ video chất lượng cao cho thấy cách một người thực hiện một số hành động.
  30. Bộ dữ liệu đối tượng 365 - một tập dữ liệu gồm các hình ảnh chất lượng cao với các hộp giới hạn đối tượng.
  31. Tập dữ liệu phác thảo ảnh - chứa hơn 1000 hình ảnh với các bản vẽ phác thảo của chúng.
  32. Bộ dữ liệu CQ500 — tập dữ liệu chứa 491 bản quét CT đầu với 193 lát cắt.
  33. Bộ dữ liệu IMDB-Wiki - một tập dữ liệu với hơn 5 triệu hình ảnh khuôn mặt được đánh dấu theo giới tính và độ tuổi. (Tùy chọn ứng dụng có mã nguồn bật Dự án Python phát hiện giới tính và độ tuổi)
  34. Bộ dữ liệu Youtube 8M - Tập dữ liệu video được gắn nhãn chứa 6,1 triệu ID video Youtube
  35. Tập dữ liệu Urban Sound 8K - một bộ dữ liệu âm thanh đô thị (chứa 8732 âm thanh đô thị từ 10 loại).
  36. Bộ dữ liệu LSUN - bộ dữ liệu gồm hàng triệu ảnh màu về cảnh và vật thể (khoảng 59 triệu ảnh, 10 danh mục cảnh khác nhau và 20 danh mục đối tượng khác nhau).
  37. Bộ dữ liệu RAVDESS - cơ sở dữ liệu nghe nhìn của lời nói cảm xúc. (Tùy chọn ứng dụng có mã nguồn bật Dự án Python nhận dạng cảm xúc lời nói)
  38. Bộ dữ liệu thư viện — tập dữ liệu chứa 1000 giờ nói tiếng Anh với các giọng khác nhau.
  39. Bộ dữ liệu Baidu Apolloscape - một bộ dữ liệu để phát triển công nghệ tự lái.
  40. Cổng thông tin dữ liệu Quandl — kho lưu trữ dữ liệu kinh tế và tài chính (có nội dung miễn phí và trả phí).
  41. Cổng dữ liệu mở của Ngân hàng Thế giới — thông tin về các khoản vay do Ngân hàng Thế giới cấp cho các nước đang phát triển.
  42. Cổng dữ liệu IMF là cổng thông tin quỹ tiền tệ quốc tế công bố dữ liệu về tài chính quốc tế, lãi suất nợ, đầu tư, dự trữ ngoại hối và hàng hóa.
  43. Cổng thông tin dữ liệu của Hiệp hội Kinh tế Hoa Kỳ (AEA) - Một nguồn tìm kiếm dữ liệu kinh tế vĩ mô của Mỹ.
  44. Cổng dữ liệu Google Xu hướng - Dữ liệu xu hướng của Google có thể được sử dụng để khám phá và phân tích dữ liệu một cách trực quan.
  45. Cổng thông tin dữ liệu thị trường của Financial Times là nguồn thông tin cập nhật về thị trường tài chính từ khắp nơi trên thế giới.
  46. Cổng thông tin Data.gov - Cổng dữ liệu mở của chính phủ Hoa Kỳ (nông nghiệp, y tế, khí hậu, giáo dục, năng lượng, tài chính, khoa học và nghiên cứu, v.v.).
  47. Cổng dữ liệu: Dữ liệu chính phủ mở (Ấn Độ) là nền tảng dữ liệu chính phủ mở của Ấn Độ.
  48. Môi trường thực phẩm Cổng thông tin dữ liệu Atlas - chứa dữ liệu nghiên cứu về dinh dưỡng ở Hoa Kỳ.
  49. Cổng thông tin dữ liệu sức khỏe là cổng thông tin của Bộ Y tế và Dịch vụ Nhân sinh Hoa Kỳ.
  50. Cổng thông tin dữ liệu của Trung tâm kiểm soát và phòng ngừa dịch bệnh - chứa một loạt các dữ liệu liên quan đến sức khỏe.
  51. Cổng thông tin kho dữ liệu Luân Đôn - dữ liệu về cuộc sống của người dân ở London.
  52. Cổng dữ liệu mở của Chính phủ Canada - cổng dữ liệu mở về người Canada (nông nghiệp, nghệ thuật, âm nhạc, giáo dục, chính phủ, y tế, v.v.)

Đọc thêm

Nguồn: www.habr.com

Thêm một lời nhận xét