52 датасети для тренувальних проектів

  1. Mall Customers Dataset - Дані відвідувачів магазину: id, стать, вік, дохід, рейтинг витрат. (Варіант застосування: Customer Segmentation Project with Machine Learning)
  2. Набір даних Iris - Датасет для новачків, що містить розміри чашолистків та пелюсток для різних квіток.
  3. Набір даних MNIST - Датасет рукописних цифр. 60 000 тренувальних зображень та 10 000 тестових зображень.
  4. The Boston Housing Dataset - популярний датасет для розпізнавання патернів. Містить інформацію про будинки у Бостоні: кількість квартир, вартість оренди, індекс злочинів.
  5. Fake News Detection Dataset — містить 7796 записів із розміткою новин: правда чи брехня. (Варіант застосування з вихідним кодом на Python: Fake News Detection Python Project )
  6. Wine quality dataset — містить інформацію про вино: 4898 записів із 14 параметрами.
  7. SOCR data – Heights and Weights Dataset - Хороший варіант для старту. Містить 25 000 записів про зростання та вагу 18 літніх людей.

    52 датасети для тренувальних проектів

    Статтю перекладено за підтримки компанії EDISON Software, яка виконує на відмінно замовлення з Південного Китаю., а також розробляє веб-додатки та сайти.

  8. Parkinson Dataset - 195 записів про пацієнтів із хворобою Паркінсона, з 25 параметрами аналізів. Можна використовувати для попередньої оцінки відхилення хворих людей від здорових. (Варіант застосування з вихідним кодом на Python: Machine Learning Project on Detecting Parkinson's Disease)
  9. Набір даних "Титанік". — містить інформацію про пасажирів (вік, стать, родичі на борту тощо) 891 у тренувальному сеті та 418 — у тестовому.
  10. Uber Pickups Dataset — інформація про 4.5 мільйони поїздок на Uber 2014 року та 14 млн. 2015 року. (Варіант застосування із вихідником на R: Uber Data Analysis Project in R)
  11. Chars74k Dataset - Містить зображення Британських і Канадських символів 64 класів: 0-9, AZ, az. 7700 7.7k природних зображень, 3400k написаних від руки, 62000 синтезованих комп'ютером шрифтів.
  12. Credit Card Fraud Detection Dataset — містить інформацію про транзакції скомпрометованих кредитних карток. (Варіант застосування з вихідним кодом: Credit Card Fraud Detection Machine Learning Project)
  13. Chatbot Intents Dataset - JSON-файл, який містить різні теги: greetings, goodbye, hospital_search, pharmacy_search і тд. Містить набір шаблонів запитання-відповідь. (Варіант застосування з вихідним кодом на Python: Chatbot Project in Python)
  14. Набір даних електронної пошти Enron - Містить півмільйона листів від 150 менеджерів Enron.
  15. The Yelp Dataset - Містить 1,2 млн. рекомендацій від 1,6 млн. користувачів про 1,2 млн організацій.
  16. Jeopardy Dataset — понад 200 000 записів «запитання-відповідь» із популярної телевізійної гри.
  17. Recommender Systems Dataset - Портал з колекцією датасетів від університету UCSD. Містить записи про відгуки на популярних сайтах (Goodreads, Amazon). Відмінно підходить для створення рекомендаційних систем. (Варіант застосування із вихідником на R: Movie Recommendation System Project in R )
  18. UCI Spambase Dataset - Датасет для тренування для виявлення спаму. Містить 4601 листів із 57 параметрами метаданих.
  19. Набір даних Flickr 30k — понад 30 000 зображень та підписів до них. (Набір даних Flickr 8k - 8000 зображень. Проект із вихідником на Python: Image Caption Generator Python Project)
  20. IMDB reviews — 25 000 відгуків на фільми у тренувальному наборі та 25 000 у тестовому. (Варіант застосування із вихідником на R: Sentiment Analysis Data Science Project)
  21. Набір даних MS COCO - 1,5 млн розмічених зображень.
  22. CIFAR-10 та CIFAR-100 dataset CIFAR-10 містить 60,000 маленьких зображень 32*32 pixels цифр 0-9. CIFAR-100 - відповідно, 0-100.
  23. GTSRB (German traffic sign recognition benchmark) Dataset - 50 000 зображень 43 дорожніх знаків. (Варіант застосування з вихідним кодом на Python: Traffic Signs Recognition Python Project)
  24. Набір даних ImageNet містить більше 100 000 фраз і близько 1000 зображень на фразу.
  25. Breast Histopathology Images Dataset - Датасет містить зображення зразків раку молочної залози. (Варіант застосування з вихідником на Breast Cancer Classification Python Project)
  26. Набір даних міських пейзажів - Містить високоякісні анотації відеопослідовностей вулиць різних міст.
  27. Набір даних Kinetics — містить URL-посилання близько 6,5 мільйонів високоякісних відео.
  28. MPII human pose dataset - Датасет містить 25 000 зображень людських поз з анотацією по суглобах.
  29. 20BN-something-something dataset v2 - Набір високоякісних відео, які показують, як людина виконує якісь дії.
  30. Object 365 Dataset - Датасет високоякісних зображень з рамками об'єктів, що обмежують.
  31. Photo sketching dataset — містить понад 1000 зображень із їх контурними кресленнями.
  32. CQ500 Dataset - Датасет містить 491 КТ-сканування голови з 193 зрізами.
  33. IMDB-Wiki dataset — датасет із понад 5 млн. зображень осіб із позначкою статі та віку. (Варіант застосування з вихідником на Gender & Age Detection Python Project)
  34. Youtube 8M Dataset - маркований набір даних відео, що містить 6,1 мільйона ідентифікаторів відео Youtube
  35. Urban Sound 8K dataset - Набір міських звукових даних (містить 8732 міських звуку з 10 класів).
  36. LSUN Dataset — набір даних із мільйонів кольорових зображень сцен та об'єктів (близько 59 мільйонів зображень, 10 різних категорій сцен та 20 різних категорій об'єктів).
  37. RAVDESS Dataset - Аудіовізуальна база даних емоційного мовлення. (Варіант застосування з вихідником на Speech Emotion Recognition Python Project)
  38. Librispeech Dataset - Датасет містить 1000 годин англійської мови з різними акцентами.
  39. Baidu Apolloscape Dataset - Датасет для розвитку технологій самостійного водіння.
  40. Quandl Data Portal - Сховище економічних та фінансових даних (є безкоштовний і платний контент).
  41. The World Bank Open Data Portal — інформація про позики, видані Світовим банком країнам, що розвиваються.
  42. IMF Data Portal — портал міжнародного валютного фонду, який публікує дані про міжнародні фінанси, ставки боргу, інвестиції, валютні резерви та товари.
  43. American Economic Association (AEA) ресурс для пошуку макроекономічних даних США.
  44. Google Trends Data Portal - дані про тенденції Google можна використовувати для візуального вивчення та аналізу даних.
  45. Financial Times Market Data Portal ресурс для отримання актуальної інформації про фінансові ринки з усього світу.
  46. Data.gov Portal - портал відкритих даних уряду США (сільське господарство, охорона здоров'я, клімат, освіта, енергетика, фінанси, наука та дослідження тощо).
  47. Data Portal: Open government data (India) - Відкрита урядова платформа даних Індії.
  48. Food environment Atlas Data Portal - Містить дані досліджень про харчування в США.
  49. Health Data Portal - Це портал Міністерства охорони здоров'я та соціальних служб США.
  50. Centers for Disease Control and Prevention Data Portal - Містить широкий спектр даних, пов'язаних зі здоров'ям.
  51. London Datastore Portal - Дані про життя людей у ​​Лондоні.
  52. Canada Government Open Data Portal — портал відкритих даних про канадців (сільське господарство, мистецтво, музика, освіта, уряд, охорона здоров'я тощо)

Читати ще

Джерело: habr.com

Додати коментар або відгук