52 набора от данни за проекти за обучение

  1. Набор от данни за клиенти на мол — данни на посетителите на магазина: id, пол, възраст, доход, рейтинг на разходите. (Вариант за приложение: Проект за сегментиране на клиенти с машинно обучение)
  2. Набор от данни за ириса — набор от данни за начинаещи, съдържащ размерите на чашелистчетата и венчелистчетата за различни цветя.
  3. Набор от данни MNIST — набор от данни от ръкописни числа. 60 000 тренировъчни изображения и 10 000 тестови изображения.
  4. Наборът от данни за жилищата в Бостън е популярен набор от данни за разпознаване на образи. Съдържа информация за къщи в Бостън: брой апартаменти, наемни цени, индекс на престъпността.
  5. Набор от данни за откриване на фалшиви новини — съдържа 7796 записа с новинарски маркировки: вярно или невярно. (Опция за приложение с изходен код в Python: Python проект за откриване на фалшиви новини )
  6. Набор от данни за качеството на виното — съдържа информация за виното: 4898 записа с 14 параметъра.
  7. SOCR данни – Набор от данни за височини и тегла - добър вариант за начало. Съдържа 25 000 записа на ръста и теглото на 18-годишни хора.

    52 набора от данни за проекти за обучение

    Статията е преведена с подкрепата на EDISON Software, която изпълнява поръчки от Южен Китай „отлично“И разработва уеб приложения и уебсайтове.

  8. Набор от данни за Паркинсон — 195 записа на пациенти с болестта на Паркинсон с 25 параметъра за анализ. Може да се използва за предварителна оценка на разликата между болни и здрави хора. (Опция за приложение с изходен код в Python: Проект за машинно обучение за откриване на болестта на Паркинсон)
  9. Набор от данни за Титаник — съдържа информация за пътниците (възраст, пол, роднини на борда и т.н.) 891 в комплекта за обучение и 418 в комплекта за тестване.
  10. Набор от данни на Uber Pickups — информация за 4.5 милиона пътувания с Uber през 2014 г. и 14 милиона през 2015 г. (Опция за приложение с изходен код в R: Проект за анализ на данни на Uber в R)
  11. Набор от данни Chars74k — съдържа изображения на британски и канадски символи от 64 класа: 0-9, AZ, az. 7700 7.7k естествени изображения, 3400k ръкописни, 62000 компютърно синтезирани шрифта.
  12. Набор от данни за откриване на измами с кредитни карти — съдържа информация за транзакции на компрометирани кредитни карти. (Вариант за приложение с източник: Проект за машинно обучение за откриване на измами с кредитни карти)
  13. Набор от данни за намерения на чатбот — JSON файл, който съдържа различни тагове: поздрави, сбогом, hospital_search, pharmacy_search и др. Съдържа набор от шаблони за въпроси и отговори. (Опция за приложение с изходен код в Python: Проект за чатбот в Python)
  14. Набор от имейл данни на Enron — съдържа половин милион писма от 150 мениджъри на Enron.
  15. Наборът от данни на Yelp — съдържа 1,2 милиона препоръки от 1,6 милиона потребители около 1,2 милиона организации.
  16. Набор от данни за опасност — повече от 200 000 записа с въпроси и отговори от популярната телевизионна игра.
  17. Набор от данни за системи за препоръчване — портал с колекция от набори от данни от университета UCSD. Съдържа записи на прегледи на популярни сайтове (Goodreads, Amazon). Чудесно за създаване на системи за препоръки. (Опция за приложение с изходен код в R: Проект за система за препоръчване на филми в R )
  18. UCI Spambase набор от данни — набор от данни за обучение за откриване на спам. Съдържа 4601 букви с 57 параметри на метаданни.
  19. Набор от данни Flickr 30k — повече от 30 000 изображения и надписи. (Набор от данни Flickr 8k — 8000 изображения. Проект с изходен код на Python: Проект Python за генериране на надписи на изображения)
  20. IMDB рецензии — 25 000 рецензии на филми в тренировъчния комплект и 25 000 в тестовия комплект. (Опция за приложение с изходен код в R: Научен проект за данни за анализ на настроението)
  21. MS COCO набор от данни — 1,5 милиона маркирани изображения.
  22. Набор от данни CIFAR-10 и CIFAR-100 — CIFAR-10 съдържа 60,000 32 малки изображения от 32*0 пиксела с числа 9-100. CIFAR-0 - съответно 100-XNUMX.
  23. Набор от данни GTSRB (германски показател за разпознаване на пътни знаци). — 50 000 изображения на 43 пътни знака. (Опция за приложение с изходен код в Python: Python проект за разпознаване на пътни знаци)
  24. Набор от данни на ImageNet — съдържа повече от 100 000 фрази и около 1000 изображения на фраза.
  25. Набор от данни за хистопатологични изображения на гърдата — наборът от данни съдържа изображения на проби от рак на гърдата. (Опция за приложение с включен изходен код Проект Python за класификация на рака на гърдата)
  26. Набор от данни за градски пейзажи — съдържа висококачествени анотации на видео поредици от улици в различни градове.
  27. Набор от данни за кинетика - съдържа URL връзка към около 6,5 милиона висококачествени видеоклипа.
  28. MPII набор от данни за човешка поза — наборът от данни съдържа 25 000 изображения на човешки пози със съвместни пояснения.
  29. 20BN-нещо-нещо набор от данни v2 - набор от висококачествени видеоклипове, които показват как човек извършва някакво действие.
  30. Обект 365 набор от данни — набор от данни от висококачествени изображения с рамки за ограничаване на обекти.
  31. Набор от данни за скициране на снимки — съдържа повече от 1000 изображения с техните контурни чертежи.
  32. Набор от данни CQ500 — наборът от данни съдържа 491 компютърна томография на глава с 193 317 среза.
  33. IMDB-Wiki набор от данни — набор от данни с повече от 5 милиона изображения на лица, маркирани по пол и възраст. (Опция за приложение с включен изходен код Проект Python за откриване на пол и възраст)
  34. Youtube 8M набор от данни - Маркиран набор от видео данни, който съдържа 6,1 милиона идентификатора на видеоклипове в Youtube
  35. Набор от данни Urban Sound 8K — набор от градски звукови данни (съдържа 8732 градски звука от 10 класа).
  36. LSUN набор от данни - набор от данни от милиони цветни изображения на сцени и обекти (около 59 милиона изображения, 10 различни категории сцени и 20 различни категории обекти).
  37. Набор от данни RAVDESS — аудиовизуална база данни за емоционална реч. (Опция за приложение с включен изходен код Проект Python за разпознаване на реч и емоции)
  38. Набор от данни за Librispeech — наборът от данни съдържа 1000 часа английска реч с различни акценти.
  39. Набор от данни на Baidu Apolloscape — набор от данни за разработването на технологии за самостоятелно управление.
  40. Портал за данни на Quandl — хранилище на икономически и финансови данни (има безплатно и платено съдържание).
  41. Порталът за отворени данни на Световната банка — информация за заеми, отпуснати от Световната банка на развиващите се страни.
  42. Портал за данни на МВФ е портал за международен паричен фонд, който публикува данни за международните финанси, лихвите по дълга, инвестициите, валутните резерви и стоките.
  43. Портал за данни на Американската икономическа асоциация (AEA). - Ресурс за търсене на макроикономически данни за САЩ.
  44. Портал за данни на Google Trends - Данните за тенденциите на Google могат да се използват за визуално изследване и анализ на данните.
  45. Портал за пазарни данни на Financial Times е ресурс за актуална информация за финансовите пазари от целия свят.
  46. Портал Data.gov - Портал за отворени данни на правителството на САЩ (селско стопанство, здравеопазване, климат, образование, енергетика, финанси, наука и изследвания и др.).
  47. Портал за данни: Отворени правителствени данни (Индия) е платформата за отворени правителствени данни на Индия.
  48. Хранителна среда Atlas Data Portal — съдържа данни от изследвания за храненето в Съединените щати.
  49. Портал за здравни данни е портал на Министерството на здравеопазването и човешките услуги на САЩ.
  50. Портал с данни на Центровете за контрол и превенция на заболяванията - съдържа широк набор от данни, свързани със здравето.
  51. Лондонски портал за съхранение на данни - данни за живота на хората в Лондон.
  52. Портал за отворени данни на правителството на Канада - портал за отворени данни за канадците (селско стопанство, изкуство, музика, образование, правителство, здравеопазване и др.)

Прочетете още

Източник: www.habr.com

Добавяне на нов коментар