Оқу жобаларына арналған 52 деректер жинағы

  1. Сауда орталығы тұтынушыларының деректер жинағы — дүкенге келушілердің деректері: идентификатор, жыныс, жас, кіріс, шығыс рейтингі. (Қолданба опциясы: Machine Learning көмегімен тұтынушыларды сегменттеу жобасы)
  2. Iris деректер жинағы — жаңадан бастаушыларға арналған деректер жинағы, әр түрлі гүлдерге арналған жапырақшалар мен жапырақшалардың өлшемдерін қамтиды.
  3. MNIST деректер жинағы — қолмен жазылған сандардың деректер жинағы. 60 000 жаттығу кескіні және 10 000 сынақ кескіні.
  4. Бостондағы тұрғын үй деректер жинағы үлгіні тану үшін танымал деректер жинағы болып табылады. Бостондағы үйлер туралы ақпаратты қамтиды: пәтерлер саны, жалдау бағасы, қылмыс индексі.
  5. Жалған жаңалықтарды анықтау деректер жинағы — жаңалық белгілері бар 7796 жазба бар: шын немесе жалған. (Python тіліндегі бастапқы коды бар қолданба опциясы: Жалған жаңалықтарды анықтау Python жобасы )
  6. Шарап сапасы деректер жинағы — шарап туралы ақпаратты қамтиды: 4898 параметрі бар 14 жазба.
  7. SOCR деректері – Биіктіктер мен салмақтар деректер жинағы - бастау үшін жақсы нұсқа. Онда 25 жастағы адамдардың бойы мен салмағы туралы 000 18 жазба бар.

    Оқу жобаларына арналған 52 деректер жинағы

    Мақала EDISON Software қолдауымен аударылған, ол Оңтүстік Қытайдан келген тапсырыстарды «өте жақсы» орындайды, және де веб-қосымшалар мен веб-сайттарды әзірлейді.

  8. Паркинсон деректер жинағы — Паркинсон ауруы бар науқастардың 195 жазбасы, 25 талдау параметрі. Ауру адамдар мен сау адамдар арасындағы айырмашылықты алдын ала бағалау үшін қолдануға болады. (Python тіліндегі бастапқы коды бар қолданба опциясы: Паркинсон ауруын анықтауға арналған машиналық оқыту жобасы)
  9. Титаник деректер жинағы — жолаушылар туралы мәліметтерді қамтиды (жас, жыныс, борттағы туыстары және т.б.) оқу жинағында 891 және сынақ жинағында 418.
  10. Uber Pickups деректер жинағы — 4.5 жылы Uber-те 2014 миллион және 14 жылы 2015 миллион сапар туралы ақпарат. (R тіліндегі бастапқы коды бар қолданба опциясы: R. Uber деректерін талдау жобасы)
  11. Chars74k деректер жинағы — 64 сыныптың британдық және канадалық рәміздерінің суреттерін қамтиды: 0-9, AZ, az. 7700 7.7к табиғи сурет, 3400к қолжазба, 62000 компьютерлік синтезделген қаріптер.
  12. Несие картасының алаяқтығын анықтау деректер жинағы — бұзылған несие карталарының транзакциялары туралы ақпаратты қамтиды. (Көзі бар қолданба опциясы: Несие картасының алаяқтығын анықтау машинасын оқыту жобасы)
  13. Chatbot Intents деректер жинағы — әртүрлі тегтерді қамтитын JSON файлы: сәлемдесу, қоштасу, аурухана_іздеу, дәріхана_іздеу, т.б. Сұрақ-жауап үлгілерінің жиынтығын қамтиды. (Python тіліндегі бастапқы коды бар қолданба опциясы: Python тіліндегі чатбот жобасы)
  14. Enron электрондық пошта деректер жинағы — 150 Enron менеджерінің жарты миллион хатын қамтиды.
  15. Yelp деректер жинағы — шамамен 1,2 миллион ұйымның 1,6 миллион пайдаланушысының 1,2 миллион ұсынысын қамтиды.
  16. Қауіпті деректер жинағы — танымал телевизиялық ойыннан 200 000-нан астам сұрақ-жауап жазбалары.
  17. Recommender Systems деректер жинағы — UCSD университетінің деректер жиыны бар портал. Танымал сайттардағы шолулардың жазбаларын қамтиды (Goodreads, Amazon). Ұсынушы жүйелерді жасау үшін тамаша. (R тіліндегі бастапқы коды бар қолданба опциясы: R-де фильмді ұсыну жүйесі жобасы )
  18. UCI спамбаза деректер жинағы — спамды анықтауға арналған оқу деректер жинағы. Құрамында 4601 метадеректер параметрі бар 57 әріп бар.
  19. Flickr 30k деректер жинағы — 30 ​​000-нан астам суреттер мен жазулар. (Flickr 8k деректер жинағы — 8000 сурет. Python бастапқы жобасы: Сурет субтитрлерінің генераторы Python жобасы)
  20. IMDB шолулары — Жаттығу жиынында 25 000 фильмге шолу және сынақ жиынында 25 000. (R тіліндегі бастапқы коды бар қолданба опциясы: Сезімдерді талдау деректер ғылымы жобасы)
  21. MS COCO деректер жинағы — 1,5 миллион тегтелген суреттер.
  22. CIFAR-10 және CIFAR-100 деректер жинағы — CIFAR-10 60,000-32 аралығындағы 32*0 пиксельді 9 100 шағын кескінді қамтиды. CIFAR-0 - сәйкесінше 100-XNUMX.
  23. GTSRB (Германдық жол белгілерін танудың эталоны) Деректер жинағы — 50 жол белгісінің 000 43 кескіні. (Python тіліндегі бастапқы коды бар қолданба опциясы: Жол белгілерін тану Python жобасы)
  24. ImageNet деректер жинағы — әр фразада 100 000-нан астам сөз тіркесі және 1000-ға жуық сурет бар.
  25. Сүт безінің гистопатологиясы кескіндерінің деректер жинағы — деректер жинағы сүт безі қатерлі ісігі үлгілерінің суреттерін қамтиды. (Бастапқы коды қосулы қолданба опциясы Сүт безі обырының классификациясы Python жобасы)
  26. Cityscapes деректер жинағы — әртүрлі қалалардағы көшелердің бейне тізбектерінің жоғары сапалы аннотацияларын қамтиды.
  27. Кинетика деректер жинағы - шамамен 6,5 миллион жоғары сапалы бейнеге URL сілтемесін қамтиды.
  28. MPII адам позасының деректер жинағы — деректер жинағы бірлескен аннотациялары бар адам позаларының 25 000 суретін қамтиды.
  29. 20BN-бірдеңе деректер жинағы v2 - адамның қандай да бір әрекетті қалай орындайтынын көрсететін жоғары сапалы бейнелер жиынтығы.
  30. Нысан 365 деректер жинағы — нысанды шектейтін ұяшықтары бар жоғары сапалы кескіндердің деректер жинағы.
  31. Фотосурет эскизінің деректер жинағы — сызбалары бар 1000-нан астам кескінді қамтиды.
  32. CQ500 деректер жинағы — деректер жинағы 491 193 тіліммен бастың 317 компьютерлік томографиясын қамтиды.
  33. IMDB-Wiki деректер жинағы — жынысы мен жасы бойынша белгіленген 5 миллионнан астам бет кескіндері бар деректер жинағы. (Бастапқы коды қосулы қолданба опциясы Жыныс пен жасты анықтау Python жобасы)
  34. Youtube 8M деректер жинағы - 6,1 миллион Youtube бейне идентификаторын қамтитын таңбаланған бейне деректер жинағы
  35. Urban Sound 8K деректер жинағы — қалалық дыбыс деректерінің жинағы (8732 сыныптан 10 қалалық дыбысты қамтиды).
  36. LSUN деректер жинағы - көріністер мен нысандардың миллиондаған түрлі-түсті кескіндерінің деректер жинағы (шамамен 59 миллион кескін, 10 түрлі көрініс санаттары және 20 түрлі нысан санаттары).
  37. RAVDESS деректер жинағы — эмоционалды сөйлеудің аудиовизуалды базасы. (Бастапқы коды қосулы қолданба опциясы Speech Emotion Recognition Python жобасы)
  38. Librispeech деректер жинағы — деректер жинағы әртүрлі екпінмен 1000 сағаттық ағылшын тілінде сөйлеуді қамтиды.
  39. Baidu Apolloscape деректер жинағы — өзін-өзі басқару технологияларын дамытуға арналған деректер жинағы.
  40. Quandl деректер порталы — экономикалық және қаржылық деректердің репозиторийі (тегін және ақылы мазмұн бар).
  41. Дүниежүзілік банктің ашық деректер порталы — Дүниежүзілік банктің дамушы елдерге берген несиелері туралы ақпарат.
  42. IMF деректер порталы халықаралық қаржы, қарыз мөлшерлемелері, инвестиция, валюталық резервтер мен тауарлар туралы деректерді жариялайтын халықаралық валюта қорының порталы.
  43. Американдық экономикалық қауымдастық (AEA) деректер порталы - АҚШ-тың макроэкономикалық деректерін іздеуге арналған ресурс.
  44. Google Trends деректер порталы - Google тренд деректері деректерді көрнекі түрде зерттеу және талдау үшін пайдаланылуы мүмкін.
  45. Financial Times нарықтық деректер порталы дүние жүзіндегі қаржы нарықтары туралы өзекті ақпараттың ресурсы болып табылады.
  46. Data.gov порталы - АҚШ үкіметінің ашық деректер порталы (ауыл шаруашылығы, денсаулық сақтау, климат, білім, энергетика, қаржы, ғылым және зерттеулер және т.б.).
  47. Деректер порталы: ашық үкімет деректері (Үндістан) Үндістанның ашық үкіметтік деректер платформасы.
  48. Азық-түлік ортасы Atlas Data Portal — Америка Құрама Штаттарындағы тамақтану туралы зерттеу деректерін қамтиды.
  49. Денсаулық туралы деректер порталы АҚШ денсаулық сақтау және халыққа қызмет көрсету департаментінің порталы болып табылады.
  50. Ауруларды бақылау және алдын алу орталықтары деректер порталы — денсаулыққа қатысты деректердің кең ауқымын қамтиды.
  51. Лондон деректер қоймасының порталы - Лондондағы адамдардың өмірі туралы деректер.
  52. Канада үкіметінің ашық деректер порталы - канадалықтар туралы ашық деректер порталы (ауыл шаруашылығы, өнер, музыка, білім, үкімет, денсаулық сақтау және т.б.)

Ары қарай оқу

Ақпарат көзі: www.habr.com

пікір қалдыру