Набор от данни за клиенти на мол — данни на посетителите на магазина: id, пол, възраст, доход, рейтинг на разходите. (Вариант за приложение:Проект за сегментиране на клиенти с машинно обучение )Набор от данни за ириса — набор от данни за начинаещи, съдържащ размерите на чашелистчетата и венчелистчетата за различни цветя.Набор от данни MNIST — набор от данни от ръкописни числа. 60 000 тренировъчни изображения и 10 000 тестови изображения.Наборът от данни за жилищата в Бостън е популярен набор от данни за разпознаване на образи. Съдържа информация за къщи в Бостън: брой апартаменти, наемни цени, индекс на престъпността.Набор от данни за откриване на фалшиви новини — съдържа 7796 записа с новинарски маркировки: вярно или невярно. (Опция за приложение с изходен код в Python:Python проект за откриване на фалшиви новини )Набор от данни за качеството на виното — съдържа информация за виното: 4898 записа с 14 параметъра.SOCR данни – Набор от данни за височини и тегла - добър вариант за начало. Съдържа 25 000 записа на ръста и теглото на 18-годишни хора.
Статията е преведена с подкрепата на EDISON Software, коятоизпълнява поръчки от Южен Китай „отлично“ Иразработва уеб приложения и уебсайтове .Набор от данни за Паркинсон — 195 записа на пациенти с болестта на Паркинсон с 25 параметъра за анализ. Може да се използва за предварителна оценка на разликата между болни и здрави хора. (Опция за приложение с изходен код в Python:Проект за машинно обучение за откриване на болестта на Паркинсон )Набор от данни за Титаник — съдържа информация за пътниците (възраст, пол, роднини на борда и т.н.) 891 в комплекта за обучение и 418 в комплекта за тестване.Набор от данни на Uber Pickups — информация за 4.5 милиона пътувания с Uber през 2014 г. и 14 милиона през 2015 г. (Опция за приложение с изходен код в R:Проект за анализ на данни на Uber в R )Набор от данни Chars74k — съдържа изображения на британски и канадски символи от 64 класа: 0-9, AZ, az. 7700 7.7k естествени изображения, 3400k ръкописни, 62000 компютърно синтезирани шрифта.Набор от данни за откриване на измами с кредитни карти — съдържа информация за транзакции на компрометирани кредитни карти. (Вариант за приложение с източник:Проект за машинно обучение за откриване на измами с кредитни карти )Набор от данни за намерения на чатбот — JSON файл, който съдържа различни тагове: поздрави, сбогом, hospital_search, pharmacy_search и др. Съдържа набор от шаблони за въпроси и отговори. (Опция за приложение с изходен код в Python:Проект за чатбот в Python )Набор от имейл данни на Enron — съдържа половин милион писма от 150 мениджъри на Enron.Наборът от данни на Yelp — съдържа 1,2 милиона препоръки от 1,6 милиона потребители около 1,2 милиона организации.Набор от данни за опасност — повече от 200 000 записа с въпроси и отговори от популярната телевизионна игра.Набор от данни за системи за препоръчване — портал с колекция от набори от данни от университета UCSD. Съдържа записи на прегледи на популярни сайтове (Goodreads, Amazon). Чудесно за създаване на системи за препоръки. (Опция за приложение с изходен код в R:Проект за система за препоръчване на филми в R )UCI Spambase набор от данни — набор от данни за обучение за откриване на спам. Съдържа 4601 букви с 57 параметри на метаданни.Набор от данни Flickr 30k — повече от 30 000 изображения и надписи. (Набор от данни Flickr 8k — 8000 изображения. Проект с изходен код на Python:Проект Python за генериране на надписи на изображения )IMDB рецензии — 25 000 рецензии на филми в тренировъчния комплект и 25 000 в тестовия комплект. (Опция за приложение с изходен код в R:Научен проект за данни за анализ на настроението )MS COCO набор от данни — 1,5 милиона маркирани изображения.Набор от данни CIFAR-10 и CIFAR-100 — CIFAR-10 съдържа 60,000 32 малки изображения от 32*0 пиксела с числа 9-100. CIFAR-0 - съответно 100-XNUMX.Набор от данни GTSRB (германски показател за разпознаване на пътни знаци). — 50 000 изображения на 43 пътни знака. (Опция за приложение с изходен код в Python:Python проект за разпознаване на пътни знаци )Набор от данни на ImageNet — съдържа повече от 100 000 фрази и около 1000 изображения на фраза.Набор от данни за хистопатологични изображения на гърдата — наборът от данни съдържа изображения на проби от рак на гърдата. (Опция за приложение с включен изходен кодПроект Python за класификация на рака на гърдата )Набор от данни за градски пейзажи — съдържа висококачествени анотации на видео поредици от улици в различни градове.Набор от данни за кинетика - съдържа URL връзка към около 6,5 милиона висококачествени видеоклипа.MPII набор от данни за човешка поза — наборът от данни съдържа 25 000 изображения на човешки пози със съвместни пояснения.20BN-нещо-нещо набор от данни v2 - набор от висококачествени видеоклипове, които показват как човек извършва някакво действие.Обект 365 набор от данни — набор от данни от висококачествени изображения с рамки за ограничаване на обекти.Набор от данни за скициране на снимки — съдържа повече от 1000 изображения с техните контурни чертежи.Набор от данни CQ500 — наборът от данни съдържа 491 компютърна томография на глава с 193 317 среза.IMDB-Wiki набор от данни — набор от данни с повече от 5 милиона изображения на лица, маркирани по пол и възраст. (Опция за приложение с включен изходен кодПроект Python за откриване на пол и възраст )Youtube 8M набор от данни - Маркиран набор от видео данни, който съдържа 6,1 милиона идентификатора на видеоклипове в YoutubeНабор от данни Urban Sound 8K — набор от градски звукови данни (съдържа 8732 градски звука от 10 класа).LSUN набор от данни - набор от данни от милиони цветни изображения на сцени и обекти (около 59 милиона изображения, 10 различни категории сцени и 20 различни категории обекти).Набор от данни RAVDESS — аудиовизуална база данни за емоционална реч. (Опция за приложение с включен изходен кодПроект Python за разпознаване на реч и емоции )Набор от данни за Librispeech — наборът от данни съдържа 1000 часа английска реч с различни акценти.Набор от данни на Baidu Apolloscape — набор от данни за разработването на технологии за самостоятелно управление.Портал за данни на Quandl — хранилище на икономически и финансови данни (има безплатно и платено съдържание).Порталът за отворени данни на Световната банка — информация за заеми, отпуснати от Световната банка на развиващите се страни.Портал за данни на МВФ е портал за международен паричен фонд, който публикува данни за международните финанси, лихвите по дълга, инвестициите, валутните резерви и стоките.Портал за данни на Американската икономическа асоциация (AEA). - Ресурс за търсене на макроикономически данни за САЩ.Портал за данни на Google Trends - Данните за тенденциите на Google могат да се използват за визуално изследване и анализ на данните.Портал за пазарни данни на Financial Times е ресурс за актуална информация за финансовите пазари от целия свят.Портал Data.gov - Портал за отворени данни на правителството на САЩ (селско стопанство, здравеопазване, климат, образование, енергетика, финанси, наука и изследвания и др.).Портал за данни: Отворени правителствени данни (Индия) е платформата за отворени правителствени данни на Индия.Хранителна среда Atlas Data Portal — съдържа данни от изследвания за храненето в Съединените щати.Портал за здравни данни е портал на Министерството на здравеопазването и човешките услуги на САЩ.Портал с данни на Центровете за контрол и превенция на заболяванията - съдържа широк набор от данни, свързани със здравето.Лондонски портал за съхранение на данни - данни за живота на хората в Лондон.Портал за отворени данни на правителството на Канада - портал за отворени данни за канадците (селско стопанство, изкуство, музика, образование, правителство, здравеопазване и др.)
Прочетете още
14 проекта с отворен код за подобряване на уменията за Data Science (лесно, нормално, трудно) Front-end dojo: проекти за обучение на умения за разработчици (5 нови + 43 стари) Топ 12 на най-интересните ИТ динамични инфографики
Източник: www.habr.com