52 conjuntos de dados para projetos de treinamento

  1. Conjunto de dados de clientes de shopping — dados dos visitantes da loja: id, sexo, idade, renda, classificação de gastos. (Opção de aplicação: Projeto de Segmentação de Clientes com Machine Learning)
  2. Conjunto de dados Iris — um conjunto de dados para iniciantes, contendo os tamanhos de sépalas e pétalas de diversas flores.
  3. Conjunto de dados MNIST — um conjunto de dados de números manuscritos. 60 imagens de treinamento e 000 imagens de teste.
  4. O conjunto de dados habitacionais de Boston é um conjunto de dados popular para reconhecimento de padrões. Contém informações sobre casas em Boston: número de apartamentos, preços de aluguel, índice de criminalidade.
  5. Conjunto de dados de detecção de notícias falsas — contém 7796 entradas com marcações de notícias: verdadeiro ou falso. (Opção de aplicação com código fonte em Python: Projeto Python de detecção de notícias falsas )
  6. Conjunto de dados de qualidade do vinho — contém informações sobre vinho: 4898 registros com 14 parâmetros.
  7. Dados SOCR – conjunto de dados de alturas e pesos - uma boa opção para começar. Contém 25 registros de altura e peso de jovens de 000 anos.

    52 conjuntos de dados para projetos de treinamento

    O artigo foi traduzido com o apoio da EDISON Software, que cumpre encomendas do Sul da China “excelentemente”E desenvolve aplicações web e sites.

  8. Conjunto de dados de Parkinson — 195 prontuários de pacientes com doença de Parkinson, com 25 parâmetros de análise. Pode ser usado para avaliação preliminar da diferença entre pessoas doentes e pessoas saudáveis. (Opção de aplicação com código fonte em Python: Projeto de aprendizado de máquina para detecção da doença de Parkinson)
  9. Conjunto de dados do Titanic — contém informações sobre passageiros (idade, sexo, parentes a bordo, etc.) 891 no conjunto de treinamento e 418 no conjunto de teste.
  10. Conjunto de dados de coletas do Uber — informações sobre 4.5 milhões de viagens no Uber em 2014 e 14 milhões em 2015. (Opção de aplicação com código fonte em R: Projeto de análise de dados Uber em R)
  11. Conjunto de dados Chars74k — contém imagens de símbolos britânicos e canadenses de 64 classes: 0-9, AZ, az. 7700 imagens naturais de 7.7 mil, 3400 mil manuscritas, 62000 fontes sintetizadas por computador.
  12. Conjunto de dados de detecção de fraude de cartão de crédito — contém informações sobre transações de cartões de crédito comprometidos. (Opção de aplicação com fonte: Projeto de aprendizado de máquina para detecção de fraude em cartão de crédito)
  13. Conjunto de dados de intenções do chatbot — um arquivo JSON que contém várias tags: saudações, adeus, hospital_search, pharmacy_search, etc. Contém um conjunto de modelos de perguntas e respostas. (Opção de aplicação com código fonte em Python: Projeto Chatbot em Python)
  14. Conjunto de dados de e-mail da Enron — contém meio milhão de cartas de 150 gestores da Enron.
  15. O conjunto de dados do Yelp — contém 1,2 milhão de recomendações de 1,6 milhão de usuários e cerca de 1,2 milhão de organizações.
  16. Conjunto de dados de risco — mais de 200 gravações de perguntas e respostas do popular jogo televisivo.
  17. Conjunto de dados de sistemas de recomendação — um portal com uma coleção de conjuntos de dados da Universidade UCSD. Contém registros de resenhas em sites populares (Goodreads, Amazon). Ótimo para criar sistemas de recomendação. (Opção de aplicação com código fonte em R: Projeto de sistema de recomendação de filmes em R )
  18. Conjunto de dados UCI Spambase — um conjunto de dados de treinamento para detecção de spam. Contém 4601 letras com 57 parâmetros de metadados.
  19. Conjunto de dados do Flickr 30k — mais de 30 imagens e legendas. (Conjunto de dados do Flickr 8k — 8000 imagens. Projeto fonte Python: Projeto Python do gerador de legenda de imagem)
  20. Avaliações de IMDB — 25 resenhas de filmes no conjunto de treinamento e 000 no conjunto de testes. (Opção de aplicação com código fonte em R: Projeto de ciência de dados de análise de sentimento)
  21. conjunto de dados MS COCO — 1,5 milhão de imagens marcadas.
  22. Conjunto de dados CIFAR-10 e CIFAR-100 — CIFAR-10 contém 60,000 imagens pequenas de 32*32 pixels, números de 0 a 9. CIFAR-100 - respectivamente, 0-100.
  23. Conjunto de dados GTSRB (benchmark de reconhecimento de sinais de trânsito alemão) — 50 imagens de 000 sinais de trânsito. (Opção de aplicação com código fonte em Python: Projeto Python de reconhecimento de sinais de trânsito)
  24. Conjunto de dados ImageNet — contém mais de 100 frases e cerca de 000 imagens por frase.
  25. Conjunto de dados de imagens de histopatologia mamária — o conjunto de dados contém imagens de amostras de cancro da mama. (Opção de aplicativo com código-fonte ativado Projeto Python de classificação de câncer de mama)
  26. Conjunto de dados de paisagens urbanas — contém anotações de alta qualidade de sequências de vídeo de ruas em diferentes cidades.
  27. Conjunto de dados de cinética - contém um link URL para cerca de 6,5 milhões de vídeos de alta qualidade.
  28. Conjunto de dados de pose humana MPII — o conjunto de dados contém 25 imagens de poses humanas com anotações conjuntas.
  29. Conjunto de dados 20BN-alguma coisa v2 - um conjunto de vídeos de alta qualidade que mostram como uma pessoa realiza alguma ação.
  30. Conjunto de dados do objeto 365 — um conjunto de dados de imagens de alta qualidade com caixas delimitadoras de objetos.
  31. Conjunto de dados de esboço de fotos — contém mais de 1000 imagens com seus desenhos de contorno.
  32. Conjunto de dados CQ500 — o conjunto de dados contém 491 tomografias computadorizadas da cabeça com 193 cortes.
  33. Conjunto de dados IMDB-Wiki — um conjunto de dados com mais de 5 milhões de imagens de rostos marcados por sexo e idade. (Opção de aplicativo com código-fonte ativado Projeto Python de detecção de gênero e idade)
  34. Conjunto de dados 8M do YouTube - Um conjunto de dados de vídeo rotulado que contém 6,1 milhões de IDs de vídeo do YouTube
  35. Conjunto de dados Urban Sound 8K — um conjunto de dados sonoros urbanos (contém 8732 sons urbanos de 10 classes).
  36. Conjunto de dados LSUN - um conjunto de dados de milhões de imagens coloridas de cenas e objetos (cerca de 59 milhões de imagens, 10 categorias de cenas diferentes e 20 categorias de objetos diferentes).
  37. Conjunto de dados RAVDESS — base de dados audiovisual de discurso emocional. (Opção de aplicativo com código-fonte ativado Projeto Python de reconhecimento de emoções de fala)
  38. Conjunto de dados Librispeech — o conjunto de dados contém 1000 horas de fala em inglês com sotaques diferentes.
  39. Conjunto de dados Baidu Apolloscape — um conjunto de dados para o desenvolvimento de tecnologias de condução autónoma.
  40. Portal de dados Quandl — repositório de dados económicos e financeiros (existem conteúdos gratuitos e pagos).
  41. O Portal de Dados Abertos do Banco Mundial — informações sobre empréstimos concedidos pelo Banco Mundial aos países em desenvolvimento.
  42. Portal de dados do FMI é um portal internacional de fundos monetários que publica dados sobre finanças internacionais, taxas de dívida, investimentos, reservas cambiais e commodities.
  43. Portal de dados da Associação Econômica Americana (AEA) - Um recurso para pesquisar dados macroeconômicos dos EUA.
  44. Portal de dados do Google Trends - Os dados de tendências do Google podem ser usados ​​para explorar e analisar visualmente os dados.
  45. Portal de dados de mercado do Financial Times é um recurso para informações atualizadas sobre os mercados financeiros de todo o mundo.
  46. Portal Data.gov - Portal de dados abertos do governo dos EUA (agricultura, saúde, clima, educação, energia, finanças, ciência e investigação, etc.).
  47. Portal de dados: dados governamentais abertos (Índia) é a plataforma aberta de dados governamentais da Índia.
  48. Ambiente alimentar Atlas Data Portal — contém dados de pesquisas sobre nutrição nos Estados Unidos.
  49. Portal de dados de saúde é um portal do Departamento de Saúde e Serviços Humanos dos EUA.
  50. Portal de dados dos Centros de Controle e Prevenção de Doenças - contém uma ampla gama de dados relacionados à saúde.
  51. Portal do armazenamento de dados de Londres - dados sobre a vida das pessoas em Londres.
  52. Portal de dados abertos do governo do Canadá - um portal de dados abertos sobre os canadenses (agricultura, arte, música, educação, governo, saúde, etc.)

Consulte Mais informação

Fonte: habr.com

Adicionar um comentário