52 conxuntos de datos para proxectos de formación

  1. Conjunto de datos de clientes do centro comercial — datos dos visitantes da tenda: identificación, sexo, idade, ingresos, valoración do gasto. (Opción de aplicación: Proxecto de segmentación de clientes con Machine Learning)
  2. Conjunto de datos Iris — un conxunto de datos para principiantes, que contén os tamaños de sépalos e pétalos de varias flores.
  3. Conjunto de datos MNIST - un conxunto de datos de números escritos a man. 60 imaxes de adestramento e 000 imaxes de proba.
  4. O conxunto de datos de vivenda de Boston é un conxunto de datos popular para o recoñecemento de patróns. Contén información sobre casas en Boston: número de apartamentos, prezos de aluguer, índice de criminalidade.
  5. Conjunto de datos de detección de noticias falsas — contén 7796 entradas con marcas de noticias: verdadeiro ou falso. (Opción de aplicación con código fonte en Python: Proxecto Python de detección de noticias falsas )
  6. Conjunto de datos de calidade do viño — contén información sobre o viño: 4898 rexistros con 14 parámetros.
  7. Datos SOCR: conxunto de datos de alturas e pesos - unha boa opción para comezar. Contén 25 rexistros da altura e do peso de persoas de 000 anos.

    52 conxuntos de datos para proxectos de formación

    O artigo foi traducido co apoio de EDISON Software, que cumpre pedidos do sur de China "excelentemente"E desenvolve aplicacións web e sitios web.

  8. Conjunto de datos de Parkinson — 195 rexistros de pacientes con enfermidade de Parkinson, con 25 parámetros de análise. Pódese utilizar para a avaliación preliminar da diferenza entre persoas enfermas e persoas sans. (Opción de aplicación con código fonte en Python: Proxecto de aprendizaxe automática sobre a detección da enfermidade de Parkinson)
  9. Conjunto de datos Titanic — contén información sobre os pasaxeiros (idade, sexo, familiares a bordo, etc.) 891 no conxunto de adestramento e 418 no conxunto de probas.
  10. Conjunto de datos de Uber Pickups — información sobre 4.5 millóns de viaxes en Uber en 2014 e 14 millóns en 2015. (Opción de aplicación con código fonte en R: Proxecto de análise de datos de Uber en R)
  11. Conjunto de datos Chars74k — contén imaxes de símbolos británicos e canadenses de 64 clases: 0-9, AZ, az. 7700 7.7k imaxes naturais, 3400k manuscritas, 62000 fontes sintetizadas por ordenador.
  12. Conjunto de datos de detección de fraude de tarxeta de crédito — contén información sobre transaccións de tarxetas de crédito comprometidas. (Opción de aplicación con fonte: Proxecto de aprendizaxe automática de detección de fraude de tarxeta de crédito)
  13. Conjunto de datos de intencións de chatbot — un ficheiro JSON que contén varias etiquetas: saúdos, adeus, hospital_search, pharmacy_search, etc. Contén un conxunto de modelos de pregunta-resposta. (Opción de aplicación con código fonte en Python: Proxecto Chatbot en Python)
  14. Conjunto de datos de correo electrónico Enron — contén medio millón de cartas de 150 xestores de Enron.
  15. O conxunto de datos de Yelp — contén 1,2 millóns de recomendacións de 1,6 millóns de usuarios preto de 1,2 millóns de organizacións.
  16. Conjunto de datos Jeopardy — máis de 200 gravacións de preguntas e respostas do popular xogo de televisión.
  17. Conjunto de datos de sistemas recomendados — un portal cunha colección de conxuntos de datos da Universidade UCSD. Contén rexistros de comentarios en sitios populares (Goodreads, Amazon). Ideal para crear sistemas de recomendación. (Opción de aplicación con código fonte en R: Proxecto do sistema de recomendación de películas en R )
  18. Conjunto de datos UCI Spambase — un conxunto de datos de formación para a detección de spam. Contén 4601 letras con 57 parámetros de metadatos.
  19. Conjunto de datos Flickr 30k — máis de 30 imaxes e subtítulos. (Conjunto de datos Flickr 8k - 8000 imaxes. Proxecto fonte de Python: Proxecto Python xerador de lendas de imaxe)
  20. Revisións de IMDB — 25 críticas de películas no conxunto de adestramento e 000 no conxunto de probas. (Opción de aplicación con código fonte en R: Proxecto de ciencia de datos de análise de sentimentos)
  21. Conjunto de datos MS COCO — 1,5 millóns de imaxes etiquetadas.
  22. conxunto de datos CIFAR-10 e CIFAR-100 — CIFAR-10 contén 60,000 imaxes pequenas de 32*32 píxeles, números 0-9. CIFAR-100 - respectivamente, 0-100.
  23. Conjunto de datos GTSRB (punto de referencia alemán de recoñecemento de sinais de tráfico). — 50 imaxes de 000 sinais viarios. (Opción de aplicación con código fonte en Python: Proxecto Python de recoñecemento de sinais de tráfico)
  24. conxunto de datos ImageNet — contén máis de 100 frases e preto de 000 imaxes por frase.
  25. Conxunto de datos de imaxes de histopatoloxía mamaria — o conxunto de datos contén imaxes de mostras de cancro de mama. (Opción de aplicación co código fonte activado Proxecto Python de clasificación do cancro de mama)
  26. Conjunto de datos de paisaxes urbanas — contén anotacións de alta calidade de secuencias de vídeo de rúas de diferentes cidades.
  27. Conjunto de datos de cinética - contén unha ligazón URL a uns 6,5 millóns de vídeos de alta calidade.
  28. Conjunto de datos MPII de pose humana — o conxunto de datos contén 25 imaxes de poses humanas con anotacións conxuntas.
  29. Conjunto de datos 20BN-algo-algo v2 - un conxunto de vídeos de alta calidade que mostran como unha persoa realiza algunha acción.
  30. Conxunto de datos do obxecto 365 — un conxunto de datos de imaxes de alta calidade con caixas delimitadoras de obxectos.
  31. Conjunto de datos de debuxos fotográficos — contén máis de 1000 imaxes cos seus debuxos.
  32. Conjunto de datos CQ500 - o conxunto de datos contén 491 tomografías computarizadas da cabeza con 193 cortes.
  33. Conxunto de datos IMDB-Wiki — un conxunto de datos con máis de 5 millóns de imaxes de rostros marcados por sexo e idade. (Opción de aplicación co código fonte activado Proxecto Python de detección de xénero e idade)
  34. Conjunto de datos Youtube 8M - Un conxunto de datos de vídeo etiquetado que contén 6,1 millóns de ID de vídeos de Youtube
  35. Conjunto de datos Urban Sound 8K — un conxunto de datos de son urbano (contén 8732 sons urbanos de 10 clases).
  36. Conjunto de datos LSUN - un conxunto de datos de millóns de imaxes en cor de escenas e obxectos (uns 59 millóns de imaxes, 10 categorías de escenas diferentes e 20 categorías de obxectos diferentes).
  37. Conjunto de datos RAVDESS — Base de datos audiovisual do discurso emocional. (Opción de aplicación co código fonte activado Proxecto Python de recoñecemento de emocións da fala)
  38. Conjunto de datos de Librispeech — o conxunto de datos contén 1000 horas de fala inglesa con diferentes acentos.
  39. Baidu Apolloscape Dataset — un conxunto de datos para o desenvolvemento de tecnoloxías de condución autónoma.
  40. Portal de datos Quandl — repositorio de datos económicos e financeiros (hai contido gratuíto e de pago).
  41. Portal de datos abertos do Banco Mundial — información sobre préstamos concedidos polo Banco Mundial a países en desenvolvemento.
  42. Portal de datos do FMI é un portal de fondos monetarios internacionais que publica datos sobre finanzas internacionais, tipos de débeda, investimentos, reservas de divisas e materias primas.
  43. Portal de datos da Asociación Económica Americana (AEA). - Un recurso para buscar datos macroeconómicos dos Estados Unidos.
  44. Portal de datos de Google Trends - Os datos de tendencias de Google pódense utilizar para explorar e analizar visualmente os datos.
  45. Portal de datos do mercado do Financial Times é un recurso para obter información actualizada sobre mercados financeiros de todo o mundo.
  46. Portal Data.gov - Portal de datos abertos do goberno dos EUA (agricultura, saúde, clima, educación, enerxía, finanzas, ciencia e investigación, etc.).
  47. Portal de datos: datos do goberno aberto (India) é a plataforma de datos do goberno aberto da India.
  48. Portal de datos do Atlas de medio ambiente alimentario — contén datos de investigación sobre nutrición nos Estados Unidos.
  49. Portal de datos de saúde é un portal do Departamento de Saúde e Servizos Humanos dos EUA.
  50. Portal de datos dos Centros para o Control e a Prevención de Enfermidades — contén unha ampla gama de datos relacionados coa saúde.
  51. Portal da tenda de datos de Londres - datos sobre a vida das persoas en Londres.
  52. Portal de datos abertos do goberno de Canadá - un portal de datos abertos sobre canadenses (agricultura, arte, música, educación, goberno, saúde, etc.)

Le máis

Fonte: www.habr.com

Engadir un comentario