52 conjuntos de datos para proyectos de formación

  1. Conjunto de datos de clientes del centro comercial — datos de los visitantes de la tienda: identificación, sexo, edad, ingresos, calificación de gastos. (Opción de aplicación: Proyecto de Segmentación de Clientes con Machine Learning)
  2. Conjunto de datos de iris — un conjunto de datos para principiantes que contiene los tamaños de sépalos y pétalos de varias flores.
  3. Conjunto de datos MNIST – un conjunto de datos de números escritos a mano. 60 imágenes de entrenamiento y 000 imágenes de prueba.
  4. El conjunto de datos de vivienda de Boston es un conjunto de datos popular para el reconocimiento de patrones. Contiene información sobre casas en Boston: número de apartamentos, precios de alquiler, índice de criminalidad.
  5. Conjunto de datos de detección de noticias falsas — contiene 7796 entradas con marcas de noticias: verdadero o falso. (Opción de aplicación con código fuente en Python: Proyecto Python de detección de noticias falsas )
  6. Conjunto de datos de calidad del vino — contiene información sobre el vino: 4898 registros con 14 parámetros.
  7. Datos SOCR: conjunto de datos de alturas y pesos - una buena opción para empezar. Contiene 25 registros de altura y peso de personas de 000 años.

    52 conjuntos de datos para proyectos de formación

    El artículo fue traducido con el apoyo de EDISON Software, que cumple “excelentemente” los pedidos del sur de Chinay desarrolla aplicaciones web y sitios web.

  8. Conjunto de datos sobre Parkinson — 195 registros de pacientes con enfermedad de Parkinson, con 25 parámetros de análisis. Puede utilizarse para una evaluación preliminar de la diferencia entre personas enfermas y personas sanas. (Opción de aplicación con código fuente en Python: Proyecto de aprendizaje automático para detectar la enfermedad de Parkinson)
  9. Conjunto de datos Titanic — contiene información sobre los pasajeros (edad, sexo, familiares a bordo, etc.) 891 en el conjunto de entrenamiento y 418 en el conjunto de prueba.
  10. Conjunto de datos de recogidas de Uber — información sobre 4.5 millones de viajes en Uber en 2014 y 14 millones en 2015. (Opción de aplicación con código fuente en R: Proyecto de análisis de datos de Uber en R)
  11. Conjunto de datos Chars74k — contiene imágenes de símbolos británicos y canadienses de 64 clases: 0-9, AZ, az. 7700 7.7k imágenes naturales, 3400k manuscritas, 62000 fuentes sintetizadas por computadora.
  12. Conjunto de datos de detección de fraude con tarjetas de crédito — contiene información sobre transacciones de tarjetas de crédito comprometidas. (Opción de aplicación con fuente: Proyecto de aprendizaje automático para la detección de fraudes con tarjetas de crédito)
  13. Conjunto de datos de intenciones de chatbot — un archivo JSON que contiene varias etiquetas: saludos, adiós, búsqueda_hospital, búsqueda_farmacia, etc. Contiene un conjunto de plantillas de preguntas y respuestas. (Opción de aplicación con código fuente en Python: Proyecto Chatbot en Python)
  14. Conjunto de datos de correo electrónico de Enron — contiene medio millón de cartas de 150 directivos de Enron.
  15. El conjunto de datos de Yelp — contiene 1,2 millones de recomendaciones de 1,6 millones de usuarios y alrededor de 1,2 millones de organizaciones.
  16. Conjunto de datos en peligro – más de 200 grabaciones de preguntas y respuestas del popular juego televisivo.
  17. Conjunto de datos de sistemas recomendadores — un portal con una colección de conjuntos de datos de la Universidad UCSD. Contiene registros de reseñas en sitios populares (Goodreads, Amazon). Excelente para crear sistemas de recomendación. (Opción de aplicación con código fuente en R: Proyecto de sistema de recomendación de películas en R )
  18. Conjunto de datos de la base de spam de la UCI – un conjunto de datos de entrenamiento para la detección de spam. Contiene 4601 letras con 57 parámetros de metadatos.
  19. Conjunto de datos de Flickr 30k - más de 30 imágenes y leyendas. (Conjunto de datos de Flickr 8k — 8000 imágenes. Proyecto fuente de Python: Proyecto Python del generador de subtítulos de imagen)
  20. Reseñas de IMDB — 25 reseñas de películas en el set de entrenamiento y 000 en el set de prueba. (Opción de aplicación con código fuente en R: Proyecto de ciencia de datos de análisis de sentimientos)
  21. Conjunto de datos MS COCO – 1,5 millones de imágenes etiquetadas.
  22. Conjunto de datos CIFAR-10 y CIFAR-100 — CIFAR-10 contiene 60,000 imágenes pequeñas de 32*32 píxeles, números del 0 al 9. CIFAR-100 - respectivamente, 0-100.
  23. Conjunto de datos GTSRB (punto de referencia alemán de reconocimiento de señales de tráfico) — 50 imágenes de 000 señales de tráfico. (Opción de aplicación con código fuente en Python: Proyecto Python de reconocimiento de señales de tráfico)
  24. Conjunto de datos de ImageNet — contiene más de 100 frases y alrededor de 000 imágenes por frase.
  25. Conjunto de datos de imágenes de histopatología mamaria — el conjunto de datos contiene imágenes de muestras de cáncer de mama. (Opción de aplicación con código fuente activado. Proyecto Python de clasificación del cáncer de mama)
  26. Conjunto de datos de paisajes urbanos — contiene anotaciones de alta calidad de secuencias de vídeo de calles de diferentes ciudades.
  27. Conjunto de datos cinéticos - contiene un enlace URL a aproximadamente 6,5 millones de vídeos de alta calidad.
  28. Conjunto de datos de pose humana MPII — el conjunto de datos contiene 25 imágenes de poses humanas con anotaciones conjuntas.
  29. Conjunto de datos 20BN-algo-algo v2 - un conjunto de vídeos de alta calidad que muestran cómo una persona realiza alguna acción.
  30. Conjunto de datos de Objeto 365 - un conjunto de datos de imágenes de alta calidad con cuadros delimitadores de objetos.
  31. Conjunto de datos de bocetos fotográficos — contiene más de 1000 imágenes con sus dibujos de contorno.
  32. Conjunto de datos CQ500 — el conjunto de datos contiene 491 tomografías computarizadas de la cabeza con 193 cortes.
  33. Conjunto de datos IMDB-Wiki – un conjunto de datos con más de 5 millones de imágenes de rostros marcados por género y edad. (Opción de aplicación con código fuente activado. Proyecto Python de detección de edad y género)
  34. Conjunto de datos de Youtube de 8 millones - Un conjunto de datos de vídeos etiquetados que contiene 6,1 millones de ID de vídeos de Youtube.
  35. Conjunto de datos de sonido urbano 8K — un conjunto de datos de sonidos urbanos (contiene 8732 sonidos urbanos de 10 clases).
  36. Conjunto de datos LSUN - un conjunto de datos de millones de imágenes en color de escenas y objetos (alrededor de 59 millones de imágenes, 10 categorías de escenas diferentes y 20 categorías de objetos diferentes).
  37. Conjunto de datos RAVDESS — Base de datos audiovisual del discurso emocional. (Opción de aplicación con código fuente activado. Proyecto Python de reconocimiento de emociones y voz)
  38. Conjunto de datos de Librispeech — el conjunto de datos contiene 1000 horas de habla inglesa con diferentes acentos.
  39. Conjunto de datos de Baidu Apolloscape — un conjunto de datos para el desarrollo de tecnologías de conducción autónoma.
  40. Portal de datos Quandl — repositorio de datos económicos y financieros (hay contenido gratuito y de pago).
  41. El portal de datos abiertos del Banco Mundial — información sobre préstamos concedidos por el Banco Mundial a países en desarrollo.
  42. Portal de datos del FMI es un portal de fondos monetarios internacionales que publica datos sobre finanzas internacionales, tasas de deuda, inversiones, reservas de divisas y productos básicos.
  43. Portal de datos de la Asociación Económica Estadounidense (AEA) - Un recurso para buscar datos macroeconómicos de EE. UU.
  44. Portal de datos de tendencias de Google - Los datos de tendencias de Google se pueden utilizar para explorar y analizar datos visualmente.
  45. Portal de datos de mercado del Financial Times es un recurso para obtener información actualizada sobre los mercados financieros de todo el mundo.
  46. Portal de datos.gov - Portal de datos abiertos del gobierno de EE. UU. (agricultura, salud, clima, educación, energía, finanzas, ciencia e investigación, etc.).
  47. Portal de datos: datos gubernamentales abiertos (India) es la plataforma de datos gubernamentales abiertos de la India.
  48. Portal de datos del Atlas del entorno alimentario — contiene datos de investigaciones sobre nutrición en los Estados Unidos.
  49. Portal de datos de salud es un portal del Departamento de Salud y Servicios Humanos de EE. UU.
  50. Portal de datos de los Centros para el Control y la Prevención de Enfermedades - contiene una amplia gama de datos relacionados con la salud.
  51. Portal del almacén de datos de Londres - datos sobre la vida de la gente en Londres.
  52. Portal de datos abiertos del gobierno de Canadá - un portal de datos abiertos sobre los canadienses (agricultura, arte, música, educación, gobierno, atención sanitaria, etc.)

Lee mas

Fuente: habr.com

Añadir un comentario