52 jeux de données pour des projets de formation

  1. Ensemble de données sur les clients du centre commercial — données des visiteurs du magasin : identifiant, sexe, âge, revenus, évaluation des dépenses. (Possibilité de candidature : Projet de segmentation client avec Machine Learning)
  2. Ensemble de données Iris — un ensemble de données pour les débutants, contenant les tailles des sépales et des pétales de diverses fleurs.
  3. Ensemble de données MNIST — un ensemble de données de nombres manuscrits. 60 000 images de formation et 10 000 images de test.
  4. L'ensemble de données sur le logement de Boston est un ensemble de données populaire pour la reconnaissance de formes. Contient des informations sur les maisons à Boston : nombre d'appartements, prix de location, indice de criminalité.
  5. Ensemble de données de détection de fausses nouvelles — contient 7796 entrées avec des marquages ​​d'actualité : vrai ou faux. (Option d'application avec code source en Python : Projet Python de détection de fausses nouvelles )
  6. Ensemble de données sur la qualité du vin — contient des informations sur le vin : 4898 enregistrements avec 14 paramètres.
  7. Données SOCR – Ensemble de données sur les tailles et poids - une bonne option pour commencer. Contient 25 000 enregistrements de la taille et du poids de personnes de 18 ans.

    52 jeux de données pour des projets de formation

    L'article a été traduit avec le soutien d'EDISON Software, qui répond « parfaitement » aux commandes du sud de la Chineet développe des applications Web et des sites Web.

  8. Ensemble de données Parkinson — 195 dossiers de patients atteints de la maladie de Parkinson, avec 25 paramètres d'analyse. Peut être utilisé pour une évaluation préliminaire de la différence entre les personnes malades et les personnes en bonne santé. (Option d'application avec code source en Python : Projet d'apprentissage automatique sur la détection de la maladie de Parkinson)
  9. Ensemble de données Titanic — contient des informations sur les passagers (âge, sexe, parents à bord, etc.) 891 dans l'ensemble de formation et 418 dans l'ensemble de test.
  10. Ensemble de données Uber Pickups — des informations sur 4.5 millions de trajets sur Uber en 2014 et 14 millions en 2015. (Option d'application avec code source en R : Projet d'analyse de données Uber en R)
  11. Ensemble de données Chars74k — contient des images de symboles britanniques et canadiens de 64 classes : 0-9, AZ, az. 7700 7.7 images naturelles de 3400 62000 images, XNUMX XNUMX XNUMX écritures manuscrites, XNUMX XNUMX polices synthétisées par ordinateur.
  12. Ensemble de données de détection de fraude par carte de crédit — contient des informations sur les transactions de cartes de crédit compromises. (Option d'application avec source : Projet d'apprentissage automatique de détection de fraude par carte de crédit)
  13. Ensemble de données sur les intentions du chatbot — un fichier JSON qui contient diverses balises : salutations, au revoir, hospital_search, pharmacy_search, etc. Contient un ensemble de modèles de questions-réponses. (Option d'application avec code source en Python : Projet Chatbot en Python)
  14. Ensemble de données de courrier électronique Enron — contient un demi-million de lettres de 150 managers d'Enron.
  15. L'ensemble de données Yelp — contient 1,2 million de recommandations provenant de 1,6 million d'utilisateurs et d'environ 1,2 million d'organisations.
  16. Ensemble de données Jeopardy — plus de 200 000 enregistrements de questions et réponses du jeu télévisé populaire.
  17. Ensemble de données des systèmes de recommandation — un portail avec une collection d'ensembles de données de l'Université UCSD. Contient des enregistrements de critiques sur des sites populaires (Goodreads, Amazon). Idéal pour créer des systèmes de recommandation. (Option d'application avec code source en R : Projet de système de recommandation de films en R )
  18. Ensemble de données de la base de spam UCI — un ensemble de données de formation pour la détection du spam. Contient 4601 lettres avec 57 paramètres de métadonnées.
  19. Ensemble de données Flickr 30k — plus de 30 000 images et légendes. (Ensemble de données Flickr 8k — 8000 XNUMX images. Projet source Python : Projet Python générateur de légende d'image)
  20. Commentaires sur la BDIM — 25 000 critiques de films dans l'ensemble de formation et 25 000 dans l'ensemble de test. (Option d'application avec code source en R : Projet de science des données d'analyse des sentiments)
  21. Jeu de données MS COCO — 1,5 million d'images taguées.
  22. Ensemble de données CIFAR-10 et CIFAR-100 — CIFAR-10 contient 60,000 32 petites images de 32*0 pixels numérotés 9-100. CIFAR-0 - respectivement 100-XNUMX.
  23. GTSRB (référence de reconnaissance des panneaux de signalisation allemands) Ensemble de données — 50 000 images de 43 panneaux routiers. (Option d'application avec code source en Python : Projet Python de reconnaissance des panneaux de signalisation)
  24. Ensemble de données ImageNet — contient plus de 100 000 phrases et environ 1000 XNUMX images par phrase.
  25. Ensemble de données d'images d'histopathologie du sein — l'ensemble de données contient des images d'échantillons de cancer du sein. (Option d'application avec code source activé Projet Python de classification du cancer du sein)
  26. Ensemble de données Cityscapes — contient des annotations de haute qualité de séquences vidéo de rues de différentes villes.
  27. Ensemble de données cinétiques - contient un lien URL vers environ 6,5 millions de vidéos de haute qualité.
  28. Ensemble de données de pose humaine MPII — l'ensemble de données contient 25 000 images de poses humaines avec des annotations communes.
  29. Ensemble de données 20BN-quelque chose-quelque chose v2 - un ensemble de vidéos de haute qualité montrant comment une personne effectue une action.
  30. Ensemble de données Objet 365 — un ensemble de données d'images de haute qualité avec des cadres de délimitation d'objets.
  31. Ensemble de données de croquis de photos — contient plus de 1000 images avec leurs dessins d'encombrement.
  32. Ensemble de données CQ500 — l'ensemble de données contient 491 tomodensitogrammes de la tête avec 193 317 coupes.
  33. Ensemble de données IMDB-Wiki — un ensemble de données avec plus de 5 millions d'images de visages marqués par sexe et âge. (Option d'application avec code source activé Projet Python de détection du sexe et de l'âge)
  34. Ensemble de données Youtube 8M - Un ensemble de données vidéo étiquetées contenant 6,1 millions d'identifiants de vidéos Youtube
  35. Ensemble de données Urban Sound 8K — un ensemble de données sonores urbaines (contient 8732 sons urbains de 10 classes).
  36. Ensemble de données LSUN - un ensemble de données de millions d'images couleur de scènes et d'objets (environ 59 millions d'images, 10 catégories de scènes différentes et 20 catégories d'objets différentes).
  37. Ensemble de données RAVDESS — base de données audiovisuelle de la parole émotionnelle. (Option d'application avec code source activé Projet Python de reconnaissance des émotions vocales)
  38. Ensemble de données Librispeech — l'ensemble de données contient 1000 heures de discours anglais avec des accents différents.
  39. Ensemble de données Baidu Apolloscape — un ensemble de données pour le développement de technologies de conduite autonome.
  40. Portail de données Quandl — référentiel de données économiques et financières (il existe du contenu gratuit et payant).
  41. Le portail des données ouvertes de la Banque mondiale — des informations sur les prêts accordés par la Banque mondiale aux pays en développement.
  42. Portail de données du FMI est un portail de fonds monétaires internationaux qui publie des données sur la finance internationale, les taux d'endettement, les investissements, les réserves de change et les matières premières.
  43. Portail de données de l'American Economic Association (AEA) - Une ressource pour rechercher des données macroéconomiques américaines.
  44. Portail de données Google Trends - Les données de tendance Google peuvent être utilisées pour explorer et analyser visuellement les données.
  45. Portail de données de marché du Financial Times est une ressource d'informations à jour sur les marchés financiers du monde entier.
  46. Portail Data.gov - Portail de données ouvertes du gouvernement américain (agriculture, santé, climat, éducation, énergie, finance, science et recherche, etc.).
  47. Portail de données : données gouvernementales ouvertes (Inde) est la plateforme de données gouvernementales ouvertes de l'Inde.
  48. Portail de données de l'Atlas de l'environnement alimentaire — contient des données de recherche sur la nutrition aux États-Unis.
  49. Portail de données de santé est un portail du ministère américain de la Santé et des Services sociaux.
  50. Portail de données des Centers for Disease Control and Prevention - contient un large éventail de données liées à la santé.
  51. Portail de banque de données de Londres - des données sur la vie des gens à Londres.
  52. Portail de données ouvertes du gouvernement du Canada - un portail de données ouvertes sur les Canadiens (agriculture, art, musique, éducation, gouvernement, soins de santé, etc.)

Lire la suite

Source: habr.com

Ajouter un commentaire