52 dataset per progetti di formazione

  1. Set di dati dei clienti del centro commerciale — dati dei visitatori del negozio: ID, sesso, età, reddito, indice di spesa. (Opzione di applicazione: Progetto di segmentazione della clientela con Machine Learning)
  2. Set di dati Iris — un set di dati per principianti, contenente le dimensioni dei sepali e dei petali di vari fiori.
  3. Set di dati MNIST — un set di dati di numeri scritti a mano. 60 immagini di allenamento e 000 immagini di prova.
  4. Il set di dati sugli alloggi di Boston è un set di dati popolare per il riconoscimento di pattern. Contiene informazioni sulle case a Boston: numero di appartamenti, prezzi di affitto, indice di criminalità.
  5. Set di dati per il rilevamento di notizie false - contiene 7796 voci con contrassegni di notizie: vero o falso. (Opzione di applicazione con codice sorgente in Python: Progetto Python per il rilevamento di notizie false )
  6. Dataset sulla qualità del vino — contiene informazioni sul vino: 4898 record con 14 parametri.
  7. Dati SOCR – Dataset di altezze e pesi - una buona opzione per iniziare. Contiene 25 registrazioni di altezza e peso di persone di 000 anni.

    52 dataset per progetti di formazione

    L'articolo è stato tradotto con il supporto di EDISON Software, che evade gli ordini dalla Cina meridionale “in modo eccellente”e sviluppa applicazioni web e siti web.

  8. Set di dati sul Parkinson — 195 cartelle cliniche di pazienti con malattia di Parkinson, con 25 parametri di analisi. Può essere utilizzato per una valutazione preliminare della differenza tra persone malate e persone sane. (Opzione di applicazione con codice sorgente in Python: Progetto di machine learning sul rilevamento della malattia di Parkinson)
  9. Dataset Titanic — contiene informazioni sui passeggeri (età, sesso, parenti a bordo, ecc.) 891 nel set di formazione e 418 nel set di prova.
  10. Set di dati sui prelievi Uber — informazioni su 4.5 milioni di viaggi su Uber nel 2014 e 14 milioni nel 2015. (Opzione di applicazione con codice sorgente in R: Progetto di analisi dei dati Uber in R)
  11. Set di dati Chars74k - contiene immagini di simboli britannici e canadesi di 64 classi: 0-9, AZ, az. 7700 immagini naturali da 7.7k, 3400k scritti a mano, 62000 caratteri sintetizzati dal computer.
  12. Set di dati per il rilevamento delle frodi con carte di credito — contiene informazioni sulle transazioni di carte di credito compromesse. (Opzione di applicazione con sorgente: Progetto di machine learning per il rilevamento delle frodi sulle carte di credito)
  13. Set di dati degli intenti di Chatbot — un file JSON che contiene vari tag: saluti, arrivederci, ospedale_ricerca, farmacia_ricerca, ecc. Contiene una serie di modelli di domande-risposte. (Opzione di applicazione con codice sorgente in Python: Progetto Chatbot in Python)
  14. Set di dati e-mail Enron - contiene mezzo milione di lettere di 150 manager Enron.
  15. Il set di dati di Yelp — contiene 1,2 milioni di raccomandazioni provenienti da 1,6 milioni di utenti e circa 1,2 milioni di organizzazioni.
  16. Set di dati sul pericolo - più di 200 registrazioni di domande e risposte dal popolare gioco televisivo.
  17. Set di dati dei sistemi di raccomandazione — un portale con una raccolta di set di dati dell'Università UCSD. Contiene record di recensioni su siti popolari (Goodreads, Amazon). Ottimo per creare sistemi di raccomandazione. (Opzione di applicazione con codice sorgente in R: Progetto del sistema di raccomandazione dei film in R )
  18. Set di dati UCI Spambabase — un set di dati di addestramento per il rilevamento dello spam. Contiene 4601 lettere con 57 parametri di metadati.
  19. Set di dati Flickr 30k - più di 30 immagini e didascalie. (Set di dati Flickr 8k — 8000 immagini. Progetto sorgente Python: Progetto Python per il generatore di didascalie di immagini)
  20. Recensioni IMDB — 25 recensioni di film nel set di formazione e 000 nel set di prova. (Opzione di applicazione con codice sorgente in R: Progetto di scienza dei dati sull'analisi del sentiment)
  21. Set di dati MS COCO — 1,5 milioni di immagini taggate.
  22. Set di dati CIFAR-10 e CIFAR-100 — CIFAR-10 contiene 60,000 piccole immagini di 32*32 pixel numeri 0-9. CIFAR-100 - rispettivamente, 0-100.
  23. Set di dati GTSRB (punto di riferimento tedesco per il riconoscimento dei segnali stradali). — 50 immagini di 000 segnali stradali. (Opzione di applicazione con codice sorgente in Python: Progetto Python per il riconoscimento dei segnali stradali)
  24. Set di dati ImageNet - contiene più di 100 frasi e circa 000 immagini per frase.
  25. Set di dati di immagini di istopatologia del seno — il set di dati contiene immagini di campioni di cancro al seno. (Opzione dell'applicazione con codice sorgente attivo Progetto Python per la classificazione del cancro al seno)
  26. Set di dati di paesaggi urbani — contiene annotazioni di alta qualità di sequenze video di strade in diverse città.
  27. Set di dati di cinetica - contiene un collegamento URL a circa 6,5 ​​milioni di video di alta qualità.
  28. Set di dati sulla posa umana MPII — il set di dati contiene 25 immagini di pose umane con annotazioni congiunte.
  29. Set di dati 20BN-qualcosa-qualcosa v2 - una serie di video di alta qualità che mostrano come una persona esegue un'azione.
  30. Set di dati dell'oggetto 365 — un set di dati di immagini di alta qualità con riquadri di delimitazione degli oggetti.
  31. Set di dati per schizzi di foto - contiene più di 1000 immagini con i relativi disegni di assieme.
  32. Set di dati CQ500 — il set di dati contiene 491 scansioni TC della testa con 193 sezioni.
  33. Set di dati Wiki IMDB — un set di dati con più di 5 milioni di immagini di volti contrassegnati per sesso ed età. (Opzione dell'applicazione con codice sorgente attivo Progetto Python per il rilevamento di genere ed età)
  34. Set di dati di Youtube 8M - Un set di dati video etichettato che contiene 6,1 milioni di ID video di Youtube
  35. Set di dati Urban Sound 8K — una serie di dati sui suoni urbani (contiene 8732 suoni urbani di 10 classi).
  36. Set di dati LSUN - un dataset di milioni di immagini a colori di scene e oggetti (circa 59 milioni di immagini, 10 diverse categorie di scene e 20 diverse categorie di oggetti).
  37. Set di dati RAVDESS — banca dati audiovisiva del discorso emotivo. (Opzione dell'applicazione con codice sorgente attivo Progetto Python per il riconoscimento delle emozioni vocali)
  38. Set di dati Librispeech — il set di dati contiene 1000 ore di parlato in inglese con accenti diversi.
  39. Set di dati Baidu Apolloscape — un set di dati per lo sviluppo di tecnologie di guida autonoma.
  40. Portale dati Quandl — archivio di dati economici e finanziari (sono presenti contenuti gratuiti e a pagamento).
  41. Il portale Open Data della Banca Mondiale — informazioni sui prestiti concessi dalla Banca mondiale ai paesi in via di sviluppo.
  42. Portale dati del FMI è un portale di fondi monetari internazionali che pubblica dati su finanza internazionale, tassi di debito, investimenti, riserve valutarie e materie prime.
  43. Portale dati dell'American Economic Association (AEA). - Una risorsa per la ricerca di dati macroeconomici statunitensi.
  44. Portale dati di Google Trends - I dati sulle tendenze di Google possono essere utilizzati per esplorare e analizzare visivamente i dati.
  45. Portale dei dati di mercato del Financial Times è una risorsa per informazioni aggiornate sui mercati finanziari di tutto il mondo.
  46. Portale Data.gov - Portale open data del governo statunitense (agricoltura, sanità, clima, istruzione, energia, finanza, scienza e ricerca, ecc.).
  47. Portale dati: dati pubblici aperti (India) è la piattaforma dati governativa aperta dell'India.
  48. Portale dati Atlas sull'ambiente alimentare - contiene dati di ricerca sulla nutrizione negli Stati Uniti.
  49. Portale dei dati sanitari è un portale del Dipartimento della Salute e dei Servizi Umani degli Stati Uniti.
  50. Portale dati dei Centri per il controllo e la prevenzione delle malattie - contiene un'ampia gamma di dati relativi alla salute.
  51. Portale del datastore di Londra - dati sulla vita delle persone a Londra.
  52. Portale Open Data del governo canadese - un portale di dati aperti sui canadesi (agricoltura, arte, musica, istruzione, governo, sanità, ecc.)

Leggi di più

Fonte: habr.com

Aggiungi un commento