52 de seturi de date pentru proiecte de formare

  1. Setul de date pentru clienții din centrul comercial — datele vizitatorilor magazinului: id-ul, sexul, vârsta, venitul, evaluarea cheltuielilor. (Opțiune de aplicare: Proiect de segmentare a clienților cu Machine Learning)
  2. Setul de date Iris — un set de date pentru începători, care conține dimensiunile sepalelor și petalelor pentru diferite flori.
  3. Setul de date MNIST — un set de date de numere scrise de mână. 60 de imagini de antrenament și 000 de imagini de testare.
  4. Setul de date privind locuințele din Boston este un set de date popular pentru recunoașterea modelelor. Conține informații despre case din Boston: numărul de apartamente, prețurile de închiriere, indicele criminalității.
  5. Set de date de detectare a știrilor false — conține 7796 de intrări cu marcaje de știri: adevărat sau fals. (Opțiune de aplicație cu cod sursă în Python: Proiectul Python de detectare a știrilor false )
  6. Set de date privind calitatea vinului — conține informații despre vin: 4898 înregistrări cu 14 parametri.
  7. Date SOCR – Set de date pentru înălțimi și greutăți - o opțiune bună pentru început. Conține 25 de înregistrări ale înălțimii și greutății persoanelor de 000 ani.

    52 de seturi de date pentru proiecte de formare

    Articolul a fost tradus cu sprijinul EDISON Software, care îndeplinește comenzile din sudul Chinei „excelent”și dezvoltă aplicații web și site-uri web.

  8. Setul de date Parkinson — 195 de înregistrări ale pacienților cu boala Parkinson, cu 25 de parametri de analiză. Poate fi folosit pentru evaluarea preliminară a diferenței dintre persoanele bolnave și persoanele sănătoase. (Opțiune de aplicație cu cod sursă în Python: Proiect de învățare automată privind detectarea bolii Parkinson)
  9. Setul de date Titanic — conține informații despre pasageri (vârstă, sex, rude la bord etc.) 891 din setul de antrenament și 418 din setul de testare.
  10. Set de date Uber Pickups — informații despre 4.5 milioane de călătorii pe Uber în 2014 și 14 milioane în 2015. (Opțiune de aplicație cu cod sursă în R: Proiectul de analiză a datelor Uber în R)
  11. Setul de date Chars74k — conține imagini cu simboluri britanice și canadiene din 64 de clase: 0-9, AZ, az. 7700 imagini naturale 7.7k, 3400k scrise de mână, 62000 fonturi sintetizate pe computer.
  12. Set de date de detectare a fraudei cu cardul de credit — conține informații despre tranzacțiile cu carduri de credit compromise. (Opțiune de aplicație cu sursă: Proiect de învățare automată pentru detectarea fraudei cu cardul de credit)
  13. Chatbot Intents Dataset — un fișier JSON care conține diverse etichete: salutări, la revedere, spital_search, pharmacy_search etc. Conține un set de șabloane întrebare-răspuns. (Opțiune de aplicație cu cod sursă în Python: Proiectul Chatbot în Python)
  14. Setul de date de e-mail Enron — conține jumătate de milion de scrisori de la 150 de manageri Enron.
  15. Setul de date Yelp — conține 1,2 milioane de recomandări de la 1,6 milioane de utilizatori aproximativ 1,2 milioane de organizații.
  16. Setul de date Jeopardy — peste 200 de înregistrări cu întrebări și răspunsuri din popularul joc de televiziune.
  17. Setul de date pentru sisteme de recomandare — un portal cu o colecție de seturi de date de la Universitatea UCSD. Conține înregistrări ale recenziilor de pe site-uri populare (Goodreads, Amazon). Excelent pentru a crea sisteme de recomandare. (Opțiune de aplicație cu cod sursă în R: Proiectul Sistemului de Recomandare a Filmelor în R )
  18. Setul de date UCI Spambase — un set de date de antrenament pentru detectarea spamului. Conține 4601 de litere cu 57 de parametri de metadate.
  19. Set de date Flickr 30k — peste 30 de imagini și subtitrări. (Set de date Flickr 8k — 8000 de imagini. Proiect sursă Python: Proiectul Python Generator Caption Image)
  20. Recenzii IMDB — 25 de recenzii de filme în setul de antrenament și 000 în setul de testare. (Opțiune de aplicație cu cod sursă în R: Sentiment Analysis Data Science Project)
  21. Setul de date MS COCO — 1,5 milioane de imagini etichetate.
  22. Setul de date CIFAR-10 și CIFAR-100 — CIFAR-10 conține 60,000 de imagini mici de 32*32 pixeli numere 0-9. CIFAR-100 - respectiv, 0-100.
  23. Set de date GTSRB (benchmark german de recunoaștere a semnelor de trafic). — 50 de imagini cu 000 de semne rutiere. (Opțiune de aplicație cu cod sursă în Python: Proiectul Python de recunoaștere a semnelor de circulație)
  24. Set de date ImageNet — conține mai mult de 100 de fraze și aproximativ 000 de imagini per frază.
  25. Setul de date de imagini de histopatologie mamară — setul de date conține imagini cu mostre de cancer de sân. (Opțiune de aplicație cu codul sursă activat Proiectul Python pentru clasificarea cancerului de sân)
  26. Set de date Cityscapes — conține adnotări de înaltă calitate pentru secvențe video ale străzilor din diferite orașe.
  27. Setul de date Kinetics - conține un link URL către aproximativ 6,5 milioane de videoclipuri de înaltă calitate.
  28. Set de date MPII privind poziția umană — setul de date conține 25 de imagini cu ipostaze umane cu adnotări comune.
  29. Setul de date 20BN-ceva-ceva v2 - un set de videoclipuri de înaltă calitate care arată cum o persoană realizează o anumită acțiune.
  30. Setul de date obiect 365 — un set de date de imagini de înaltă calitate cu casete de delimitare a obiectelor.
  31. Set de date pentru schițe foto — conține mai mult de 1000 de imagini cu schițele lor.
  32. Setul de date CQ500 — setul de date conține 491 de scanări CT ale capului cu 193 felii.
  33. Setul de date IMDB-Wiki — un set de date cu peste 5 milioane de imagini cu fețe marcate în funcție de sex și vârstă. (Opțiune de aplicație cu codul sursă activat Proiectul Python de detectare a sexului și vârstei)
  34. Setul de date Youtube 8M - Un set de date video etichetat care conține 6,1 milioane de ID-uri video YouTube
  35. Setul de date Urban Sound 8K — un set de date de sunet urban (conține 8732 de sunete urbane din 10 clase).
  36. Setul de date LSUN - un set de date de milioane de imagini color ale scenelor și obiectelor (aproximativ 59 de milioane de imagini, 10 categorii diferite de scene și 20 de categorii diferite de obiecte).
  37. Setul de date RAVDESS — baza de date audiovizuală a vorbirii emoționale. (Opțiune de aplicație cu codul sursă activat Proiectul Python de recunoaștere a emoțiilor vorbirii)
  38. Setul de date Librispeech — setul de date conține 1000 de ore de vorbire engleză cu accente diferite.
  39. Set de date Baidu Apolloscape — un set de date pentru dezvoltarea tehnologiilor de conducere autonomă.
  40. Portalul de date Quandl — depozit de date economice și financiare (există conținut gratuit și cu plată).
  41. Portalul de date deschise al Băncii Mondiale — informații privind împrumuturile acordate de Banca Mondială țărilor în curs de dezvoltare.
  42. Portalul de date al FMI este un portal de fonduri monetare internaționale care publică date privind finanțele internaționale, ratele datoriilor, investițiile, rezervele valutare și mărfurile.
  43. Portalul de date al Asociației Economice Americane (AEA). - O resursă pentru căutarea datelor macroeconomice din SUA.
  44. Portalul de date Google Trends - Datele despre tendințe Google pot fi folosite pentru a explora și analiza vizual datele.
  45. Portalul de date ale pieței Financial Times este o resursă pentru informații actualizate despre piețele financiare din întreaga lume.
  46. Portalul Data.gov - Portalul de date deschise guvernului SUA (agricultură, sănătate, climă, educație, energie, finanțe, știință și cercetare etc.).
  47. Portal de date: date guvernamentale deschise (India) este platforma de date guvernamentală deschisă a Indiei.
  48. Portalul de date Atlas de mediu alimentar — conține date de cercetare privind nutriția în Statele Unite.
  49. Portalul de date de sănătate este un portal al Departamentului de Sănătate și Servicii Umane din SUA.
  50. Portalul de date al Centrelor pentru Controlul și Prevenirea Bolilor - conține o gamă largă de date legate de sănătate.
  51. Portalul magazinului de date din Londra - date despre viața oamenilor din Londra.
  52. Portalul de date deschise guvernamentale din Canada - un portal de date deschise despre canadieni (agricultură, artă, muzică, educație, guvern, asistență medicală etc.)

Citeşte mai mult

Sursa: www.habr.com

Adauga un comentariu