52 conjunts de dades per a projectes de formació

  1. Conjunt de dades de clients del centre comercial — Dades dels visitants de la botiga: identificació, gènere, edat, ingressos, valoració de la despesa. (Opció d'aplicació: Projecte de segmentació de clients amb aprenentatge automàtic)
  2. Conjunt de dades Iris — un conjunt de dades per a principiants, que conté les mides de sèpals i pètals per a diverses flors.
  3. Conjunt de dades MNIST — un conjunt de dades de números escrits a mà. 60 imatges d'entrenament i 000 imatges de prova.
  4. El conjunt de dades d'habitatge de Boston és un conjunt de dades popular per al reconeixement de patrons. Conté informació sobre cases a Boston: nombre d'apartaments, preus de lloguer, índex de criminalitat.
  5. Conjunt de dades de detecció de notícies falses — conté 7796 entrades amb marques de notícies: vertader o fals. (Opció d'aplicació amb codi font en Python: Projecte Python de detecció de notícies falses )
  6. Conjunt de dades de qualitat del vi — conté informació sobre el vi: 4898 registres amb 14 paràmetres.
  7. Dades SOCR: conjunt de dades d'altures i pesos - una bona opció per començar. Conté 25 registres de l'alçada i el pes de persones de 000 anys.

    52 conjunts de dades per a projectes de formació

    L'article va ser traduït amb el suport d'EDISON Software, que compleix comandes del sud de la Xina "de manera excel·lent"I desenvolupa aplicacions web i llocs web.

  8. Conjunt de dades de Parkinson — 195 registres de pacients amb malaltia de Parkinson, amb 25 paràmetres d'anàlisi. Es pot utilitzar per a l'avaluació preliminar de la diferència entre persones malaltes i persones sanes. (Opció d'aplicació amb codi font en Python: Projecte d'aprenentatge automàtic sobre la detecció de la malaltia de Parkinson)
  9. Conjunt de dades del Titanic — conté informació sobre els passatgers (edat, sexe, familiars a bord, etc.) 891 al conjunt d'entrenament i 418 al conjunt de proves.
  10. Conjunt de dades Uber Pickups — informació sobre 4.5 milions de viatges a Uber el 2014 i 14 milions el 2015. (Opció d'aplicació amb codi font en R: Projecte d'anàlisi de dades d'Uber a R)
  11. Conjunt de dades Chars74k — conté imatges de símbols britànics i canadencs de 64 classes: 0-9, A-Z, a-z. 7700 imatges naturals de 7.7 k, 3400 k manuscrites, 62000 fonts sintetitzades per ordinador.
  12. Conjunt de dades de detecció de frau de targeta de crèdit — conté informació sobre transaccions de targetes de crèdit compromeses. (Opció d'aplicació amb font: Projecte d'aprenentatge automàtic de detecció de frau de targeta de crèdit)
  13. Conjunt de dades d'intencions de Chatbot — un fitxer JSON que conté diverses etiquetes: salutacions, adéu, hospital_search, pharmacy_search, etc. Conté un conjunt de plantilles de pregunta-resposta. (Opció d'aplicació amb codi font en Python: Projecte Chatbot en Python)
  14. Conjunt de dades de correu electrònic Enron — conté mig milió de cartes de 150 directius d'Enron.
  15. El conjunt de dades de Yelp — conté 1,2 milions de recomanacions d'1,6 milions d'usuaris aproximadament 1,2 milions d'organitzacions.
  16. Conjunt de dades de perill — més de 200 enregistraments de preguntes i respostes del popular joc de televisió.
  17. Conjunt de dades de sistemes de recomanació — un portal amb una col·lecció de conjunts de dades de la Universitat UCSD. Conté registres de ressenyes en llocs populars (Goodreads, Amazon). Ideal per crear sistemes de recomanació. (Opció d'aplicació amb codi font en R: Projecte del sistema de recomanació de pel·lícules a R )
  18. Conjunt de dades de la UCI Spambase — un conjunt de dades d'entrenament per a la detecció de correu brossa. Conté 4601 lletres amb 57 paràmetres de metadades.
  19. Conjunt de dades de Flickr 30k — més de 30 imatges i subtítols. (Conjunt de dades de Flickr 8k - 8000 imatges. Projecte font Python: Projecte Python del generador de subtítols d'imatge)
  20. Revisions d'IMDB — 25 ressenyes de pel·lícules al set d'entrenament i 000 al set de proves. (Opció d'aplicació amb codi font en R: Projecte de ciència de dades d'anàlisi de sentiments)
  21. Conjunt de dades MS COCO — 1,5 milions d'imatges etiquetades.
  22. Conjunt de dades CIFAR-10 i CIFAR-100 — CIFAR-10 conté 60,000 imatges petites de 32*32 píxels números 0-9. CIFAR-100 - respectivament, 0-100.
  23. Conjunt de dades GTSRB (punt de referència alemany de reconeixement de senyals de trànsit). — 50 imatges de 000 senyals de trànsit. (Opció d'aplicació amb codi font en Python: Projecte Python de reconeixement de senyals de trànsit)
  24. Conjunt de dades ImageNet — conté més de 100 frases i unes 000 imatges per frase.
  25. Conjunt de dades d'imatges d'histopatologia mamària — El conjunt de dades conté imatges de mostres de càncer de mama. (Opció d'aplicació amb el codi font activat Projecte Python de classificació del càncer de mama)
  26. Conjunt de dades de paisatges urbans — conté anotacions d'alta qualitat de seqüències de vídeo de carrers de diferents ciutats.
  27. Conjunt de dades de cinètica - conté un enllaç URL a uns 6,5 milions de vídeos d'alta qualitat.
  28. Conjunt de dades de posició humana MPII — El conjunt de dades conté 25 imatges de postures humanes amb anotacions conjuntes.
  29. Conjunt de dades 20BN-alguna cosa-alguna cosa v2 - un conjunt de vídeos d'alta qualitat que mostren com una persona realitza alguna acció.
  30. Conjunt de dades de l'objecte 365 — un conjunt de dades d'imatges d'alta qualitat amb quadres delimitadors d'objectes.
  31. Conjunt de dades d'esbós fotogràfic — conté més de 1000 imatges amb els seus dibuixos.
  32. Conjunt de dades CQ500 — El conjunt de dades conté 491 exploracions de TC del cap amb 193 rodanxes.
  33. Conjunt de dades IMDB-Wiki — un conjunt de dades amb més de 5 milions d'imatges de cares marcades per gènere i edat. (Opció d'aplicació amb el codi font activat Projecte Python de detecció de gènere i edat)
  34. Conjunt de dades de Youtube 8M - Un conjunt de dades de vídeo etiquetat que conté 6,1 milions d'identificadors de vídeo de Youtube
  35. Conjunt de dades Urban Sound 8K — un conjunt de dades de so urbà (conté 8732 sons urbans de 10 classes).
  36. Conjunt de dades LSUN - un conjunt de dades de milions d'imatges en color d'escenes i objectes (uns 59 milions d'imatges, 10 categories d'escenes diferents i 20 categories d'objectes diferents).
  37. Conjunt de dades RAVDESS — Base de dades audiovisual del discurs emocional. (Opció d'aplicació amb el codi font activat Projecte Python de reconeixement d'emocions de la parla)
  38. Conjunt de dades de Librispeech — el conjunt de dades conté 1000 hores de parla anglesa amb diferents accents.
  39. Conjunt de dades Baidu Apolloscape — un conjunt de dades per al desenvolupament de tecnologies de conducció autònoma.
  40. Portal de dades de Quandl — dipòsit de dades econòmiques i financeres (hi ha contingut gratuït i de pagament).
  41. Portal de dades obertes del Banc Mundial — Informació sobre els préstecs concedits pel Banc Mundial als països en desenvolupament.
  42. Portal de dades de l'FMI és un portal de fons monetaris internacionals que publica dades sobre finances internacionals, tipus de deute, inversió, reserves de divises i matèries primeres.
  43. Portal de dades de l'Associació Econòmica Americana (AEA). - Un recurs per cercar dades macroeconòmiques dels EUA.
  44. Portal de dades de Google Trends - Les dades de tendències de Google es poden utilitzar per explorar i analitzar visualment dades.
  45. Portal de dades del mercat del Financial Times és un recurs per obtenir informació actualitzada sobre mercats financers d'arreu del món.
  46. Portal Data.gov - Portal de dades obertes del govern dels EUA (agricultura, salut, clima, educació, energia, finances, ciència i recerca, etc.).
  47. Portal de dades: dades del govern obert (Índia) és la plataforma de dades del govern obert de l'Índia.
  48. Portal de dades de l'Atles de medi ambient alimentari — conté dades de recerca sobre nutrició als Estats Units.
  49. Portal de dades de salut és un portal del Departament de Salut i Serveis Humans dels EUA.
  50. Portal de dades dels Centres per al Control i la Prevenció de Malalties - conté una àmplia gamma de dades relacionades amb la salut.
  51. Portal de la botiga de dades de Londres - dades sobre la vida de la gent a Londres.
  52. Portal de dades obertes del govern del Canadà - un portal de dades obertes sobre els canadencs (agricultura, art, música, educació, govern, sanitat, etc.)

Llegeix més

Font: www.habr.com

Afegeix comentari