52 datasett for opplæringsprosjekter

  1. Datasett for kjøpesenterkunder — data om butikkbesøkende: ID, kjønn, alder, inntekt, forbruksvurdering. (Søknadsalternativ: Kundesegmenteringsprosjekt med maskinlæring)
  2. Iris Datasett — et datasett for nybegynnere, som inneholder størrelsene på begerblader og kronblader for forskjellige blomster.
  3. MNIST-datasett — et datasett med håndskrevne tall. 60 000 treningsbilder og 10 000 testbilder.
  4. Boston Housing Dataset er et populært datasett for mønstergjenkjenning. Inneholder informasjon om hus i Boston: antall leiligheter, leiepriser, kriminalitetsindeks.
  5. Datasett for oppdagelse av falske nyheter — inneholder 7796 oppføringer med nyhetsmarkeringer: sant eller usant. (Applikasjonsalternativ med kildekode i Python: Fake News Detection Python Project )
  6. Datasett av vinkvalitet — inneholder informasjon om vin: 4898 poster med 14 parametere.
  7. SOCR-data – Datasett for høyder og vekter - et godt alternativ å begynne med. Inneholder 25 000 registreringer av høyden og vekten til 18 år gamle mennesker.

    52 datasett for opplæringsprosjekter

    Artikkelen ble oversatt med støtte fra EDISON Software, som oppfyller bestillinger fra Sør-Kina "utmerket"Og utvikler webapplikasjoner og nettsider.

  8. Parkinson Datasett — 195 registreringer av pasienter med Parkinsons sykdom, med 25 analyseparametere. Kan brukes til foreløpig vurdering av forskjellen mellom syke og friske. (Applikasjonsalternativ med kildekode i Python: Maskinlæringsprosjekt for å oppdage Parkinsons sykdom)
  9. Titanic datasett — inneholder opplysninger om passasjerer (alder, kjønn, pårørende om bord osv.) 891 i treningssettet og 418 i prøvesettet.
  10. Datasett for Uber Pickups — informasjon om 4.5 millioner turer på Uber i 2014 og 14 millioner i 2015. (Applikasjonsalternativ med kildekode i R: Uber Data Analysis Project i R)
  11. Chars74k Datasett — inneholder bilder av britiske og kanadiske symboler i 64 klasser: 0-9, AZ, az. 7700 7.7k naturlige bilder, 3400k håndskrevne, 62000 datamaskinsyntetiserte skrifter.
  12. Datasett for oppdagelse av kredittkortsvindel — inneholder informasjon om transaksjoner med kompromitterte kredittkort. (Applikasjonsalternativ med kilde: Maskinlæringsprosjekt for kredittkortsvindel)
  13. Chatbot Intents Datasett — en JSON-fil som inneholder forskjellige tagger: hilsener, farvel, sykehus_søk, apotek_søk osv. Inneholder et sett med spørsmål-svar-maler. (Applikasjonsalternativ med kildekode i Python: Chatbot-prosjekt i Python)
  14. Enron e-postdatasett — inneholder en halv million brev fra 150 Enron-ledere.
  15. Yelp-datasettet — inneholder 1,2 millioner anbefalinger fra 1,6 millioner brukere rundt 1,2 millioner organisasjoner.
  16. Jeopardy Datasett — mer enn 200 000 spørsmål-og-svar-opptak fra det populære TV-spillet.
  17. Datasett for anbefalte systemer — en portal med en samling av datasett fra UCSD University. Inneholder registreringer av anmeldelser på populære nettsteder (Goodreads, Amazon). Flott for å lage anbefalingssystemer. (Applikasjonsalternativ med kildekode i R: Filmanbefalingssystemprosjekt i R )
  18. UCI Spambase Datasett — et opplæringsdatasett for deteksjon av søppelpost. Inneholder 4601 bokstaver med 57 metadataparametere.
  19. Flickr 30k datasett — mer enn 30 000 bilder og bildetekster. (Flickr 8k datasett – 8000 bilder. Python kildeprosjekt: Bildetekstgenerator Python Project)
  20. IMDB anmeldelser — 25 000 filmanmeldelser i treningssettet og 25 000 i testsettet. (Applikasjonsalternativ med kildekode i R: Sentiment Analysis Data Science Project)
  21. MS COCO datasett — 1,5 millioner merkede bilder.
  22. CIFAR-10 og CIFAR-100 datasett — CIFAR-10 inneholder 60,000 32 små bilder med 32*0 piksler nummer 9-100. CIFAR-0 - henholdsvis 100-XNUMX.
  23. GTSRB (German traffic sign recognition benchmark) Datasett — 50 000 bilder av 43 veiskilt. (Applikasjonsalternativ med kildekode i Python: Trafikkskiltgjenkjenning Python-prosjektet)
  24. ImageNet datasett — inneholder mer enn 100 000 setninger og omtrent 1000 XNUMX bilder per setning.
  25. Bryst Histopatologi Bilder Datasett — datasettet inneholder bilder av brystkreftprøver. (Applikasjonsalternativ med kildekode på Brystkreftklassifisering Python-prosjektet)
  26. Bylandskap datasett — inneholder merknader av høy kvalitet av videosekvenser av gater i forskjellige byer.
  27. Kinetikkdatasett - inneholder en URL-lenke til rundt 6,5 millioner videoer av høy kvalitet.
  28. MPII human pose datasett — datasettet inneholder 25 000 bilder av menneskelige positurer med felles merknader.
  29. 20BN-noe-noe datasett v2 - et sett med videoer av høy kvalitet som viser hvordan en person utfører en handling.
  30. Objekt 365-datasett — et datasett med bilder av høy kvalitet med avgrensningsbokser for objekter.
  31. Fotoskissedatasett — inneholder mer enn 1000 bilder med konturtegninger.
  32. CQ500 Datasett — datasettet inneholder 491 CT-skanninger av hodet med 193 317 skiver.
  33. IMDB-Wiki datasett – et datasett med mer enn 5 millioner bilder av ansikter merket etter kjønn og alder. (Applikasjonsalternativ med kildekode på Kjønn og aldersdeteksjon Python-prosjektet)
  34. Youtube 8M-datasett - Et merket videodatasett som inneholder 6,1 millioner YouTube-video-IDer
  35. Urban Sound 8K datasett — et sett med urbane lyddata (inneholder 8732 urbane lyder fra 10 klasser).
  36. LSUN Datasett - et datasett med millioner av fargebilder av scener og objekter (ca. 59 millioner bilder, 10 forskjellige scenekategorier og 20 forskjellige objektkategorier).
  37. RAVDESS Datasett — audiovisuell database med emosjonell tale. (Applikasjonsalternativ med kildekode på Speech Emotion Recognition Python Project)
  38. Librispeech Datasett — datasettet inneholder 1000 timer engelsk tale med forskjellige aksenter.
  39. Baidu Apolloscape-datasett — et datasett for utvikling av selvkjørende teknologier.
  40. Quandl Dataportal — arkiv med økonomiske og finansielle data (det er gratis og betalt innhold).
  41. Verdensbankens åpne dataportal — informasjon om lån utstedt av Verdensbanken til utviklingsland.
  42. IMFs dataportal er en internasjonal pengefondsportal som publiserer data om internasjonal finans, gjeldsrenter, investeringer, valutareserver og råvarer.
  43. American Economic Association (AEA) dataportal - En ressurs for å søke etter amerikanske makroøkonomiske data.
  44. Google Trends Data Portal – Google trenddata kan brukes til å visuelt utforske og analysere data.
  45. Financial Times Market Data Portal er en ressurs for oppdatert informasjon om finansmarkeder fra hele verden.
  46. Data.gov-portalen - Den amerikanske regjeringens åpne dataportal (landbruk, helse, klima, utdanning, energi, finans, vitenskap og forskning, etc.).
  47. Dataportal: Åpne offentlige data (India) er Indias åpne myndighetsdataplattform.
  48. Matmiljø Atlas Dataportal — inneholder forskningsdata om ernæring i USA.
  49. Helsedataportal er en portal til US Department of Health and Human Services.
  50. Sentre for sykdomskontroll og forebygging Dataportal - inneholder et bredt spekter av helserelaterte data.
  51. London Datastore Portal - data om folks liv i London.
  52. Canada Government Open Data Portal - en portal med åpne data om kanadiere (landbruk, kunst, musikk, utdanning, myndigheter, helsevesen, etc.)

Les mer

Kilde: www.habr.com

Legg til en kommentar