52 datasæt til uddannelsesprojekter

  1. Mall Kunde Datasæt — data for butiksbesøgende: id, køn, alder, indkomst, forbrugsvurdering. (Ansøgningsmulighed: Kundesegmenteringsprojekt med Machine Learning)
  2. Iris datasæt — et datasæt for begyndere, der indeholder størrelserne af bægerblade og kronblade til forskellige blomster.
  3. MNIST-datasæt — et datasæt med håndskrevne numre. 60 træningsbilleder og 000 testbilleder.
  4. Boston Housing Dataset er et populært datasæt til mønstergenkendelse. Indeholder oplysninger om huse i Boston: antal lejligheder, lejepriser, kriminalitetsindeks.
  5. Datasæt til registrering af falske nyheder — indeholder 7796 indlæg med nyhedsmarkeringer: sandt eller falsk. (Applikationsmulighed med kildekode i Python: Fake News Detection Python Project )
  6. Datasæt af vinkvalitet — indeholder oplysninger om vin: 4898 poster med 14 parametre.
  7. SOCR-data – Datasæt for højder og vægte - en god mulighed at starte med. Indeholder 25 optegnelser over højden og vægten af ​​000-årige mennesker.

    52 datasæt til uddannelsesprojekter

    Artiklen er oversat med støtte fra EDISON Software, som opfylder ordrer fra det sydlige Kina "fremragende"og udvikler webapplikationer og hjemmesider.

  8. Parkinson datasæt — 195 registreringer af patienter med Parkinsons sygdom med 25 analyseparametre. Kan bruges til foreløbig vurdering af forskellen mellem syge og raske. (Applikationsmulighed med kildekode i Python: Maskinlæringsprojekt om påvisning af Parkinsons sygdom)
  9. Titanic datasæt — indeholder oplysninger om passagerer (alder, køn, pårørende om bord osv.) 891 i træningssættet og 418 i testsættet.
  10. Uber Pickups datasæt — oplysninger om 4.5 millioner rejser på Uber i 2014 og 14 millioner i 2015. (Applikationsmulighed med kildekode i R: Uber Data Analysis Project i R)
  11. Chars74k datasæt — indeholder billeder af britiske og canadiske symboler i 64 klasser: 0-9, AZ, az. 7700 7.7 k naturlige billeder, 3400 k håndskrevne, 62000 XNUMX computersyntetiserede skrifttyper.
  12. Datasæt for registrering af svindel med kreditkort — indeholder oplysninger om transaktioner med kompromitterede kreditkort. (Ansøgningsmulighed med kilde: Maskinlæringsprojekt for registrering af svindel med kreditkort)
  13. Chatbot Intents Datasæt — en JSON-fil, der indeholder forskellige tags: hilsener, farvel, hospital_search, pharmacy_search osv. Indeholder et sæt spørgsmål-svar-skabeloner. (Applikationsmulighed med kildekode i Python: Chatbot-projekt i Python)
  14. Enron e-mail-datasæt — indeholder en halv million breve fra 150 Enron-managere.
  15. Yelp-datasættet — indeholder 1,2 millioner anbefalinger fra 1,6 millioner brugere omkring 1,2 millioner organisationer.
  16. Jeopardy Datasæt — mere end 200 spørgsmål-og-svar-optagelser fra det populære tv-spil.
  17. Datasæt for anbefalede systemer — en portal med en samling af datasæt fra UCSD University. Indeholder registreringer af anmeldelser på populære websteder (Goodreads, Amazon). Fantastisk til at skabe anbefalingssystemer. (Applikationsmulighed med kildekode i R: Filmanbefalingssystemprojekt i R )
  18. UCI Spambase Datasæt — et træningsdatasæt til detektering af spam. Indeholder 4601 bogstaver med 57 metadataparametre.
  19. Flickr 30k datasæt — mere end 30 billeder og billedtekster. (Flickr 8k datasæt - 8000 billeder. Python-kildeprojekt: Billedtekstgenerator Python-projekt)
  20. IMDB anmeldelser — 25 filmanmeldelser i træningssættet og 000 i testsættet. (Applikationsmulighed med kildekode i R: Sentiment Analysis Data Science Project)
  21. MS COCO datasæt — 1,5 millioner mærkede billeder.
  22. CIFAR-10 og CIFAR-100 datasæt — CIFAR-10 indeholder 60,000 små billeder af 32*32 pixels numrene 0-9. CIFAR-100 - henholdsvis 0-100.
  23. GTSRB (German traffic sign recognition benchmark) Datasæt — 50 billeder af 000 vejskilte. (Applikationsmulighed med kildekode i Python: Python-projekt til genkendelse af trafikskilte)
  24. ImageNet datasæt — indeholder mere end 100 sætninger og omkring 000 billeder pr. sætning.
  25. Breast Histopathology Images Datasæt — Datasættet indeholder billeder af brystkræftprøver. (Applikationsmulighed med kildekode på Brystkræftklassificering Python-projekt)
  26. Bybilleder Datasæt — indeholder højkvalitets annoteringer af videosekvenser af gader i forskellige byer.
  27. Kinetik datasæt - indeholder et URL-link til omkring 6,5 millioner videoer i høj kvalitet.
  28. MPII human pose datasæt — Datasættet indeholder 25 billeder af menneskelige stillinger med fælles annoteringer.
  29. 20BN-noget-noget datasæt v2 - et sæt videoer i høj kvalitet, der viser, hvordan en person udfører en handling.
  30. Objekt 365 Datasæt — et datasæt af billeder af høj kvalitet med objektafgrænsningsrammer.
  31. Fotoskitseringsdatasæt — indeholder mere end 1000 billeder med deres konturtegninger.
  32. CQ500 datasæt — Datasættet indeholder 491 CT-scanninger af hovedet med 193 skiver.
  33. IMDB-Wiki datasæt — et datasæt med mere end 5 millioner billeder af ansigter markeret efter køn og alder. (Applikationsmulighed med kildekode på Python-projektet til registrering af køn og alder)
  34. Youtube 8M datasæt - Et mærket videodatasæt, der indeholder 6,1 millioner YouTube-video-id'er
  35. Urban Sound 8K datasæt — et sæt bylyddata (indeholder 8732 bylyde fra 10 klasser).
  36. LSUN Datasæt - et datasæt med millioner af farvebilleder af scener og objekter (ca. 59 millioner billeder, 10 forskellige scenekategorier og 20 forskellige objektkategorier).
  37. RAVDESS Datasæt — audiovisuel database med følelsesmæssig tale. (Applikationsmulighed med kildekode på Speech Emotion Recognition Python Project)
  38. Librispeech Datasæt — Datasættet indeholder 1000 timers engelsk tale med forskellige accenter.
  39. Baidu Apolloscape datasæt — et datasæt til udvikling af selvkørende teknologier.
  40. Quandl dataportal — lager af økonomiske og finansielle data (der er gratis og betalt indhold).
  41. Verdensbankens åbne dataportal — oplysninger om lån udstedt af Verdensbanken til udviklingslande.
  42. IMFs dataportal er en international pengefondsportal, der udgiver data om international finans, gældsrater, investeringer, valutareserver og råvarer.
  43. American Economic Association (AEA) dataportal - En ressource til at søge i amerikanske makroøkonomiske data.
  44. Google Trends dataportal - Google trenddata kan bruges til visuelt at udforske og analysere data.
  45. Financial Times Market Data Portal er en ressource til opdateret information om finansielle markeder fra hele verden.
  46. Data.gov portal - Den amerikanske regerings åbne dataportal (landbrug, sundhed, klima, uddannelse, energi, finans, videnskab og forskning osv.).
  47. Dataportal: Åbne offentlige data (Indien) er Indiens åbne offentlige dataplatform.
  48. Fødevaremiljø Atlas Dataportal — indeholder forskningsdata om ernæring i USA.
  49. Sundhedsdataportal er en portal for US Department of Health and Human Services.
  50. Centers for Disease Control and Prevention Data Portal - indeholder en lang række sundhedsrelaterede data.
  51. London Datastore Portal - data om folks liv i London.
  52. Canadas regerings åbne dataportal - en portal med åbne data om canadiere (landbrug, kunst, musik, uddannelse, regering, sundhedspleje osv.)

Læs mere

Kilde: www.habr.com

Tilføj en kommentar