52 datauppsättningar för utbildningsprojekt

  1. Mall Kunddataset — uppgifter om butiksbesökare: id, kön, ålder, inkomst, utgiftsbetyg. (Applikationsalternativ: Kundsegmenteringsprojekt med maskininlärning)
  2. Iris Dataset — en datauppsättning för nybörjare, som innehåller storlekarna på foderblad och kronblad för olika blommor.
  3. MNIST Dataset — en datauppsättning av handskrivna siffror. 60 000 träningsbilder och 10 000 testbilder.
  4. Boston Housing Dataset är en populär datauppsättning för mönsterigenkänning. Innehåller information om hus i Boston: antal lägenheter, hyrespriser, brottsindex.
  5. Fake News Detection Dataset — innehåller 7796 inlägg med nyhetsmarkeringar: sant eller falskt. (Applikationsalternativ med källkod i Python: Fake News Detection Python Project )
  6. Datauppsättning av vinkvalitet — innehåller information om vin: 4898 poster med 14 parametrar.
  7. SOCR-data – Datauppsättning för höjder och vikter - ett bra alternativ att börja med. Innehåller 25 000 register över 18-åriga människors längd och vikt.

    52 datauppsättningar för utbildningsprojekt

    Artikeln översattes med stöd av EDISON Software, som uppfyller beställningar från södra Kina "utmärkt"Och utvecklar webbapplikationer och webbplatser.

  8. Parkinson Dataset — 195 register över patienter med Parkinsons sjukdom, med 25 analysparametrar. Kan användas för preliminär bedömning av skillnaden mellan sjuka och friska. (Applikationsalternativ med källkod i Python: Maskininlärningsprojekt om att upptäcka Parkinsons sjukdom)
  9. Titanic Dataset — innehåller uppgifter om passagerare (ålder, kön, anhöriga ombord etc.) 891 i träningssetet och 418 i testsetet.
  10. Dataset för Uber Pickups — information om 4.5 miljoner resor på Uber 2014 och 14 miljoner 2015. (Applikationsalternativ med källkod i R: Uber Data Analysis Project i R)
  11. Chars74k Dataset — innehåller bilder av brittiska och kanadensiska symboler i 64 klasser: 0-9, AZ, az. 7700 7.7k naturliga bilder, 3400k handskrivna, 62000 datorsyntetiserade typsnitt.
  12. Datauppsättning för upptäckt av kreditkortsbedrägerier — innehåller information om transaktioner av intrångade kreditkort. (Applikationsalternativ med källa: Maskininlärningsprojekt för att upptäcka kreditkortsbedrägerier)
  13. Chatbot Intents Dataset — en JSON-fil som innehåller olika taggar: hälsningar, adjö, hospital_search, pharmacy_search, etc. Innehåller en uppsättning frågesvarsmallar. (Applikationsalternativ med källkod i Python: Chatbot-projekt i Python)
  14. Enrons e-postdatauppsättning — innehåller en halv miljon brev från 150 Enron-chefer.
  15. Yelp-datauppsättningen — innehåller 1,2 miljoner rekommendationer från 1,6 miljoner användare, cirka 1,2 miljoner organisationer.
  16. Jeopardy Dataset — mer än 200 000 fråge-och-svar-inspelningar från det populära tv-spelet.
  17. Rekommenderar systemdataset — en portal med en samling datauppsättningar från UCSD University. Innehåller register över recensioner på populära webbplatser (Goodreads, Amazon). Perfekt för att skapa rekommendatorsystem. (Applikationsalternativ med källkod i R: Filmrekommendationssystemprojekt i R )
  18. UCI Spambase Dataset — en utbildningsdatauppsättning för att upptäcka skräppost. Innehåller 4601 bokstäver med 57 metadataparametrar.
  19. Flickr 30k dataset — mer än 30 000 bilder och bildtexter. (Flickr 8k dataset — 8000 bilder. Python källprojekt: Bildtextgenerator Python-projekt)
  20. IMDB recensioner — 25 000 filmrecensioner i träningssetet och 25 000 i testsetet. (Applikationsalternativ med källkod i R: Sentiment Analysis Data Science Project)
  21. MS COCO dataset — 1,5 miljoner taggade bilder.
  22. CIFAR-10 och CIFAR-100 dataset — CIFAR-10 innehåller 60,000 32 små bilder med 32*0 pixlar nummer 9-100. CIFAR-0 - respektive 100-XNUMX.
  23. GTSRB (German traffic sign recognition benchmark) Dataset — 50 000 bilder av 43 vägmärken. (Applikationsalternativ med källkod i Python: Pythonprojekt för erkännande av trafikskyltar)
  24. ImageNet-dataset — innehåller mer än 100 000 fraser och cirka 1000 XNUMX bilder per fras.
  25. Brösthistopatologi Bilder Dataset — datasetet innehåller bilder av bröstcancerprover. (Applikationsalternativ med källkod på Bröstcancerklassificering Python-projekt)
  26. Stadsbildsdataset — innehåller högkvalitativa kommentarer av videosekvenser av gator i olika städer.
  27. Kinetics Dataset - innehåller en URL-länk till cirka 6,5 ​​miljoner högkvalitativa videor.
  28. MPII human pose dataset — datasetet innehåller 25 000 bilder av mänskliga poser med gemensamma kommentarer.
  29. 20BN-something-something dataset v2 - en uppsättning videor av hög kvalitet som visar hur en person utför någon handling.
  30. Objekt 365 Dataset — en datauppsättning av högkvalitativa bilder med objektavgränsande rutor.
  31. Fotoskissdatauppsättning — innehåller mer än 1000 bilder med sina konturritningar.
  32. CQ500 Dataset — datasetet innehåller 491 CT-skanningar av huvudet med 193 317 skivor.
  33. IMDB-Wiki dataset — en datauppsättning med mer än 5 miljoner bilder av ansikten markerade efter kön och ålder. (Applikationsalternativ med källkod på Pythonprojekt för kön och åldersupptäckt)
  34. Youtube 8M Dataset - En märkt videodatauppsättning som innehåller 6,1 miljoner YouTube-video-ID:n
  35. Urban Sound 8K dataset — en uppsättning stadsljuddata (innehåller 8732 stadsljud från 10 klasser).
  36. LSUN Dataset - en datauppsättning med miljontals färgbilder av scener och objekt (cirka 59 miljoner bilder, 10 olika scenkategorier och 20 olika objektkategorier).
  37. RAVDESS Dataset — Audiovisuell databas med känslomässigt tal. (Applikationsalternativ med källkod på Speech Emotion Recognition Python Project)
  38. Librispeech Dataset — datasetet innehåller 1000 timmar engelskt tal med olika accenter.
  39. Baidu Apolloscape Dataset — En datauppsättning för utveckling av självkörande teknik.
  40. Quandl dataportal — Lagring av ekonomiska och finansiella uppgifter (det finns gratis och betalt innehåll).
  41. Världsbankens öppna dataportal — Information om lån utfärdade av Världsbanken till utvecklingsländer.
  42. IMFs dataportal är en internationell monetär fondsportal som publicerar data om internationell finans, skuldräntor, investeringar, valutareserver och råvaror.
  43. American Economic Association (AEA) dataportal - En resurs för att söka amerikansk makroekonomisk data.
  44. Google Trends dataportal – Googles trenddata kan användas för att visuellt utforska och analysera data.
  45. Financial Times Market Data Portal är en resurs för uppdaterad information om finansiella marknader från hela världen.
  46. Data.gov-portalen - Den amerikanska regeringens öppna dataportal (jordbruk, hälsa, klimat, utbildning, energi, finans, vetenskap och forskning, etc.).
  47. Dataportal: Öppna statliga data (Indien) är Indiens öppna myndighetsdataplattform.
  48. Matmiljö Atlas Data Portal — innehåller forskningsdata om nutrition i USA.
  49. Hälsodataportal är en portal för US Department of Health and Human Services.
  50. Dataportal för Centers for Disease Control and Prevention - innehåller ett brett utbud av hälsorelaterade data.
  51. London Datastore Portal - uppgifter om människors liv i London.
  52. Kanadas regerings öppna dataportal - en portal med öppen data om kanadensare (jordbruk, konst, musik, utbildning, regering, sjukvård, etc.)

Läs mer

Källa: will.com

Lägg en kommentar