52 tietojoukkoa koulutusprojekteja varten

  1. Mallin asiakkaiden tietojoukko — myymälän kävijöiden tiedot: id, sukupuoli, ikä, tulot, kulutusluokitus. (Sovellusvaihtoehto: Asiakassegmentointiprojekti koneoppimisen kanssa)
  2. Iris-tietojoukko — tietojoukko aloittelijoille, joka sisältää verho- ja terälehtien koot eri kukille.
  3. MNIST Dataset — käsinkirjoitettujen numeroiden tietojoukko. 60 000 harjoituskuvaa ja 10 000 testikuvaa.
  4. Bostonin asuntotietojoukko on suosittu tietojoukko kuvioiden tunnistamiseen. Sisältää tietoa taloista Bostonissa: asuntojen lukumäärä, vuokrahinnat, rikosindeksi.
  5. Fake News Detection Dataset — sisältää 7796 uutismerkintää: tosi tai epätosi. (Sovellusvaihtoehto lähdekoodilla Pythonissa: Fake News Detection Python Project )
  6. Viinin laatutietojoukko — sisältää tietoa viinistä: 4898 tietuetta 14 parametrilla.
  7. SOCR-tiedot – korkeus- ja painotiedot - hyvä vaihtoehto aloittaa. Sisältää 25 000 tietuetta 18-vuotiaiden pituudesta ja painosta.

    52 tietojoukkoa koulutusprojekteja varten

    Artikkeli on käännetty EDISON Softwaren tuella, joka täyttää Etelä-Kiinan tilaukset "erinomaisesti"Ja kehittää verkkosovelluksia ja verkkosivustoja.

  8. Parkinsonin tietojoukko — 195 kirjaa Parkinsonin tautia sairastavista potilaista ja 25 analyysiparametria. Voidaan käyttää sairaiden ja terveiden ihmisten välisen eron alustavaan arviointiin. (Sovellusvaihtoehto lähdekoodilla Pythonissa: Koneoppimisprojekti Parkinsonin taudin havaitsemiseksi)
  9. Titanic -tietojoukko — sisältää tietoja matkustajista (ikä, sukupuoli, sukulaiset koneessa jne.) 891 koulutussarjassa ja 418 testisarjassa.
  10. Uber Pickups Dataset — tiedot 4.5 miljoonasta Uber-matkasta vuonna 2014 ja 14 miljoonasta vuonna 2015. (Sovellusvaihtoehto lähdekoodilla R:ssä: Uber Data Analysis Project in R)
  11. Chars74k Dataset — sisältää kuvia brittiläisistä ja kanadalaisista 64 luokan symboleista: 0-9, AZ, az. 7700 7.7k luonnollista kuvaa, 3400k käsinkirjoitettua, 62000 tietokoneella syntetisoitua fonttia.
  12. Luottokorttipetosten havaitsemisen tietojoukko — sisältää tietoja vaarantuneiden luottokorttien tapahtumista. (Sovellusvaihtoehto lähteellä: Luottokorttipetosten havaitsemisen koneoppimisprojekti)
  13. Chatbot Intents Dataset — JSON-tiedosto, joka sisältää erilaisia ​​tunnisteita: tervehdys, näkemiin, hospital_search, pharmacy_search jne. Sisältää joukon kysymys-vastausmalleja. (Sovellusvaihtoehto lähdekoodilla Pythonissa: Chatbot-projekti Pythonissa)
  14. Enronin sähköpostitietojoukko — sisältää puoli miljoonaa kirjettä 150 Enronin johtajalta.
  15. Yelp-tietojoukko — sisältää 1,2 miljoonaa suositusta 1,6 miljoonalta käyttäjältä noin 1,2 miljoonalta organisaatiolta.
  16. Vaaratietosarja — yli 200 000 kysymys-vastaustallenteita suositusta televisiopelistä.
  17. Recommender Systems Dataset — portaali, jossa on kokoelma UCSD-yliopiston tietojoukkoja. Sisältää tietueita suosituista sivustoista (Goodreads, Amazon) tehdyistä arvosteluista. Erinomainen suositusjärjestelmien luomiseen. (Sovellusvaihtoehto lähdekoodilla R:ssä: Elokuvasuositusjärjestelmäprojekti R:ssä )
  18. UCI Spambase Dataset — koulutustietojoukko roskapostin havaitsemiseen. Sisältää 4601 kirjainta ja 57 metatietoparametria.
  19. Flickr 30k -tietojoukko - yli 30 000 kuvaa ja kuvatekstiä. (Flickr 8k -tietojoukko - 8000 kuvaa. Python-lähdeprojekti: Image Caption Generator Python Project)
  20. IMDB arvostelut — 25 000 elokuva-arvostelua harjoitussarjassa ja 25 000 testisarjassa. (Sovellusvaihtoehto lähdekoodilla R:ssä: Tunneanalyysin tietotiedeprojekti)
  21. MS COCO -tietojoukko - 1,5 miljoonaa merkittyä kuvaa.
  22. CIFAR-10 ja CIFAR-100 tietojoukko — CIFAR-10 sisältää 60,000 32 pientä kuvaa 32*0 pikselin numeroilla 9-100. CIFAR-0 - vastaavasti 100-XNUMX.
  23. GTSRB (saksalainen liikennemerkkien tunnistamisen vertailuarvo) tietojoukko — 50 000 kuvaa 43 liikennemerkistä. (Sovellusvaihtoehto lähdekoodilla Pythonissa: Liikennemerkkien tunnistus Python-projekti)
  24. ImageNet-tietojoukko - sisältää yli 100 000 lausetta ja noin 1000 kuvaa lausetta kohden.
  25. Rintojen histopatologian kuvien tietojoukko — Aineisto sisältää kuvia rintasyöpänäytteistä. (Sovellusvaihtoehto lähdekoodilla päällä Rintasyövän luokittelu Python-projekti)
  26. Kaupunkimaisemat-tietojoukko — sisältää korkealaatuisia huomautuksia eri kaupunkien katujen videosarjoista.
  27. Kinetiikan tietojoukko - sisältää URL-linkin noin 6,5 miljoonaan korkealaatuiseen videoon.
  28. MPII-ihmisasennon tietojoukko — Aineisto sisältää 25 000 kuvaa ihmisen asennoista yhteisillä huomautuksilla.
  29. 20BN-something-something -tietojoukko v2 - joukko korkealaatuisia videoita, jotka näyttävät, kuinka henkilö suorittaa jonkin toiminnon.
  30. Objektin 365 tietojoukko — tietojoukko korkealaatuisista kuvista, joissa on objektien rajauslaatikot.
  31. Valokuvien luonnostelutietojoukko - sisältää yli 1000 kuvaa ääriviivapiirroksineen.
  32. CQ500 Dataset — tietojoukko sisältää 491 pään CT-kuvaa ja 193 317 viipaletta.
  33. IMDB-Wiki-aineisto — tietojoukko, jossa on yli 5 miljoonaa kuvaa kasvoista, jotka on merkitty sukupuolen ja iän mukaan. (Sovellusvaihtoehto lähdekoodilla päällä Sukupuolen ja iän tunnistus Python-projekti)
  34. Youtube 8M Dataset - Merkitty videotietojoukko, joka sisältää 6,1 miljoonaa Youtube-videotunnusta
  35. Urban Sound 8K -tietojoukko — joukko kaupunkiäänitietoja (sisältää 8732 kaupunkiääntä 10 luokasta).
  36. LSUN-tietojoukko - Tietojoukko miljoonista värikuvista kohtauksista ja kohteista (noin 59 miljoonaa kuvaa, 10 eri kohtausluokkaa ja 20 eri kohdeluokkaa).
  37. RAVDESS Dataset — tunnepuheen audiovisuaalinen tietokanta. (Sovellusvaihtoehto lähdekoodilla päällä Puheen tunteiden tunnistus Python-projekti)
  38. Librispeech Dataset — Aineisto sisältää 1000 tuntia englanninkielistä puhetta erilaisilla aksenteilla.
  39. Baidu Apolloscape Dataset — tietojoukko itseohjautuvien teknologioiden kehittämistä varten.
  40. Quandl-tietoportaali — Talous- ja rahoitustietojen arkisto (on ilmaista ja maksullista sisältöä).
  41. Maailmanpankin avoimen datan portaali — tiedot Maailmanpankin kehitysmaille myöntämistä lainoista.
  42. IMF:n tietoportaali on kansainvälinen valuuttarahastoportaali, joka julkaisee tietoja kansainvälisestä rahoituksesta, velkakoroista, investoinneista, valuuttavarannoista ja hyödykkeistä.
  43. American Economic Associationin (AEA) tietoportaali - Resurssi Yhdysvaltain makrotaloudellisten tietojen etsimiseen.
  44. Google Trends -tietoportaali - Googlen trenditietoja voidaan käyttää datan visuaaliseen tutkimiseen ja analysointiin.
  45. Financial Timesin markkinatietoportaali on resurssi ajantasaiselle rahoitusmarkkinoita koskevalle tiedolle eri puolilta maailmaa.
  46. Data.gov-portaali - Yhdysvaltain hallituksen avoin tietoportaali (maatalous, terveys, ilmasto, koulutus, energia, rahoitus, tiede ja tutkimus jne.).
  47. Tietoportaali: Avoin hallintodata (Intia) on Intian avoimen hallinnon tietoalusta.
  48. Ruokaympäristö Atlas Data Portal — sisältää tutkimustietoa ravitsemuksesta Yhdysvalloissa.
  49. Terveystietoportaali on Yhdysvaltain terveys- ja henkilöstöministeriön portaali.
  50. Tautien torjunta- ja ehkäisykeskusten tietoportaali - sisältää laajan valikoiman terveyteen liittyviä tietoja.
  51. Lontoon Datastore-portaali - tiedot ihmisten elämästä Lontoossa.
  52. Kanadan hallituksen avoimen datan portaali - portaali, jossa on avointa tietoa kanadalaisista (maatalous, taide, musiikki, koulutus, hallinto, terveydenhuolto jne.)

Lue lisää

Lähde: will.com

Lisää kommentti