52 tietojoukkoa koulutusprojekteja varten

  1. Kauppakeskuksen asiakkaiden tietojoukko — tallentaa kävijän tiedot: tunniste, sukupuoli, ikä, tulot, kulutusluokitus. (Sovellusvaihtoehto: Asiakassegmentointiprojekti koneoppimisen avulla)
  2. Iris-tietojoukko — aloittelijoille tarkoitettu tietokanta, joka sisältää eri kukkien verholehtien ja terälehtien koot.
  3. MNIST Dataset — käsin kirjoitettujen numeroiden tietojoukko. 60 000 harjoituskuvaa ja 10 000 testikuvaa.
  4. Bostonin asuntoaineisto — suosittu hahmontunnistukseen tarkoitettu tietojoukko. Se sisältää tietoa Bostonin asumisesta, mukaan lukien asuntojen lukumäärän, vuokran ja rikollisuuden määrän.
  5. Valeuutisten tunnistusaineisto — sisältää 7796 merkintää, joissa on uutistunnisteet: tosi tai epätosi.Käyttötapaus Python-lähdekoodilla: Valeuutisten havaitsemisen Python-projekti )
  6. Viinin laatua koskeva tietojoukko — sisältää tietoa viinistä: 4898 tietuetta 14 parametrilla.
  7. SOCR-tiedot – Pituuksia ja painoja koskeva tietojoukko — hyvä aloitusvaihtoehto. Sisältää 25 000 pituus- ja painotietoa 18-vuotiailta.

    52 tietojoukkoa koulutusprojekteja varten

    Artikkeli on käännetty EDISON Softwaren tuella, joka täyttää Etelä-Kiinan tilaukset täydellisestiJa kehittää web-sovelluksia ja verkkosivustoja.

  8. Parkinsonin tietojoukko — 195 Parkinsonin tautia sairastavan potilastietoa, 25 testiparametria. Voidaan käyttää sairaiden ja terveiden yksilöiden välisten erojen alustavaan arviointiin.Käyttötapaus Python-lähdekoodilla: Koneoppimisprojekti Parkinsonin taudin havaitsemiseksi)
  9. Titanic -tietojoukko — sisältää tietoja matkustajista (ikä, sukupuoli, aluksella olevat sukulaiset jne.) 891 harjoitusjoukossa ja 418 testijoukossa.
  10. Uber-noutopalveluiden tietojoukko — tiedot 4.5 miljoonasta Uber-matkasta vuonna 2014 ja 14 miljoonasta vuonna 2015. (Sovellusvaihtoehto R-lähteellä: Uber-data-analyysiprojekti R:ssä)
  11. Chars74k-tietojoukko — sisältää kuvia brittiläisistä ja kanadalaisista merkeistä 64 luokasta: 0–9, A–Z, az. 7700 luonnollista kuvaa, 3400 000 käsinkirjoitettua kuvaa, 62 000 tietokoneella luotua fonttia.
  12. Luottokorttipetosten havaitsemisaineisto — sisältää tietoja vaarantuneilla luottokorteilla tehdyistä tapahtumista. (Sovellusvaihtoehto lähdekoodilla: Luottokorttipetosten havaitsemisen koneoppimisprojekti)
  13. Chatbot Intents -tietojoukko — JSON-tiedosto, joka sisältää erilaisia ​​tageja: tervehdykset, näkemiin, sairaalan_haku, pharmacy_haku jne. Sisältää joukon kysymys-vastaus-pohjia.Käyttötapaus Python-lähdekoodilla: Chatbot-projekti Pythonissa)
  14. Enronin sähköpostitietojoukko — sisältää puoli miljoonaa kirjettä 150 Enronin johtajalta.
  15. Yelp-tietojoukko — sisältää 1,2 miljoonaa suositusta 1,6 miljoonalta käyttäjältä noin 1,2 miljoonalta organisaatiolta.
  16. Jeopardy-tietojoukko — yli 200 000 kysymys- ja vastaustallennetta suositusta TV-pelistä.
  17. Suosittelijajärjestelmien tietojoukko — portaali, joka sisältää kokoelman UCSD-yliopiston datasettejä. Se sisältää arvostelujen tallenteita suosituilla sivustoilla (Goodreads, Amazon). Se on ihanteellinen suosittelujärjestelmien luomiseen.Sovellusvaihtoehto R-lähteellä: Elokuvasuositusjärjestelmän projekti R:ssä )
  18. UCI Spambase -tietojoukko — roskapostin tunnistuksen harjoitusaineisto. Sisältää 4 601 sähköpostia ja 57 metatietoparametria.
  19. Flickr 30k -tietojoukko — yli 30 000 kuvaa ja kuvatekstiä. (Flickr 8k -tietojoukko — 8 000 kuvaa. Projekti lähdekoodilla Pythonissa: Kuvatekstien generaattori Python-projekti)
  20. IMDB-arvostelut — 25 000 elokuva-arvostelua harjoitusjoukossa ja 25 000 testijoukossa.Sovellusvaihtoehto R-lähteellä: Tunneanalyysin datatiedeprojekti)
  21. MS COCO -aineisto — 1,5 miljoonaa merkittyä kuvaa.
  22. CIFAR-10- ja CIFAR-100-aineisto — CIFAR-10 sisältää 60 000 pientä 32*32 pikselin kuvaa numeroista 0–9. CIFAR-100 — numerot 0–100.
  23. GTSRB-tietojoukko (saksalainen liikennemerkkien tunnistuksen vertailuarvo) — 50 000 kuvaa 43 liikennemerkistä.Käyttötapaus Python-lähdekoodilla: Liikennemerkkien tunnistus Python-projekti)
  24. ImageNet-tietojoukko — sisältää yli 100 000 lausetta ja noin 1000 kuvaa lausetta kohden.
  25. Rintojen histopatologisten kuvien tietojoukko — tietoaineisto sisältää kuvia rintasyöpänäytteistä. (Sovellusvaihtoehto lähdekoodilla Rintasyövän luokittelu Python-projekti)
  26. Kaupunkimaisemat-tietojoukko — sisältää korkealaatuisia merkintöjä eri kaupunkien katujen videosekvensseistä.
  27. Kinetiikan tietojoukko — sisältää URL-linkkejä noin 6,5 miljoonaan korkealaatuiseen videoon.
  28. MPII-ihmisasennon tietojoukko — aineisto sisältää 25 000 kuvaa ihmisasennoista ja niihin liitetyistä merkinnöistä.
  29. 20BN-jotain-jotain-aineisto v2 — joukko korkealaatuisia videoita, jotka näyttävät henkilön suorittavan tiettyjä toimia.
  30. Objekti 365 -tietojoukko — korkealaatuisten kuvien tietojoukko, jossa on objektien rajaavat laatikot.
  31. Valokuvaluonnosaineisto — sisältää yli 1000 kuvaa ääriviivoineen.
  32. CQ500-tietojoukko — aineisto sisältää 491 pään TT-kuvausta, joissa on 193 317 viipaletta.
  33. IMDB-Wikin tietojoukko — tietojoukko, joka sisältää yli 5 miljoonaa kuvaa kasvoista sukupuoli- ja ikämerkintöineen.Sovellusvaihtoehto lähdekoodilla Sukupuolen ja iän tunnistus Python-projekti)
  34. YouTuben 8 miljoonan tietojoukko — merkitty videotietojoukko, joka sisältää 6,1 miljoonaa YouTube-videotunnusta
  35. Kaupunkiäänen 8K-aineisto — kaupunkiääniaineisto (sisältää 8732 kaupunkiääntä 10 luokasta).
  36. LSUN-tietojoukko — miljoonien värikuvien aineisto maisemista ja kohteista (noin 59 miljoonaa kuvaa, 10 eri maisemaluokkaa ja 20 eri kohdeluokkaa).
  37. RAVDESS-tietojoukko — tunnepuheen audiovisuaalinen tietokanta. (Sovellusvaihtoehto lähdekoodilla Puheen ja tunteiden tunnistuksen Python-projekti)
  38. Librispeech-tietojoukko — aineisto sisältää 1000 tuntia englanninkielistä puhetta eri aksenteilla.
  39. Baidu Apolloscape -tietojoukko — tietojoukko itseohjautuvien teknologioiden kehittämistä varten.
  40. Quandl-tietoportaali — talous- ja rahoitustietojen arkisto (saatavilla on sekä ilmaista että maksullista sisältöä).
  41. Maailmanpankin avoimen datan portaali — tiedot Maailmanpankin kehitysmaille myöntämistä lainoista.
  42. IMF:n dataportaali — Kansainvälisen valuuttarahaston portaali, joka julkaisee tietoja kansainvälisestä rahoituksesta, velkakoroista, investoinneista, valuuttavarannoista ja hyödykkeistä.
  43. Amerikan talousyhdistyksen (AEA) dataportaali — resurssi Yhdysvaltojen makrotaloudellisten tietojen hakemiseen.
  44. Google Trendsin dataportaali - Google Trendsin dataa voidaan käyttää visuaaliseen tutkimiseen ja data-analyysiin.
  45. Financial Timesin markkinatietoportaali — resurssi ajantasaisen tiedon saamiseksi rahoitusmarkkinoista ympäri maailmaa.
  46. Data.gov-portaali — Yhdysvaltain hallituksen avoimen datan portaali (maatalous, terveydenhuolto, ilmasto, koulutus, energia, rahoitus, tiede ja tutkimus jne.).
  47. Dataportaali: Avoin hallinnon data (Intia) — on Intian avoimen hallinnon data-alusta.
  48. Elintarvikeympäristö Atlas Data Portal — sisältää tietoja Yhdysvalloissa tehdystä ravitsemustutkimuksesta.
  49. Terveystietoportaali — on Yhdysvaltain terveys- ja sosiaaliministeriön portaali.
  50. Tautien torjunta- ja ehkäisykeskusten dataportaali — sisältää laajan valikoiman terveyteen liittyvää dataa.
  51. Lontoon tietovarastoportaali - tietoja Lontoon ihmisten elämästä.
  52. Kanadan hallituksen avoimen datan portaali — avoimen datan portaali kanadalaisista (maatalous, taide, musiikki, koulutus, hallinto, terveydenhuolto jne.)

Lue lisää

Lähde: will.com

Osta luotettava isännöinti sivustoille, joissa on DDoS-suojaus, VPS VDS -palvelimet 🔥 Osta luotettavaa verkkosivustojen hostingia DDoS-suojauksella, VPS VDS -palvelimilla | ProHoster