- — tallentaa kävijän tiedot: tunniste, sukupuoli, ikä, tulot, kulutusluokitus. (Sovellusvaihtoehto: )
- — aloittelijoille tarkoitettu tietokanta, joka sisältää eri kukkien verholehtien ja terälehtien koot.
- — käsin kirjoitettujen numeroiden tietojoukko. 60 000 harjoituskuvaa ja 10 000 testikuvaa.
- — suosittu hahmontunnistukseen tarkoitettu tietojoukko. Se sisältää tietoa Bostonin asumisesta, mukaan lukien asuntojen lukumäärän, vuokran ja rikollisuuden määrän.
- — sisältää 7796 merkintää, joissa on uutistunnisteet: tosi tai epätosi.Käyttötapaus Python-lähdekoodilla: )
- — sisältää tietoa viinistä: 4898 tietuetta 14 parametrilla.
- — hyvä aloitusvaihtoehto. Sisältää 25 000 pituus- ja painotietoa 18-vuotiailta.
Artikkeli on käännetty EDISON Softwaren tuella, joka Ja . - — 195 Parkinsonin tautia sairastavan potilastietoa, 25 testiparametria. Voidaan käyttää sairaiden ja terveiden yksilöiden välisten erojen alustavaan arviointiin.Käyttötapaus Python-lähdekoodilla: )
- — sisältää tietoja matkustajista (ikä, sukupuoli, aluksella olevat sukulaiset jne.) 891 harjoitusjoukossa ja 418 testijoukossa.
- — tiedot 4.5 miljoonasta Uber-matkasta vuonna 2014 ja 14 miljoonasta vuonna 2015. (Sovellusvaihtoehto R-lähteellä: )
- — sisältää kuvia brittiläisistä ja kanadalaisista merkeistä 64 luokasta: 0–9, A–Z, az. 7700 luonnollista kuvaa, 3400 000 käsinkirjoitettua kuvaa, 62 000 tietokoneella luotua fonttia.
- — sisältää tietoja vaarantuneilla luottokorteilla tehdyistä tapahtumista. (Sovellusvaihtoehto lähdekoodilla: )
- — JSON-tiedosto, joka sisältää erilaisia tageja: tervehdykset, näkemiin, sairaalan_haku, pharmacy_haku jne. Sisältää joukon kysymys-vastaus-pohjia.Käyttötapaus Python-lähdekoodilla: )
- — sisältää puoli miljoonaa kirjettä 150 Enronin johtajalta.
- — sisältää 1,2 miljoonaa suositusta 1,6 miljoonalta käyttäjältä noin 1,2 miljoonalta organisaatiolta.
- — yli 200 000 kysymys- ja vastaustallennetta suositusta TV-pelistä.
- — portaali, joka sisältää kokoelman UCSD-yliopiston datasettejä. Se sisältää arvostelujen tallenteita suosituilla sivustoilla (Goodreads, Amazon). Se on ihanteellinen suosittelujärjestelmien luomiseen.Sovellusvaihtoehto R-lähteellä: )
- — roskapostin tunnistuksen harjoitusaineisto. Sisältää 4 601 sähköpostia ja 57 metatietoparametria.
- — yli 30 000 kuvaa ja kuvatekstiä. ( — 8 000 kuvaa. Projekti lähdekoodilla Pythonissa: )
- — 25 000 elokuva-arvostelua harjoitusjoukossa ja 25 000 testijoukossa.Sovellusvaihtoehto R-lähteellä: )
- — 1,5 miljoonaa merkittyä kuvaa.
- — CIFAR-10 sisältää 60 000 pientä 32*32 pikselin kuvaa numeroista 0–9. CIFAR-100 — numerot 0–100.
- — 50 000 kuvaa 43 liikennemerkistä.Käyttötapaus Python-lähdekoodilla: )
- — sisältää yli 100 000 lausetta ja noin 1000 kuvaa lausetta kohden.
- — tietoaineisto sisältää kuvia rintasyöpänäytteistä. (Sovellusvaihtoehto lähdekoodilla )
- — sisältää korkealaatuisia merkintöjä eri kaupunkien katujen videosekvensseistä.
- — sisältää URL-linkkejä noin 6,5 miljoonaan korkealaatuiseen videoon.
- — aineisto sisältää 25 000 kuvaa ihmisasennoista ja niihin liitetyistä merkinnöistä.
- — joukko korkealaatuisia videoita, jotka näyttävät henkilön suorittavan tiettyjä toimia.
- — korkealaatuisten kuvien tietojoukko, jossa on objektien rajaavat laatikot.
- — sisältää yli 1000 kuvaa ääriviivoineen.
- — aineisto sisältää 491 pään TT-kuvausta, joissa on 193 317 viipaletta.
- — tietojoukko, joka sisältää yli 5 miljoonaa kuvaa kasvoista sukupuoli- ja ikämerkintöineen.Sovellusvaihtoehto lähdekoodilla )
- — merkitty videotietojoukko, joka sisältää 6,1 miljoonaa YouTube-videotunnusta
- — kaupunkiääniaineisto (sisältää 8732 kaupunkiääntä 10 luokasta).
- — miljoonien värikuvien aineisto maisemista ja kohteista (noin 59 miljoonaa kuvaa, 10 eri maisemaluokkaa ja 20 eri kohdeluokkaa).
- — tunnepuheen audiovisuaalinen tietokanta. (Sovellusvaihtoehto lähdekoodilla )
- — aineisto sisältää 1000 tuntia englanninkielistä puhetta eri aksenteilla.
- — tietojoukko itseohjautuvien teknologioiden kehittämistä varten.
- — talous- ja rahoitustietojen arkisto (saatavilla on sekä ilmaista että maksullista sisältöä).
- — tiedot Maailmanpankin kehitysmaille myöntämistä lainoista.
- — Kansainvälisen valuuttarahaston portaali, joka julkaisee tietoja kansainvälisestä rahoituksesta, velkakoroista, investoinneista, valuuttavarannoista ja hyödykkeistä.
- — resurssi Yhdysvaltojen makrotaloudellisten tietojen hakemiseen.
- - Google Trendsin dataa voidaan käyttää visuaaliseen tutkimiseen ja data-analyysiin.
- — resurssi ajantasaisen tiedon saamiseksi rahoitusmarkkinoista ympäri maailmaa.
- — Yhdysvaltain hallituksen avoimen datan portaali (maatalous, terveydenhuolto, ilmasto, koulutus, energia, rahoitus, tiede ja tutkimus jne.).
- — on Intian avoimen hallinnon data-alusta.
- — sisältää tietoja Yhdysvalloissa tehdystä ravitsemustutkimuksesta.
- — on Yhdysvaltain terveys- ja sosiaaliministeriön portaali.
- — sisältää laajan valikoiman terveyteen liittyvää dataa.
- - tietoja Lontoon ihmisten elämästä.
- — avoimen datan portaali kanadalaisista (maatalous, taide, musiikki, koulutus, hallinto, terveydenhuolto jne.)
Lue lisää
Lähde: will.com
