Mallin asiakkaiden tietojoukko — myymälän kävijöiden tiedot: id, sukupuoli, ikä, tulot, kulutusluokitus. (Sovellusvaihtoehto:Asiakassegmentointiprojekti koneoppimisen kanssa )Iris-tietojoukko — tietojoukko aloittelijoille, joka sisältää verho- ja terälehtien koot eri kukille.MNIST Dataset — käsinkirjoitettujen numeroiden tietojoukko. 60 000 harjoituskuvaa ja 10 000 testikuvaa.Bostonin asuntotietojoukko on suosittu tietojoukko kuvioiden tunnistamiseen. Sisältää tietoa taloista Bostonissa: asuntojen lukumäärä, vuokrahinnat, rikosindeksi.Fake News Detection Dataset — sisältää 7796 uutismerkintää: tosi tai epätosi. (Sovellusvaihtoehto lähdekoodilla Pythonissa:Fake News Detection Python Project )Viinin laatutietojoukko — sisältää tietoa viinistä: 4898 tietuetta 14 parametrilla.SOCR-tiedot – korkeus- ja painotiedot - hyvä vaihtoehto aloittaa. Sisältää 25 000 tietuetta 18-vuotiaiden pituudesta ja painosta.
Artikkeli on käännetty EDISON Softwaren tuella, jokatäyttää Etelä-Kiinan tilaukset "erinomaisesti" Jakehittää verkkosovelluksia ja verkkosivustoja .Parkinsonin tietojoukko — 195 kirjaa Parkinsonin tautia sairastavista potilaista ja 25 analyysiparametria. Voidaan käyttää sairaiden ja terveiden ihmisten välisen eron alustavaan arviointiin. (Sovellusvaihtoehto lähdekoodilla Pythonissa:Koneoppimisprojekti Parkinsonin taudin havaitsemiseksi )Titanic -tietojoukko — sisältää tietoja matkustajista (ikä, sukupuoli, sukulaiset koneessa jne.) 891 koulutussarjassa ja 418 testisarjassa.Uber Pickups Dataset — tiedot 4.5 miljoonasta Uber-matkasta vuonna 2014 ja 14 miljoonasta vuonna 2015. (Sovellusvaihtoehto lähdekoodilla R:ssä:Uber Data Analysis Project in R )Chars74k Dataset — sisältää kuvia brittiläisistä ja kanadalaisista 64 luokan symboleista: 0-9, AZ, az. 7700 7.7k luonnollista kuvaa, 3400k käsinkirjoitettua, 62000 tietokoneella syntetisoitua fonttia.Luottokorttipetosten havaitsemisen tietojoukko — sisältää tietoja vaarantuneiden luottokorttien tapahtumista. (Sovellusvaihtoehto lähteellä:Luottokorttipetosten havaitsemisen koneoppimisprojekti )Chatbot Intents Dataset — JSON-tiedosto, joka sisältää erilaisia tunnisteita: tervehdys, näkemiin, hospital_search, pharmacy_search jne. Sisältää joukon kysymys-vastausmalleja. (Sovellusvaihtoehto lähdekoodilla Pythonissa:Chatbot-projekti Pythonissa )Enronin sähköpostitietojoukko — sisältää puoli miljoonaa kirjettä 150 Enronin johtajalta.Yelp-tietojoukko — sisältää 1,2 miljoonaa suositusta 1,6 miljoonalta käyttäjältä noin 1,2 miljoonalta organisaatiolta.Vaaratietosarja — yli 200 000 kysymys-vastaustallenteita suositusta televisiopelistä.Recommender Systems Dataset — portaali, jossa on kokoelma UCSD-yliopiston tietojoukkoja. Sisältää tietueita suosituista sivustoista (Goodreads, Amazon) tehdyistä arvosteluista. Erinomainen suositusjärjestelmien luomiseen. (Sovellusvaihtoehto lähdekoodilla R:ssä:Elokuvasuositusjärjestelmäprojekti R:ssä )UCI Spambase Dataset — koulutustietojoukko roskapostin havaitsemiseen. Sisältää 4601 kirjainta ja 57 metatietoparametria.Flickr 30k -tietojoukko - yli 30 000 kuvaa ja kuvatekstiä. (Flickr 8k -tietojoukko - 8000 kuvaa. Python-lähdeprojekti:Image Caption Generator Python Project )IMDB arvostelut — 25 000 elokuva-arvostelua harjoitussarjassa ja 25 000 testisarjassa. (Sovellusvaihtoehto lähdekoodilla R:ssä:Tunneanalyysin tietotiedeprojekti )MS COCO -tietojoukko - 1,5 miljoonaa merkittyä kuvaa.CIFAR-10 ja CIFAR-100 tietojoukko — CIFAR-10 sisältää 60,000 32 pientä kuvaa 32*0 pikselin numeroilla 9-100. CIFAR-0 - vastaavasti 100-XNUMX.GTSRB (saksalainen liikennemerkkien tunnistamisen vertailuarvo) tietojoukko — 50 000 kuvaa 43 liikennemerkistä. (Sovellusvaihtoehto lähdekoodilla Pythonissa:Liikennemerkkien tunnistus Python-projekti )ImageNet-tietojoukko - sisältää yli 100 000 lausetta ja noin 1000 kuvaa lausetta kohden.Rintojen histopatologian kuvien tietojoukko — Aineisto sisältää kuvia rintasyöpänäytteistä. (Sovellusvaihtoehto lähdekoodilla päälläRintasyövän luokittelu Python-projekti )Kaupunkimaisemat-tietojoukko — sisältää korkealaatuisia huomautuksia eri kaupunkien katujen videosarjoista.Kinetiikan tietojoukko - sisältää URL-linkin noin 6,5 miljoonaan korkealaatuiseen videoon.MPII-ihmisasennon tietojoukko — Aineisto sisältää 25 000 kuvaa ihmisen asennoista yhteisillä huomautuksilla.20BN-something-something -tietojoukko v2 - joukko korkealaatuisia videoita, jotka näyttävät, kuinka henkilö suorittaa jonkin toiminnon.Objektin 365 tietojoukko — tietojoukko korkealaatuisista kuvista, joissa on objektien rajauslaatikot.Valokuvien luonnostelutietojoukko - sisältää yli 1000 kuvaa ääriviivapiirroksineen.CQ500 Dataset — tietojoukko sisältää 491 pään CT-kuvaa ja 193 317 viipaletta.IMDB-Wiki-aineisto — tietojoukko, jossa on yli 5 miljoonaa kuvaa kasvoista, jotka on merkitty sukupuolen ja iän mukaan. (Sovellusvaihtoehto lähdekoodilla päälläSukupuolen ja iän tunnistus Python-projekti )Youtube 8M Dataset - Merkitty videotietojoukko, joka sisältää 6,1 miljoonaa Youtube-videotunnustaUrban Sound 8K -tietojoukko — joukko kaupunkiäänitietoja (sisältää 8732 kaupunkiääntä 10 luokasta).LSUN-tietojoukko - Tietojoukko miljoonista värikuvista kohtauksista ja kohteista (noin 59 miljoonaa kuvaa, 10 eri kohtausluokkaa ja 20 eri kohdeluokkaa).RAVDESS Dataset — tunnepuheen audiovisuaalinen tietokanta. (Sovellusvaihtoehto lähdekoodilla päälläPuheen tunteiden tunnistus Python-projekti )Librispeech Dataset — Aineisto sisältää 1000 tuntia englanninkielistä puhetta erilaisilla aksenteilla.Baidu Apolloscape Dataset — tietojoukko itseohjautuvien teknologioiden kehittämistä varten.Quandl-tietoportaali — Talous- ja rahoitustietojen arkisto (on ilmaista ja maksullista sisältöä).Maailmanpankin avoimen datan portaali — tiedot Maailmanpankin kehitysmaille myöntämistä lainoista.IMF:n tietoportaali on kansainvälinen valuuttarahastoportaali, joka julkaisee tietoja kansainvälisestä rahoituksesta, velkakoroista, investoinneista, valuuttavarannoista ja hyödykkeistä.American Economic Associationin (AEA) tietoportaali - Resurssi Yhdysvaltain makrotaloudellisten tietojen etsimiseen.Google Trends -tietoportaali - Googlen trenditietoja voidaan käyttää datan visuaaliseen tutkimiseen ja analysointiin.Financial Timesin markkinatietoportaali on resurssi ajantasaiselle rahoitusmarkkinoita koskevalle tiedolle eri puolilta maailmaa.Data.gov-portaali - Yhdysvaltain hallituksen avoin tietoportaali (maatalous, terveys, ilmasto, koulutus, energia, rahoitus, tiede ja tutkimus jne.).Tietoportaali: Avoin hallintodata (Intia) on Intian avoimen hallinnon tietoalusta.Ruokaympäristö Atlas Data Portal — sisältää tutkimustietoa ravitsemuksesta Yhdysvalloissa.Terveystietoportaali on Yhdysvaltain terveys- ja henkilöstöministeriön portaali.Tautien torjunta- ja ehkäisykeskusten tietoportaali - sisältää laajan valikoiman terveyteen liittyviä tietoja.Lontoon Datastore-portaali - tiedot ihmisten elämästä Lontoossa.Kanadan hallituksen avoimen datan portaali - portaali, jossa on avointa tietoa kanadalaisista (maatalous, taide, musiikki, koulutus, hallinto, terveydenhuolto jne.)
Lue lisää
14 avoimen lähdekoodin projektia datatieteen taitojen parantamiseksi (helppo, normaali, kova) Käyttöliittymädojo: projektit kehittäjien taitojen kouluttamiseen (5 uutta + 43 vanhaa) Top 12 mielenkiintoisinta IT-dynaamista infografiikkaa
Lähde: will.com