Mall Kunde Datasæt — data for butiksbesøgende: id, køn, alder, indkomst, forbrugsvurdering. (Ansøgningsmulighed:Kundesegmenteringsprojekt med Machine Learning )Iris datasæt — et datasæt for begyndere, der indeholder størrelserne af bægerblade og kronblade til forskellige blomster.MNIST-datasæt — et datasæt med håndskrevne numre. 60 træningsbilleder og 000 testbilleder.Boston Housing Dataset er et populært datasæt til mønstergenkendelse. Indeholder oplysninger om huse i Boston: antal lejligheder, lejepriser, kriminalitetsindeks.Datasæt til registrering af falske nyheder — indeholder 7796 indlæg med nyhedsmarkeringer: sandt eller falsk. (Applikationsmulighed med kildekode i Python:Fake News Detection Python Project )Datasæt af vinkvalitet — indeholder oplysninger om vin: 4898 poster med 14 parametre.SOCR-data – Datasæt for højder og vægte - en god mulighed at starte med. Indeholder 25 optegnelser over højden og vægten af 000-årige mennesker.
Artiklen er oversat med støtte fra EDISON Software, somopfylder ordrer fra det sydlige Kina "fremragende" ogudvikler webapplikationer og hjemmesider .Parkinson datasæt — 195 registreringer af patienter med Parkinsons sygdom med 25 analyseparametre. Kan bruges til foreløbig vurdering af forskellen mellem syge og raske. (Applikationsmulighed med kildekode i Python:Maskinlæringsprojekt om påvisning af Parkinsons sygdom )Titanic datasæt — indeholder oplysninger om passagerer (alder, køn, pårørende om bord osv.) 891 i træningssættet og 418 i testsættet.Uber Pickups datasæt — oplysninger om 4.5 millioner rejser på Uber i 2014 og 14 millioner i 2015. (Applikationsmulighed med kildekode i R:Uber Data Analysis Project i R )Chars74k datasæt — indeholder billeder af britiske og canadiske symboler i 64 klasser: 0-9, AZ, az. 7700 7.7 k naturlige billeder, 3400 k håndskrevne, 62000 XNUMX computersyntetiserede skrifttyper.Datasæt for registrering af svindel med kreditkort — indeholder oplysninger om transaktioner med kompromitterede kreditkort. (Ansøgningsmulighed med kilde:Maskinlæringsprojekt for registrering af svindel med kreditkort )Chatbot Intents Datasæt — en JSON-fil, der indeholder forskellige tags: hilsener, farvel, hospital_search, pharmacy_search osv. Indeholder et sæt spørgsmål-svar-skabeloner. (Applikationsmulighed med kildekode i Python:Chatbot-projekt i Python )Enron e-mail-datasæt — indeholder en halv million breve fra 150 Enron-managere.Yelp-datasættet — indeholder 1,2 millioner anbefalinger fra 1,6 millioner brugere omkring 1,2 millioner organisationer.Jeopardy Datasæt — mere end 200 spørgsmål-og-svar-optagelser fra det populære tv-spil.Datasæt for anbefalede systemer — en portal med en samling af datasæt fra UCSD University. Indeholder registreringer af anmeldelser på populære websteder (Goodreads, Amazon). Fantastisk til at skabe anbefalingssystemer. (Applikationsmulighed med kildekode i R:Filmanbefalingssystemprojekt i R )UCI Spambase Datasæt — et træningsdatasæt til detektering af spam. Indeholder 4601 bogstaver med 57 metadataparametre.Flickr 30k datasæt — mere end 30 billeder og billedtekster. (Flickr 8k datasæt - 8000 billeder. Python-kildeprojekt:Billedtekstgenerator Python-projekt )IMDB anmeldelser — 25 filmanmeldelser i træningssættet og 000 i testsættet. (Applikationsmulighed med kildekode i R:Sentiment Analysis Data Science Project )MS COCO datasæt — 1,5 millioner mærkede billeder.CIFAR-10 og CIFAR-100 datasæt — CIFAR-10 indeholder 60,000 små billeder af 32*32 pixels numrene 0-9. CIFAR-100 - henholdsvis 0-100.GTSRB (German traffic sign recognition benchmark) Datasæt — 50 billeder af 000 vejskilte. (Applikationsmulighed med kildekode i Python:Python-projekt til genkendelse af trafikskilte )ImageNet datasæt — indeholder mere end 100 sætninger og omkring 000 billeder pr. sætning.Breast Histopathology Images Datasæt — Datasættet indeholder billeder af brystkræftprøver. (Applikationsmulighed med kildekode påBrystkræftklassificering Python-projekt )Bybilleder Datasæt — indeholder højkvalitets annoteringer af videosekvenser af gader i forskellige byer.Kinetik datasæt - indeholder et URL-link til omkring 6,5 millioner videoer i høj kvalitet.MPII human pose datasæt — Datasættet indeholder 25 billeder af menneskelige stillinger med fælles annoteringer.20BN-noget-noget datasæt v2 - et sæt videoer i høj kvalitet, der viser, hvordan en person udfører en handling.Objekt 365 Datasæt — et datasæt af billeder af høj kvalitet med objektafgrænsningsrammer.Fotoskitseringsdatasæt — indeholder mere end 1000 billeder med deres konturtegninger.CQ500 datasæt — Datasættet indeholder 491 CT-scanninger af hovedet med 193 skiver.IMDB-Wiki datasæt — et datasæt med mere end 5 millioner billeder af ansigter markeret efter køn og alder. (Applikationsmulighed med kildekode påPython-projektet til registrering af køn og alder )Youtube 8M datasæt - Et mærket videodatasæt, der indeholder 6,1 millioner YouTube-video-id'erUrban Sound 8K datasæt — et sæt bylyddata (indeholder 8732 bylyde fra 10 klasser).LSUN Datasæt - et datasæt med millioner af farvebilleder af scener og objekter (ca. 59 millioner billeder, 10 forskellige scenekategorier og 20 forskellige objektkategorier).RAVDESS Datasæt — audiovisuel database med følelsesmæssig tale. (Applikationsmulighed med kildekode påSpeech Emotion Recognition Python Project )Librispeech Datasæt — Datasættet indeholder 1000 timers engelsk tale med forskellige accenter.Baidu Apolloscape datasæt — et datasæt til udvikling af selvkørende teknologier.Quandl dataportal — lager af økonomiske og finansielle data (der er gratis og betalt indhold).Verdensbankens åbne dataportal — oplysninger om lån udstedt af Verdensbanken til udviklingslande.IMFs dataportal er en international pengefondsportal, der udgiver data om international finans, gældsrater, investeringer, valutareserver og råvarer.American Economic Association (AEA) dataportal - En ressource til at søge i amerikanske makroøkonomiske data.Google Trends dataportal - Google trenddata kan bruges til visuelt at udforske og analysere data.Financial Times Market Data Portal er en ressource til opdateret information om finansielle markeder fra hele verden.Data.gov portal - Den amerikanske regerings åbne dataportal (landbrug, sundhed, klima, uddannelse, energi, finans, videnskab og forskning osv.).Dataportal: Åbne offentlige data (Indien) er Indiens åbne offentlige dataplatform.Fødevaremiljø Atlas Dataportal — indeholder forskningsdata om ernæring i USA.Sundhedsdataportal er en portal for US Department of Health and Human Services.Centers for Disease Control and Prevention Data Portal - indeholder en lang række sundhedsrelaterede data.London Datastore Portal - data om folks liv i London.Canadas regerings åbne dataportal - en portal med åbne data om canadiere (landbrug, kunst, musik, uddannelse, regering, sundhedspleje osv.)
Læs mere
14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt) Front-end dojo: projekter til at træne udviklerfærdigheder (5 nye + 43 gamle) Top 12 mest interessante IT Dynamic Infographics
Kilde: www.habr.com