Nabor podatkov o strankah trgovskega centra — podatki obiskovalcev trgovine: id, spol, starost, dohodek, ocena porabe. (Možnost prijave:Projekt segmentacije strank s strojnim učenjem )Nabor podatkov Iris — nabor podatkov za začetnike, ki vsebuje velikosti čašnih in cvetnih listov za različne rože.Nabor podatkov MNIST — niz podatkov ročno napisanih številk. 60 vadbenih slik in 000 testnih slik.Bostonski nabor stanovanjskih podatkov je priljubljen nabor podatkov za prepoznavanje vzorcev. Vsebuje informacije o hišah v Bostonu: število stanovanj, cene najema, indeks kriminala.Nabor podatkov o odkrivanju lažnih novic — vsebuje 7796 vnosov z oznakami novic: drži ali ne drži. (Možnost aplikacije z izvorno kodo v Pythonu:Projekt Python za odkrivanje lažnih novic )Nabor podatkov o kakovosti vina — vsebuje podatke o vinu: 4898 zapisov s 14 parametri.Podatki SOCR – nabor podatkov o višinah in utežih - dobra možnost za začetek. Vsebuje 25 zapisov o višini in teži 000-letnikov.
Članek je bil preveden s podporo EDISON Software, ki»odlično« izpolnjuje naročila iz južne Kitajske inrazvija spletne aplikacije in spletne strani .Parkinsonov nabor podatkov — 195 kartotek bolnikov s Parkinsonovo boleznijo s 25 analiznimi parametri. Lahko se uporablja za predhodno oceno razlike med bolnimi in zdravimi ljudmi. (Možnost aplikacije z izvorno kodo v Pythonu:Projekt strojnega učenja za odkrivanje Parkinsonove bolezni )Nabor podatkov Titanik — vsebuje informacije o potnikih (starost, spol, sorodniki na krovu itd.) 891 v kompletu za usposabljanje in 418 v kompletu za testiranje.Nabor podatkov Uber Pickups — informacije o 4.5 milijonih potovanj z Uberjem v letu 2014 in 14 milijonih v letu 2015. (Možnost aplikacije z izvorno kodo v R:Uberjev projekt analize podatkov v R )Nabor podatkov Chars74k — vsebuje slike britanskih in kanadskih simbolov 64 razredov: 0-9, A-Z, a-z. 7700 7.7k naravnih slik, 3400k ročno napisanih, 62000 računalniško sintetiziranih pisav.Nabor podatkov o odkrivanju goljufij s kreditnimi karticami — vsebuje informacije o transakcijah ogroženih kreditnih kartic. (Možnost aplikacije z virom:Projekt strojnega učenja za odkrivanje goljufij s kreditnimi karticami )Nabor podatkov o namerah Chatbota — datoteka JSON, ki vsebuje različne oznake: pozdrav, nasvidenje, hospital_search, pharmacy_search itd. Vsebuje niz predlog vprašanj in odgovorov. (Možnost aplikacije z izvorno kodo v Pythonu:Projekt Chatbot v Pythonu )Nabor e-poštnih podatkov Enron — vsebuje pol milijona pisem 150 menedžerjev Enrona.Nabor podatkov Yelp — vsebuje 1,2 milijona priporočil 1,6 milijona uporabnikov iz približno 1,2 milijona organizacij.Nabor podatkov o nevarnosti — več kot 200 posnetkov vprašanj in odgovorov iz priljubljene televizijske igre.Sistemski nabor priporočil — portal z zbirko naborov podatkov univerze UCSD. Vsebuje zapise mnenj na priljubljenih spletnih mestih (Goodreads, Amazon). Odlično za ustvarjanje sistemov priporočil. (Možnost aplikacije z izvorno kodo v R:Projekt sistema za priporočanje filmov v R )Nabor podatkov UCI Spambase — nabor podatkov za usposabljanje za odkrivanje neželene pošte. Vsebuje 4601 črko s 57 parametri metapodatkov.Nabor podatkov Flickr 30k — več kot 30 slik in napisov. (Nabor podatkov Flickr 8k — 8000 slik. Izvorni projekt Python:Generator napisov slik Python Project )IMDB ocene — 25 ocen filmov v kompletu za usposabljanje in 000 v kompletu za testiranje. (Možnost aplikacije z izvorno kodo v R:Znanstveni projekt podatkovne analize razpoloženja )Nabor podatkov MS COCO — 1,5 milijona označenih slik.Nabor podatkov CIFAR-10 in CIFAR-100 — CIFAR-10 vsebuje 60,000 majhnih slik 32*32 slikovnih pik s številkami 0-9. CIFAR-100 - oziroma 0-100.Nabor podatkov GTSRB (nemški merilnik prepoznavanja prometnih znakov). — 50 slik 000 prometnih znakov. (Možnost aplikacije z izvorno kodo v Pythonu:Projekt Python za prepoznavanje prometnih znakov )Nabor podatkov ImageNet — vsebuje več kot 100 stavkov in približno 000 slik na stavek.Nabor podatkov o histopatoloških slikah dojk — nabor podatkov vsebuje slike vzorcev raka dojke. (Možnost aplikacije z vključeno izvorno kodoProjekt Python za klasifikacijo raka dojke )Nabor podatkov mestnih pokrajin — vsebuje visokokakovostne opombe video sekvenc ulic v različnih mestih.Nabor podatkov o kinetiki - vsebuje URL povezavo do približno 6,5 milijona videoposnetkov visoke kakovosti.Nabor podatkov MPII o človeški postavi — nabor podatkov vsebuje 25 slik človeških poz s skupnimi opombami.20BN-nekaj-nekaj nabor podatkov v2 - nabor visokokakovostnih videoposnetkov, ki prikazujejo, kako oseba izvaja neko dejanje.Nabor podatkov Object 365 — nabor visokokakovostnih slik z omejevalnimi okvirji predmetov.Nabor podatkov za skiciranje fotografij — vsebuje več kot 1000 slik z njihovimi orisi.Nabor podatkov CQ500 — nabor podatkov vsebuje 491 CT-skenov glave s 193 rezinami.Nabor podatkov IMDB-Wiki — nabor podatkov z več kot 5 milijoni slik obrazov, označenih po spolu in starosti. (Možnost aplikacije z vključeno izvorno kodoProjekt Python za odkrivanje spola in starosti )Nabor podatkov Youtube 8M - Označen video podatkovni niz, ki vsebuje 6,1 milijona Youtube video ID-jevNabor podatkov Urban Sound 8K — nabor mestnih zvokov (vsebuje 8732 urbanih zvokov iz 10 razredov).Nabor podatkov LSUN - podatkovni niz milijonov barvnih slik prizorov in predmetov (približno 59 milijonov slik, 10 različnih kategorij prizorov in 20 različnih kategorij objektov).Nabor podatkov RAVDESS — avdiovizualna baza čustvenega govora. (Možnost aplikacije z vključeno izvorno kodoProjekt Python za prepoznavanje govornih čustev )Nabor podatkov Librispeech — nabor podatkov vsebuje 1000 ur angleškega govora z različnimi poudarki.Nabor podatkov Baidu Apolloscape — nabor podatkov za razvoj samovozečih tehnologij.Podatkovni portal Quandl — repozitorij ekonomskih in finančnih podatkov (obstajajo brezplačne in plačljive vsebine).Portal odprtih podatkov Svetovne banke — informacije o posojilih, ki jih je Svetovna banka izdala državam v razvoju.Podatkovni portal IMF je portal mednarodnega denarnega sklada, ki objavlja podatke o mednarodnih financah, stopnjah dolga, naložbah, deviznih rezervah in blagu.Podatkovni portal Ameriškega gospodarskega združenja (AEA). - Vir za iskanje makroekonomskih podatkov ZDA.Podatkovni portal Google Trends - Googlove podatke o trendih je mogoče uporabiti za vizualno raziskovanje in analizo podatkov.Portal tržnih podatkov Financial Times je vir za najnovejše informacije o finančnih trgih z vsega sveta.Portal Data.gov - Portal odprtih podatkov vlade ZDA (kmetijstvo, zdravje, podnebje, izobraževanje, energija, finance, znanost in raziskave itd.).Podatkovni portal: Odprti vladni podatki (Indija) je indijska odprta vladna podatkovna platforma.Živilsko okolje Atlas Data Portal — vsebuje raziskovalne podatke o prehrani v ZDA.Portal zdravstvenih podatkov je portal Ministrstva za zdravje in socialne zadeve ZDA.Podatkovni portal centrov za nadzor in preprečevanje bolezni - vsebuje široko paleto podatkov, povezanih z zdravjem.London Datastore Portal - podatki o življenju ljudi v Londonu.Kanadski vladni portal odprtih podatkov - portal odprtih podatkov o Kanadčanih (kmetijstvo, umetnost, glasba, izobraževanje, vlada, zdravstvo itd.)
Preberi več
14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko) Front-end dojo: projekti za urjenje veščin razvijalcev (5 novih + 43 starih) Top 12 najbolj zanimivih IT dinamičnih infografik
Vir: www.habr.com