Skup podataka o kupcima trgovačkog centra — podaci o posjetiocima trgovine: ID, spol, starost, prihod, ocjena potrošnje. (Mogućnost prijave:Projekt segmentacije kupaca sa mašinskim učenjem )Iris Dataset — skup podataka za početnike, koji sadrži veličine čašica i latica za različito cvijeće.MNIST skup podataka — skup podataka ručno pisanih brojeva. 60 slika treninga i 000 testnih slika.The Boston Housing Dataset je popularan skup podataka za prepoznavanje uzoraka. Sadrži informacije o kućama u Bostonu: broj stanova, cijene najma, indeks kriminala.Skup podataka za otkrivanje lažnih vijesti — sadrži 7796 unosa sa oznakama vijesti: istinito ili netačno. (Opcija aplikacije sa izvornim kodom u Pythonu:Python projekat za otkrivanje lažnih vijesti )Skup podataka o kvaliteti vina — sadrži informacije o vinu: 4898 zapisa sa 14 parametara.SOCR podaci – Skup podataka o visinama i težinama - dobra opcija za početak. Sadrži 25 zapisa o visini i težini 000-godišnjaka.
Članak je preveden uz podršku EDISON softvera, kojiispunjava narudžbe iz južne Kine "odlično" Irazvija web aplikacije i web stranice .Parkinson Dataset — 195 zapisa pacijenata sa Parkinsonovom bolešću, sa 25 parametara analize. Može se koristiti za preliminarnu procjenu razlike između bolesnih i zdravih ljudi. (Opcija aplikacije sa izvornim kodom u Pythonu:Projekt mašinskog učenja o otkrivanju Parkinsonove bolesti )Titanic Dataset — sadrži informacije o putnicima (starost, pol, rođaci na brodu, itd.) 891 u setu za obuku i 418 u setu za testiranje.Uber skup podataka o preuzimanju — informacije o 4.5 miliona putovanja Uberom u 2014. i 14 miliona u 2015. (Opcija aplikacije sa izvornim kodom u R:Uberov projekat analize podataka u R )Chars74k Dataset — sadrži slike britanskih i kanadskih simbola 64 klase: 0-9, AZ, az. 7700 7.7k prirodnih slika, 3400k rukom pisanih, 62000 kompjuterski sintetiziranih fontova.Skup podataka za otkrivanje prijevara s kreditnim karticama — sadrži informacije o transakcijama kompromitovanih kreditnih kartica. (Opcija aplikacije sa izvorom:Projekt mašinskog učenja za otkrivanje prijevara s kreditnim karticama )Skup podataka o namjerama chatbota — JSON fajl koji sadrži različite oznake: pozdravi, zbogom, hospital_search, pharmacy_search, itd. Sadrži skup šablona pitanje-odgovor. (Opcija aplikacije sa izvornim kodom u Pythonu:Chatbot projekat u Pythonu )Enron skup podataka e-pošte — sadrži pola miliona pisama od 150 Enronovih menadžera.Yelp skup podataka — sadrži 1,2 miliona preporuka od 1,6 miliona korisnika oko 1,2 miliona organizacija.Jeopardy Dataset — više od 200 snimaka pitanja i odgovora iz popularne televizijske igre.Recommender Systems Dataset — portal sa kolekcijom skupova podataka sa Univerziteta UCSD. Sadrži zapise recenzija na popularnim stranicama (Goodreads, Amazon). Odlično za kreiranje sistema preporuka. (Opcija aplikacije sa izvornim kodom u R:Projekat sistema filmskih preporuka u R )Skup podataka UCI Spambase — skup podataka za obuku za otkrivanje neželjene pošte. Sadrži 4601 slovo sa 57 parametara metapodataka.Flickr 30k skup podataka — više od 30 slika i natpisa. (Flickr 8k skup podataka — 8000 slika. Python izvorni projekat:Image Caption Generator Python Project )IMDB recenzije — 25 filmskih recenzija u setu za obuku i 000 u test setu. (Opcija aplikacije sa izvornim kodom u R:Projekt nauke o podacima analize sentimenta )MS COCO skup podataka — 1,5 miliona označenih slika.CIFAR-10 i CIFAR-100 skup podataka — CIFAR-10 sadrži 60,000 malih slika veličine 32*32 piksela brojeva 0-9. CIFAR-100 - respektivno, 0-100.GTSRB (Njemački standard za prepoznavanje saobraćajnih znakova) Skup podataka — 50 slika 000 putokaza. (Opcija aplikacije sa izvornim kodom u Pythonu:Python projekat za prepoznavanje saobraćajnih znakova )ImageNet skup podataka — sadrži više od 100 fraza i oko 000 slika po frazi.Skup podataka histopatoloških slika dojke — skup podataka sadrži slike uzoraka raka dojke. (Opcija aplikacije sa uključenim izvornim kodomPython projekat klasifikacije raka dojke )Cityscapes Dataset — sadrži visokokvalitetne napomene video sekvenci ulica u različitim gradovima.Kinetics Dataset - sadrži URL link do oko 6,5 miliona video zapisa visokog kvaliteta.MPII skup podataka o ljudskoj pozi — skup podataka sadrži 25 slika ljudskih poza sa zajedničkim napomenama.20BN-nešto-nešto skup podataka v2 - skup visokokvalitetnih video zapisa koji pokazuju kako osoba izvodi neku radnju.Objekat 365 skup podataka — skup podataka visokokvalitetnih slika sa okvirima za ograničavanje objekata.Skup podataka za skiciranje fotografija — sadrži više od 1000 slika sa njihovim okvirnim crtežima.CQ500 Dataset — skup podataka sadrži 491 CT skeniranje glave sa 193 317 rezova.IMDB-Wiki skup podataka — skup podataka sa više od 5 miliona slika lica označenih po polu i starosti. (Opcija aplikacije sa uključenim izvornim kodomPython projekat za detekciju roda i starosti )Youtube 8M skup podataka - Označeni skup video podataka koji sadrži 6,1 milion ID-ova Youtube videaUrban Sound 8K skup podataka — skup podataka o urbanom zvuku (sadrži 8732 urbana zvuka iz 10 klasa).LSUN Dataset - skup podataka od miliona slika u boji scena i objekata (oko 59 miliona slika, 10 različitih kategorija scena i 20 različitih kategorija objekata).RAVDESS Dataset — audiovizuelna baza podataka emocionalnog govora. (Opcija aplikacije sa uključenim izvornim kodomPython projekat za prepoznavanje emocija govora )Librispeech Dataset — skup podataka sadrži 1000 sati engleskog govora s različitim akcentima.Baidu Apolloscape Dataset — skup podataka za razvoj samovozećih tehnologija.Quandl Data Portal — repozitorijum ekonomskih i finansijskih podataka (postoji besplatan i plaćeni sadržaj).Portal otvorenih podataka Svjetske banke — informacije o zajmovima koje je Svjetska banka izdala zemljama u razvoju.Portal podataka MMF-a je portal međunarodnog monetarnog fonda koji objavljuje podatke o međunarodnim finansijama, stopama duga, investicijama, deviznim rezervama i robi.Portal podataka Američkog ekonomskog udruženja (AEA). - Resurs za pretraživanje američkih makroekonomskih podataka.Portal podataka Google Trends - Google podaci o trendovima mogu se koristiti za vizualno istraživanje i analizu podataka.Portal sa tržišnim podacima Financial Timesa je izvor za ažurirane informacije o finansijskim tržištima iz cijelog svijeta.Data.gov Portal - Portal otvorenih podataka vlade SAD (poljoprivreda, zdravstvo, klima, obrazovanje, energija, finansije, nauka i istraživanje, itd.).Portal podataka: Otvoreni vladini podaci (Indija) je indijska platforma otvorenih državnih podataka.Okruženje hrane Atlas Data Portal — sadrži podatke istraživanja o ishrani u Sjedinjenim Državama.Portal zdravstvenih podataka je portal Ministarstva zdravlja i ljudskih usluga SAD.Podatkovni portal centara za kontrolu i prevenciju bolesti - sadrži širok spektar zdravstvenih podataka.London Datastore Portal - podaci o životima ljudi u Londonu.Portal otvorenih podataka vlade Kanade - portal otvorenih podataka o Kanađanima (poljoprivreda, umjetnost, muzika, obrazovanje, vlada, zdravstvo, itd.)
Čitaj više
14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško) Front-end dojo: projekti za obuku razvojnih vještina (5 novih + 43 starih) Top 12 najzanimljivijih IT dinamičkih infografika
izvor: www.habr.com