Skup podataka o kupcima trgovačkog centra — podaci o posjetiteljima trgovine: ID, spol, dob, prihod, ocjena potrošnje. (Mogućnost primjene:Projekt segmentacije kupaca sa strojnim učenjem )Skup podataka šarenice — skup podataka za početnike, koji sadrži veličine čašica i latica za različito cvijeće.Skup podataka MNIST-a — skup podataka rukom pisanih brojeva. 60 000 slika za obuku i 10 000 slika za testiranje.Bostonski skup podataka o stambenim objektima je popularan skup podataka za prepoznavanje uzoraka. Sadrži podatke o kućama u Bostonu: broj stanova, cijene najma, indeks kriminala.Skup podataka o otkrivanju lažnih vijesti — sadrži 7796 unosa s oznakama vijesti: točno ili netočno. (Opcija aplikacije s izvornim kodom u Pythonu:Python projekt otkrivanja lažnih vijesti )Skup podataka o kvaliteti vina — sadrži podatke o vinu: 4898 zapisa s 14 parametara.SOCR podaci – Skup podataka o visini i težini - dobra opcija za početak. Sadrži 25 000 zapisa o visini i težini 18-godišnjaka.
Članak je preveden uz potporu EDISON Softwarea, kojiispunjava narudžbe iz južne Kine “izvrsno” Irazvija web aplikacije i web stranice .Parkinsonov skup podataka — 195 zapisa pacijenata s Parkinsonovom bolešću, s 25 parametara analize. Može se koristiti za preliminarnu procjenu razlike između bolesnih i zdravih ljudi. (Opcija aplikacije s izvornim kodom u Pythonu:Projekt strojnog učenja o otkrivanju Parkinsonove bolesti )Titanic skup podataka — sadrži informacije o putnicima (dob, spol, rođaci na brodu itd.) 891 u setu za obuku i 418 u setu za testiranje.Skup podataka Uber Pickups — podaci o 4.5 milijuna putovanja Uberom u 2014. i 14 milijuna u 2015. (Opcija aplikacije s izvornim kodom u R:Uberov projekt analize podataka u R )Skup podataka Chars74k — sadrži slike britanskih i kanadskih simbola 64 klase: 0-9, AZ, az. 7700 7.7k prirodnih slika, 3400k rukom pisanih, 62000 računalno sintetiziranih fontova.Skup podataka o otkrivanju prijevara s kreditnim karticama — sadrži podatke o transakcijama kompromitiranih kreditnih kartica. (Mogućnost aplikacije s izvorom:Projekt strojnog učenja za otkrivanje prijevara s kreditnim karticama )Skup podataka o namjerama chatbota — JSON datoteka koja sadrži različite oznake: pozdrav, zbogom, hospital_search, pharmacy_search itd. Sadrži skup predložaka pitanja i odgovora. (Opcija aplikacije s izvornim kodom u Pythonu:Chatbot projekt u Pythonu )Enronov skup podataka e-pošte — sadrži pola milijuna pisama od 150 menadžera Enrona.Skup podataka Yelp — sadrži 1,2 milijuna preporuka od 1,6 milijuna korisnika oko 1,2 milijuna organizacija.Skup podataka o opasnostima — više od 200 snimaka pitanja i odgovora iz popularne televizijske igre.Skup podataka o sustavima preporuka — portal sa zbirkom skupova podataka Sveučilišta UCSD. Sadrži zapise recenzija na popularnim stranicama (Goodreads, Amazon). Izvrstan za stvaranje sustava preporuka. (Opcija aplikacije s izvornim kodom u R:Projekt sustava za preporuku filmova u R )UCI spambase skup podataka — skup podataka za obuku za otkrivanje neželjene pošte. Sadrži 4601 slovo s 57 parametara metapodataka.Skup podataka Flickr 30k — više od 30 000 slika i opisa. (Skup podataka Flickr 8k — 8000 slika. Python izvorni projekt:Generator natpisa slike Python projekt )IMDB recenzije — 25 000 recenzija filmova u setu za obuku i 25 000 u setu za testiranje. (Opcija aplikacije s izvornim kodom u R:Znanstveni projekt analize raspoloženja )Skup podataka MS COCO — 1,5 milijuna označenih slika.Skup podataka CIFAR-10 i CIFAR-100 — CIFAR-10 sadrži 60,000 32 malih slika od 32*0 piksela brojevima 9-100. CIFAR-0 - odnosno 100-XNUMX.Skup podataka GTSRB (njemačka referentna vrijednost za prepoznavanje prometnih znakova). — 50 000 slika 43 prometna znaka. (Opcija aplikacije s izvornim kodom u Pythonu:Python projekt za prepoznavanje prometnih znakova )ImageNet skup podataka — sadrži više od 100 000 fraza i oko 1000 slika po frazi.Skup podataka o histopatološkim slikama dojke — skup podataka sadrži slike uzoraka raka dojke. (Opcija aplikacije s uključenim izvornim kodomPython projekt klasifikacije raka dojke )Skup podataka o gradskim pejzažima — sadrži visokokvalitetne bilješke video sekvenci ulica u različitim gradovima.Kinetički skup podataka - sadrži URL poveznicu na oko 6,5 milijuna video zapisa visoke kvalitete.MPII skup podataka o ljudskoj pozi — skup podataka sadrži 25 000 slika ljudskih poza sa zajedničkim komentarima.20BN-nešto-nešto skup podataka v2 - skup visokokvalitetnih videozapisa koji pokazuju kako osoba izvodi neku radnju.Skup podataka Object 365 — skup podataka visokokvalitetnih slika s okvirima za ograničavanje objekata.Skup podataka za skiciranje fotografija — sadrži više od 1000 slika s njihovim obrisima.Skup podataka CQ500 — skup podataka sadrži 491 CT snimku glave s 193 317 rezova.IMDB-Wiki skup podataka — skup podataka s više od 5 milijuna slika lica označenih prema spolu i dobi. (Opcija aplikacije s uključenim izvornim kodomPython projekt za otkrivanje spola i dobi )Skup podataka Youtube 8M - Označeni video skup podataka koji sadrži 6,1 milijun Youtube video ID-ovaSkup podataka Urban Sound 8K — skup podataka o urbanom zvuku (sadrži 8732 urbana zvuka iz 10 klasa).Skup podataka LSUN - skup podataka od milijuna slika u boji scena i objekata (oko 59 milijuna slika, 10 različitih kategorija scena i 20 različitih kategorija objekata).Skup podataka RAVDESS — audiovizualna baza podataka emocionalnog govora. (Opcija aplikacije s uključenim izvornim kodomPython projekt za prepoznavanje govornih emocija )Librispeech skup podataka — skup podataka sadrži 1000 sati engleskog govora s različitim naglascima.Skup podataka Baidu Apolloscape — skup podataka za razvoj tehnologija samovozećih vozila.Quandl podatkovni portal — repozitorij ekonomskih i financijskih podataka (postoji besplatni i plaćeni sadržaj).Portal otvorenih podataka Svjetske banke — informacije o zajmovima koje je Svjetska banka izdala zemljama u razvoju.MMF Data Portal je portal međunarodnog monetarnog fonda koji objavljuje podatke o međunarodnim financijama, stopama duga, ulaganjima, deviznim rezervama i robi.Podatkovni portal Američkog ekonomskog udruženja (AEA). - Resurs za pretraživanje američkih makroekonomskih podataka.Podatkovni portal Google trendova - Podaci Google trenda mogu se koristiti za vizualno istraživanje i analizu podataka.Portal tržišnih podataka Financial Timesa je izvor najnovijih informacija o financijskim tržištima iz cijelog svijeta.Portal Data.gov - Portal otvorenih podataka američke vlade (poljoprivreda, zdravlje, klima, obrazovanje, energija, financije, znanost i istraživanje itd.).Podatkovni portal: otvoreni državni podaci (Indija) je indijska platforma otvorenih državnih podataka.Okruženje hrane Atlas Data Portal — sadrži podatke istraživanja o prehrani u Sjedinjenim Državama.Portal zdravstvenih podataka je portal američkog Ministarstva zdravstva i društvenih usluga.Portal podataka Centra za kontrolu i prevenciju bolesti - sadrži širok raspon zdravstvenih podataka.London Datastore Portal - podaci o životu ljudi u Londonu.Portal otvorenih podataka kanadske vlade - portal otvorenih podataka o Kanađanima (poljoprivreda, umjetnost, glazba, obrazovanje, državna uprava, zdravstvo itd.)
Čitaj više
14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško) Front-end dojo: projekti za obuku vještina programera (5 novih + 43 stara) Top 12 najzanimljivijih IT dinamičkih infografika
Izvor: www.habr.com