52 skupa podataka za projekte obuke

  1. Skup podataka o kupcima trgovačkog centra — podaci o posjetiteljima trgovine: ID, spol, dob, prihod, ocjena potrošnje. (Mogućnost primjene: Projekt segmentacije kupaca sa strojnim učenjem)
  2. Skup podataka šarenice — skup podataka za početnike, koji sadrži veličine čašica i latica za različito cvijeće.
  3. Skup podataka MNIST-a — skup podataka rukom pisanih brojeva. 60 000 slika za obuku i 10 000 slika za testiranje.
  4. Bostonski skup podataka o stambenim objektima je popularan skup podataka za prepoznavanje uzoraka. Sadrži podatke o kućama u Bostonu: broj stanova, cijene najma, indeks kriminala.
  5. Skup podataka o otkrivanju lažnih vijesti — sadrži 7796 unosa s oznakama vijesti: točno ili netočno. (Opcija aplikacije s izvornim kodom u Pythonu: Python projekt otkrivanja lažnih vijesti )
  6. Skup podataka o kvaliteti vina — sadrži podatke o vinu: 4898 zapisa s 14 parametara.
  7. SOCR podaci – Skup podataka o visini i težini - dobra opcija za početak. Sadrži 25 000 zapisa o visini i težini 18-godišnjaka.

    52 skupa podataka za projekte obuke

    Članak je preveden uz potporu EDISON Softwarea, koji ispunjava narudžbe iz južne Kine “izvrsno”I razvija web aplikacije i web stranice.

  8. Parkinsonov skup podataka — 195 zapisa pacijenata s Parkinsonovom bolešću, s 25 parametara analize. Može se koristiti za preliminarnu procjenu razlike između bolesnih i zdravih ljudi. (Opcija aplikacije s izvornim kodom u Pythonu: Projekt strojnog učenja o otkrivanju Parkinsonove bolesti)
  9. Titanic skup podataka — sadrži informacije o putnicima (dob, spol, rođaci na brodu itd.) 891 u setu za obuku i 418 u setu za testiranje.
  10. Skup podataka Uber Pickups — podaci o 4.5 milijuna putovanja Uberom u 2014. i 14 milijuna u 2015. (Opcija aplikacije s izvornim kodom u R: Uberov projekt analize podataka u R)
  11. Skup podataka Chars74k — sadrži slike britanskih i kanadskih simbola 64 klase: 0-9, AZ, az. 7700 7.7k prirodnih slika, 3400k rukom pisanih, 62000 računalno sintetiziranih fontova.
  12. Skup podataka o otkrivanju prijevara s kreditnim karticama — sadrži podatke o transakcijama kompromitiranih kreditnih kartica. (Mogućnost aplikacije s izvorom: Projekt strojnog učenja za otkrivanje prijevara s kreditnim karticama)
  13. Skup podataka o namjerama chatbota — JSON datoteka koja sadrži različite oznake: pozdrav, zbogom, hospital_search, pharmacy_search itd. Sadrži skup predložaka pitanja i odgovora. (Opcija aplikacije s izvornim kodom u Pythonu: Chatbot projekt u Pythonu)
  14. Enronov skup podataka e-pošte — sadrži pola milijuna pisama od 150 menadžera Enrona.
  15. Skup podataka Yelp — sadrži 1,2 milijuna preporuka od 1,6 milijuna korisnika oko 1,2 milijuna organizacija.
  16. Skup podataka o opasnostima — više od 200 snimaka pitanja i odgovora iz popularne televizijske igre.
  17. Skup podataka o sustavima preporuka — portal sa zbirkom skupova podataka Sveučilišta UCSD. Sadrži zapise recenzija na popularnim stranicama (Goodreads, Amazon). Izvrstan za stvaranje sustava preporuka. (Opcija aplikacije s izvornim kodom u R: Projekt sustava za preporuku filmova u R )
  18. UCI spambase skup podataka — skup podataka za obuku za otkrivanje neželjene pošte. Sadrži 4601 slovo s 57 parametara metapodataka.
  19. Skup podataka Flickr 30k — više od 30 000 slika i opisa. (Skup podataka Flickr 8k — 8000 slika. Python izvorni projekt: Generator natpisa slike Python projekt)
  20. IMDB recenzije — 25 000 recenzija filmova u setu za obuku i 25 000 u setu za testiranje. (Opcija aplikacije s izvornim kodom u R: Znanstveni projekt analize raspoloženja)
  21. Skup podataka MS COCO — 1,5 milijuna označenih slika.
  22. Skup podataka CIFAR-10 i CIFAR-100 — CIFAR-10 sadrži 60,000 32 malih slika od 32*0 piksela brojevima 9-100. CIFAR-0 - odnosno 100-XNUMX.
  23. Skup podataka GTSRB (njemačka referentna vrijednost za prepoznavanje prometnih znakova). — 50 000 slika 43 prometna znaka. (Opcija aplikacije s izvornim kodom u Pythonu: Python projekt za prepoznavanje prometnih znakova)
  24. ImageNet skup podataka — sadrži više od 100 000 fraza i oko 1000 slika po frazi.
  25. Skup podataka o histopatološkim slikama dojke — skup podataka sadrži slike uzoraka raka dojke. (Opcija aplikacije s uključenim izvornim kodom Python projekt klasifikacije raka dojke)
  26. Skup podataka o gradskim pejzažima — sadrži visokokvalitetne bilješke video sekvenci ulica u različitim gradovima.
  27. Kinetički skup podataka - sadrži URL poveznicu na oko 6,5 milijuna video zapisa visoke kvalitete.
  28. MPII skup podataka o ljudskoj pozi — skup podataka sadrži 25 000 slika ljudskih poza sa zajedničkim komentarima.
  29. 20BN-nešto-nešto skup podataka v2 - skup visokokvalitetnih videozapisa koji pokazuju kako osoba izvodi neku radnju.
  30. Skup podataka Object 365 — skup podataka visokokvalitetnih slika s okvirima za ograničavanje objekata.
  31. Skup podataka za skiciranje fotografija — sadrži više od 1000 slika s njihovim obrisima.
  32. Skup podataka CQ500 — skup podataka sadrži 491 CT snimku glave s 193 317 rezova.
  33. IMDB-Wiki skup podataka — skup podataka s više od 5 milijuna slika lica označenih prema spolu i dobi. (Opcija aplikacije s uključenim izvornim kodom Python projekt za otkrivanje spola i dobi)
  34. Skup podataka Youtube 8M - Označeni video skup podataka koji sadrži 6,1 milijun Youtube video ID-ova
  35. Skup podataka Urban Sound 8K — skup podataka o urbanom zvuku (sadrži 8732 urbana zvuka iz 10 klasa).
  36. Skup podataka LSUN - skup podataka od milijuna slika u boji scena i objekata (oko 59 milijuna slika, 10 različitih kategorija scena i 20 različitih kategorija objekata).
  37. Skup podataka RAVDESS — audiovizualna baza podataka emocionalnog govora. (Opcija aplikacije s uključenim izvornim kodom Python projekt za prepoznavanje govornih emocija)
  38. Librispeech skup podataka — skup podataka sadrži 1000 sati engleskog govora s različitim naglascima.
  39. Skup podataka Baidu Apolloscape — skup podataka za razvoj tehnologija samovozećih vozila.
  40. Quandl podatkovni portal — repozitorij ekonomskih i financijskih podataka (postoji besplatni i plaćeni sadržaj).
  41. Portal otvorenih podataka Svjetske banke — informacije o zajmovima koje je Svjetska banka izdala zemljama u razvoju.
  42. MMF Data Portal je portal međunarodnog monetarnog fonda koji objavljuje podatke o međunarodnim financijama, stopama duga, ulaganjima, deviznim rezervama i robi.
  43. Podatkovni portal Američkog ekonomskog udruženja (AEA). - Resurs za pretraživanje američkih makroekonomskih podataka.
  44. Podatkovni portal Google trendova - Podaci Google trenda mogu se koristiti za vizualno istraživanje i analizu podataka.
  45. Portal tržišnih podataka Financial Timesa je izvor najnovijih informacija o financijskim tržištima iz cijelog svijeta.
  46. Portal Data.gov - Portal otvorenih podataka američke vlade (poljoprivreda, zdravlje, klima, obrazovanje, energija, financije, znanost i istraživanje itd.).
  47. Podatkovni portal: otvoreni državni podaci (Indija) je indijska platforma otvorenih državnih podataka.
  48. Okruženje hrane Atlas Data Portal — sadrži podatke istraživanja o prehrani u Sjedinjenim Državama.
  49. Portal zdravstvenih podataka je portal američkog Ministarstva zdravstva i društvenih usluga.
  50. Portal podataka Centra za kontrolu i prevenciju bolesti - sadrži širok raspon zdravstvenih podataka.
  51. London Datastore Portal - podaci o životu ljudi u Londonu.
  52. Portal otvorenih podataka kanadske vlade - portal otvorenih podataka o Kanađanima (poljoprivreda, umjetnost, glazba, obrazovanje, državna uprava, zdravstvo itd.)

Čitaj više

Izvor: www.habr.com

Dodajte komentar