52 nizov podatkov za projekte usposabljanja

  1. Nabor podatkov o strankah trgovskega centra — podatki obiskovalcev trgovine: id, spol, starost, dohodek, ocena porabe. (Možnost prijave: Projekt segmentacije strank s strojnim učenjem)
  2. Nabor podatkov Iris — nabor podatkov za začetnike, ki vsebuje velikosti čašnih in cvetnih listov za različne rože.
  3. Nabor podatkov MNIST — niz podatkov ročno napisanih številk. 60 vadbenih slik in 000 testnih slik.
  4. Bostonski nabor stanovanjskih podatkov je priljubljen nabor podatkov za prepoznavanje vzorcev. Vsebuje informacije o hišah v Bostonu: število stanovanj, cene najema, indeks kriminala.
  5. Nabor podatkov o odkrivanju lažnih novic — vsebuje 7796 vnosov z oznakami novic: drži ali ne drži. (Možnost aplikacije z izvorno kodo v Pythonu: Projekt Python za odkrivanje lažnih novic )
  6. Nabor podatkov o kakovosti vina — vsebuje podatke o vinu: 4898 zapisov s 14 parametri.
  7. Podatki SOCR – nabor podatkov o višinah in utežih - dobra možnost za začetek. Vsebuje 25 zapisov o višini in teži 000-letnikov.

    52 nizov podatkov za projekte usposabljanja

    Članek je bil preveden s podporo EDISON Software, ki »odlično« izpolnjuje naročila iz južne Kitajskein razvija spletne aplikacije in spletne strani.

  8. Parkinsonov nabor podatkov — 195 kartotek bolnikov s Parkinsonovo boleznijo s 25 analiznimi parametri. Lahko se uporablja za predhodno oceno razlike med bolnimi in zdravimi ljudmi. (Možnost aplikacije z izvorno kodo v Pythonu: Projekt strojnega učenja za odkrivanje Parkinsonove bolezni)
  9. Nabor podatkov Titanik — vsebuje informacije o potnikih (starost, spol, sorodniki na krovu itd.) 891 v kompletu za usposabljanje in 418 v kompletu za testiranje.
  10. Nabor podatkov Uber Pickups — informacije o 4.5 milijonih potovanj z Uberjem v letu 2014 in 14 milijonih v letu 2015. (Možnost aplikacije z izvorno kodo v R: Uberjev projekt analize podatkov v R)
  11. Nabor podatkov Chars74k — vsebuje slike britanskih in kanadskih simbolov 64 razredov: 0-9, A-Z, a-z. 7700 7.7k naravnih slik, 3400k ročno napisanih, 62000 računalniško sintetiziranih pisav.
  12. Nabor podatkov o odkrivanju goljufij s kreditnimi karticami — vsebuje informacije o transakcijah ogroženih kreditnih kartic. (Možnost aplikacije z virom: Projekt strojnega učenja za odkrivanje goljufij s kreditnimi karticami)
  13. Nabor podatkov o namerah Chatbota — datoteka JSON, ki vsebuje različne oznake: pozdrav, nasvidenje, hospital_search, pharmacy_search itd. Vsebuje niz predlog vprašanj in odgovorov. (Možnost aplikacije z izvorno kodo v Pythonu: Projekt Chatbot v Pythonu)
  14. Nabor e-poštnih podatkov Enron — vsebuje pol milijona pisem 150 menedžerjev Enrona.
  15. Nabor podatkov Yelp — vsebuje 1,2 milijona priporočil 1,6 milijona uporabnikov iz približno 1,2 milijona organizacij.
  16. Nabor podatkov o nevarnosti — več kot 200 posnetkov vprašanj in odgovorov iz priljubljene televizijske igre.
  17. Sistemski nabor priporočil — portal z zbirko naborov podatkov univerze UCSD. Vsebuje zapise mnenj na priljubljenih spletnih mestih (Goodreads, Amazon). Odlično za ustvarjanje sistemov priporočil. (Možnost aplikacije z izvorno kodo v R: Projekt sistema za priporočanje filmov v R )
  18. Nabor podatkov UCI Spambase — nabor podatkov za usposabljanje za odkrivanje neželene pošte. Vsebuje 4601 črko s 57 parametri metapodatkov.
  19. Nabor podatkov Flickr 30k — več kot 30 slik in napisov. (Nabor podatkov Flickr 8k — 8000 slik. Izvorni projekt Python: Generator napisov slik Python Project)
  20. IMDB ocene — 25 ocen filmov v kompletu za usposabljanje in 000 v kompletu za testiranje. (Možnost aplikacije z izvorno kodo v R: Znanstveni projekt podatkovne analize razpoloženja)
  21. Nabor podatkov MS COCO — 1,5 milijona označenih slik.
  22. Nabor podatkov CIFAR-10 in CIFAR-100 — CIFAR-10 vsebuje 60,000 majhnih slik 32*32 slikovnih pik s številkami 0-9. CIFAR-100 - oziroma 0-100.
  23. Nabor podatkov GTSRB (nemški merilnik prepoznavanja prometnih znakov). — 50 slik 000 prometnih znakov. (Možnost aplikacije z izvorno kodo v Pythonu: Projekt Python za prepoznavanje prometnih znakov)
  24. Nabor podatkov ImageNet — vsebuje več kot 100 stavkov in približno 000 slik na stavek.
  25. Nabor podatkov o histopatoloških slikah dojk — nabor podatkov vsebuje slike vzorcev raka dojke. (Možnost aplikacije z vključeno izvorno kodo Projekt Python za klasifikacijo raka dojke)
  26. Nabor podatkov mestnih pokrajin — vsebuje visokokakovostne opombe video sekvenc ulic v različnih mestih.
  27. Nabor podatkov o kinetiki - vsebuje URL povezavo do približno 6,5 milijona videoposnetkov visoke kakovosti.
  28. Nabor podatkov MPII o človeški postavi — nabor podatkov vsebuje 25 slik človeških poz s skupnimi opombami.
  29. 20BN-nekaj-nekaj nabor podatkov v2 - nabor visokokakovostnih videoposnetkov, ki prikazujejo, kako oseba izvaja neko dejanje.
  30. Nabor podatkov Object 365 — nabor visokokakovostnih slik z omejevalnimi okvirji predmetov.
  31. Nabor podatkov za skiciranje fotografij — vsebuje več kot 1000 slik z njihovimi orisi.
  32. Nabor podatkov CQ500 — nabor podatkov vsebuje 491 CT-skenov glave s 193 rezinami.
  33. Nabor podatkov IMDB-Wiki — nabor podatkov z več kot 5 milijoni slik obrazov, označenih po spolu in starosti. (Možnost aplikacije z vključeno izvorno kodo Projekt Python za odkrivanje spola in starosti)
  34. Nabor podatkov Youtube 8M - Označen video podatkovni niz, ki vsebuje 6,1 milijona Youtube video ID-jev
  35. Nabor podatkov Urban Sound 8K — nabor mestnih zvokov (vsebuje 8732 urbanih zvokov iz 10 razredov).
  36. Nabor podatkov LSUN - podatkovni niz milijonov barvnih slik prizorov in predmetov (približno 59 milijonov slik, 10 različnih kategorij prizorov in 20 različnih kategorij objektov).
  37. Nabor podatkov RAVDESS — avdiovizualna baza čustvenega govora. (Možnost aplikacije z vključeno izvorno kodo Projekt Python za prepoznavanje govornih čustev)
  38. Nabor podatkov Librispeech — nabor podatkov vsebuje 1000 ur angleškega govora z različnimi poudarki.
  39. Nabor podatkov Baidu Apolloscape — nabor podatkov za razvoj samovozečih tehnologij.
  40. Podatkovni portal Quandl — repozitorij ekonomskih in finančnih podatkov (obstajajo brezplačne in plačljive vsebine).
  41. Portal odprtih podatkov Svetovne banke — informacije o posojilih, ki jih je Svetovna banka izdala državam v razvoju.
  42. Podatkovni portal IMF je portal mednarodnega denarnega sklada, ki objavlja podatke o mednarodnih financah, stopnjah dolga, naložbah, deviznih rezervah in blagu.
  43. Podatkovni portal Ameriškega gospodarskega združenja (AEA). - Vir za iskanje makroekonomskih podatkov ZDA.
  44. Podatkovni portal Google Trends - Googlove podatke o trendih je mogoče uporabiti za vizualno raziskovanje in analizo podatkov.
  45. Portal tržnih podatkov Financial Times je vir za najnovejše informacije o finančnih trgih z vsega sveta.
  46. Portal Data.gov - Portal odprtih podatkov vlade ZDA (kmetijstvo, zdravje, podnebje, izobraževanje, energija, finance, znanost in raziskave itd.).
  47. Podatkovni portal: Odprti vladni podatki (Indija) je indijska odprta vladna podatkovna platforma.
  48. Živilsko okolje Atlas Data Portal — vsebuje raziskovalne podatke o prehrani v ZDA.
  49. Portal zdravstvenih podatkov je portal Ministrstva za zdravje in socialne zadeve ZDA.
  50. Podatkovni portal centrov za nadzor in preprečevanje bolezni - vsebuje široko paleto podatkov, povezanih z zdravjem.
  51. London Datastore Portal - podatki o življenju ljudi v Londonu.
  52. Kanadski vladni portal odprtih podatkov - portal odprtih podatkov o Kanadčanih (kmetijstvo, umetnost, glasba, izobraževanje, vlada, zdravstvo itd.)

Preberi več

Vir: www.habr.com

Dodaj komentar