52 skupa podataka za projekte obuke

  1. Skup podataka o kupcima trgovačkog centra — podaci o posjetiocima trgovine: ID, spol, starost, prihod, ocjena potrošnje. (Mogućnost prijave: Projekt segmentacije kupaca sa mašinskim učenjem)
  2. Iris Dataset — skup podataka za početnike, koji sadrži veličine čašica i latica za različito cvijeće.
  3. MNIST skup podataka — skup podataka ručno pisanih brojeva. 60 slika treninga i 000 testnih slika.
  4. The Boston Housing Dataset je popularan skup podataka za prepoznavanje uzoraka. Sadrži informacije o kućama u Bostonu: broj stanova, cijene najma, indeks kriminala.
  5. Skup podataka za otkrivanje lažnih vijesti — sadrži 7796 unosa sa oznakama vijesti: istinito ili netačno. (Opcija aplikacije sa izvornim kodom u Pythonu: Python projekat za otkrivanje lažnih vijesti )
  6. Skup podataka o kvaliteti vina — sadrži informacije o vinu: 4898 zapisa sa 14 parametara.
  7. SOCR podaci – Skup podataka o visinama i težinama - dobra opcija za početak. Sadrži 25 zapisa o visini i težini 000-godišnjaka.

    52 skupa podataka za projekte obuke

    Članak je preveden uz podršku EDISON softvera, koji ispunjava narudžbe iz južne Kine "odlično"I razvija web aplikacije i web stranice.

  8. Parkinson Dataset — 195 zapisa pacijenata sa Parkinsonovom bolešću, sa 25 parametara analize. Može se koristiti za preliminarnu procjenu razlike između bolesnih i zdravih ljudi. (Opcija aplikacije sa izvornim kodom u Pythonu: Projekt mašinskog učenja o otkrivanju Parkinsonove bolesti)
  9. Titanic Dataset — sadrži informacije o putnicima (starost, pol, rođaci na brodu, itd.) 891 u setu za obuku i 418 u setu za testiranje.
  10. Uber skup podataka o preuzimanju — informacije o 4.5 miliona putovanja Uberom u 2014. i 14 miliona u 2015. (Opcija aplikacije sa izvornim kodom u R: Uberov projekat analize podataka u R)
  11. Chars74k Dataset — sadrži slike britanskih i kanadskih simbola 64 klase: 0-9, AZ, az. 7700 7.7k prirodnih slika, 3400k rukom pisanih, 62000 kompjuterski sintetiziranih fontova.
  12. Skup podataka za otkrivanje prijevara s kreditnim karticama — sadrži informacije o transakcijama kompromitovanih kreditnih kartica. (Opcija aplikacije sa izvorom: Projekt mašinskog učenja za otkrivanje prijevara s kreditnim karticama)
  13. Skup podataka o namjerama chatbota — JSON fajl koji sadrži različite oznake: pozdravi, zbogom, hospital_search, pharmacy_search, itd. Sadrži skup šablona pitanje-odgovor. (Opcija aplikacije sa izvornim kodom u Pythonu: Chatbot projekat u Pythonu)
  14. Enron skup podataka e-pošte — sadrži pola miliona pisama od 150 Enronovih menadžera.
  15. Yelp skup podataka — sadrži 1,2 miliona preporuka od 1,6 miliona korisnika oko 1,2 miliona organizacija.
  16. Jeopardy Dataset — više od 200 snimaka pitanja i odgovora iz popularne televizijske igre.
  17. Recommender Systems Dataset — portal sa kolekcijom skupova podataka sa Univerziteta UCSD. Sadrži zapise recenzija na popularnim stranicama (Goodreads, Amazon). Odlično za kreiranje sistema preporuka. (Opcija aplikacije sa izvornim kodom u R: Projekat sistema filmskih preporuka u R )
  18. Skup podataka UCI Spambase — skup podataka za obuku za otkrivanje neželjene pošte. Sadrži 4601 slovo sa 57 parametara metapodataka.
  19. Flickr 30k skup podataka — više od 30 slika i natpisa. (Flickr 8k skup podataka — 8000 slika. Python izvorni projekat: Image Caption Generator Python Project)
  20. IMDB recenzije — 25 filmskih recenzija u setu za obuku i 000 u test setu. (Opcija aplikacije sa izvornim kodom u R: Projekt nauke o podacima analize sentimenta)
  21. MS COCO skup podataka — 1,5 miliona označenih slika.
  22. CIFAR-10 i CIFAR-100 skup podataka — CIFAR-10 sadrži 60,000 malih slika veličine 32*32 piksela brojeva 0-9. CIFAR-100 - respektivno, 0-100.
  23. GTSRB (Njemački standard za prepoznavanje saobraćajnih znakova) Skup podataka — 50 slika 000 putokaza. (Opcija aplikacije sa izvornim kodom u Pythonu: Python projekat za prepoznavanje saobraćajnih znakova)
  24. ImageNet skup podataka — sadrži više od 100 fraza i oko 000 slika po frazi.
  25. Skup podataka histopatoloških slika dojke — skup podataka sadrži slike uzoraka raka dojke. (Opcija aplikacije sa uključenim izvornim kodom Python projekat klasifikacije raka dojke)
  26. Cityscapes Dataset — sadrži visokokvalitetne napomene video sekvenci ulica u različitim gradovima.
  27. Kinetics Dataset - sadrži URL link do oko 6,5 miliona video zapisa visokog kvaliteta.
  28. MPII skup podataka o ljudskoj pozi — skup podataka sadrži 25 slika ljudskih poza sa zajedničkim napomenama.
  29. 20BN-nešto-nešto skup podataka v2 - skup visokokvalitetnih video zapisa koji pokazuju kako osoba izvodi neku radnju.
  30. Objekat 365 skup podataka — skup podataka visokokvalitetnih slika sa okvirima za ograničavanje objekata.
  31. Skup podataka za skiciranje fotografija — sadrži više od 1000 slika sa njihovim okvirnim crtežima.
  32. CQ500 Dataset — skup podataka sadrži 491 CT skeniranje glave sa 193 317 rezova.
  33. IMDB-Wiki skup podataka — skup podataka sa više od 5 miliona slika lica označenih po polu i starosti. (Opcija aplikacije sa uključenim izvornim kodom Python projekat za detekciju roda i starosti)
  34. Youtube 8M skup podataka - Označeni skup video podataka koji sadrži 6,1 milion ID-ova Youtube videa
  35. Urban Sound 8K skup podataka — skup podataka o urbanom zvuku (sadrži 8732 urbana zvuka iz 10 klasa).
  36. LSUN Dataset - skup podataka od miliona slika u boji scena i objekata (oko 59 miliona slika, 10 različitih kategorija scena i 20 različitih kategorija objekata).
  37. RAVDESS Dataset — audiovizuelna baza podataka emocionalnog govora. (Opcija aplikacije sa uključenim izvornim kodom Python projekat za prepoznavanje emocija govora)
  38. Librispeech Dataset — skup podataka sadrži 1000 sati engleskog govora s različitim akcentima.
  39. Baidu Apolloscape Dataset — skup podataka za razvoj samovozećih tehnologija.
  40. Quandl Data Portal — repozitorijum ekonomskih i finansijskih podataka (postoji besplatan i plaćeni sadržaj).
  41. Portal otvorenih podataka Svjetske banke — informacije o zajmovima koje je Svjetska banka izdala zemljama u razvoju.
  42. Portal podataka MMF-a je portal međunarodnog monetarnog fonda koji objavljuje podatke o međunarodnim finansijama, stopama duga, investicijama, deviznim rezervama i robi.
  43. Portal podataka Američkog ekonomskog udruženja (AEA). - Resurs za pretraživanje američkih makroekonomskih podataka.
  44. Portal podataka Google Trends - Google podaci o trendovima mogu se koristiti za vizualno istraživanje i analizu podataka.
  45. Portal sa tržišnim podacima Financial Timesa je izvor za ažurirane informacije o finansijskim tržištima iz cijelog svijeta.
  46. Data.gov Portal - Portal otvorenih podataka vlade SAD (poljoprivreda, zdravstvo, klima, obrazovanje, energija, finansije, nauka i istraživanje, itd.).
  47. Portal podataka: Otvoreni vladini podaci (Indija) je indijska platforma otvorenih državnih podataka.
  48. Okruženje hrane Atlas Data Portal — sadrži podatke istraživanja o ishrani u Sjedinjenim Državama.
  49. Portal zdravstvenih podataka je portal Ministarstva zdravlja i ljudskih usluga SAD.
  50. Podatkovni portal centara za kontrolu i prevenciju bolesti - sadrži širok spektar zdravstvenih podataka.
  51. London Datastore Portal - podaci o životima ljudi u Londonu.
  52. Portal otvorenih podataka vlade Kanade - portal otvorenih podataka o Kanađanima (poljoprivreda, umjetnost, muzika, obrazovanje, vlada, zdravstvo, itd.)

Čitaj više

izvor: www.habr.com

Dodajte komentar