52 grupe të dhënash për projekte trajnimi

  1. Të dhënat e klientëve të qendrës tregtare — të dhënat e vizitorëve të dyqanit: ID, gjinia, mosha, të ardhurat, vlerësimi i shpenzimeve. (Opsioni i aplikimit: Projekti i segmentimit të klientëve me mësimin e makinerisë)
  2. Kompleti i të dhënave Iris - një grup të dhënash për fillestarët, që përmban madhësitë e sepaleve dhe petaleve për lule të ndryshme.
  3. Kompleti i të dhënave MNIST — një grup të dhënash me numra të shkruar me dorë. 60 imazhe trajnimi dhe 000 imazhe testuese.
  4. Të dhënat e Strehimit në Boston është një grup të dhënash popullore për njohjen e modelit. Përmban informacion për shtëpitë në Boston: numrin e apartamenteve, çmimet e qirave, indeksin e krimit.
  5. Grupi i të dhënave për zbulimin e lajmeve të rreme — përmban 7796 hyrje me shënime lajmesh: e vërtetë ose e rreme. (Opsioni i aplikimit me kod burim në Python: Projekti Python i zbulimit të lajmeve të rreme )
  6. Të dhënat e cilësisë së verës — përmban informacione për verën: 4898 regjistrime me 14 parametra.
  7. Të dhënat e SOCR – Grupi i të dhënave të lartësive dhe peshave - një opsion i mirë për të filluar. Përmban 25 të dhëna të gjatësisë dhe peshës së njerëzve 000-vjeçarë.

    52 grupe të dhënash për projekte trajnimi

    Artikulli është përkthyer me mbështetjen e EDISON Software, i cili përmbush "shkëlqyeshëm" porositë nga Kina JugoreDhe zhvillon aplikacione në internet dhe faqe interneti.

  8. Kompleti i të dhënave Parkinson — 195 regjistrime të pacientëve me sëmundjen e Parkinsonit, me 25 parametra analize. Mund të përdoret për vlerësimin paraprak të ndryshimit midis njerëzve të sëmurë dhe njerëzve të shëndetshëm. (Opsioni i aplikimit me kod burim në Python: Projekti i Mësimit të Makinerisë për Zbulimin e Sëmundjes së Parkinsonit)
  9. Grupi i të dhënave Titanic — përmban informacione për pasagjerët (mosha, gjinia, të afërmit në bord, etj.) 891 në grupin e trajnimit dhe 418 në grupin e testimit.
  10. Grupi i të dhënave të marrjes së Uber — informacion për 4.5 milionë udhëtime në Uber në 2014 dhe 14 milionë në 2015. (Opsioni i aplikimit me kod burim në R: Projekti i analizës së të dhënave Uber në R)
  11. Grupi i të dhënave Chars74k — përmban imazhe të simboleve britanike dhe kanadeze të 64 klasave: 0-9, A-Z, a-z. 7700 7.7k imazhe natyrale, 3400k të shkruara me dorë, 62000 fonte të sintetizuara nga kompjuteri.
  12. Grupi i të dhënave për zbulimin e mashtrimit me kartën e kreditit — përmban informacion në lidhje me transaksionet e kartave të kreditit të komprometuara. (Opsioni i aplikimit me burim: Projekti i Mësimit të Makinerisë për Zbulimin e Mashtrimit të Kartës së Kreditit)
  13. Grupi i të dhënave të synimeve të Chatbot — një skedar JSON që përmban etiketa të ndryshme: përshëndetje, lamtumirë, spital_kërkim, pharmacy_search, etj. Përmban një grup modelesh pyetje-përgjigje. (Opsioni i aplikimit me kod burim në Python: Projekti Chatbot në Python)
  14. Enron të dhënat e postës elektronike — përmban gjysmë milioni letra nga 150 menaxherë të Enron.
  15. Grupi i të dhënave Yelp — përmban 1,2 milionë rekomandime nga 1,6 milionë përdorues rreth 1,2 milionë organizata.
  16. Të dhënat e rrezikut — më shumë se 200 regjistrime pyetje-përgjigje nga loja popullore televizive.
  17. Kompleti i të dhënave të sistemeve rekomanduese — një portal me një koleksion të të dhënave nga Universiteti UCSD. Përmban regjistrime të komenteve në faqet e njohura (Goodreads, Amazon). E shkëlqyeshme për krijimin e sistemeve rekomanduese. (Opsioni i aplikimit me kod burim në R: Projekti i Sistemit të Rekomandimit të Filmit në R )
  18. Grupi i të dhënave Spambase UCI — një grup të dhënash trajnimi për zbulimin e spamit. Përmban 4601 shkronja me 57 parametra meta të dhënash.
  19. Grupi i të dhënave Flickr 30k - më shumë se 30 imazhe dhe titra. (Grupi i të dhënave Flickr 8k - 8000 imazhe. Projekti burim Python: Projekti Python i gjeneratorit të titrave të imazhit)
  20. Vlerësime në IMDB — 25 rishikime filmash në grupin e trajnimit dhe 000 në grupin e testimit. (Opsioni i aplikimit me kod burim në R: Projekti i Shkencës së të Dhënave të Analizës së Sentimentit)
  21. Të dhënat e MS COCO — 1,5 milion imazhe të etiketuara.
  22. Të dhënat e të dhënave CIFAR-10 dhe CIFAR-100 — CIFAR-10 përmban 60,000 imazhe të vogla me 32*32 piksel numrat 0-9. CIFAR-100 - përkatësisht, 0-100.
  23. GTSRB (Kapel gjerman i njohjes së shenjave të trafikut) Kompleti i të dhënave — 50 imazhe të 000 tabelave rrugore. (Opsioni i aplikimit me kod burim në Python: Projekti Python i Njohjes së Shenjave të Trafikut)
  24. Të dhënat e ImageNet — përmban më shumë se 100 fraza dhe rreth 000 imazhe për frazë.
  25. Set i të dhënave të imazheve të histopatologjisë së gjirit — grupi i të dhënave përmban imazhe të mostrave të kancerit të gjirit. (Opsioni i aplikacionit me kodin burimor të aktivizuar Projekti Python i Klasifikimit të Kancerit të Gjirit)
  26. Grupi i të dhënave "Cityscapes". — përmban shënime me cilësi të lartë të sekuencave video të rrugëve në qytete të ndryshme.
  27. Kompleti i të dhënave kinetike - përmban një lidhje URL për rreth 6,5 milionë video me cilësi të lartë.
  28. Të dhënat e pozave njerëzore MPII — grupi i të dhënave përmban 25 imazhe të pozave njerëzore me shënime të përbashkëta.
  29. 20BN-diçka-diçka e të dhënave v2 - një grup videosh me cilësi të lartë që tregojnë se si një person kryen një veprim.
  30. Të dhënat e objektit 365 — një grup të dhënash imazhesh me cilësi të lartë me kuti kufizuese të objekteve.
  31. Të dhënat e skicimit të fotografive — përmban më shumë se 1000 imazhe me vizatimet e tyre konturore.
  32. Kompleti i të dhënave CQ500 — grupi i të dhënave përmban 491 skanime CT të kokës me 193 feta.
  33. Të dhënat e të dhënave IMDB-Wiki — një grup të dhënash me më shumë se 5 milionë imazhe të fytyrave të shënuara sipas gjinisë dhe moshës. (Opsioni i aplikacionit me kodin burimor të aktivizuar Projekti Python për zbulimin e gjinisë dhe moshës)
  34. Kompleti i të dhënave Youtube 8M - Një grup të dhënash video të etiketuara që përmban 6,1 milionë ID të videove në Youtube
  35. Të dhënat e të dhënave Urban Sound 8K — një grup të dhënash të tingullit urban (përmban 8732 tinguj urban nga 10 klasa).
  36. Grupi i të dhënave LSUN - një grup të dhënash prej miliona imazhesh me ngjyra të skenave dhe objekteve (rreth 59 milion imazhe, 10 kategori të ndryshme skenash dhe 20 kategori të ndryshme objektesh).
  37. Grupi i të dhënave RAVDESS — bazën e të dhënave audiovizive të të folurit emocional. (Opsioni i aplikacionit me kodin burimor të aktivizuar Projekti Python për njohjen e emocioneve të të folurit)
  38. Librispeech Dataset — grupi i të dhënave përmban 1000 orë fjalim anglisht me thekse të ndryshme.
  39. Grupi i të dhënave Baidu Apolloscape — një grup të dhënash për zhvillimin e teknologjive vetëdrejtuese.
  40. Portali i të dhënave Quandl — depo e të dhënave ekonomike dhe financiare (ka përmbajtje falas dhe me pagesë).
  41. Portali i të dhënave të hapura të Bankës Botërore — informacion mbi kreditë e dhëna nga Banka Botërore për vendet në zhvillim.
  42. Portali i të dhënave të FMN-së është një portal ndërkombëtar i fondeve monetare që publikon të dhëna për financat ndërkombëtare, normat e borxhit, investimet, rezervat valutore dhe mallrat.
  43. Portali i të dhënave të Shoqatës Ekonomike Amerikane (AEA). - Një burim për kërkimin e të dhënave makroekonomike të SHBA.
  44. Portali i të dhënave Google Trends - Të dhënat e tendencës së Google mund të përdoren për të eksploruar dhe analizuar vizualisht të dhënat.
  45. Portali i të dhënave të tregut të Financial Times është një burim për informacione të përditësuara mbi tregjet financiare nga e gjithë bota.
  46. Portali Data.gov - Portali i hapur i të dhënave të qeverisë amerikane (bujqësi, shëndetësi, klimë, arsim, energji, financa, shkencë dhe kërkime, etj.).
  47. Portali i të dhënave: të dhënat e hapura të qeverisë (Indi) është platforma e të dhënave të qeverisë së hapur të Indisë.
  48. Atlas Data Portali i mjedisit ushqimor — përmban të dhëna kërkimore mbi të ushqyerit në Shtetet e Bashkuara.
  49. Portali i të dhënave shëndetësore është një portal i Departamentit Amerikan të Shëndetësisë dhe Shërbimeve Njerëzore.
  50. Portali i të dhënave të Qendrave për Kontrollin dhe Parandalimin e Sëmundjeve - përmban një gamë të gjerë të dhënash në lidhje me shëndetin.
  51. Portali i Dyqanit të të Dhënave në Londër - të dhëna për jetën e njerëzve në Londër.
  52. Portali i të Dhënave të Hapura të Qeverisë së Kanadasë - një portal me të dhëna të hapura për kanadezët (bujqësi, art, muzikë, arsim, qeveri, kujdes shëndetësor, etj.)

Lexo më shumë

Burimi: www.habr.com

Shto një koment