52 gagnapakka fyrir þjálfunarverkefni

  1. Gagnasett viðskiptavina verslunarmiðstöðvar — gögn um gesti í verslun: auðkenni, kyn, aldur, tekjur, eyðslueinkunn. (Umsóknarvalkostur: Verkefnaskiptingu viðskiptavina með vélanámi)
  2. Íris gagnasett — gagnasafn fyrir byrjendur, sem inniheldur stærðir af bikarblöðum og blómblöðum fyrir ýmis blóm.
  3. MNIST gagnasett — gagnasafn með handskrifuðum tölum. 60 æfingamyndir og 000 prófunarmyndir.
  4. Gagnasafn Boston húsnæðis er vinsælt gagnasafn fyrir mynsturgreiningu. Inniheldur upplýsingar um hús í Boston: fjölda íbúða, leiguverð, glæpavísitölu.
  5. Gagnasett fyrir uppgötvun falsfrétta — inniheldur 7796 færslur með fréttamerkingum: satt eða ósatt. (Forritsvalkostur með frumkóða í Python: Falsfréttir uppgötvun Python Project )
  6. Víngæða gagnasafn — inniheldur upplýsingar um vín: 4898 færslur með 14 breytum.
  7. SOCR gögn - Gagnasett fyrir hæð og þyngd - góður kostur til að byrja með. Inniheldur 25 skrár yfir hæð og þyngd 000 ára fólks.

    52 gagnapakka fyrir þjálfunarverkefni

    Greinin var þýdd með stuðningi EDISON Software, sem uppfyllir pantanir frá Suður-Kína „framúrskarandi“Og þróar vefforrit og vefsíður.

  8. Parkinson gagnasett — 195 skrár yfir sjúklinga með Parkinsonsveiki, með 25 greiningarbreytum. Hægt að nota til bráðabirgðamats á muninum á sjúku fólki og heilbrigðu fólki. (Forritsvalkostur með frumkóða í Python: Vélnámsverkefni um að greina Parkinsonsveiki)
  9. Titanic gagnasett — inniheldur upplýsingar um farþega (aldur, kyn, ættingja um borð o.s.frv.) 891 í þjálfunarsettinu og 418 í prófunarsettinu.
  10. Gagnasett fyrir Uber Pickups — upplýsingar um 4.5 milljónir ferða á Uber árið 2014 og 14 milljónir árið 2015. (Forritsvalkostur með frumkóða í R: Uber Data Analysis Project í R)
  11. Chars74k gagnasett — inniheldur myndir af breskum og kanadískum táknum í 64 flokkum: 0-9, A-Z, a-z. 7700 7.7k náttúrulegar myndir, 3400k handskrifaðar, 62000 tölvugerðar leturgerðir.
  12. Gagnasett fyrir uppgötvun kreditkortasvika — inniheldur upplýsingar um viðskipti með kreditkorta sem eru í hættu. (Umsóknarvalkostur með uppruna: Vélnámsverkefni fyrir uppgötvun kreditkortasvika)
  13. Gagnasett Chatbot Intents — JSON skrá sem inniheldur ýmis merki: kveðjur, bless, hospital_search, pharmacy_search, osfrv. Inniheldur sett af spurninga-svarsniðmátum. (Forritsvalkostur með frumkóða í Python: Chatbot verkefni í Python)
  14. Enron tölvupóstgagnasett — inniheldur hálfa milljón bréfa frá 150 Enron stjórnendum.
  15. Yelp gagnasettið — inniheldur 1,2 milljónir ráðlegginga frá 1,6 milljón notendum um 1,2 milljón stofnana.
  16. Gagnasett í hættu — meira en 200 upptökur af spurningum og svörum úr hinum vinsæla sjónvarpsleik.
  17. Gagnasett fyrir kerfi meðmæli — vefgátt með safni gagnasafna frá UCSD háskólanum. Inniheldur skrár yfir umsagnir á vinsælum síðum (Goodreads, Amazon). Frábært til að búa til meðmælakerfi. (Forritsvalkostur með frumkóða í R: Kvikmyndaábendingakerfisverkefni í R )
  18. UCI ruslpóstgagnasafn — þjálfunargagnagrunnur fyrir uppgötvun ruslpósts. Inniheldur 4601 stafi með 57 lýsigagnabreytum.
  19. Flickr 30k gagnasett — meira en 30 myndir og myndatextar. (Flickr 8k gagnasett — 8000 myndir. Python frumverkefni: Image Caption Generator Python Project)
  20. IMDB umsagnir — 25 kvikmyndadómar í æfingasettinu og 000 í prófunarsettinu. (Forritsvalkostur með frumkóða í R: Sentiment Analysis Data Science Project)
  21. MS COCO gagnasafn — 1,5 milljónir merktra mynda.
  22. CIFAR-10 og CIFAR-100 gagnasafn — CIFAR-10 inniheldur 60,000 litlar myndir af 32*32 pixlum númer 0-9. CIFAR-100 - í sömu röð, 0-100.
  23. GTSRB (German traffic sign recognition benchmark) Gagnasett — 50 myndir af 000 umferðarskiltum. (Forritsvalkostur með frumkóða í Python: Umferðarmerki viðurkenningu Python verkefni)
  24. ImageNet gagnasafn — inniheldur meira en 100 setningar og um 000 myndir í hverri setningu.
  25. Gagnasett fyrir vefjameinafræði í brjóstum — gagnasafnið inniheldur myndir af sýnum af brjóstakrabbameini. (Forritsvalkostur með frumkóða á Python verkefnið fyrir flokkun brjóstakrabbameins)
  26. Gagnasett borgarmynda — inniheldur hágæða athugasemdir við myndbandsröð af götum í mismunandi borgum.
  27. Kinetics gagnasett - inniheldur vefslóð tengil á um 6,5 milljónir hágæða myndskeiða.
  28. MPII gagnasett fyrir mannlega stellingu — gagnasafnið inniheldur 25 myndir af mannlegum stellingum með sameiginlegum athugasemdum.
  29. 20BN-eitthvað-eitthvað gagnasafn v2 - sett af hágæða myndböndum sem sýna hvernig einstaklingur framkvæmir einhverja aðgerð.
  30. Object 365 Gagnasett — gagnapakka af hágæða myndum með afmarkandi hlutum.
  31. Gagnapakki fyrir myndaskissu - inniheldur meira en 1000 myndir með útlínuteikningum þeirra.
  32. CQ500 gagnasett — gagnasafnið inniheldur 491 tölvusneiðmyndir af höfðinu með 193 sneiðum.
  33. IMDB-Wiki gagnasafn — gagnasafn með meira en 5 milljón myndum af andlitum merkt eftir kyni og aldri. (Forritsvalkostur með frumkóða á Kyn- og aldursgreiningar Python verkefnið)
  34. Youtube 8M gagnasett - Merkt myndbandsgagnasett sem inniheldur 6,1 milljón YouTube myndbandsauðkenni
  35. Urban Sound 8K gagnasafn — safn þéttbýlishljóðgagna (inniheldur 8732 borgarhljóð úr 10 flokkum).
  36. LSUN gagnasett - gagnasafn með milljónum litmynda af senum og hlutum (um 59 milljónir mynda, 10 mismunandi senuflokkar og 20 mismunandi hlutaflokkar).
  37. RAVDESS gagnasett — hljóð- og myndgagnagrunnur um tilfinningalegt tal. (Forritsvalkostur með frumkóða á Python verkefnið til að bera kennsl á taltilfinningar)
  38. Librispeech gagnasett — gagnasafnið inniheldur 1000 klukkustundir af ensku tali með mismunandi hreim.
  39. Baidu Apolloscape gagnasett — gagnasafn fyrir þróun sjálfkeyrandi tækni.
  40. Quandl gagnagátt — geymsla efnahagslegra og fjárhagslegra gagna (það er ókeypis og greitt efni).
  41. Opna gagnagátt Alþjóðabankans — upplýsingar um lán útgefin af Alþjóðabankanum til þróunarríkja.
  42. Gagnagátt IMF er alþjóðleg gjaldeyrissjóðagátt sem birtir gögn um alþjóðleg fjármál, skuldavexti, fjárfestingar, gjaldeyrisforða og hrávöru.
  43. Gagnagátt American Economic Association (AEA). - Úrræði til að leita í bandarískum þjóðhagsgögnum.
  44. Google Trends gagnagátt - Hægt er að nota Google þróunargögn til að skoða og greina gögn sjónrænt.
  45. Financial Times Market Data Portal er heimild fyrir uppfærðar upplýsingar um fjármálamarkaði víðsvegar að úr heiminum.
  46. Data.gov vefgátt - Opin gagnagátt bandarískra stjórnvalda (landbúnaður, heilbrigðismál, loftslag, menntun, orka, fjármál, vísindi og rannsóknir osfrv.).
  47. Gagnagátt: Opin opinber gögn (Indland) er opinn gagnavettvangur stjórnvalda á Indlandi.
  48. Matarumhverfi Atlas Data Portal — inniheldur rannsóknargögn um næringu í Bandaríkjunum.
  49. Heilsugagnagátt er vefgátt bandaríska heilbrigðis- og mannþjónusturáðuneytisins.
  50. Gagnagátt miðstöðvar fyrir sjúkdómseftirlit og forvarnir - inniheldur mikið úrval af heilsutengdum gögnum.
  51. London Datastore Portal - upplýsingar um líf fólks í London.
  52. Opin gagnagátt Kanada ríkisstjórnar - vefgátt með opnum gögnum um Kanadamenn (landbúnað, list, tónlist, menntun, stjórnvöld, heilsugæslu osfrv.)

Lestu meira

Heimild: www.habr.com

Bæta við athugasemd