Gagnasett viðskiptavina verslunarmiðstöðvar — gögn um gesti í verslun: auðkenni, kyn, aldur, tekjur, eyðslueinkunn. (Umsóknarvalkostur:Verkefnaskiptingu viðskiptavina með vélanámi )Íris gagnasett — gagnasafn fyrir byrjendur, sem inniheldur stærðir af bikarblöðum og blómblöðum fyrir ýmis blóm.MNIST gagnasett — gagnasafn með handskrifuðum tölum. 60 æfingamyndir og 000 prófunarmyndir.Gagnasafn Boston húsnæðis er vinsælt gagnasafn fyrir mynsturgreiningu. Inniheldur upplýsingar um hús í Boston: fjölda íbúða, leiguverð, glæpavísitölu.Gagnasett fyrir uppgötvun falsfrétta — inniheldur 7796 færslur með fréttamerkingum: satt eða ósatt. (Forritsvalkostur með frumkóða í Python:Falsfréttir uppgötvun Python Project )Víngæða gagnasafn — inniheldur upplýsingar um vín: 4898 færslur með 14 breytum.SOCR gögn - Gagnasett fyrir hæð og þyngd - góður kostur til að byrja með. Inniheldur 25 skrár yfir hæð og þyngd 000 ára fólks.
Greinin var þýdd með stuðningi EDISON Software, semuppfyllir pantanir frá Suður-Kína „framúrskarandi“ Ogþróar vefforrit og vefsíður .Parkinson gagnasett — 195 skrár yfir sjúklinga með Parkinsonsveiki, með 25 greiningarbreytum. Hægt að nota til bráðabirgðamats á muninum á sjúku fólki og heilbrigðu fólki. (Forritsvalkostur með frumkóða í Python:Vélnámsverkefni um að greina Parkinsonsveiki )Titanic gagnasett — inniheldur upplýsingar um farþega (aldur, kyn, ættingja um borð o.s.frv.) 891 í þjálfunarsettinu og 418 í prófunarsettinu.Gagnasett fyrir Uber Pickups — upplýsingar um 4.5 milljónir ferða á Uber árið 2014 og 14 milljónir árið 2015. (Forritsvalkostur með frumkóða í R:Uber Data Analysis Project í R )Chars74k gagnasett — inniheldur myndir af breskum og kanadískum táknum í 64 flokkum: 0-9, A-Z, a-z. 7700 7.7k náttúrulegar myndir, 3400k handskrifaðar, 62000 tölvugerðar leturgerðir.Gagnasett fyrir uppgötvun kreditkortasvika — inniheldur upplýsingar um viðskipti með kreditkorta sem eru í hættu. (Umsóknarvalkostur með uppruna:Vélnámsverkefni fyrir uppgötvun kreditkortasvika )Gagnasett Chatbot Intents — JSON skrá sem inniheldur ýmis merki: kveðjur, bless, hospital_search, pharmacy_search, osfrv. Inniheldur sett af spurninga-svarsniðmátum. (Forritsvalkostur með frumkóða í Python:Chatbot verkefni í Python )Enron tölvupóstgagnasett — inniheldur hálfa milljón bréfa frá 150 Enron stjórnendum.Yelp gagnasettið — inniheldur 1,2 milljónir ráðlegginga frá 1,6 milljón notendum um 1,2 milljón stofnana.Gagnasett í hættu — meira en 200 upptökur af spurningum og svörum úr hinum vinsæla sjónvarpsleik.Gagnasett fyrir kerfi meðmæli — vefgátt með safni gagnasafna frá UCSD háskólanum. Inniheldur skrár yfir umsagnir á vinsælum síðum (Goodreads, Amazon). Frábært til að búa til meðmælakerfi. (Forritsvalkostur með frumkóða í R:Kvikmyndaábendingakerfisverkefni í R )UCI ruslpóstgagnasafn — þjálfunargagnagrunnur fyrir uppgötvun ruslpósts. Inniheldur 4601 stafi með 57 lýsigagnabreytum.Flickr 30k gagnasett — meira en 30 myndir og myndatextar. (Flickr 8k gagnasett — 8000 myndir. Python frumverkefni:Image Caption Generator Python Project )IMDB umsagnir — 25 kvikmyndadómar í æfingasettinu og 000 í prófunarsettinu. (Forritsvalkostur með frumkóða í R:Sentiment Analysis Data Science Project )MS COCO gagnasafn — 1,5 milljónir merktra mynda.CIFAR-10 og CIFAR-100 gagnasafn — CIFAR-10 inniheldur 60,000 litlar myndir af 32*32 pixlum númer 0-9. CIFAR-100 - í sömu röð, 0-100.GTSRB (German traffic sign recognition benchmark) Gagnasett — 50 myndir af 000 umferðarskiltum. (Forritsvalkostur með frumkóða í Python:Umferðarmerki viðurkenningu Python verkefni )ImageNet gagnasafn — inniheldur meira en 100 setningar og um 000 myndir í hverri setningu.Gagnasett fyrir vefjameinafræði í brjóstum — gagnasafnið inniheldur myndir af sýnum af brjóstakrabbameini. (Forritsvalkostur með frumkóða áPython verkefnið fyrir flokkun brjóstakrabbameins )Gagnasett borgarmynda — inniheldur hágæða athugasemdir við myndbandsröð af götum í mismunandi borgum.Kinetics gagnasett - inniheldur vefslóð tengil á um 6,5 milljónir hágæða myndskeiða.MPII gagnasett fyrir mannlega stellingu — gagnasafnið inniheldur 25 myndir af mannlegum stellingum með sameiginlegum athugasemdum.20BN-eitthvað-eitthvað gagnasafn v2 - sett af hágæða myndböndum sem sýna hvernig einstaklingur framkvæmir einhverja aðgerð.Object 365 Gagnasett — gagnapakka af hágæða myndum með afmarkandi hlutum.Gagnapakki fyrir myndaskissu - inniheldur meira en 1000 myndir með útlínuteikningum þeirra.CQ500 gagnasett — gagnasafnið inniheldur 491 tölvusneiðmyndir af höfðinu með 193 sneiðum.IMDB-Wiki gagnasafn — gagnasafn með meira en 5 milljón myndum af andlitum merkt eftir kyni og aldri. (Forritsvalkostur með frumkóða áKyn- og aldursgreiningar Python verkefnið )Youtube 8M gagnasett - Merkt myndbandsgagnasett sem inniheldur 6,1 milljón YouTube myndbandsauðkenniUrban Sound 8K gagnasafn — safn þéttbýlishljóðgagna (inniheldur 8732 borgarhljóð úr 10 flokkum).LSUN gagnasett - gagnasafn með milljónum litmynda af senum og hlutum (um 59 milljónir mynda, 10 mismunandi senuflokkar og 20 mismunandi hlutaflokkar).RAVDESS gagnasett — hljóð- og myndgagnagrunnur um tilfinningalegt tal. (Forritsvalkostur með frumkóða áPython verkefnið til að bera kennsl á taltilfinningar )Librispeech gagnasett — gagnasafnið inniheldur 1000 klukkustundir af ensku tali með mismunandi hreim.Baidu Apolloscape gagnasett — gagnasafn fyrir þróun sjálfkeyrandi tækni.Quandl gagnagátt — geymsla efnahagslegra og fjárhagslegra gagna (það er ókeypis og greitt efni).Opna gagnagátt Alþjóðabankans — upplýsingar um lán útgefin af Alþjóðabankanum til þróunarríkja.Gagnagátt IMF er alþjóðleg gjaldeyrissjóðagátt sem birtir gögn um alþjóðleg fjármál, skuldavexti, fjárfestingar, gjaldeyrisforða og hrávöru.Gagnagátt American Economic Association (AEA). - Úrræði til að leita í bandarískum þjóðhagsgögnum.Google Trends gagnagátt - Hægt er að nota Google þróunargögn til að skoða og greina gögn sjónrænt.Financial Times Market Data Portal er heimild fyrir uppfærðar upplýsingar um fjármálamarkaði víðsvegar að úr heiminum.Data.gov vefgátt - Opin gagnagátt bandarískra stjórnvalda (landbúnaður, heilbrigðismál, loftslag, menntun, orka, fjármál, vísindi og rannsóknir osfrv.).Gagnagátt: Opin opinber gögn (Indland) er opinn gagnavettvangur stjórnvalda á Indlandi.Matarumhverfi Atlas Data Portal — inniheldur rannsóknargögn um næringu í Bandaríkjunum.Heilsugagnagátt er vefgátt bandaríska heilbrigðis- og mannþjónusturáðuneytisins.Gagnagátt miðstöðvar fyrir sjúkdómseftirlit og forvarnir - inniheldur mikið úrval af heilsutengdum gögnum.London Datastore Portal - upplýsingar um líf fólks í London.Opin gagnagátt Kanada ríkisstjórnar - vefgátt með opnum gögnum um Kanadamenn (landbúnað, list, tónlist, menntun, stjórnvöld, heilsugæslu osfrv.)
Lestu meira
14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt) Framhlið dojo: verkefni til að þjálfa færni þróunaraðila (5 ný + 43 gömul) Topp 12 áhugaverðustu IT Dynamic Infographics
Heimild: www.habr.com