Të dhënat e klientëve të qendrës tregtare — të dhënat e vizitorëve të dyqanit: ID, gjinia, mosha, të ardhurat, vlerësimi i shpenzimeve. (Opsioni i aplikimit:Projekti i segmentimit të klientëve me mësimin e makinerisë )Kompleti i të dhënave Iris - një grup të dhënash për fillestarët, që përmban madhësitë e sepaleve dhe petaleve për lule të ndryshme.Kompleti i të dhënave MNIST — një grup të dhënash me numra të shkruar me dorë. 60 imazhe trajnimi dhe 000 imazhe testuese.Të dhënat e Strehimit në Boston është një grup të dhënash popullore për njohjen e modelit. Përmban informacion për shtëpitë në Boston: numrin e apartamenteve, çmimet e qirave, indeksin e krimit.Grupi i të dhënave për zbulimin e lajmeve të rreme — përmban 7796 hyrje me shënime lajmesh: e vërtetë ose e rreme. (Opsioni i aplikimit me kod burim në Python:Projekti Python i zbulimit të lajmeve të rreme )Të dhënat e cilësisë së verës — përmban informacione për verën: 4898 regjistrime me 14 parametra.Të dhënat e SOCR – Grupi i të dhënave të lartësive dhe peshave - një opsion i mirë për të filluar. Përmban 25 të dhëna të gjatësisë dhe peshës së njerëzve 000-vjeçarë.
Artikulli është përkthyer me mbështetjen e EDISON Software, i cilipërmbush "shkëlqyeshëm" porositë nga Kina Jugore Dhezhvillon aplikacione në internet dhe faqe interneti .Kompleti i të dhënave Parkinson — 195 regjistrime të pacientëve me sëmundjen e Parkinsonit, me 25 parametra analize. Mund të përdoret për vlerësimin paraprak të ndryshimit midis njerëzve të sëmurë dhe njerëzve të shëndetshëm. (Opsioni i aplikimit me kod burim në Python:Projekti i Mësimit të Makinerisë për Zbulimin e Sëmundjes së Parkinsonit )Grupi i të dhënave Titanic — përmban informacione për pasagjerët (mosha, gjinia, të afërmit në bord, etj.) 891 në grupin e trajnimit dhe 418 në grupin e testimit.Grupi i të dhënave të marrjes së Uber — informacion për 4.5 milionë udhëtime në Uber në 2014 dhe 14 milionë në 2015. (Opsioni i aplikimit me kod burim në R:Projekti i analizës së të dhënave Uber në R )Grupi i të dhënave Chars74k — përmban imazhe të simboleve britanike dhe kanadeze të 64 klasave: 0-9, A-Z, a-z. 7700 7.7k imazhe natyrale, 3400k të shkruara me dorë, 62000 fonte të sintetizuara nga kompjuteri.Grupi i të dhënave për zbulimin e mashtrimit me kartën e kreditit — përmban informacion në lidhje me transaksionet e kartave të kreditit të komprometuara. (Opsioni i aplikimit me burim:Projekti i Mësimit të Makinerisë për Zbulimin e Mashtrimit të Kartës së Kreditit )Grupi i të dhënave të synimeve të Chatbot — një skedar JSON që përmban etiketa të ndryshme: përshëndetje, lamtumirë, spital_kërkim, pharmacy_search, etj. Përmban një grup modelesh pyetje-përgjigje. (Opsioni i aplikimit me kod burim në Python:Projekti Chatbot në Python )Enron të dhënat e postës elektronike — përmban gjysmë milioni letra nga 150 menaxherë të Enron.Grupi i të dhënave Yelp — përmban 1,2 milionë rekomandime nga 1,6 milionë përdorues rreth 1,2 milionë organizata.Të dhënat e rrezikut — më shumë se 200 regjistrime pyetje-përgjigje nga loja popullore televizive.Kompleti i të dhënave të sistemeve rekomanduese — një portal me një koleksion të të dhënave nga Universiteti UCSD. Përmban regjistrime të komenteve në faqet e njohura (Goodreads, Amazon). E shkëlqyeshme për krijimin e sistemeve rekomanduese. (Opsioni i aplikimit me kod burim në R:Projekti i Sistemit të Rekomandimit të Filmit në R )Grupi i të dhënave Spambase UCI — një grup të dhënash trajnimi për zbulimin e spamit. Përmban 4601 shkronja me 57 parametra meta të dhënash.Grupi i të dhënave Flickr 30k - më shumë se 30 imazhe dhe titra. (Grupi i të dhënave Flickr 8k - 8000 imazhe. Projekti burim Python:Projekti Python i gjeneratorit të titrave të imazhit )Vlerësime në IMDB — 25 rishikime filmash në grupin e trajnimit dhe 000 në grupin e testimit. (Opsioni i aplikimit me kod burim në R:Projekti i Shkencës së të Dhënave të Analizës së Sentimentit )Të dhënat e MS COCO — 1,5 milion imazhe të etiketuara.Të dhënat e të dhënave CIFAR-10 dhe CIFAR-100 — CIFAR-10 përmban 60,000 imazhe të vogla me 32*32 piksel numrat 0-9. CIFAR-100 - përkatësisht, 0-100.GTSRB (Kapel gjerman i njohjes së shenjave të trafikut) Kompleti i të dhënave — 50 imazhe të 000 tabelave rrugore. (Opsioni i aplikimit me kod burim në Python:Projekti Python i Njohjes së Shenjave të Trafikut )Të dhënat e ImageNet — përmban më shumë se 100 fraza dhe rreth 000 imazhe për frazë.Set i të dhënave të imazheve të histopatologjisë së gjirit — grupi i të dhënave përmban imazhe të mostrave të kancerit të gjirit. (Opsioni i aplikacionit me kodin burimor të aktivizuarProjekti Python i Klasifikimit të Kancerit të Gjirit )Grupi i të dhënave "Cityscapes". — përmban shënime me cilësi të lartë të sekuencave video të rrugëve në qytete të ndryshme.Kompleti i të dhënave kinetike - përmban një lidhje URL për rreth 6,5 milionë video me cilësi të lartë.Të dhënat e pozave njerëzore MPII — grupi i të dhënave përmban 25 imazhe të pozave njerëzore me shënime të përbashkëta.20BN-diçka-diçka e të dhënave v2 - një grup videosh me cilësi të lartë që tregojnë se si një person kryen një veprim.Të dhënat e objektit 365 — një grup të dhënash imazhesh me cilësi të lartë me kuti kufizuese të objekteve.Të dhënat e skicimit të fotografive — përmban më shumë se 1000 imazhe me vizatimet e tyre konturore.Kompleti i të dhënave CQ500 — grupi i të dhënave përmban 491 skanime CT të kokës me 193 feta.Të dhënat e të dhënave IMDB-Wiki — një grup të dhënash me më shumë se 5 milionë imazhe të fytyrave të shënuara sipas gjinisë dhe moshës. (Opsioni i aplikacionit me kodin burimor të aktivizuarProjekti Python për zbulimin e gjinisë dhe moshës )Kompleti i të dhënave Youtube 8M - Një grup të dhënash video të etiketuara që përmban 6,1 milionë ID të videove në YoutubeTë dhënat e të dhënave Urban Sound 8K — një grup të dhënash të tingullit urban (përmban 8732 tinguj urban nga 10 klasa).Grupi i të dhënave LSUN - një grup të dhënash prej miliona imazhesh me ngjyra të skenave dhe objekteve (rreth 59 milion imazhe, 10 kategori të ndryshme skenash dhe 20 kategori të ndryshme objektesh).Grupi i të dhënave RAVDESS — bazën e të dhënave audiovizive të të folurit emocional. (Opsioni i aplikacionit me kodin burimor të aktivizuarProjekti Python për njohjen e emocioneve të të folurit )Librispeech Dataset — grupi i të dhënave përmban 1000 orë fjalim anglisht me thekse të ndryshme.Grupi i të dhënave Baidu Apolloscape — një grup të dhënash për zhvillimin e teknologjive vetëdrejtuese.Portali i të dhënave Quandl — depo e të dhënave ekonomike dhe financiare (ka përmbajtje falas dhe me pagesë).Portali i të dhënave të hapura të Bankës Botërore — informacion mbi kreditë e dhëna nga Banka Botërore për vendet në zhvillim.Portali i të dhënave të FMN-së është një portal ndërkombëtar i fondeve monetare që publikon të dhëna për financat ndërkombëtare, normat e borxhit, investimet, rezervat valutore dhe mallrat.Portali i të dhënave të Shoqatës Ekonomike Amerikane (AEA). - Një burim për kërkimin e të dhënave makroekonomike të SHBA.Portali i të dhënave Google Trends - Të dhënat e tendencës së Google mund të përdoren për të eksploruar dhe analizuar vizualisht të dhënat.Portali i të dhënave të tregut të Financial Times është një burim për informacione të përditësuara mbi tregjet financiare nga e gjithë bota.Portali Data.gov - Portali i hapur i të dhënave të qeverisë amerikane (bujqësi, shëndetësi, klimë, arsim, energji, financa, shkencë dhe kërkime, etj.).Portali i të dhënave: të dhënat e hapura të qeverisë (Indi) është platforma e të dhënave të qeverisë së hapur të Indisë.Atlas Data Portali i mjedisit ushqimor — përmban të dhëna kërkimore mbi të ushqyerit në Shtetet e Bashkuara.Portali i të dhënave shëndetësore është një portal i Departamentit Amerikan të Shëndetësisë dhe Shërbimeve Njerëzore.Portali i të dhënave të Qendrave për Kontrollin dhe Parandalimin e Sëmundjeve - përmban një gamë të gjerë të dhënash në lidhje me shëndetin.Portali i Dyqanit të të Dhënave në Londër - të dhëna për jetën e njerëzve në Londër.Portali i të Dhënave të Hapura të Qeverisë së Kanadasë - një portal me të dhëna të hapura për kanadezët (bujqësi, art, muzikë, arsim, qeveri, kujdes shëndetësor, etj.)
Lexo më shumë
14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira) Dojo e përparme: projekte për të trajnuar aftësitë e zhvilluesve (5 të reja + 43 të vjetra) Top 12 infografikat më interesante dinamike të IT
Burimi: www.habr.com