52 súborov údajov pre školiace projekty

  1. Dátový súbor zákazníkov nákupného centra — údaje o návštevníkoch obchodu: ID, pohlavie, vek, príjem, hodnotenie výdavkov. (Možnosť aplikácie: Projekt segmentácie zákazníkov so strojovým učením)
  2. Súbor údajov o dúhovke — súbor údajov pre začiatočníkov, ktorý obsahuje veľkosti sepalov a okvetných lístkov pre rôzne kvety.
  3. Súbor údajov MNIST — súbor údajov ručne písaných čísel. 60 000 tréningových obrázkov a 10 000 testovacích obrázkov.
  4. Súbor údajov o bývaní v Bostone je populárny súbor údajov na rozpoznávanie vzorov. Obsahuje informácie o domoch v meste Boston: počet bytov, ceny prenájmu, index kriminality.
  5. Súbor údajov na detekciu falošných správ — obsahuje 7796 záznamov s označením správ: pravda alebo nepravda. (Možnosť aplikácie so zdrojovým kódom v Pythone: Projekt Python na detekciu falošných správ )
  6. Súbor údajov o kvalite vína — obsahuje informácie o víne: 4898 záznamov so 14 parametrami.
  7. Údaje SOCR – Súbor údajov o výškach a hmotnostiach - dobrá možnosť na začiatok. Obsahuje 25 000 záznamov o výške a hmotnosti 18-ročných ľudí.

    52 súborov údajov pre školiace projekty

    Článok bol preložený s podporou EDISON Software, ktorá plní objednávky z južnej Číny „výborne“a vyvíja webové aplikácie a webové stránky.

  8. Parkinsonov súbor údajov — 195 záznamov pacientov s Parkinsonovou chorobou s 25 parametrami analýzy. Môže sa použiť na predbežné posúdenie rozdielu medzi chorými a zdravými ľuďmi. (Možnosť aplikácie so zdrojovým kódom v Pythone: Projekt strojového učenia o detekcii Parkinsonovej choroby)
  9. Súbor údajov Titanic — obsahuje informácie o cestujúcich (vek, pohlavie, príbuzní na palube atď.) 891 vo výcvikovej súprave a 418 v testovacej súprave.
  10. Súbor údajov o odberoch Uber — informácie o 4.5 miliónoch ciest cez Uber v roku 2014 a 14 miliónoch v roku 2015. (Možnosť aplikácie so zdrojovým kódom v R: Projekt analýzy údajov Uber v R)
  11. Súbor údajov Chars74k — obsahuje obrázky britských a kanadských symbolov 64 tried: 0-9, AZ, az. 7700 7.7k prirodzených obrázkov, 3400k ručne písaných, 62000 počítačovo syntetizovaných fontov.
  12. Súbor údajov na detekciu podvodov s kreditnými kartami — obsahuje informácie o transakciách napadnutých kreditných kariet. (Možnosť aplikácie so zdrojom: Projekt strojového učenia na detekciu podvodov s kreditnými kartami)
  13. Dátová množina zámerov chatbota — súbor JSON, ktorý obsahuje rôzne značky: pozdravy, dovidenia, hospital_search, pharmaceutical_search atď. Obsahuje sadu šablón otázok a odpovedí. (Možnosť aplikácie so zdrojovým kódom v Pythone: Projekt Chatbot v Pythone)
  14. Enron Email Dataset — obsahuje pol milióna listov od 150 manažérov Enronu.
  15. Súbor údajov Yelp — obsahuje 1,2 milióna odporúčaní od 1,6 milióna používateľov približne 1,2 milióna organizácií.
  16. Množina údajov o nebezpečenstve — viac ako 200 000 nahrávok otázok a odpovedí z populárnej televíznej hry.
  17. Súbor údajov odporúčaných systémov — portál so zbierkou súborov údajov z univerzity UCSD. Obsahuje záznamy recenzií na obľúbených stránkach (Goodreads, Amazon). Skvelé na vytváranie odporúčacích systémov. (Možnosť aplikácie so zdrojovým kódom v R: Projekt systému odporúčaní filmu v R )
  18. Súbor údajov UCI Spambase — tréningový súbor údajov na detekciu spamu. Obsahuje 4601 písmen s 57 parametrami metadát.
  19. Súbor údajov Flickr 30k — viac ako 30 000 obrázkov a popisov. (Súbor údajov Flickr 8k — 8000 obrázkov. Zdrojový projekt Pythonu: Projekt Python generátora obrázkov titulkov)
  20. IMDB recenzie — 25 000 filmových recenzií v tréningovej súprave a 25 000 v testovacej súprave. (Možnosť aplikácie so zdrojovým kódom v R: Projekt vedy o analýze sentimentu)
  21. Súbor údajov MS COCO — 1,5 milióna označených obrázkov.
  22. Súbor údajov CIFAR-10 a CIFAR-100 — CIFAR-10 obsahuje 60,000 32 malých obrázkov s rozmermi 32 x 0 pixelov s číslami 9-100. CIFAR-0 - respektíve 100-XNUMX.
  23. Súbor údajov GTSRB (nemecký benchmark rozpoznávania dopravných značiek). — 50 000 obrázkov 43 dopravných značiek. (Možnosť aplikácie so zdrojovým kódom v Pythone: Projekt Python na rozpoznávanie dopravných značiek)
  24. Dataset ImageNet — obsahuje viac ako 100 000 fráz a približne 1000 XNUMX obrázkov na frázu.
  25. Súbor údajov histopatologických obrázkov prsníka — súbor údajov obsahuje obrázky vzoriek rakoviny prsníka. (Možnosť aplikácie so zapnutým zdrojovým kódom Projekt Python Klasifikácia rakoviny prsníka)
  26. Dátový súbor mestských panorám — obsahuje kvalitné anotácie videosekvencií ulíc v rôznych mestách.
  27. Kinetický súbor údajov - obsahuje URL odkaz na približne 6,5 milióna kvalitných videí.
  28. Súbor údajov MPII o ľudskej póze — súbor údajov obsahuje 25 000 obrázkov ľudských póz so spoločnými anotáciami.
  29. Súbor údajov 20BN-niečo-niečo v2 - súbor vysokokvalitných videí, ktoré ukazujú, ako človek vykonáva nejakú činnosť.
  30. Súbor údajov objektu 365 — súbor údajov vysokokvalitných obrázkov s rámčekmi ohraničujúcimi objekty.
  31. Súbor údajov o skicovaní fotografií — obsahuje viac ako 1000 obrázkov s ich obrysovými kresbami.
  32. Súbor údajov CQ500 — súbor údajov obsahuje 491 CT skenov hlavy so 193 317 rezmi.
  33. Súbor údajov IMDB-Wiki — súbor údajov s viac ako 5 miliónmi obrázkov tvárí označených pohlavím a vekom. (Možnosť aplikácie so zapnutým zdrojovým kódom Projekt Python na detekciu pohlavia a veku)
  34. Súbor údajov YouTube 8M - Označený súbor údajov o videu, ktorý obsahuje 6,1 milióna ID videí na YouTube
  35. Dataset Urban Sound 8K — súbor mestských zvukových údajov (obsahuje 8732 mestských zvukov z 10 tried).
  36. Súbor údajov LSUN - súbor údajov miliónov farebných obrázkov scén a objektov (asi 59 miliónov obrázkov, 10 rôznych kategórií scén a 20 rôznych kategórií objektov).
  37. Súbor údajov RAVDESS — audiovizuálna databáza emocionálnej reči. (Možnosť aplikácie so zapnutým zdrojovým kódom Projekt Python na rozpoznávanie emócií reči)
  38. Dátový súbor Librispeech — súbor údajov obsahuje 1000 XNUMX hodín anglickej reči s rôznymi prízvukmi.
  39. Súbor údajov Baidu Apolloscape — súbor údajov pre vývoj technológií autonómneho riadenia.
  40. Dátový portál Quandl — úložisko ekonomických a finančných údajov (existuje bezplatný a platený obsah).
  41. Portál otvorených údajov Svetovej banky — informácie o pôžičkách poskytnutých Svetovou bankou rozvojovým krajinám.
  42. Dátový portál MMF je portál medzinárodného menového fondu, ktorý zverejňuje údaje o medzinárodných financiách, sadzbách dlhu, investíciách, devízových rezervách a komoditách.
  43. Dátový portál Americkej ekonomickej asociácie (AEA). - Zdroj na vyhľadávanie makroekonomických údajov USA.
  44. Dátový portál Google Trends - Údaje trendov Google možno použiť na vizuálne preskúmanie a analýzu údajov.
  45. Portál trhových údajov Financial Times je zdrojom aktuálnych informácií o finančných trhoch z celého sveta.
  46. Portál Data.gov - Portál otvorených dát vlády USA (poľnohospodárstvo, zdravotníctvo, klíma, vzdelávanie, energetika, financie, veda a výskum atď.).
  47. Dátový portál: Otvorené vládne údaje (India) je indická otvorená vládna dátová platforma.
  48. Potravinový portál Atlas Data Portal — obsahuje výskumné údaje o výžive v Spojených štátoch.
  49. Portál zdravotných údajov je portál amerického ministerstva zdravotníctva a sociálnych služieb.
  50. Dátový portál centier pre kontrolu a prevenciu chorôb - obsahuje širokú škálu údajov týkajúcich sa zdravia.
  51. London Datastore Portal - údaje o živote ľudí v Londýne.
  52. Kanadský vládny portál otvorených údajov - portál otvorených údajov o Kanaďanoch (poľnohospodárstvo, umenie, hudba, školstvo, vláda, zdravotníctvo atď.)

Čítaj viac

Zdroj: hab.com

Pridať komentár