52 datových sad pro vzdělávací projekty

  1. Datový soubor zákazníků Mall — údaje o návštěvnících obchodu: id, pohlaví, věk, příjem, hodnocení útraty. (Možnost aplikace: Projekt segmentace zákazníků se strojovým učením)
  2. Datový soubor Iris — soubor dat pro začátečníky, obsahující velikosti sepalů a okvětních lístků pro různé květiny.
  3. Datová sada MNIST — datový soubor ručně psaných čísel. 60 000 tréninkových snímků a 10 000 testovacích snímků.
  4. Boston Housing Dataset je populární datová sada pro rozpoznávání vzorů. Obsahuje informace o domech v Bostonu: počet bytů, ceny pronájmu, index kriminality.
  5. Datová sada detekce falešných zpráv — obsahuje 7796 záznamů s označením zpráv: true nebo false. (Možnost aplikace se zdrojovým kódem v Pythonu: Projekt Python pro detekci falešných zpráv )
  6. Soubor údajů o kvalitě vína — obsahuje informace o víně: 4898 záznamů se 14 parametry.
  7. SOCR data – datový soubor výšek a vah - dobrá volba pro začátek. Obsahuje 25 000 záznamů o výšce a váze 18letých lidí.

    52 datových sad pro vzdělávací projekty

    Článek byl přeložen s podporou EDISON Software, která plní objednávky z jižní Číny „výborně“a vyvíjí webové aplikace a webové stránky.

  8. Parkinsonova datová sada — 195 záznamů pacientů s Parkinsonovou nemocí s 25 parametry analýzy. Může být použit pro předběžné posouzení rozdílu mezi nemocnými a zdravými lidmi. (Možnost aplikace se zdrojovým kódem v Pythonu: Projekt strojového učení o detekci Parkinsonovy choroby)
  9. Datový soubor Titanic — obsahuje informace o cestujících (věk, pohlaví, příbuzní na palubě atd.) 891 ve výcvikové sadě a 418 v testovací sadě.
  10. Datová sada Uber Pickups — informace o 4.5 milionu cest na Uber v roce 2014 a 14 milionech v roce 2015. (Možnost aplikace se zdrojovým kódem v R: Projekt analýzy dat Uber v R)
  11. Dataset Chars74k — obsahuje obrázky britských a kanadských symbolů 64 tříd: 0-9, AZ, az. 7700 7.7k přirozených obrázků, 3400k ručně psaných, 62000 počítačově syntetizovaných písem.
  12. Datový soubor detekce podvodů s kreditní kartou — obsahuje informace o transakcích kompromitovaných kreditních karet. (Možnost aplikace se zdrojem: Projekt strojového učení na zjišťování podvodů s kreditními kartami)
  13. Chatbot Intents Dataset — soubor JSON, který obsahuje různé značky: pozdravy, sbohem, hospital_search, pharmaceutical_search atd. Obsahuje sadu šablon otázek a odpovědí. (Možnost aplikace se zdrojovým kódem v Pythonu: Projekt Chatbot v Pythonu)
  14. Enron Email Dataset — obsahuje půl milionu dopisů od 150 manažerů Enronu.
  15. Datová sada Yelp — obsahuje 1,2 milionu doporučení od 1,6 milionu uživatelů asi 1,2 milionu organizací.
  16. Datová sada ohrožení — více než 200 000 nahrávek otázek a odpovědí z populární televizní hry.
  17. Dataset doporučených systémů — portál se sbírkou datových souborů z UCSD University. Obsahuje záznamy recenzí na oblíbených stránkách (Goodreads, Amazon). Skvělé pro vytváření doporučovacích systémů. (Možnost aplikace se zdrojovým kódem v R: Projekt systému filmového doporučení v R )
  18. Dataset UCI Spambase — trénovací datový soubor pro detekci spamu. Obsahuje 4601 písmen s 57 parametry metadat.
  19. Dataset Flickr 30k — více než 30 000 obrázků a popisků. (Dataset Flickr 8k — 8000 snímků. Zdrojový projekt Pythonu: Projekt Python generátoru popisků obrázků)
  20. Recenze IMDB — 25 000 filmových recenzí v tréninkové sadě a 25 000 v testovací sadě. (Možnost aplikace se zdrojovým kódem v R: Sentiment Analysis Data Science Project)
  21. MS COCO datový soubor — 1,5 milionu označených obrázků.
  22. Soubor dat CIFAR-10 a CIFAR-100 — CIFAR-10 obsahuje 60,000 32 malých obrázků 32*0 pixelů s čísly 9-100. CIFAR-0 - respektive 100-XNUMX.
  23. GTSRB (německý benchmark rozpoznávání dopravních značek) Dataset — 50 000 obrázků 43 dopravních značek. (Možnost aplikace se zdrojovým kódem v Pythonu: Projekt Python pro rozpoznávání dopravních značek)
  24. Dataset ImageNet — obsahuje více než 100 000 frází a asi 1000 obrázků na frázi.
  25. Datový soubor histopatologických snímků prsu — datový soubor obsahuje obrázky vzorků rakoviny prsu. (Možnost aplikace se zapnutým zdrojovým kódem Projekt Python klasifikace rakoviny prsu)
  26. Datová sada měst — obsahuje vysoce kvalitní anotace videosekvencí ulic v různých městech.
  27. Kinetická datová sada - obsahuje URL odkaz na asi 6,5 milionu vysoce kvalitních videí.
  28. Datový soubor MPII lidské pózy — datový soubor obsahuje 25 000 snímků lidských pozic se společnými anotacemi.
  29. Datová sada 20BN-něco-něco v2 - soubor vysoce kvalitních videí, která ukazují, jak člověk provádí nějakou akci.
  30. Dataset objektu 365 — datová sada vysoce kvalitních obrázků s rámečky ohraničujícími objekty.
  31. Datový soubor pro skicování fotografií — obsahuje více než 1000 obrázků s jejich obrysovými kresbami.
  32. Dataset CQ500 — datový soubor obsahuje 491 CT skenů hlavy se 193 317 řezy.
  33. Datová sada IMDB-Wiki — soubor dat s více než 5 miliony snímků tváří označených pohlavím a věkem. (Možnost aplikace se zapnutým zdrojovým kódem Projekt Python pro zjišťování pohlaví a věku)
  34. Datový soubor Youtube 8M - Označená datová sada videa, která obsahuje 6,1 milionu ID videí YouTube
  35. Dataset Urban Sound 8K — soubor městských zvukových dat (obsahuje 8732 městských zvuků z 10 tříd).
  36. Dataset LSUN - datový soubor milionů barevných obrázků scén a objektů (asi 59 milionů obrázků, 10 různých kategorií scén a 20 různých kategorií objektů).
  37. Dataset RAVDESS — audiovizuální databáze emocionální řeči. (Možnost aplikace se zapnutým zdrojovým kódem Projekt Python pro rozpoznávání emocí řeči)
  38. Dataset Librispeech — datová sada obsahuje 1000 hodin anglické řeči s různými přízvuky.
  39. Datová sada Baidu Apolloscape — soubor dat pro vývoj technologií pro autonomní řízení.
  40. Datový portál Quandl — úložiště ekonomických a finančních dat (existuje bezplatný i placený obsah).
  41. Portál otevřených dat Světové banky — informace o půjčkách poskytnutých Světovou bankou rozvojovým zemím.
  42. Datový portál MMF je portál mezinárodního měnového fondu, který publikuje údaje o mezinárodních financích, míře zadlužení, investicích, devizových rezervách a komoditách.
  43. Datový portál Americké ekonomické asociace (AEA). - Zdroj pro vyhledávání amerických makroekonomických dat.
  44. Datový portál Google Trends - Data trendů Google lze použít k vizuálnímu zkoumání a analýze dat.
  45. Financial Times Market Data Portal je zdrojem aktuálních informací o finančních trzích z celého světa.
  46. Portál Data.gov - Portál otevřených dat vlády USA (zemědělství, zdravotnictví, klima, vzdělávání, energetika, finance, věda a výzkum atd.).
  47. Datový portál: Otevřená vládní data (Indie) je indická otevřená vládní datová platforma.
  48. Potravinový portál Atlas Data Portal — obsahuje výzkumná data o výživě ve Spojených státech.
  49. Portál zdravotních údajů je portál amerického ministerstva zdravotnictví a sociálních služeb.
  50. Datový portál Centra pro kontrolu a prevenci nemocí - obsahuje širokou škálu údajů týkajících se zdraví.
  51. London Datastore Portal - údaje o životě lidí v Londýně.
  52. Kanadský vládní portál otevřených dat - portál otevřených dat o Kanaďanech (zemědělství, umění, hudba, vzdělávání, vláda, zdravotnictví atd.)

Přečtěte si více

Zdroj: www.habr.com

Přidat komentář