52 mga dataset para sa mga proyekto sa pagsasanay

  1. Dataset ng Mga Customer ng Mall — data ng mga bisita sa tindahan: id, kasarian, edad, kita, rating ng paggastos. (Opsyon sa aplikasyon: Project Segmentation ng Customer na may Machine Learning)
  2. Iris Dataset — isang dataset para sa mga nagsisimula, na naglalaman ng mga sukat ng sepals at petals para sa iba't ibang bulaklak.
  3. Dataset ng MNIST — isang dataset ng mga numerong sulat-kamay. 60 mga larawan ng pagsasanay at 000 mga larawan ng pagsubok.
  4. Ang Boston Housing Dataset ay isang sikat na dataset para sa pagkilala ng pattern. Naglalaman ng impormasyon tungkol sa mga bahay sa Boston: bilang ng mga apartment, presyo ng pag-upa, index ng krimen.
  5. Fake News Detection Dataset — naglalaman ng 7796 mga entry na may mga marka ng balita: totoo o mali. (Opsyon ng application na may source code sa Python: Fake News Detection Python Project )
  6. Dataset ng kalidad ng alak — naglalaman ng impormasyon tungkol sa alak: 4898 talaan na may 14 na mga parameter.
  7. SOCR data – Dataset ng Heights at Weights - isang magandang opsyon para magsimula. Naglalaman ng 25 talaan ng taas at bigat ng 000 taong gulang na mga tao.

    52 mga dataset para sa mga proyekto sa pagsasanay

    Ang artikulo ay isinalin sa suporta ng EDISON Software, na tinutupad ang mga utos mula sa Timog Tsina nang "mahusay"At bubuo ng mga web application at website.

  8. Parkinson Dataset — 195 na talaan ng mga pasyenteng may Parkinson's disease, na may 25 na mga parameter ng pagsusuri. Maaaring gamitin para sa paunang pagtatasa ng pagkakaiba sa pagitan ng mga taong may sakit at malusog na mga tao. (Opsyon ng application na may source code sa Python: Machine Learning Project sa Pag-detect ng Parkinson's Disease)
  9. Titanic Dataset — naglalaman ng impormasyon tungkol sa mga pasahero (edad, kasarian, kamag-anak na nakasakay, atbp.) 891 sa set ng pagsasanay at 418 sa set ng pagsubok.
  10. Dataset ng Uber Pickups — impormasyon tungkol sa 4.5 milyong biyahe sa Uber noong 2014 at 14 milyon noong 2015. (Opsyon ng application na may source code sa R: Uber Data Analysis Project sa R)
  11. Chars74k Dataset — naglalaman ng mga larawan ng mga simbolo ng British at Canadian ng 64 na klase: 0-9, AZ, az. 7700 7.7k natural na larawan, 3400k sulat-kamay, 62000 na computer synthesized na mga font.
  12. Dataset ng Detection ng Panloloko sa Credit Card — naglalaman ng impormasyon tungkol sa mga transaksyon ng mga nakompromisong credit card. (Opsyon sa aplikasyon na may pinagmulan: Credit Card Fraud Detection Machine Learning Project)
  13. Chatbot Intents Dataset — isang JSON file na naglalaman ng iba't ibang mga tag: pagbati, paalam, paghahanap sa ospital, paghahanap sa parmasya, atbp. Naglalaman ng isang hanay ng mga template ng tanong-sagot. (Opsyon ng application na may source code sa Python: Chatbot Project sa Python)
  14. Enron Email Dataset — naglalaman ng kalahating milyong liham mula sa 150 tagapamahala ng Enron.
  15. Ang Yelp Dataset — naglalaman ng 1,2 milyong rekomendasyon mula sa 1,6 milyong user tungkol sa 1,2 milyong organisasyon.
  16. Dataset ng Panganib — higit sa 200 question-and-answer recording mula sa sikat na laro sa telebisyon.
  17. Dataset ng Recommender Systems — isang portal na may koleksyon ng mga dataset mula sa UCSD University. Naglalaman ng mga talaan ng mga review sa mga sikat na site (Goodreads, Amazon). Mahusay para sa paggawa ng mga system ng nagrerekomenda. (Opsyon ng application na may source code sa R: Project Recommendation System Project sa R )
  18. Dataset ng Spambase ng UCI — isang dataset ng pagsasanay para sa pagtukoy ng spam. Naglalaman ng 4601 titik na may 57 metadata parameter.
  19. Flickr 30k Dataset — higit sa 30 mga larawan at mga caption. (Flickr 8k Dataset — 8000 mga larawan. Pinagmulan ng proyekto ng Python: Image Caption Generator Python Project)
  20. Mga pagsusuri sa IMDB — 25 movie review sa training set at 000 sa test set. (Opsyon ng application na may source code sa R: Pagsusuri ng Sentimento ng Data Science Project)
  21. dataset ng MS COCO — 1,5 milyong naka-tag na mga larawan.
  22. CIFAR-10 at CIFAR-100 na dataset — Ang CIFAR-10 ay naglalaman ng 60,000 maliliit na larawan ng 32*32 pixels na mga numero 0-9. CIFAR-100 - ayon sa pagkakabanggit, 0-100.
  23. GTSRB (German traffic sign recognition benchmark) Dataset — 50 larawan ng 000 karatula sa kalsada. (Opsyon ng application na may source code sa Python: Proyekto ng Python sa Pagkilala sa Mga Tanda ng Trapiko)
  24. dataset ng ImageNet — naglalaman ng higit sa 100 mga parirala at humigit-kumulang 000 mga larawan bawat parirala.
  25. Dataset ng Mga Larawan ng Histopathology ng Dibdib — ang dataset ay naglalaman ng mga larawan ng mga sample ng breast cancer. (Opsyon sa application na may source code na naka-on Proyekto ng Python sa Pag-uuri ng Kanser sa Suso)
  26. Dataset ng Cityscapes — naglalaman ng mataas na kalidad na mga anotasyon ng mga video sequence ng mga kalye sa iba't ibang lungsod.
  27. Dataset ng Kinetics - naglalaman ng URL link sa humigit-kumulang 6,5 milyong mataas na kalidad na mga video.
  28. MPII human pose dataset — ang dataset ay naglalaman ng 25 larawan ng mga pose ng tao na may magkasanib na anotasyon.
  29. 20BN-something-something dataset v2 - isang set ng mga video na may mataas na kalidad na nagpapakita kung paano gumaganap ang isang tao ng ilang aksyon.
  30. Object 365 Dataset — isang dataset ng mga de-kalidad na larawan na may mga object bounding box.
  31. dataset ng pag-sketch ng larawan - naglalaman ng higit sa 1000 mga imahe kasama ang kanilang mga guhit ng balangkas.
  32. CQ500 Dataset — ang dataset ay naglalaman ng 491 CT scan ng ulo na may 193 slice.
  33. dataset ng IMDB-Wiki — isang dataset na may higit sa 5 milyong larawan ng mga mukha na minarkahan ng kasarian at edad. (Opsyon sa application na may source code na naka-on Gender & Age Detection Python Project)
  34. Youtube 8M Dataset - Isang may label na dataset ng video na naglalaman ng 6,1 milyong Youtube video ID
  35. Urban Sound 8K na dataset — isang set ng urban sound data (naglalaman ng 8732 urban sounds mula sa 10 klase).
  36. LSUN Dataset - isang dataset ng milyun-milyong kulay na larawan ng mga eksena at bagay (mga 59 milyong larawan, 10 iba't ibang kategorya ng eksena at 20 iba't ibang kategorya ng bagay).
  37. Dataset ng RAVDESS — audiovisual database ng emosyonal na pananalita. (Opsyon sa application na may source code na naka-on Speech Emotion Recognition Python Project)
  38. Librispeech Dataset — ang dataset ay naglalaman ng 1000 oras ng English speech na may iba't ibang accent.
  39. Baidu Apolloscape Dataset — isang dataset para sa pagbuo ng mga self-driving na teknolohiya.
  40. Quandl Data Portal — imbakan ng data sa ekonomiya at pananalapi (may libre at bayad na nilalaman).
  41. Ang Open Data Portal ng World Bank — impormasyon sa mga pautang na ibinigay ng World Bank sa mga umuunlad na bansa.
  42. Portal ng Data ng IMF ay isang international monetary fund portal na naglalathala ng data sa internasyonal na pananalapi, mga rate ng utang, pamumuhunan, mga reserbang palitan ng dayuhan at mga kalakal.
  43. Portal ng Data ng American Economic Association (AEA). - Isang mapagkukunan para sa paghahanap ng US macroeconomic data.
  44. Portal ng Data ng Google Trends - Maaaring gamitin ang data ng trend ng Google upang biswal na galugarin at suriin ang data.
  45. Portal ng Data ng Financial Times Market ay isang mapagkukunan para sa up-to-date na impormasyon sa mga pamilihan sa pananalapi mula sa buong mundo.
  46. Portal ng Data.gov - Open data portal ng gobyerno ng US (agrikultura, kalusugan, klima, edukasyon, enerhiya, pananalapi, agham at pananaliksik, atbp.).
  47. Portal ng Data: Buksan ang data ng pamahalaan (India) ay ang open government data platform ng India.
  48. kapaligiran ng pagkain Atlas Data Portal — naglalaman ng data ng pananaliksik sa nutrisyon sa Estados Unidos.
  49. Portal ng Data ng Kalusugan ay isang portal ng US Department of Health and Human Services.
  50. Centers for Disease Control and Prevention Data Portal - naglalaman ng malawak na hanay ng data na nauugnay sa kalusugan.
  51. London Datastore Portal - data tungkol sa buhay ng mga tao sa London.
  52. Open Data Portal ng Pamahalaan ng Canada - isang portal ng bukas na data tungkol sa mga Canadian (agrikultura, sining, musika, edukasyon, pamahalaan, pangangalaga sa kalusugan, atbp.)

Magbasa pa

Pinagmulan: www.habr.com

Magdagdag ng komento