Iris Dataset — isang dataset para sa mga nagsisimula, na naglalaman ng mga sukat ng sepals at petals para sa iba't ibang bulaklak.
Dataset ng MNIST — isang dataset ng mga numerong sulat-kamay. 60 mga larawan ng pagsasanay at 000 mga larawan ng pagsubok.
Ang Boston Housing Dataset ay isang sikat na dataset para sa pagkilala ng pattern. Naglalaman ng impormasyon tungkol sa mga bahay sa Boston: bilang ng mga apartment, presyo ng pag-upa, index ng krimen.
Parkinson Dataset — 195 na talaan ng mga pasyenteng may Parkinson's disease, na may 25 na mga parameter ng pagsusuri. Maaaring gamitin para sa paunang pagtatasa ng pagkakaiba sa pagitan ng mga taong may sakit at malusog na mga tao. (Opsyon ng application na may source code sa Python: Machine Learning Project sa Pag-detect ng Parkinson's Disease)
Titanic Dataset — naglalaman ng impormasyon tungkol sa mga pasahero (edad, kasarian, kamag-anak na nakasakay, atbp.) 891 sa set ng pagsasanay at 418 sa set ng pagsubok.
Chars74k Dataset — naglalaman ng mga larawan ng mga simbolo ng British at Canadian ng 64 na klase: 0-9, AZ, az. 7700 7.7k natural na larawan, 3400k sulat-kamay, 62000 na computer synthesized na mga font.
Chatbot Intents Dataset — isang JSON file na naglalaman ng iba't ibang mga tag: pagbati, paalam, paghahanap sa ospital, paghahanap sa parmasya, atbp. Naglalaman ng isang hanay ng mga template ng tanong-sagot. (Opsyon ng application na may source code sa Python: Chatbot Project sa Python)
Enron Email Dataset — naglalaman ng kalahating milyong liham mula sa 150 tagapamahala ng Enron.
Ang Yelp Dataset — naglalaman ng 1,2 milyong rekomendasyon mula sa 1,6 milyong user tungkol sa 1,2 milyong organisasyon.
Dataset ng Panganib — higit sa 200 question-and-answer recording mula sa sikat na laro sa telebisyon.
Dataset ng Recommender Systems — isang portal na may koleksyon ng mga dataset mula sa UCSD University. Naglalaman ng mga talaan ng mga review sa mga sikat na site (Goodreads, Amazon). Mahusay para sa paggawa ng mga system ng nagrerekomenda. (Opsyon ng application na may source code sa R: Project Recommendation System Project sa R)
Dataset ng Spambase ng UCI — isang dataset ng pagsasanay para sa pagtukoy ng spam. Naglalaman ng 4601 titik na may 57 metadata parameter.
CIFAR-10 at CIFAR-100 na dataset — Ang CIFAR-10 ay naglalaman ng 60,000 maliliit na larawan ng 32*32 pixels na mga numero 0-9. CIFAR-100 - ayon sa pagkakabanggit, 0-100.
Dataset ng Cityscapes — naglalaman ng mataas na kalidad na mga anotasyon ng mga video sequence ng mga kalye sa iba't ibang lungsod.
Dataset ng Kinetics - naglalaman ng URL link sa humigit-kumulang 6,5 milyong mataas na kalidad na mga video.
MPII human pose dataset — ang dataset ay naglalaman ng 25 larawan ng mga pose ng tao na may magkasanib na anotasyon.
20BN-something-something dataset v2 - isang set ng mga video na may mataas na kalidad na nagpapakita kung paano gumaganap ang isang tao ng ilang aksyon.
Object 365 Dataset — isang dataset ng mga de-kalidad na larawan na may mga object bounding box.
Youtube 8M Dataset - Isang may label na dataset ng video na naglalaman ng 6,1 milyong Youtube video ID
Urban Sound 8K na dataset — isang set ng urban sound data (naglalaman ng 8732 urban sounds mula sa 10 klase).
LSUN Dataset - isang dataset ng milyun-milyong kulay na larawan ng mga eksena at bagay (mga 59 milyong larawan, 10 iba't ibang kategorya ng eksena at 20 iba't ibang kategorya ng bagay).
Portal ng Data ng IMF ay isang international monetary fund portal na naglalathala ng data sa internasyonal na pananalapi, mga rate ng utang, pamumuhunan, mga reserbang palitan ng dayuhan at mga kalakal.
Portal ng Data.gov - Open data portal ng gobyerno ng US (agrikultura, kalusugan, klima, edukasyon, enerhiya, pananalapi, agham at pananaliksik, atbp.).
Open Data Portal ng Pamahalaan ng Canada - isang portal ng bukas na data tungkol sa mga Canadian (agrikultura, sining, musika, edukasyon, pamahalaan, pangangalaga sa kalusugan, atbp.)