Iris Dataset - usa ka dataset alang sa mga nagsugod, nga adunay mga gidak-on sa mga sepal ug mga petals alang sa lainlaing mga bulak.
MNIST Dataset - usa ka dataset sa sinulat sa kamot nga mga numero. 60 ka mga hulagway sa pagbansay ug 000 ka mga hulagway sa pagsulay.
Ang Boston Housing Dataset usa ka sikat nga dataset alang sa pag-ila sa pattern. Naglangkob sa kasayuran bahin sa mga balay sa Boston: gidaghanon sa mga apartment, presyo sa pag-abang, indeks sa krimen.
Dataset sa kalidad sa bino — Naglangkob sa kasayuran bahin sa bino: 4898 nga mga rekord nga adunay 14 nga mga parameter.
Data sa SOCR - Mga Data sa Taas ug Timbang - usa ka maayong kapilian sa pagsugod sa. Naglangkob sa 25 nga mga rekord sa gitas-on ug gibug-aton sa 000-anyos nga mga tawo.
Parkinson Dataset - 195 nga mga rekord sa mga pasyente nga adunay sakit nga Parkinson, nga adunay 25 nga mga parameter sa pagtuki. Mahimong gamiton alang sa pasiuna nga pagsusi sa kalainan tali sa mga masakiton ug himsog nga mga tawo. (Ang kapilian sa aplikasyon nga adunay source code sa Python: Proyekto sa Pagkat-on sa Machine sa Pagsusi sa Sakit sa Parkinson)
Titanic Dataset — Naglangkob sa kasayuran bahin sa mga pasahero (edad, gender, paryente nga sakay, ug uban pa) 891 sa set sa pagbansay ug 418 sa set sa pagsulay.
Chars74k nga Dataset — naglangkob sa mga hulagway sa mga simbolo sa Britanya ug Canada sa 64 ka klase: 0-9, AZ, az. 7700 7.7k natural nga mga hulagway, 3400k nga sinulat sa kamot, 62000 nga computer synthesized nga mga font.
Chatbot Intents Dataset - usa ka JSON file nga adunay lainlaing mga tag: mga pagtimbaya, panamilit, pagpangita sa ospital, pagpangita sa parmasya, ug uban pa. Naglangkob sa usa ka hugpong sa mga template sa tubag sa pangutana. (Ang kapilian sa aplikasyon nga adunay source code sa Python: Chatbot Project sa Python)
Enron Email Dataset - adunay tunga sa milyon nga mga sulat gikan sa 150 ka mga manager sa Enron.
Ang Yelp Dataset - adunay 1,2 milyon nga rekomendasyon gikan sa 1,6 milyon nga tiggamit mga 1,2 milyon nga mga organisasyon.
Dataset sa peligro — kapin sa 200 ka pangutana-ug-tubag nga mga rekording gikan sa sikat nga dula sa telebisyon.
Dataset sa Sistema sa Rekomendasyon — usa ka portal nga adunay koleksyon sa mga datos gikan sa UCSD University. Naglangkob sa mga rekord sa mga pagsusi sa mga sikat nga site (Goodreads, Amazon). Maayo alang sa paghimo sa mga sistema sa pagrekomenda. (Opsyon sa aplikasyon nga adunay source code sa R: Proyekto sa Sistema sa Rekomendasyon sa Pelikula sa R)
UCI Spambase Dataset - usa ka dataset sa pagbansay alang sa pag-ila sa spam. Naglangkob sa 4601 ka letra nga adunay 57 metadata nga mga parameter.
Youtube 8M Dataset - Usa ka gimarkahan nga dataset sa video nga adunay 6,1 milyon nga Youtube video ID
Urban Sound 8K nga dataset — usa ka set sa urban sound data (naglangkob sa 8732 urban sounds gikan sa 10 ka klase).
LSUN Dataset - usa ka dataset sa minilyon nga kolor nga mga hulagway sa mga talan-awon ug mga butang (mga 59 ka milyon nga mga hulagway, 10 ka lain-laing mga kategoriya sa talan-awon ug 20 ka lain-laing mga kategoriya sa butang).
Quandl Data Portal — tipiganan sa datos sa ekonomiya ug pinansyal (adunay libre ug bayad nga sulud).
Ang World Bank Open Data Portal — impormasyon bahin sa mga pautang nga gi-isyu sa World Bank sa mga nag-uswag nga mga nasud.
IMF Data Portal mao ang usa ka internasyonal nga monetary fund portal nga nagpatik sa data sa internasyonal nga pinansya, utang rates, investment, foreign exchange reserves ug mga palaliton.
Portal sa Data.gov - Bukas nga portal sa datos sa gobyerno sa US (agrikultura, kahimsog, klima, edukasyon, kusog, pinansya, siyensya ug panukiduki, ug uban pa).
Bukas nga Portal sa Data sa Gobyerno sa Canada - usa ka portal sa bukas nga datos bahin sa mga Canadiano (agrikultura, arte, musika, edukasyon, gobyerno, pag-atiman sa panglawas, ug uban pa)