52 datu kopas apmācību projektiem

  1. Mall klientu datu kopa ā€” veikala apmeklētāju dati: id, dzimums, vecums, ienākumi, tēriņu reitings. (Lietojumprogrammas iespēja: Klientu segmentācijas projekts ar maŔīnmācÄ«Å”anos)
  2. Iris datu kopa ā€” datu kopa iesācējiem, kas satur dažādu ziedu kauslapu un ziedlapu izmērus.
  3. MNIST datu kopa ā€” ar roku rakstÄ«tu skaitļu datu kopa. 60 000 treniņu attēlu un 10 000 testa attēlu.
  4. Bostonas mājokļu datu kopa ir populāra datu kopa modeļu atpazīŔanai. Satur informāciju par mājām Bostonā: dzīvokļu skaits, īres cenas, noziedzības indekss.
  5. Viltus ziņu noteikÅ”anas datu kopa ā€” satur 7796 ierakstus ar ziņu marķējumu: patiess vai nepatiess. (Lietojumprogrammas opcija ar avota kodu programmā Python: Viltus ziņu noteikÅ”anas Python projekts )
  6. VÄ«na kvalitātes datu kopa ā€” satur informāciju par vÄ«nu: 4898 ieraksti ar 14 parametriem.
  7. SOCR dati ā€” auguma un svara datu kopa - labs risinājums, ar ko sākt. Satur 25 000 ierakstu par 18 gadus vecu cilvēku garumu un svaru.

    52 datu kopas apmācību projektiem

    Raksts tika tulkots ar EDISON Software atbalstu, kas "teicami" izpilda pasūtījumus no Dienvidķīnasun izstrādā tīmekļa lietojumprogrammas un vietnes.

  8. Parkinsona datu kopa ā€” 195 ieraksti par pacientiem ar Parkinsona slimÄ«bu ar 25 analÄ«zes parametriem. Var izmantot, lai provizoriski novērtētu atŔķirÄ«bu starp slimiem un veseliem cilvēkiem. (Lietojumprogrammas opcija ar avota kodu programmā Python: MaŔīnmācÄ«Å”anās projekts Parkinsona slimÄ«bas noteikÅ”anai)
  9. Titānika datu kopa ā€” satur informāciju par pasažieriem (vecums, dzimums, radinieki uz kuÄ£a u.c.) 891 mācÄ«bu komplektā un 418 testa komplektā.
  10. Uber pikapu datu kopa ā€” informācija par 4.5 miljoniem ceļojumu Uber 2014. gadā un 14 miljoniem 2015. gadā. (Lietojumprogrammas opcija ar avota kodu R: Uber datu analÄ«zes projekts R)
  11. Chars74k datu kopa ā€” satur 64 klaÅ”u britu un kanādieÅ”u simbolu attēlus: 0-9, AZ, az. 7700 7.7 k dabisku attēlu, 3400 62000 ar roku rakstÄ«tu, XNUMX XNUMX datora sintezētu fontu.
  12. KredÄ«tkarÅ”u krāpÅ”anas noteikÅ”anas datu kopa ā€” satur informāciju par darÄ«jumiem ar apdraudētajām kredÄ«tkartēm. (Lietojumprogrammas opcija ar avotu: KredÄ«tkarÅ”u krāpÅ”anas atklāŔanas maŔīnmācÄ«bas projekts)
  13. Chatbot Intents datu kopa ā€” JSON fails, kas satur dažādus tagus: sveicieni, ardievu, hospital_search, pharmacy_search utt. Satur jautājumu-atbilžu veidņu kopu. (Lietojumprogrammas opcija ar avota kodu programmā Python: Chatbot projekts Python)
  14. Enron e-pasta datu kopa ā€” satur pusmiljonu vēstuļu no 150 Enron vadÄ«tājiem.
  15. Yelp datu kopa ā€” satur 1,2 miljonus ieteikumu no 1,6 miljoniem lietotāju aptuveni 1,2 miljoniem organizāciju.
  16. Apdraudējuma datu kopa ā€” vairāk nekā 200 000 jautājumu un atbilžu ierakstu no populārās televÄ«zijas spēles.
  17. Ieteikuma sistēmu datu kopa ā€” portāls ar UCSD universitātes datu kopu kolekciju. Satur ierakstus par atsauksmēm par populārām vietnēm (Goodreads, Amazon). Lieliski piemērots ieteikumu sistēmu izveidei. (Lietojumprogrammas opcija ar avota kodu R: Filmu ieteikumu sistēmas projekts R )
  18. UCI Spambase datu kopa ā€” apmācÄ«bas datu kopa surogātpasta noteikÅ”anai. Satur 4601 burtu ar 57 metadatu parametriem.
  19. Flickr 30 k datu kopa ā€” vairāk nekā 30 000 attēlu un parakstu. (Flickr 8 k datu kopa - 8000 attēlu. Python avota projekts: Attēlu parakstu Ä£eneratora Python projekts)
  20. IMDB atsauksmes ā€” 25 000 filmu recenzijas treniņu komplektā un 25 000 testa komplektā. (Lietojumprogrammas opcija ar avota kodu R: Sentimenta analÄ«zes datu zinātnes projekts)
  21. MS COCO datu kopa ā€” 1,5 miljoni atzÄ«mētu attēlu.
  22. CIFAR-10 un CIFAR-100 datu kopa ā€” CIFAR-10 satur 60,000 32 mazu attēlu ar 32*0 pikseļu cipariem 9-100. CIFAR-0 - attiecÄ«gi, 100-XNUMX.
  23. GTSRB (vācu satiksmes zÄ«mju atpazÄ«Å”anas etalons) datu kopa ā€” 50 000 43 ceļa zÄ«mju attēlu. (Lietojumprogrammas opcija ar avota kodu programmā Python: Ceļa zÄ«mju atpazÄ«Å”anas Python projekts)
  24. ImageNet datu kopa ā€” satur vairāk nekā 100 000 frāžu un aptuveni 1000 attēlu katrā frāzē.
  25. KrÅ«Å”u histopatoloÄ£ijas attēlu datu kopa ā€” datu kopā ir krÅ«ts vēža paraugu attēli. (Lietojumprogrammas opcija ar ieslēgtu avota kodu KrÅ«ts vēža klasifikācijas Python projekts)
  26. Pilsētas ainavu datu kopa ā€” satur augstas kvalitātes anotācijas dažādu pilsētu ielu video secÄ«bām.
  27. Kinētikas datu kopa - satur URL saiti uz aptuveni 6,5 miljoniem augstas kvalitātes videoklipu.
  28. MPII cilvēka pozu datu kopa ā€” datu kopā ir 25 000 cilvēku pozu attēlu ar kopÄ«gām anotācijām.
  29. 20 BN ā€” kaut kas ā€” datu kopa, v2 - augstas kvalitātes video kopums, kas parāda, kā cilvēks veic kādu darbÄ«bu.
  30. Objekta 365 datu kopa ā€” augstas kvalitātes attēlu datu kopa ar objektu robežlodziņiem.
  31. Fotoattēlu skicÄ“Å”anas datu kopa ā€” satur vairāk nekā 1000 attēlu ar to kontÅ«ru zÄ«mējumiem.
  32. CQ500 datu kopa ā€” datu kopā ir 491 galvas CT skenÄ“Å”ana ar 193 317 Ŕķēlumiem.
  33. IMDB-Wiki datu kopa ā€” datu kopa ar vairāk nekā 5 miljoniem seju attēlu, kas atzÄ«mēti pēc dzimuma un vecuma. (Lietojumprogrammas opcija ar ieslēgtu avota kodu Dzimuma un vecuma noteikÅ”anas Python projekts)
  34. Youtube 8M datu kopa - Marķēta video datu kopa, kurā ir 6,1 miljons Youtube video ID
  35. Urban Sound 8K datu kopa ā€” pilsētas skaņas datu kopums (satur 8732 pilsētas skaņas no 10 klasēm).
  36. LSUN datu kopa - miljoniem ainu un objektu krāsu attēlu datu kopa (apmēram 59 miljoni attēlu, 10 dažādas ainu kategorijas un 20 dažādas objektu kategorijas).
  37. RAVDESS datu kopa ā€” emocionālās runas audiovizuālā datubāze. (Lietojumprogrammas opcija ar ieslēgtu avota kodu Runas emociju atpazÄ«Å”anas Python projekts)
  38. Librispeech datu kopa ā€” datu kopā ir 1000 stundas angļu runas ar dažādiem akcentiem.
  39. Baidu Apolloscape datu kopa ā€” datu kopa paÅ”piedziņas tehnoloÄ£iju izstrādei.
  40. Quandl datu portāls ā€” ekonomikas un finanÅ”u datu krātuve (ir bezmaksas un maksas saturs).
  41. Pasaules Bankas atvērto datu portāls ā€” informācija par Pasaules Bankas izsniegtajiem aizdevumiem jaunattÄ«stÄ«bas valstÄ«m.
  42. SVF datu portāls ir starptautisks valūtas fondu portāls, kas publicē datus par starptautiskajām finansēm, parāda likmēm, investīcijām, ārvalstu valūtas rezervēm un precēm.
  43. Amerikas Ekonomikas asociācijas (AEA) datu portāls - resurss ASV makroekonomisko datu meklÄ“Å”anai.
  44. Google tendenču datu portāls - Google tendenču datus var izmantot, lai vizuāli izpētītu un analizētu datus.
  45. Financial Times tirgus datu portāls ir resurss jaunākajai informācijai par finanŔu tirgiem no visas pasaules.
  46. Data.gov portāls - ASV valdības atvērto datu portāls (lauksaimniecība, veselība, klimats, izglītība, enerģētika, finanses, zinātne un pētniecība utt.).
  47. Datu portāls: atvērtie valdības dati (Indija) ir Indijas atvērtās valdības datu platforma.
  48. Pārtikas vides Atlas datu portāls ā€” satur pētÄ«jumu datus par uzturu Amerikas Savienotajās ValstÄ«s.
  49. Veselības datu portāls ir ASV Veselības un cilvēku pakalpojumu departamenta portāls.
  50. Slimību kontroles un profilakses centru datu portāls - satur plaŔu ar veselību saistītu datu klāstu.
  51. Londonas datu krātuves portāls - dati par cilvēku dzīvi Londonā.
  52. Kanādas valdÄ«bas atvērto datu portāls - atvērto datu portāls par kanādieÅ”iem (lauksaimniecÄ«ba, māksla, mÅ«zika, izglÄ«tÄ«ba, valdÄ«ba, veselÄ«bas aprÅ«pe utt.)

Lasīt vairāk

Avots: www.habr.com

Pievieno komentāru