പരിശീലന പദ്ധതികൾക്കായി 52 ഡാറ്റാസെറ്റുകൾ

  1. മാൾ ഉപഭോക്താക്കളുടെ ഡാറ്റാസെറ്റ് - സ്റ്റോർ സന്ദർശകരുടെ ഡാറ്റ: ഐഡി, ലിംഗഭേദം, പ്രായം, വരുമാനം, ചെലവ് റേറ്റിംഗ്. (ആപ്ലിക്കേഷൻ ഓപ്ഷൻ: മെഷീൻ ലേണിംഗിനൊപ്പം കസ്റ്റമർ സെഗ്മെന്റേഷൻ പ്രോജക്റ്റ്)
  2. ഐറിസ് ഡാറ്റാസെറ്റ് - തുടക്കക്കാർക്കുള്ള ഒരു ഡാറ്റാസെറ്റ്, വിവിധ പൂക്കൾക്കുള്ള വിദളങ്ങളുടെയും ദളങ്ങളുടെയും വലിപ്പം അടങ്ങിയിരിക്കുന്നു.
  3. MNIST ഡാറ്റാസെറ്റ് - കൈയക്ഷര നമ്പറുകളുടെ ഒരു ഡാറ്റാസെറ്റ്. 60 പരിശീലന ചിത്രങ്ങളും 000 ടെസ്റ്റ് ചിത്രങ്ങളും.
  4. ബോസ്റ്റൺ ഹൗസിംഗ് ഡാറ്റാസെറ്റ് പാറ്റേൺ തിരിച്ചറിയുന്നതിനുള്ള ഒരു ജനപ്രിയ ഡാറ്റാസെറ്റാണ്. ബോസ്റ്റണിലെ വീടുകളെക്കുറിച്ചുള്ള വിവരങ്ങൾ അടങ്ങിയിരിക്കുന്നു: അപ്പാർട്ട്മെന്റുകളുടെ എണ്ണം, വാടക വില, കുറ്റകൃത്യ സൂചിക.
  5. വ്യാജ വാർത്തകൾ കണ്ടെത്തൽ ഡാറ്റാസെറ്റ് — വാർത്ത അടയാളപ്പെടുത്തലുകളുള്ള 7796 എൻട്രികൾ അടങ്ങിയിരിക്കുന്നു: ശരിയോ തെറ്റോ. (പൈത്തണിലെ സോഴ്സ് കോഡുള്ള ആപ്ലിക്കേഷൻ ഓപ്ഷൻ: വ്യാജ വാർത്തകൾ കണ്ടെത്തൽ പൈത്തൺ പദ്ധതി )
  6. വൈൻ ഗുണനിലവാര ഡാറ്റാസെറ്റ് - വീഞ്ഞിനെക്കുറിച്ചുള്ള വിവരങ്ങൾ അടങ്ങിയിരിക്കുന്നു: 4898 പാരാമീറ്ററുകളുള്ള 14 റെക്കോർഡുകൾ.
  7. SOCR ഡാറ്റ - ഉയരവും ഭാരവും ഡാറ്റാസെറ്റ് - ആരംഭിക്കുന്നതിനുള്ള ഒരു നല്ല ഓപ്ഷൻ. 25 വയസ്സുള്ള ആളുകളുടെ ഉയരത്തിന്റെയും ഭാരത്തിന്റെയും 000 റെക്കോർഡുകൾ അടങ്ങിയിരിക്കുന്നു.

    പരിശീലന പദ്ധതികൾക്കായി 52 ഡാറ്റാസെറ്റുകൾ

    എഡിസൺ സോഫ്റ്റ്‌വെയറിന്റെ പിന്തുണയോടെയാണ് ലേഖനം വിവർത്തനം ചെയ്തത് ദക്ഷിണ ചൈനയിൽ നിന്നുള്ള ഓർഡറുകൾ "മികച്ച രീതിയിൽ" നിറവേറ്റുന്നു, അതുപോലെ തന്നെ വെബ് ആപ്ലിക്കേഷനുകളും വെബ്സൈറ്റുകളും വികസിപ്പിക്കുന്നു.

  8. പാർക്കിൻസൺ ഡാറ്റാസെറ്റ് - പാർക്കിൻസൺസ് രോഗമുള്ള രോഗികളുടെ 195 രേഖകൾ, 25 വിശകലന പാരാമീറ്ററുകൾ. രോഗികളും ആരോഗ്യമുള്ളവരും തമ്മിലുള്ള വ്യത്യാസം പ്രാഥമിക വിലയിരുത്തലിനായി ഉപയോഗിക്കാം. (പൈത്തണിലെ സോഴ്സ് കോഡുള്ള ആപ്ലിക്കേഷൻ ഓപ്ഷൻ: പാർക്കിൻസൺസ് രോഗം കണ്ടുപിടിക്കുന്നതിനുള്ള മെഷീൻ ലേണിംഗ് പ്രോജക്റ്റ്)
  9. ടൈറ്റാനിക് ഡാറ്റാസെറ്റ് - ട്രെയിനിംഗ് സെറ്റിൽ യാത്രക്കാരുടെ (പ്രായം, ലിംഗഭേദം, ബന്ധുക്കൾ മുതലായവ) 891 പേരും ടെസ്റ്റ് സെറ്റിൽ 418 പേരും ഉൾപ്പെടുന്നു.
  10. Uber Pickups ഡാറ്റാസെറ്റ് - 4.5-ൽ Uber-ൽ 2014 ദശലക്ഷം യാത്രകളും 14-ൽ 2015 ദശലക്ഷം യാത്രകളും. (R-ൽ സോഴ്സ് കോഡുള്ള ആപ്ലിക്കേഷൻ ഓപ്ഷൻ: R-ലെ Uber ഡാറ്റ വിശകലന പദ്ധതി)
  11. Chars74k ഡാറ്റാസെറ്റ് — 64 ക്ലാസുകളുടെ ബ്രിട്ടീഷ്, കനേഡിയൻ ചിഹ്നങ്ങളുടെ ചിത്രങ്ങൾ അടങ്ങിയിരിക്കുന്നു: 0-9, AZ, az. 7700 7.7k സ്വാഭാവിക ചിത്രങ്ങൾ, 3400k കൈയെഴുത്ത്, 62000 കമ്പ്യൂട്ടർ സിന്തസൈസ്ഡ് ഫോണ്ടുകൾ.
  12. ക്രെഡിറ്റ് കാർഡ് തട്ടിപ്പ് കണ്ടെത്തൽ ഡാറ്റാസെറ്റ് - അപഹരിക്കപ്പെട്ട ക്രെഡിറ്റ് കാർഡുകളുടെ ഇടപാടുകളെക്കുറിച്ചുള്ള വിവരങ്ങൾ അടങ്ങിയിരിക്കുന്നു. (ഉറവിടത്തോടുകൂടിയ ആപ്ലിക്കേഷൻ ഓപ്ഷൻ: ക്രെഡിറ്റ് കാർഡ് തട്ടിപ്പ് കണ്ടെത്തൽ മെഷീൻ ലേണിംഗ് പ്രോജക്റ്റ്)
  13. ചാറ്റ്ബോട്ട് ഇന്റന്റ്സ് ഡാറ്റാസെറ്റ് — വിവിധ ടാഗുകൾ ഉൾക്കൊള്ളുന്ന ഒരു JSON ഫയൽ: ആശംസകൾ, വിട, ആശുപത്രി_തിരയൽ, ഫാർമസി_സെർച്ച് മുതലായവ. ഒരു കൂട്ടം ചോദ്യ-ഉത്തര ടെംപ്ലേറ്റുകൾ അടങ്ങിയിരിക്കുന്നു. (പൈത്തണിലെ സോഴ്സ് കോഡുള്ള ആപ്ലിക്കേഷൻ ഓപ്ഷൻ: പൈത്തണിലെ ചാറ്റ്ബോട്ട് പ്രോജക്റ്റ്)
  14. എൻറോൺ ഇമെയിൽ ഡാറ്റാസെറ്റ് - 150 എൻറോൺ മാനേജർമാരിൽ നിന്നുള്ള അര ദശലക്ഷം കത്തുകൾ അടങ്ങിയിരിക്കുന്നു.
  15. Yelp ഡാറ്റാസെറ്റ് - ഏകദേശം 1,2 ദശലക്ഷം ഓർഗനൈസേഷനുകളിൽ 1,6 ദശലക്ഷം ഉപയോക്താക്കളിൽ നിന്നുള്ള 1,2 ദശലക്ഷം ശുപാർശകൾ അടങ്ങിയിരിക്കുന്നു.
  16. ജിയോപാർഡി ഡാറ്റാസെറ്റ് - ജനപ്രിയ ടെലിവിഷൻ ഗെയിമിൽ നിന്നുള്ള 200-ലധികം ചോദ്യോത്തര റെക്കോർഡിംഗുകൾ.
  17. സിസ്റ്റം ഡാറ്റാസെറ്റ് ശുപാർശ ചെയ്യുക - UCSD യൂണിവേഴ്സിറ്റിയിൽ നിന്നുള്ള ഡാറ്റാസെറ്റുകളുടെ ശേഖരമുള്ള ഒരു പോർട്ടൽ. ജനപ്രിയ സൈറ്റുകളിലെ (Goodreads, Amazon) അവലോകനങ്ങളുടെ രേഖകൾ അടങ്ങിയിരിക്കുന്നു. ശുപാർശ ചെയ്യുന്ന സംവിധാനങ്ങൾ സൃഷ്ടിക്കുന്നതിന് മികച്ചതാണ്. (R-ൽ സോഴ്സ് കോഡുള്ള ആപ്ലിക്കേഷൻ ഓപ്ഷൻ: R ലെ മൂവി ശുപാർശ സിസ്റ്റം പ്രോജക്റ്റ് )
  18. യുസിഐ സ്പാംബേസ് ഡാറ്റാസെറ്റ് — സ്പാം കണ്ടെത്തുന്നതിനുള്ള പരിശീലന ഡാറ്റാസെറ്റ്. 4601 മെറ്റാഡാറ്റ പാരാമീറ്ററുകളുള്ള 57 അക്ഷരങ്ങൾ അടങ്ങിയിരിക്കുന്നു.
  19. Flickr 30k ഡാറ്റാസെറ്റ് - 30-ലധികം ചിത്രങ്ങളും അടിക്കുറിപ്പുകളും. (Flickr 8k ഡാറ്റാസെറ്റ് - 8000 ചിത്രങ്ങൾ. പൈത്തൺ ഉറവിട പദ്ധതി: ഇമേജ് ക്യാപ്ഷൻ ജനറേറ്റർ പൈത്തൺ പ്രോജക്റ്റ്)
  20. IMDB അവലോകനങ്ങൾ - പരിശീലന സെറ്റിൽ 25 സിനിമാ നിരൂപണങ്ങളും ടെസ്റ്റ് സെറ്റിൽ 000 ഉം. (R-ൽ സോഴ്സ് കോഡുള്ള ആപ്ലിക്കേഷൻ ഓപ്ഷൻ: സെന്റിമെന്റ് അനാലിസിസ് ഡാറ്റ സയൻസ് പ്രോജക്റ്റ്)
  21. MS COCO ഡാറ്റാസെറ്റ് - 1,5 ദശലക്ഷം ടാഗ് ചെയ്ത ചിത്രങ്ങൾ.
  22. CIFAR-10, CIFAR-100 ഡാറ്റാസെറ്റ് — CIFAR-10-ൽ 60,000*32 പിക്സൽ നമ്പറുകൾ 32-0 ന്റെ 9 ചെറിയ ചിത്രങ്ങൾ അടങ്ങിയിരിക്കുന്നു. CIFAR-100 - യഥാക്രമം, 0-100.
  23. GTSRB (ജർമ്മൻ ട്രാഫിക് സൈൻ റെക്കഗ്നിഷൻ ബെഞ്ച്മാർക്ക്) ഡാറ്റാസെറ്റ് - 50 റോഡ് അടയാളങ്ങളുടെ 000 ചിത്രങ്ങൾ. (പൈത്തണിലെ സോഴ്സ് കോഡുള്ള ആപ്ലിക്കേഷൻ ഓപ്ഷൻ: ട്രാഫിക് അടയാളങ്ങൾ തിരിച്ചറിയൽ പൈത്തൺ പദ്ധതി)
  24. ഇമേജ്നെറ്റ് ഡാറ്റാസെറ്റ് — ഒരു വാക്യത്തിൽ 100-ലധികം വാക്യങ്ങളും ഏകദേശം 000 ചിത്രങ്ങളും അടങ്ങിയിരിക്കുന്നു.
  25. ബ്രെസ്റ്റ് ഹിസ്റ്റോപത്തോളജി ഇമേജ് ഡാറ്റാസെറ്റ് - ഡാറ്റാസെറ്റിൽ സ്തനാർബുദ സാമ്പിളുകളുടെ ചിത്രങ്ങൾ അടങ്ങിയിരിക്കുന്നു. (സോഴ്സ് കോഡ് ഓണുള്ള ആപ്ലിക്കേഷൻ ഓപ്ഷൻ സ്തനാർബുദ വർഗ്ഗീകരണം പൈത്തൺ പദ്ധതി)
  26. സിറ്റിസ്‌കേപ്പ് ഡാറ്റാസെറ്റ് - വിവിധ നഗരങ്ങളിലെ തെരുവുകളുടെ വീഡിയോ സീക്വൻസുകളുടെ ഉയർന്ന നിലവാരമുള്ള വ്യാഖ്യാനങ്ങൾ അടങ്ങിയിരിക്കുന്നു.
  27. കൈനറ്റിക്സ് ഡാറ്റാസെറ്റ് - ഏകദേശം 6,5 ദശലക്ഷം ഉയർന്ന നിലവാരമുള്ള വീഡിയോകളിലേക്കുള്ള ഒരു URL ലിങ്ക് അടങ്ങിയിരിക്കുന്നു.
  28. MPII ഹ്യൂമൻ പോസ് ഡാറ്റാസെറ്റ് — സംയുക്ത വ്യാഖ്യാനങ്ങളോടെയുള്ള മനുഷ്യന്റെ പോസുകളുടെ 25 ചിത്രങ്ങൾ ഡാറ്റാസെറ്റിൽ അടങ്ങിയിരിക്കുന്നു.
  29. 20BN-എന്തോ-എന്തോ ഡാറ്റാസെറ്റ് v2 - ഒരു വ്യക്തി എങ്ങനെ ചില പ്രവർത്തനങ്ങൾ ചെയ്യുന്നു എന്ന് കാണിക്കുന്ന ഉയർന്ന നിലവാരമുള്ള വീഡിയോകളുടെ ഒരു കൂട്ടം.
  30. ഒബ്ജക്റ്റ് 365 ഡാറ്റാസെറ്റ് — ഒബ്ജക്റ്റ് ബൗണ്ടിംഗ് ബോക്സുകളുള്ള ഉയർന്ന നിലവാരമുള്ള ചിത്രങ്ങളുടെ ഒരു ഡാറ്റാസെറ്റ്.
  31. ഫോട്ടോ സ്കെച്ചിംഗ് ഡാറ്റാസെറ്റ് - അവയുടെ ഔട്ട്‌ലൈൻ ഡ്രോയിംഗുകൾക്കൊപ്പം 1000-ലധികം ചിത്രങ്ങൾ അടങ്ങിയിരിക്കുന്നു.
  32. CQ500 ഡാറ്റാസെറ്റ് — ഡാറ്റാസെറ്റിൽ 491 സ്ലൈസുകളുള്ള തലയുടെ 193 സിടി സ്കാനുകൾ അടങ്ങിയിരിക്കുന്നു.
  33. IMDB-വിക്കി ഡാറ്റാസെറ്റ് - ലിംഗഭേദവും പ്രായവും അടയാളപ്പെടുത്തിയ മുഖങ്ങളുടെ 5 ദശലക്ഷത്തിലധികം ചിത്രങ്ങളുള്ള ഒരു ഡാറ്റാസെറ്റ്. (സോഴ്സ് കോഡ് ഓണുള്ള ആപ്ലിക്കേഷൻ ഓപ്ഷൻ ലിംഗഭേദവും പ്രായവും കണ്ടെത്തൽ പൈത്തൺ പദ്ധതി)
  34. Youtube 8M ഡാറ്റാസെറ്റ് - 6,1 ദശലക്ഷം Youtube വീഡിയോ ഐഡികൾ അടങ്ങുന്ന ലേബൽ ചെയ്ത വീഡിയോ ഡാറ്റാസെറ്റ്
  35. അർബൻ സൗണ്ട് 8K ഡാറ്റാസെറ്റ് - നഗര ശബ്ദ ഡാറ്റയുടെ ഒരു കൂട്ടം (8732 ക്ലാസുകളിൽ നിന്നുള്ള 10 നഗര ശബ്ദങ്ങൾ അടങ്ങിയിരിക്കുന്നു).
  36. LSUN ഡാറ്റാസെറ്റ് - ദൃശ്യങ്ങളുടെയും ഒബ്‌ജക്റ്റുകളുടെയും ദശലക്ഷക്കണക്കിന് വർണ്ണ ചിത്രങ്ങളുടെ ഒരു ഡാറ്റാസെറ്റ് (ഏകദേശം 59 ദശലക്ഷം ചിത്രങ്ങൾ, 10 വ്യത്യസ്ത ദൃശ്യ വിഭാഗങ്ങൾ, 20 വ്യത്യസ്ത ഒബ്‌ജക്റ്റ് വിഭാഗങ്ങൾ).
  37. RAVDESS ഡാറ്റാസെറ്റ് - വൈകാരിക സംഭാഷണത്തിന്റെ ഓഡിയോവിഷ്വൽ ഡാറ്റാബേസ്. (സോഴ്സ് കോഡ് ഓണുള്ള ആപ്ലിക്കേഷൻ ഓപ്ഷൻ സ്പീച്ച് ഇമോഷൻ റെക്കഗ്നിഷൻ പൈത്തൺ പ്രോജക്റ്റ്)
  38. ലിബ്രിസ്പീച്ച് ഡാറ്റാസെറ്റ് — ഡാറ്റാസെറ്റിൽ വ്യത്യസ്‌ത ഉച്ചാരണങ്ങളുള്ള 1000 മണിക്കൂർ ഇംഗ്ലീഷ് സംഭാഷണം അടങ്ങിയിരിക്കുന്നു.
  39. Baidu അപ്പോളോസ്‌കേപ്പ് ഡാറ്റാസെറ്റ് — സ്വയം ഡ്രൈവിംഗ് സാങ്കേതികവിദ്യകളുടെ വികസനത്തിനായുള്ള ഒരു ഡാറ്റാസെറ്റ്.
  40. Quandl ഡാറ്റ പോർട്ടൽ — സാമ്പത്തികവും സാമ്പത്തികവുമായ ഡാറ്റയുടെ ശേഖരം (സൗജന്യവും പണമടച്ചുള്ളതുമായ ഉള്ളടക്കമുണ്ട്).
  41. ലോകബാങ്ക് ഓപ്പൺ ഡാറ്റ പോർട്ടൽ - വികസ്വര രാജ്യങ്ങൾക്ക് ലോകബാങ്ക് നൽകുന്ന വായ്പകളെക്കുറിച്ചുള്ള വിവരങ്ങൾ.
  42. IMF ഡാറ്റ പോർട്ടൽ അന്താരാഷ്ട്ര ധനകാര്യം, കടബാധ്യതകൾ, നിക്ഷേപം, വിദേശനാണ്യ കരുതൽ ശേഖരം, ചരക്കുകൾ എന്നിവയെക്കുറിച്ചുള്ള ഡാറ്റ പ്രസിദ്ധീകരിക്കുന്ന ഒരു അന്താരാഷ്ട്ര നാണയ ഫണ്ട് പോർട്ടലാണ്.
  43. അമേരിക്കൻ ഇക്കണോമിക് അസോസിയേഷൻ (AEA) ഡാറ്റ പോർട്ടൽ - യുഎസ് മാക്രോ ഇക്കണോമിക് ഡാറ്റ തിരയുന്നതിനുള്ള ഒരു ഉറവിടം.
  44. Google ട്രെൻഡ്സ് ഡാറ്റ പോർട്ടൽ - ദൃശ്യപരമായി ഡാറ്റ പര്യവേക്ഷണം ചെയ്യുന്നതിനും വിശകലനം ചെയ്യുന്നതിനും Google ട്രെൻഡ് ഡാറ്റ ഉപയോഗിക്കാനാകും.
  45. ഫിനാൻഷ്യൽ ടൈംസ് മാർക്കറ്റ് ഡാറ്റ പോർട്ടൽ ലോകമെമ്പാടുമുള്ള സാമ്പത്തിക വിപണികളെക്കുറിച്ചുള്ള കാലികമായ വിവരങ്ങൾക്കുള്ള ഒരു ഉറവിടമാണ്.
  46. Data.gov പോർട്ടൽ - യുഎസ് ഗവൺമെന്റ് ഓപ്പൺ ഡാറ്റ പോർട്ടൽ (കൃഷി, ആരോഗ്യം, കാലാവസ്ഥ, വിദ്യാഭ്യാസം, ഊർജം, ധനകാര്യം, ശാസ്ത്രം, ഗവേഷണം മുതലായവ).
  47. ഡാറ്റ പോർട്ടൽ: സർക്കാർ ഡാറ്റ തുറക്കുക (ഇന്ത്യ) ഇന്ത്യയുടെ ഓപ്പൺ ഗവൺമെന്റ് ഡാറ്റാ പ്ലാറ്റ്‌ഫോമാണ്.
  48. ഭക്ഷ്യ പരിസ്ഥിതി അറ്റ്ലസ് ഡാറ്റ പോർട്ടൽ - യുണൈറ്റഡ് സ്റ്റേറ്റ്സിലെ പോഷകാഹാരത്തെക്കുറിച്ചുള്ള ഗവേഷണ ഡാറ്റ അടങ്ങിയിരിക്കുന്നു.
  49. ആരോഗ്യ ഡാറ്റ പോർട്ടൽ യുഎസ് ഡിപ്പാർട്ട്മെന്റ് ഓഫ് ഹെൽത്ത് ആൻഡ് ഹ്യൂമൻ സർവീസസിന്റെ ഒരു പോർട്ടലാണ്.
  50. സെന്റർസ് ഫോർ ഡിസീസ് കൺട്രോൾ ആൻഡ് പ്രിവൻഷൻ ഡാറ്റ പോർട്ടൽ - ആരോഗ്യ സംബന്ധിയായ ഡാറ്റയുടെ വിശാലമായ ശ്രേണി അടങ്ങിയിരിക്കുന്നു.
  51. ലണ്ടൻ ഡാറ്റാസ്റ്റോർ പോർട്ടൽ - ലണ്ടനിലെ ആളുകളുടെ ജീവിതത്തെക്കുറിച്ചുള്ള ഡാറ്റ.
  52. കാനഡ സർക്കാർ തുറന്ന ഡാറ്റ പോർട്ടൽ - കാനഡക്കാരെക്കുറിച്ചുള്ള തുറന്ന ഡാറ്റയുടെ ഒരു പോർട്ടൽ (കൃഷി, കല, സംഗീതം, വിദ്യാഭ്യാസം, സർക്കാർ, ആരോഗ്യ സംരക്ഷണം മുതലായവ)

കൂടുതൽ വായിക്കുക

അവലംബം: www.habr.com

ഒരു അഭിപ്രായം ചേർക്കുക