පුහුණු ව්‍යාපෘති සඳහා දත්ත කට්ටල 52ක්

  1. සාප්පු සංකීර්ණ පාරිභෝගික දත්ත කට්ටලය - ගබඩා අමුත්තන්ගේ දත්ත: හැඳුනුම්පත, ස්ත්‍රී පුරුෂ භාවය, වයස, ආදායම, වියදම් ශ්‍රේණිගත කිරීම. (යෙදුම් විකල්පය: යන්ත්‍ර ඉගෙනීම සමඟ පාරිභෝගික ඛණ්ඩන ව්‍යාපෘතිය)
  2. අයිරිස් දත්ත කට්ටලය - විවිධ මල් සඳහා සීපල් සහ පෙති වල ප්‍රමාණයන් අඩංගු ආරම්භකයින් සඳහා දත්ත කට්ටලයක්.
  3. MNIST දත්ත කට්ටලය - අතින් ලියන ලද අංක දත්ත කට්ටලයක්. පුහුණු පින්තූර 60 ක් සහ පරීක්ෂණ පින්තූර 000 ක්.
  4. බොස්ටන් නිවාස දත්ත කට්ටලය රටා හඳුනාගැනීම සඳහා ජනප්‍රිය දත්ත කට්ටලයකි. බොස්ටන්හි නිවාස පිළිබඳ තොරතුරු අඩංගු වේ: මහල් නිවාස සංඛ්යාව, කුලී මිල, අපරාධ දර්ශකය.
  5. ව්යාජ පුවත් හඳුනාගැනීමේ දත්ත කට්ටලය — පුවත් සලකුණු සහිත ඇතුළත් කිරීම් 7796ක් අඩංගු වේ: සත්‍ය හෝ අසත්‍ය. (Python හි ප්‍රභව කේතය සහිත යෙදුම් විකල්පය: Fake News Detection Python ව්‍යාපෘතිය )
  6. වයින් තත්ත්ව දත්ත කට්ටලය - වයින් පිළිබඳ තොරතුරු අඩංගු වේ: පරාමිති 4898 ක් සහිත වාර්තා 14 ක්.
  7. SOCR දත්ත - උස සහ බර දත්ත කට්ටලය - ආරම්භ කිරීමට හොඳ විකල්පයක්. 25 හැවිරිදි පුද්ගලයින්ගේ උස සහ බර පිළිබඳ වාර්තා 000 ක් අඩංගු වේ.

    පුහුණු ව්‍යාපෘති සඳහා දත්ත කට්ටල 52ක්

    ලිපිය පරිවර්තනය කරන ලද්දේ EDISON මෘදුකාංගයේ සහය ඇතිවය දකුණු චීනයේ නියෝග "විශිෂ්ට ලෙස" ඉටු කරයි, මෙන්ම වෙබ් යෙදුම් සහ වෙබ් අඩවි සංවර්ධනය කරයි.

  8. පාකින්සන් දත්ත කට්ටලය - පාකින්සන් රෝගයෙන් පෙළෙන රෝගීන්ගේ වාර්තා 195 ක්, විශ්ලේෂණ පරාමිතීන් 25 ක් ඇත. රෝගී පුද්ගලයින් සහ නිරෝගී පුද්ගලයින් අතර වෙනස පිළිබඳ මූලික තක්සේරුව සඳහා භාවිතා කළ හැකිය. (Python හි ප්‍රභව කේතය සහිත යෙදුම් විකල්පය: පාකින්සන් රෝගය හඳුනාගැනීමේ යන්ත්‍ර ඉගෙනීමේ ව්‍යාපෘතිය)
  9. ටයිටැනික් දත්ත කට්ටලය - පුහුණු කට්ටලයේ 891 ක් සහ පරීක්ෂණ කට්ටලයේ 418 ක් මගීන් (වයස, ස්ත්‍රී පුරුෂ භාවය, නැවේ සිටින ඥාතීන්, ආදිය) පිළිබඳ තොරතුරු අඩංගු වේ.
  10. Uber Pickups දත්ත කට්ටලය - 4.5 දී Uber හි සංචාර මිලියන 2014 ක් සහ 14 දී මිලියන 2015 ක් පිළිබඳ තොරතුරු. (R හි මූල කේතය සහිත යෙදුම් විකල්පය: Uber දත්ත විශ්ලේෂණ ව්‍යාපෘතිය R)
  11. Chars74k දත්ත කට්ටලය — පන්ති 64 ක බ්‍රිතාන්‍ය සහ කැනේඩියානු සංකේතවල රූප අඩංගු වේ: 0-9, A-Z, a-z. 7700 7.7k ස්වභාවික රූප, 3400k අතින් අකුරු, 62000 පරිගණක සංස්ලේෂණය කළ අකුරු.
  12. ක්‍රෙඩිට් කාඩ් වංචා හඳුනාගැනීමේ දත්ත කට්ටලය - සම්මුතියට පත් ක්‍රෙඩිට් කාඩ්පත් වල ගනුදෙනු පිළිබඳ තොරතුරු අඩංගු වේ. (මූලාශ්රය සමඟ යෙදුම් විකල්පය: ක්‍රෙඩිට් කාඩ් වංචා හඳුනාගැනීමේ යන්ත්‍ර ඉගෙනීමේ ව්‍යාපෘතිය)
  13. Chatbot Intents දත්ත කට්ටලය — විවිධ ටැග් අඩංගු JSON ගොනුවක්: සුභ පැතුම්, සමුගැනීම, Hospital_search, pharmacy_search, ආදිය. ප්‍රශ්න-පිළිතුරු සැකිලි කට්ටලයක් අඩංගු වේ. (Python හි ප්‍රභව කේතය සහිත යෙදුම් විකල්පය: පයිතන් හි චැට්බෝට් ව්‍යාපෘතිය)
  14. එන්රොන් ඊමේල් දත්ත කට්ටලය - එන්රොන් කළමනාකරුවන් 150 දෙනෙකුගේ ලිපි මිලියන භාගයක් අඩංගු වේ.
  15. Yelp දත්ත කට්ටලය — මිලියන 1,2 ක පරිශීලකයින් මිලියන 1,6 ක පමණ සංවිධාන මිලියන 1,2 ක නිර්දේශ අඩංගු වේ.
  16. ජියෝපර්ඩි දත්ත කට්ටලය - ජනප්‍රිය රූපවාහිනී ක්‍රීඩාවෙන් ප්‍රශ්න-පිළිතුරු පටිගත කිරීම් 200කට වඩා.
  17. පද්ධති දත්ත කට්ටලය නිර්දේශ කරන්න — UCSD විශ්ව විද්‍යාලයේ දත්ත කට්ටල එකතුවක් සහිත ද්වාරයකි. ජනප්‍රිය වෙබ් අඩවිවල (Goodreads, Amazon) සමාලෝචන වාර්තා අඩංගු වේ. නිර්දේශිත පද්ධති නිර්මාණය කිරීම සඳහා විශිෂ්ටයි. (R හි මූල කේතය සහිත යෙදුම් විකල්පය: චිත්‍රපට නිර්දේශ පද්ධති ව්‍යාපෘතිය R )
  18. UCI Spambase දත්ත කට්ටලය - ස්පෑම් හඳුනාගැනීම සඳහා පුහුණු දත්ත කට්ටලයක්. පාරදත්ත පරාමිති 4601ක් සහිත අකුරු 57ක් අඩංගු වේ.
  19. Flickr 30k දත්ත කට්ටලය - පින්තූර සහ සිරස්තල 30 කට වඩා. (Flickr 8k දත්ත කට්ටලය - පින්තූර 8000 ක්. පයිතන් මූලාශ්‍ර ව්‍යාපෘතිය: Image Caption Generator Python ව්‍යාපෘතිය)
  20. IMDB සමාලෝචන — පුහුණු කට්ටලයේ චිත්‍රපට විචාර 25ක් සහ පරීක්ෂණ කට්ටලයේ 000ක්. (R හි මූල කේතය සහිත යෙදුම් විකල්පය: හැඟීම් විශ්ලේෂණය දත්ත විද්‍යා ව්‍යාපෘතිය)
  21. MS COCO දත්ත කට්ටලය - ටැග් කළ පින්තූර මිලියන 1,5 ක්.
  22. CIFAR-10 සහ CIFAR-100 දත්ත කට්ටලය — CIFAR-10 හි පික්සල 60,000*32 අංක 32-0 කුඩා රූප 9ක් අඩංගු වේ. CIFAR-100 - පිළිවෙලින්, 0-100.
  23. GTSRB (ජර්මානු මාර්ග සංඥා හඳුනාගැනීමේ මිණුම් ලකුණ) දත්ත කට්ටලය - මාර්ග සංඥා 50 ක රූප 000 ක්. (Python හි ප්‍රභව කේතය සහිත යෙදුම් විකල්පය: රථවාහන සංඥා හඳුනාගැනීමේ පයිතන් ව්‍යාපෘතිය)
  24. ImageNet දත්ත කට්ටලය — වාක්‍ය ඛණ්ඩ 100කට වඩා සහ එක් වැකියකට රූප 000ක් පමණ අඩංගු වේ.
  25. පියයුරු හිස්ටොෙටොෙලොජි රූප දත්ත කට්ටලය - දත්ත කට්ටලයේ පියයුරු පිළිකා සාම්පලවල රූප අඩංගු වේ. (මූලාශ්‍ර කේතය සමඟ යෙදුම් විකල්පය පියයුරු පිළිකා වර්ගීකරණ පයිතන් ව්‍යාපෘතිය)
  26. නගර දර්ශන දත්ත කට්ටලය - විවිධ නගරවල වීදිවල වීඩියෝ අනුපිළිවෙලෙහි උසස් තත්ත්වයේ විවරණ අඩංගු වේ.
  27. චාලක දත්ත කට්ටලය - මිලියන 6,5 ක පමණ උසස් තත්ත්වයේ වීඩියෝ සඳහා URL සබැඳියක් අඩංගු වේ.
  28. MPII මානව ඉරියව් දත්ත කට්ටලය - දත්ත කට්ටලයේ ඒකාබද්ධ විවරණ සහිත මිනිස් ඉරියව්වල රූප 25 ක් අඩංගු වේ.
  29. 20BN-යමක්-යමක් දත්ත කට්ටලය v2 - පුද්ගලයෙකු යම් ක්‍රියාවක් කරන ආකාරය පෙන්වන උසස් තත්ත්වයේ වීඩියෝ කට්ටලයක්.
  30. වස්තුව 365 දත්ත කට්ටලය — වස්තු මායිම් කොටු සහිත උසස් තත්ත්වයේ රූපවල දත්ත කට්ටලයක්.
  31. ඡායාරූප සටහන් දත්ත කට්ටලය - ඒවායේ දළ සටහන් ඇඳීම් සහිත රූප 1000 කට වඩා අඩංගු වේ.
  32. CQ500 දත්ත කට්ටලය - දත්ත කට්ටලයේ පෙති 491ක් සහිත හිසෙහි CT ස්කෑන් 193ක් අඩංගු වේ.
  33. IMDB-Wiki දත්ත කට්ටලය - ස්ත්‍රී පුරුෂ භාවය සහ වයස අනුව සලකුණු කළ මුහුණුවල මිලියන 5කට වඩා වැඩි රූප සහිත දත්ත කට්ටලයක්. (මූලාශ්‍ර කේතය සමඟ යෙදුම් විකල්පය ස්ත්‍රී පුරුෂ භාවය සහ වයස හඳුනාගැනීමේ පයිතන් ව්‍යාපෘතිය)
  34. Youtube 8M දත්ත කට්ටලය - Youtube වීඩියෝ ID මිලියන 6,1 ක් අඩංගු ලේබල් කළ වීඩියෝ දත්ත කට්ටලයක්
  35. නාගරික ශබ්ද 8K දත්ත කට්ටලය - නාගරික ශබ්ද දත්ත කට්ටලයක් (පංති 8732 කින් නාගරික ශබ්ද 10 ක් අඩංගු වේ).
  36. LSUN දත්ත කට්ටලය - දර්ශන සහ වස්තු වල වර්ණ රූප මිලියන ගණනක දත්ත කට්ටලයක් (රූප මිලියන 59ක් පමණ, විවිධ දර්ශන කාණ්ඩ 10ක් සහ විවිධ වස්තු කාණ්ඩ 20ක්).
  37. RAVDESS දත්ත කට්ටලය - චිත්තවේගීය කථාවේ ශ්රව්ය දෘශ්ය දත්ත සමුදාය. (මූලාශ්‍ර කේතය සමඟ යෙදුම් විකල්පය කථන හැඟීම් හඳුනාගැනීමේ පයිතන් ව්‍යාපෘතිය)
  38. Librispeech දත්ත කට්ටලය — දත්ත කට්ටලයේ විවිධ උච්චාරණ සහිත ඉංග්‍රීසි කථන පැය 1000ක් අඩංගු වේ.
  39. Baidu Apolloscape දත්ත කට්ටලය - ස්වයං-රිය පැදවීමේ තාක්ෂණය දියුණු කිරීම සඳහා දත්ත කට්ටලයක්.
  40. Quandl දත්ත ද්වාරය - ආර්ථික හා මූල්‍ය දත්ත ගබඩාව (නොමිලේ සහ ගෙවන අන්තර්ගතය ඇත).
  41. ලෝක බැංකු විවෘත දත්ත ද්වාරය - සංවර්ධනය වෙමින් පවතින රටවලට ලෝක බැංකුව විසින් නිකුත් කරන ලද ණය පිළිබඳ තොරතුරු.
  42. IMF දත්ත ද්වාරය ජාත්‍යන්තර මූල්‍ය, ණය අනුපාත, ආයෝජන, විදේශ විනිමය සංචිත සහ භාණ්ඩ පිළිබඳ දත්ත ප්‍රකාශයට පත් කරන ජාත්‍යන්තර මූල්‍ය අරමුදල් ද්වාරයකි.
  43. ඇමරිකානු ආර්ථික සංගමය (AEA) දත්ත ද්වාරය - එක්සත් ජනපද සාර්ව ආර්ථික දත්ත සෙවීම සඳහා සම්පතක්.
  44. Google Trends දත්ත ද්වාරය - Google ප්‍රවණතා දත්ත දෘශ්‍ය ලෙස ගවේෂණය කිරීමට සහ දත්ත විශ්ලේෂණය කිරීමට භාවිතා කළ හැක.
  45. Financial Times Market Data Portal ලොව පුරා මූල්‍ය වෙලඳපොලවල් පිළිබඳ යාවත්කාලීන තොරතුරු සඳහා සම්පතකි.
  46. Data.gov ද්වාරය - එක්සත් ජනපද රජය විවෘත දත්ත ද්වාරය (කෘෂිකාර්මික, සෞඛ්‍ය, දේශගුණය, අධ්‍යාපනය, බලශක්තිය, මූල්‍ය, විද්‍යාව සහ පර්යේෂණ, ආදිය).
  47. දත්ත ද්වාරය: විවෘත රජයේ දත්ත (ඉන්දියාව) යනු ඉන්දියාවේ විවෘත රජයේ දත්ත වේදිකාවයි.
  48. ආහාර පරිසරය ඇට්ලස් දත්ත ද්වාරය - එක්සත් ජනපදයේ පෝෂණය පිළිබඳ පර්යේෂණ දත්ත අඩංගු වේ.
  49. සෞඛ්‍ය දත්ත ද්වාරය යනු එක්සත් ජනපද සෞඛ්‍ය හා මානව සේවා දෙපාර්තමේන්තුවේ ද්වාරයකි.
  50. රෝග පාලනය සහ වැළැක්වීමේ දත්ත ද්වාරය සඳහා මධ්‍යස්ථාන - සෞඛ්‍ය සම්බන්ධ පුළුල් පරාසයක දත්ත අඩංගු වේ.
  51. ලන්ඩන් දත්ත ගබඩා ද්වාරය - ලන්ඩනයේ මිනිසුන්ගේ ජීවිත පිළිබඳ දත්ත.
  52. කැනඩා රජයේ විවෘත දත්ත ද්වාරය - කැනේඩියානුවන් පිළිබඳ විවෘත දත්ත ද්වාරයක් (කෘෂිකර්මය, කලාව, සංගීතය, අධ්‍යාපනය, රජය, සෞඛ්‍ය සේවා, ආදිය)

තවත් කියවන්න

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න