52 مجموعة بيانات لمشاريع التدريب

  1. مجموعة بيانات عملاء المول - بيانات زوار المتجر: الهوية والجنس والعمر والدخل وتقييم الإنفاق. (خيار التطبيق: مشروع تجزئة العملاء باستخدام التعلم الآلي)
  2. مجموعة بيانات Iris - مجموعة بيانات للمبتدئين، تحتوي على أحجام الكأسية والبتلات لمختلف الزهور.
  3. مجموعة بيانات MNIST - مجموعة بيانات من الأرقام المكتوبة بخط اليد. 60 صورة تدريبية و000 صورة اختبارية.
  4. مجموعة بيانات الإسكان في بوسطن هي مجموعة بيانات شائعة للتعرف على الأنماط. يحتوي على معلومات حول المنازل في بوسطن: عدد الشقق، أسعار الإيجارات، مؤشر الجريمة.
  5. مجموعة بيانات الكشف عن الأخبار المزيفة - يحتوي على 7796 إدخالاً مع علامات الأخبار: صحيح أو خطأ. (خيار التطبيق مع الكود المصدري في بايثون: مشروع بايثون لكشف الأخبار المزيفة )
  6. مجموعة بيانات جودة النبيذ - يحتوي على معلومات حول النبيذ: 4898 سجلاً مع 14 معلمة.
  7. بيانات SOCR – مجموعة بيانات الارتفاعات والأوزان - خيار جيد للبدء به. يحتوي على 25 سجل لطول ووزن الأشخاص بعمر 000 عامًا.

    52 مجموعة بيانات لمشاريع التدريب

    تمت ترجمة المقال بدعم من EDISON Software ، والتي يلبي الطلبيات من جنوب الصين "بشكل ممتاز"و تطوير تطبيقات الويب والمواقع.

  8. مجموعة بيانات باركنسون — 195 سجلاً للمرضى المصابين بمرض باركنسون، مع 25 معلمة تحليل. يمكن استخدامه للتقييم الأولي للفرق بين المرضى والأصحاء. (خيار التطبيق مع الكود المصدري في بايثون: مشروع التعلم الآلي للكشف عن مرض باركنسون)
  9. تيتانيك داتاسيت - يحتوي على معلومات حول الركاب (العمر والجنس والأقارب على متن الطائرة، وما إلى ذلك) 891 في مجموعة التدريب و418 في مجموعة الاختبار.
  10. مجموعة بيانات أوبر بيك اب - معلومات حول 4.5 مليون رحلة على أوبر في عام 2014 و14 مليون في عام 2015. (خيار التطبيق مع كود المصدر في R: مشروع تحليل بيانات أوبر في R)
  11. مجموعة بيانات Chars74k - يحتوي على صور للرموز البريطانية والكندية من 64 فئة: 0-9، AZ، ​​az. 7700 صورة طبيعية 7.7 ألف، 3400 ألف مكتوبة بخط اليد، 62000 خط مركب بالكمبيوتر.
  12. مجموعة بيانات الكشف عن الاحتيال في بطاقات الائتمان — يحتوي على معلومات حول معاملات بطاقات الائتمان المخترقة. (خيار التطبيق مع المصدر: مشروع التعلم الآلي لكشف الاحتيال في بطاقات الائتمان)
  13. مجموعة بيانات نوايا Chatbot — ملف JSON يحتوي على علامات مختلفة: تحيات، وداعًا، و Hospital_search، و Pharmacy_search، وما إلى ذلك. يحتوي على مجموعة من قوالب الأسئلة والأجوبة. (خيار التطبيق مع الكود المصدري في بايثون: مشروع Chatbot في بايثون)
  14. مجموعة بيانات البريد الإلكتروني إنرون — تحتوي على نصف مليون رسالة من 150 مديرًا لشركة إنرون.
  15. مجموعة بيانات الصرخة — يحتوي على 1,2 مليون توصية من 1,6 مليون مستخدم وحوالي 1,2 مليون مؤسسة.
  16. مجموعة بيانات الخطر - أكثر من 200 تسجيل للأسئلة والأجوبة من اللعبة التليفزيونية الشهيرة.
  17. مجموعة بيانات أنظمة التوصية - بوابة تحتوي على مجموعة من مجموعات البيانات من جامعة UCSD. يحتوي على سجلات المراجعات على المواقع الشهيرة (Goodreads، Amazon). عظيم لإنشاء أنظمة التوصية. (خيار التطبيق مع كود المصدر في R: مشروع نظام توصية الأفلام في R )
  18. مجموعة بيانات قاعدة بيانات البريد العشوائي UCI - مجموعة بيانات تدريبية للكشف عن البريد العشوائي. يحتوي على 4601 حرفًا مع 57 معلمة بيانات وصفية.
  19. مجموعة بيانات Flickr 30k - أكثر من 30 صورة وتعليق. (مجموعة بيانات Flickr 8k - 8000 صورة. مشروع مصدر بايثون: مشروع مولد التسميات التوضيحية للصورة بيثون)
  20. تقييمات موقع IMDB — 25 مراجعة للفيلم في مجموعة التدريب و000 في مجموعة الاختبار. (خيار التطبيق مع كود المصدر في R: مشروع علوم بيانات تحليل المشاعر)
  21. مجموعة بيانات MS COCO - 1,5 مليون صورة ذات علامات.
  22. مجموعة بيانات CIFAR-10 وCIFAR-100 - يحتوي CIFAR-10 على 60,000 صورة صغيرة بحجم 32*32 بكسل أرقام 0-9. سيفار-100 - على التوالي، 0-100.
  23. مجموعة بيانات GTSRB (معيار التعرف على إشارات المرور الألمانية). - 50 صورة لـ 000 لافتة طريق. (خيار التطبيق مع الكود المصدري في بايثون: مشروع بايثون للتعرف على إشارات المرور)
  24. مجموعة بيانات ImageNet - يحتوي على أكثر من 100 عبارة وحوالي 000 صورة لكل عبارة.
  25. مجموعة بيانات صور التشريح المرضي للثدي - تحتوي مجموعة البيانات على صور لعينات سرطان الثدي. (خيار التطبيق مع كود المصدر قيد التشغيل مشروع بايثون لتصنيف سرطان الثدي)
  26. مجموعة بيانات مناظر المدينة - يحتوي على تعليقات توضيحية عالية الجودة لتسلسلات فيديو للشوارع في مدن مختلفة.
  27. مجموعة بيانات الخواص الحركية - يحتوي على رابط URL لحوالي 6,5 مليون مقطع فيديو عالي الجودة.
  28. مجموعة بيانات الوضع البشري MPII - تحتوي مجموعة البيانات على 25 صورة لأوضاع بشرية مع شروح مشتركة.
  29. مجموعة بيانات 20BN-شيء-شيء الإصدار 2 - مجموعة من مقاطع الفيديو عالية الجودة توضح كيفية قيام الشخص ببعض الإجراءات.
  30. مجموعة بيانات الكائن 365 - مجموعة بيانات من الصور عالية الجودة مع مربعات محيطة بالكائن.
  31. مجموعة بيانات رسم الصور - يحتوي على أكثر من 1000 صورة مع رسوماتها التفصيلية.
  32. مجموعة بيانات CQ500 - تحتوي مجموعة البيانات على 491 مسحًا مقطعيًا للرأس مع 193 شريحة.
  33. مجموعة بيانات IMDB-Wiki - مجموعة بيانات تحتوي على أكثر من 5 ملايين صورة لوجوه محددة حسب الجنس والعمر. (خيار التطبيق مع كود المصدر قيد التشغيل مشروع بايثون للكشف عن الجنس والعمر)
  34. مجموعة بيانات يوتيوب 8M - مجموعة بيانات فيديو مصنفة تحتوي على 6,1 مليون معرف فيديو على YouTube
  35. مجموعة بيانات الصوت الحضري 8K — مجموعة من البيانات الصوتية الحضرية (تحتوي على 8732 صوتًا حضريًا من 10 فئات).
  36. مجموعة بيانات LSUN - مجموعة بيانات تضم ملايين الصور الملونة للمشاهد والأشياء (حوالي 59 مليون صورة، و10 فئات مشاهد مختلفة، و20 فئة كائنات مختلفة).
  37. مجموعة بيانات RAVDESS — قاعدة البيانات السمعية والبصرية للكلام العاطفي. (خيار التطبيق مع كود المصدر قيد التشغيل مشروع بايثون للتعرف على عواطف الكلام)
  38. مجموعة بيانات Librispeech — تحتوي مجموعة البيانات على 1000 ساعة من التحدث باللغة الإنجليزية بلهجات مختلفة.
  39. مجموعة بيانات بايدو أبولوسكيب - مجموعة بيانات لتطوير تقنيات القيادة الذاتية.
  40. بوابة بيانات كواندل — مستودع البيانات الاقتصادية والمالية (هناك محتوى مجاني ومدفوع).
  41. بوابة البيانات المفتوحة للبنك الدولي — معلومات عن القروض التي يصدرها البنك الدولي للدول النامية.
  42. بوابة بيانات صندوق النقد الدولي هي بوابة لصندوق النقد الدولي تنشر بيانات عن التمويل الدولي ومعدلات الديون والاستثمار واحتياطيات النقد الأجنبي والسلع.
  43. بوابة بيانات الجمعية الاقتصادية الأمريكية (AEA). - مورد للبحث في بيانات الاقتصاد الكلي في الولايات المتحدة.
  44. بوابة بيانات مؤشرات جوجل - يمكن استخدام بيانات اتجاهات Google لاستكشاف البيانات وتحليلها بشكل مرئي.
  45. بوابة بيانات السوق الخاصة بفاينانشيال تايمز هو مصدر للحصول على أحدث المعلومات عن الأسواق المالية من جميع أنحاء العالم.
  46. بوابة البيانات.gov - بوابة البيانات المفتوحة للحكومة الأمريكية (الزراعة والصحة والمناخ والتعليم والطاقة والتمويل والعلوم والأبحاث، وما إلى ذلك).
  47. بوابة البيانات: البيانات الحكومية المفتوحة (الهند) هي منصة البيانات الحكومية المفتوحة في الهند.
  48. بوابة بيانات أطلس البيئة الغذائية - يحتوي على بيانات بحثية عن التغذية في الولايات المتحدة.
  49. بوابة البيانات الصحية هي بوابة وزارة الصحة والخدمات الإنسانية الأمريكية.
  50. بوابة بيانات مراكز السيطرة على الأمراض والوقاية منها - يحتوي على مجموعة واسعة من البيانات المتعلقة بالصحة.
  51. بوابة مخزن البيانات في لندن - بيانات عن حياة الناس في لندن.
  52. بوابة البيانات المفتوحة للحكومة الكندية - بوابة للبيانات المفتوحة عن الكنديين (الزراعة، الفن، الموسيقى، التعليم، الحكومة، الرعاية الصحية، إلخ)

اقرأ أكثر

المصدر: www.habr.com

إضافة تعليق