52 مجموعه داده برای پروژه های آموزشی

  1. مجموعه داده مشتریان مرکز خرید - داده های بازدیدکنندگان فروشگاه: شناسه، جنسیت، سن، درآمد، رتبه بندی هزینه. (گزینه برنامه: پروژه تقسیم بندی مشتری با یادگیری ماشین)
  2. مجموعه داده عنبیه - مجموعه داده ای برای مبتدیان، حاوی اندازه های کاسبرگ و گلبرگ برای گل های مختلف.
  3. مجموعه داده MNIST - مجموعه داده ای از اعداد دست نویس. 60 تصویر آموزشی و 000 تصویر تست.
  4. مجموعه داده مسکن بوستون یک مجموعه داده محبوب برای تشخیص الگو است. حاوی اطلاعاتی در مورد خانه ها در بوستون: تعداد آپارتمان ها، قیمت اجاره، شاخص جرم و جنایت.
  5. مجموعه داده های تشخیص اخبار جعلی - حاوی 7796 مدخل با علامت‌های خبری: درست یا نادرست. (گزینه برنامه با کد منبع در پایتون: پروژه پایتون تشخیص اخبار جعلی )
  6. مجموعه داده کیفیت شراب - حاوی اطلاعاتی در مورد شراب: 4898 رکورد با 14 پارامتر.
  7. داده‌های SOCR – مجموعه داده‌های ارتفاع و وزن - گزینه خوبی برای شروع شامل 25 رکورد از قد و وزن افراد 000 ساله است.

    52 مجموعه داده برای پروژه های آموزشی

    این مقاله با پشتیبانی نرم افزار EDISON ترجمه شده است که سفارشات از جنوب چین را "عالی" انجام می دهدو برنامه های کاربردی وب و وب سایت ها را توسعه می دهد.

  8. مجموعه داده پارکینسون - 195 پرونده از بیماران مبتلا به بیماری پارکینسون، با 25 پارامتر تجزیه و تحلیل. می تواند برای ارزیابی اولیه تفاوت بین افراد بیمار و افراد سالم استفاده شود. (گزینه برنامه با کد منبع در پایتون: پروژه یادگیری ماشینی برای تشخیص بیماری پارکینسون)
  9. مجموعه داده تایتانیک - حاوی اطلاعاتی در مورد مسافران (سن، جنسیت، بستگان داخل هواپیما و غیره) 891 در مجموعه آموزشی و 418 در مجموعه آزمایشی.
  10. مجموعه داده Uber Pickups - اطلاعاتی در مورد 4.5 میلیون سفر در اوبر در سال 2014 و 14 میلیون سفر در سال 2015. (گزینه برنامه با کد منبع در R: پروژه تحلیل داده اوبر در R)
  11. مجموعه داده Chars74k - حاوی تصاویری از نمادهای بریتانیایی و کانادایی از 64 کلاس: 0-9، AZ، ​​az. 7700 7.7k عکس طبیعی، 3400k دست نویس، 62000 فونت مصنوعی.
  12. مجموعه داده های تشخیص تقلب در کارت اعتباری - حاوی اطلاعات مربوط به تراکنش های کارت های اعتباری در معرض خطر است. (گزینه برنامه با منبع: پروژه یادگیری ماشینی تشخیص تقلب در کارت اعتباری)
  13. مجموعه داده اهداف چت بات - یک فایل JSON که حاوی برچسب‌های مختلف است: سلام، خداحافظ، جستجوی_ بیمارستان، جستجوی_داروخانه، و غیره. شامل مجموعه ای از الگوهای پرسش و پاسخ است. (گزینه برنامه با کد منبع در پایتون: پروژه چت بات در پایتون)
  14. مجموعه داده های ایمیل Enron - حاوی نیم میلیون نامه از 150 مدیر انرون است.
  15. مجموعه داده Yelp - شامل 1,2 میلیون توصیه از 1,6 میلیون کاربر در مورد 1,2 میلیون سازمان است.
  16. مجموعه داده های مخاطره آمیز - بیش از 200 پرسش و پاسخ ضبط شده از بازی محبوب تلویزیونی.
  17. مجموعه داده های سیستم های توصیه کننده - یک پورتال با مجموعه ای از مجموعه داده ها از دانشگاه UCSD. حاوی سوابق بررسی در سایت های محبوب (گودریدز، آمازون). برای ایجاد سیستم های توصیه گر عالی است. (گزینه برنامه با کد منبع در R: پروژه سیستم توصیه فیلم در R )
  18. UCI Spambase Dataset - مجموعه داده آموزشی برای تشخیص هرزنامه. شامل 4601 حرف با 57 پارامتر فراداده است.
  19. مجموعه داده فلیکر 30k - بیش از 30 عکس و شرح. (مجموعه داده فلیکر 8k - 8000 تصویر. پروژه منبع پایتون: پروژه پایتون تولید کننده عنوان تصویر)
  20. بررسی های IMDB — 25 نقد فیلم در مجموعه آموزشی و 000 در مجموعه تست. (گزینه برنامه با کد منبع در R: پروژه علم داده تحلیل احساسات)
  21. مجموعه داده MS COCO - 1,5 میلیون عکس برچسب گذاری شده
  22. مجموعه داده های CIFAR-10 و CIFAR-100 - CIFAR-10 شامل 60,000 تصویر کوچک 32*32 پیکسل اعداد 0-9 است. CIFAR-100 - به ترتیب 0-100.
  23. GTSRB (معیار تشخیص علائم ترافیکی آلمان) مجموعه داده — 50 تصویر از 000 تابلوی راه. (گزینه برنامه با کد منبع در پایتون: پروژه پایتون تشخیص علائم راهنمایی و رانندگی)
  24. مجموعه داده ImageNet - شامل بیش از 100 عبارت و حدود 000 تصویر در هر عبارت است.
  25. مجموعه داده تصاویر هیستوپاتولوژی پستان - مجموعه داده حاوی تصاویری از نمونه های سرطان سینه است. (گزینه برنامه با کد منبع روشن پروژه پایتون طبقه بندی سرطان سینه)
  26. مجموعه داده های Cityscapes - حاوی حاشیه نویسی با کیفیت بالا از دنباله های ویدیویی از خیابان ها در شهرهای مختلف است.
  27. مجموعه داده سینتیک - حاوی پیوند URL به حدود 6,5 میلیون ویدیو با کیفیت بالا.
  28. مجموعه داده ژست انسان MPII - مجموعه داده شامل 25 تصویر از ژست های انسانی با حاشیه نویسی مشترک است.
  29. مجموعه داده 20BN-something-something v2 - مجموعه ای از فیلم های با کیفیت بالا که نشان می دهد چگونه یک فرد برخی از اقدامات را انجام می دهد.
  30. مجموعه داده شی 365 - مجموعه داده ای از تصاویر با کیفیت بالا با جعبه های محدود کننده اشیاء.
  31. مجموعه داده طراحی عکس - حاوی بیش از 1000 تصویر با طرح های کلی آنها.
  32. مجموعه داده CQ500 - مجموعه داده شامل 491 سی تی اسکن از سر با 193 برش است.
  33. مجموعه داده های IMDB-Wiki - مجموعه داده ای با بیش از 5 میلیون تصویر از چهره های مشخص شده بر اساس جنسیت و سن. (گزینه برنامه با کد منبع روشن پروژه پایتون تشخیص جنسیت و سن)
  34. مجموعه داده یوتیوب 8M - مجموعه داده ویدیویی برچسب‌گذاری شده که حاوی 6,1 میلیون شناسه ویدیوی یوتیوب است
  35. مجموعه داده Urban Sound 8K - مجموعه ای از داده های صدای شهری (شامل 8732 صدای شهری از 10 کلاس).
  36. مجموعه داده LSUN - مجموعه داده ای از میلیون ها تصویر رنگی از صحنه ها و اشیاء (حدود 59 میلیون تصویر، 10 دسته صحنه مختلف و 20 دسته بندی شیء مختلف).
  37. مجموعه داده RAVDESS - پایگاه داده سمعی و بصری گفتار احساسی. (گزینه برنامه با کد منبع روشن پروژه پایتون تشخیص احساسات گفتار)
  38. مجموعه داده Librispeech - مجموعه داده شامل 1000 ساعت سخنرانی انگلیسی با لهجه های مختلف است.
  39. مجموعه داده بایدو Apolloscape - مجموعه داده ای برای توسعه فناوری های خودران.
  40. پورتال داده کواندل - مخزن داده های اقتصادی و مالی (محتوای رایگان و پولی وجود دارد).
  41. پورتال داده باز بانک جهانی - اطلاعات در مورد وام های صادر شده توسط بانک جهانی به کشورهای در حال توسعه.
  42. پورتال داده صندوق بین المللی پول یک پورتال صندوق بین المللی پول است که داده های مالی بین المللی، نرخ بدهی، سرمایه گذاری، ذخایر ارز خارجی و کالاها را منتشر می کند.
  43. پورتال داده انجمن اقتصادی آمریکا (AEA). - منبعی برای جستجوی داده های اقتصاد کلان ایالات متحده.
  44. پورتال داده Google Trends - داده های روند گوگل را می توان برای کاوش بصری و تجزیه و تحلیل داده ها استفاده کرد.
  45. پرتال داده های بازار فایننشال تایمز منبعی برای اطلاعات به روز در مورد بازارهای مالی از سراسر جهان است.
  46. پورتال Data.gov - پورتال داده های باز دولت ایالات متحده (کشاورزی، بهداشت، آب و هوا، آموزش، انرژی، مالی، علم و تحقیق و غیره).
  47. پورتال داده: داده های دولتی باز (هند) پلت فرم داده دولت باز هند است.
  48. پورتال داده محیط غذایی اطلس - حاوی داده های تحقیقاتی در مورد تغذیه در ایالات متحده است.
  49. پورتال داده های سلامت پورتال وزارت بهداشت و خدمات انسانی ایالات متحده است.
  50. پورتال داده مراکز کنترل و پیشگیری از بیماری - شامل طیف گسترده ای از داده های مرتبط با سلامت است.
  51. پورتال لندن دیتا استور - داده های مربوط به زندگی مردم در لندن.
  52. پورتال داده باز دولت کانادا - پورتالی از داده های باز در مورد کانادایی ها (کشاورزی، هنر، موسیقی، آموزش، دولت، مراقبت های بهداشتی و غیره)

ادامه مطلب

منبع: www.habr.com

اضافه کردن نظر