14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

علم داده برای مبتدیان

1. تجزیه و تحلیل احساسات (تحلیل احساسات از طریق متن)

14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

اجرای کامل پروژه علم داده را با استفاده از کد منبع بررسی کنید - پروژه تحلیل احساسات در R.

تجزیه و تحلیل احساسات، تجزیه و تحلیل کلمات برای تعیین احساسات و نظرات است که می تواند مثبت یا منفی باشد. این یک نوع طبقه‌بندی است که در آن کلاس‌ها می‌توانند دودویی (مثبت و منفی) یا جمع (شاد، عصبانی، غمگین، بد...) باشند. ما این پروژه علم داده را در R پیاده سازی خواهیم کرد و از مجموعه داده در بسته "janeaustenR" استفاده خواهیم کرد. ما از دیکشنری های عمومی مانند AFINN، bing و loughran استفاده می کنیم، یک اتصال داخلی انجام می دهیم و در پایان یک ابر کلمه برای نمایش نتیجه ایجاد می کنیم.

زبان: R
مجموعه داده/بسته: janeaustenR

14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

این مقاله با پشتیبانی نرم افزار EDISON ترجمه شده است که اتاق های اتصال مجازی را برای فروشگاه های چند برند ایجاد می کندو نرم افزار تست.

2. تشخیص اخبار جعلی

با کار بر روی یک پروژه علم داده برای مبتدیان، مهارت های خود را به سطح بعدی ببرید - تشخیص اخبار جعلی با پایتون.

14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

اخبار جعلی اطلاعات نادرستی است که از طریق رسانه های اجتماعی و سایر رسانه های آنلاین برای دستیابی به اهداف سیاسی منتشر می شود. در این ایده پروژه علم داده، ما از پایتون برای ساخت مدلی استفاده خواهیم کرد که می تواند به طور دقیق واقعی یا جعلی بودن یک خبر را تعیین کند. ما یک TfidfVetorizer ایجاد می کنیم و از PassiveAggressiveClassifier برای طبقه بندی اخبار به "واقعی" و "جعلی" استفاده می کنیم. ما از مجموعه داده ای به شکل 7796×4 استفاده می کنیم و همه چیز را در Jupyter Lab اجرا می کنیم.

زبان: پــایتــون

مجموعه داده/بسته: news.csv

3. تشخیص بیماری پارکینسون

با ایده پروژه علم داده خود به جلو حرکت کنید - تشخیص بیماری پارکینسون با استفاده از XGBoost.

14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

ما استفاده از Data Science را برای بهبود مراقبت‌های بهداشتی و خدمات آغاز کرده‌ایم - اگر بتوانیم یک بیماری را در مراحل اولیه پیش‌بینی کنیم، مزایای زیادی خواهیم داشت. بنابراین، در این ایده پروژه علم داده، نحوه تشخیص بیماری پارکینسون با استفاده از پایتون را یاد خواهیم گرفت. این یک بیماری عصبی و پیشرونده سیستم عصبی مرکزی است که بر حرکت تأثیر می گذارد و باعث لرزش و سفتی می شود. این بیماری بر روی نورون های تولید کننده دوپامین در مغز تأثیر می گذارد و هر ساله بیش از 1 میلیون نفر در هند را تحت تأثیر قرار می دهد.

زبان: پــایتــون

مجموعه داده/بسته: مجموعه داده پارکینسون UCI ML

پروژه های علم داده با پیچیدگی متوسط

4. تشخیص احساسات گفتار

اجرای کامل پروژه مثال علم داده را بررسی کنید - تشخیص گفتار با استفاده از Librosa.

14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

حالا بیایید نحوه استفاده از کتابخانه های مختلف را بیاموزیم. این پروژه علم داده از لیبروسا برای تشخیص گفتار استفاده می کند. SER فرآیند شناسایی احساسات و حالات عاطفی انسان از گفتار است. از آنجایی که ما از لحن و زیر و بمی برای بیان احساسات با صدای خود استفاده می کنیم، SER مرتبط است. اما از آنجایی که احساسات ذهنی هستند، حاشیه نویسی صوتی یک کار چالش برانگیز است. ما از توابع mfcc، chroma و mel استفاده می کنیم و از مجموعه داده RAVDESS برای تشخیص احساسات استفاده می کنیم. ما یک طبقه بندی کننده MLPC برای این مدل ایجاد خواهیم کرد.

زبان: پــایتــون

مجموعه داده/بسته: مجموعه داده RAVDESS

5. تشخیص جنسیت و سن

تحت تاثیر قرار دادن کارفرمایان با آخرین پروژه Data Science - تعیین جنسیت و سن با استفاده از OpenCV.

14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

این یک علم داده جالب با پایتون است. تنها با استفاده از یک تصویر، می آموزید که جنسیت و سن افراد را پیش بینی کنید. در این مطلب شما را با کامپیوتر ویژن و اصول آن آشنا می کنیم. خواهیم ساخت شبکه عصبی کانولوشنال و از مدل های آموزش دیده توسط تال هاسنر و گیل لوی در مجموعه داده های Adience استفاده خواهد کرد. در طول مسیر از برخی فایل‌های pb، .pbtxt، .prototxt و .caffemodel استفاده خواهیم کرد.

زبان: پــایتــون

مجموعه داده/بسته: تماشاگران

6. تجزیه و تحلیل داده های Uber

اجرای کامل پروژه علم داده را با کد منبع بررسی کنید - پروژه تحلیل داده اوبر در R.

14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

این یک پروژه تجسم داده با ggplot2 است که در آن از R و کتابخانه های آن استفاده کرده و پارامترهای مختلف را تجزیه و تحلیل خواهیم کرد. ما از مجموعه داده های Uber Pickups New York City استفاده می کنیم و تجسم هایی را برای بازه های زمانی مختلف سال ایجاد می کنیم. این به ما می گوید که زمان چگونه بر سفر مشتری تأثیر می گذارد.

زبان: R

مجموعه داده/بسته: Uber Pickups در مجموعه داده های شهر نیویورک

7. تشخیص خواب آلودگی راننده

مهارت های خود را با کار بر روی پروژه برتر علم داده بهبود بخشید - سیستم تشخیص خواب آلودگی با OpenCV و Keras.

14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

رانندگی با خواب آلودگی بسیار خطرناک است و سالانه نزدیک به هزار تصادف به دلیل خواب آلودگی رانندگان در حین رانندگی رخ می دهد. در این پروژه پایتون، سیستمی ایجاد خواهیم کرد که می‌تواند درایورهای خواب‌آلود را تشخیص دهد و همچنین با یک سیگنال صوتی به آنها هشدار دهد.

این پروژه با استفاده از Keras و OpenCV پیاده سازی شده است. ما از OpenCV برای تشخیص چهره و چشم استفاده خواهیم کرد و با Keras وضعیت چشم (باز یا بسته) را با استفاده از تکنیک های شبکه عصبی عمیق طبقه بندی خواهیم کرد.

8. چت بات

یک چت بات با پایتون ایجاد کنید و در حرفه خود یک گام به جلو بردارید - چت بات با NLTK و Keras.

14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

چت بات ها بخشی جدایی ناپذیر از تجارت هستند. بسیاری از کسب و کارها باید خدماتی را به مشتریان خود ارائه دهند و خدمت به آنها نیروی انسانی، زمان و تلاش زیادی را می طلبد. چت ربات ها می توانند با پاسخ دادن به برخی از سوالات متداولی که مشتریان می پرسند، بسیاری از تعاملات شما با مشتری را خودکار کنند. اساساً دو نوع چت ربات وجود دارد: دامنه خاص و دامنه باز. یک چت بات مخصوص دامنه اغلب برای حل یک مشکل خاص استفاده می شود. بنابراین، شما باید آن را سفارشی کنید تا به طور موثر در زمینه شما کار کند. از چت ربات های دامنه باز می توان هر سوالی پرسید، بنابراین آموزش آنها به حجم عظیمی از داده نیاز دارد.

مجموعه داده ها: فایل json Intents

زبان: پــایتــون

پروژه های پیشرفته علم داده

9. Image Caption Generator

اجرای کامل پروژه را با کد منبع بررسی کنید - تولید کننده عنوان تصویر با CNN و LSTM.

14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

توصیف آنچه در یک تصویر وجود دارد برای انسان کار آسانی است، اما برای رایانه ها، یک تصویر به سادگی مجموعه ای از اعداد است که ارزش رنگ هر پیکسل را نشان می دهد. این یک کار دشوار برای کامپیوتر است. درک آنچه در یک تصویر وجود دارد و سپس ایجاد توصیف به زبان طبیعی (مانند انگلیسی) کار دشوار دیگری است. این پروژه از تکنیک های یادگیری عمیق استفاده می کند که در آن ما یک شبکه عصبی کانولوشن (CNN) با یک شبکه عصبی بازگشتی (LSTM) را برای ایجاد یک تولید کننده توصیف تصویر پیاده سازی می کنیم.

مجموعه داده ها: فلیکر 8K

زبان: پــایتــون

چارچوب: کراس

10. تشخیص تقلب در کارت اعتباری

در حین کار روی ایده پروژه علم داده خود بهترین کار را انجام دهید - شناسایی کلاهبرداری کارت اعتباری با استفاده از یادگیری ماشینی.

14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

در حال حاضر شما شروع به درک تکنیک ها و مفاهیم کرده اید. بیایید به چند پروژه پیشرفته علم داده برویم. در این پروژه از زبان R با الگوریتم هایی مانند استفاده خواهیم کرد درختان تصمیم، رگرسیون لجستیک، شبکه های عصبی مصنوعی و طبقه بندی کننده تقویت گرادیان. ما از مجموعه داده ای از تراکنش های کارت برای طبقه بندی تراکنش های کارت اعتباری به عنوان تقلبی یا واقعی استفاده خواهیم کرد. ما مدل های مختلفی را برای آن ها انتخاب می کنیم و منحنی های عملکرد را می سازیم.

زبان: R

مجموعه داده/بسته: مجموعه داده معاملات کارت

11. سیستم توصیه فیلم

مطالعه اجرای بهترین پروژه علم داده با کد منبع - سیستم توصیه فیلم به زبان R

14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

در این پروژه Data Science، ما از R برای پیاده سازی توصیه های فیلم از طریق یادگیری ماشینی استفاده خواهیم کرد. سیستم توصیه‌ها پیشنهادات خود را از طریق فرآیند فیلتر بر اساس اولویت‌های سایر کاربران و تاریخچه مرور، به کاربران ارسال می‌کند. اگر A و B دوست دارند در خانه تنها باشند و B از Mean Girls خوششان می آید، می توانید A و B را پیشنهاد دهید - آنها هم ممکن است آن را دوست داشته باشند. این به مشتریان اجازه می دهد تا با پلتفرم ارتباط برقرار کنند.

زبان: R

مجموعه داده/بسته: مجموعه داده MovieLens

12. تقسیم بندی مشتریان

تحت تاثیر قرار دادن کارفرمایان با یک پروژه علم داده (از جمله کد منبع) - تقسیم بندی مشتری با استفاده از یادگیری ماشین.

14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

تقسیم بندی خریدار یک برنامه محبوب است یادگیری بدون نظارت. با استفاده از خوشه‌بندی، شرکت‌ها بخش‌های مشتری را برای هدف قرار دادن پایگاه کاربران بالقوه شناسایی می‌کنند. آنها مشتریان را بر اساس ویژگی های مشترکی مانند جنسیت، سن، علایق و عادات خرج کردن به گروه هایی تقسیم می کنند تا بتوانند به طور موثر محصولات خود را برای هر گروه بازاریابی کنند. ما استفاده خواهیم کرد K به معنی خوشه بندی استو همچنین توزیع را بر اساس جنسیت و سن تجسم کنید. سپس سطح درآمد و هزینه سالانه آنها را تجزیه و تحلیل خواهیم کرد.

زبان: R

مجموعه داده/بسته: مجموعه داده های Mall_Customers

13. طبقه بندی سرطان سینه

اجرای کامل یک پروژه علم داده در پایتون - را بررسی کنید طبقه بندی سرطان سینه با استفاده از یادگیری عمیق.

14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

با بازگشت به سهم پزشکی علم داده، بیاموزیم که چگونه سرطان سینه را با استفاده از پایتون تشخیص دهیم. ما از مجموعه داده IDC_regular برای شناسایی کارسینوم مجرای مهاجم، رایج ترین شکل سرطان سینه، استفاده خواهیم کرد. در مجاری شیر ایجاد می شود و در بافت فیبری یا چربی سینه خارج از مجرا نفوذ می کند. در این ایده پروژه علمی جمع آوری داده ها استفاده خواهیم کرد یادگیری عمیق و کتابخانه کراس برای طبقه بندی.

زبان: پــایتــون

مجموعه داده/بسته: IDC_عادی

14. تشخیص علائم راهنمایی و رانندگی

دستیابی به دقت در فناوری خودران با پروژه Data Science تشخیص علائم راهنمایی و رانندگی با استفاده از CNN متن باز.

14 پروژه منبع باز برای بهبود مهارت های علم داده (آسان، عادی، سخت)

علائم راه و قوانین راهنمایی و رانندگی برای هر راننده بسیار مهم است تا از تصادف جلوگیری کند. برای پیروی از این قانون، ابتدا باید بفهمید که یک تابلوی راه چگونه به نظر می رسد. یک فرد باید قبل از اینکه گواهینامه رانندگی هر وسیله نقلیه ای به او داده شود، تمام علائم راه را یاد بگیرد. اما اکنون تعداد وسایل نقلیه خودمختار در حال افزایش است و در آینده نزدیک فرد دیگر به طور مستقل رانندگی نخواهد کرد. در پروژه تشخیص علائم جاده ای، یاد می گیرید که چگونه یک برنامه می تواند با گرفتن یک تصویر به عنوان ورودی، نوع علائم جاده را تشخیص دهد. مجموعه داده های معیار تشخیص علائم ترافیک آلمان (GTSRB) برای ساخت یک شبکه عصبی عمیق برای تشخیص کلاسی که یک علامت ترافیکی به آن تعلق دارد استفاده می شود. ما همچنین یک رابط کاربری گرافیکی ساده برای تعامل با برنامه ایجاد می کنیم.

زبان: پــایتــون

مجموعه داده ها: GTSRB (معیار تشخیص علائم ترافیکی آلمان)

ادامه مطلب

منبع: www.habr.com

اضافه کردن نظر