تجزیه و تحلیل احساسات، تجزیه و تحلیل کلمات برای تعیین احساسات و نظرات است که می تواند مثبت یا منفی باشد. این یک نوع طبقهبندی است که در آن کلاسها میتوانند دودویی (مثبت و منفی) یا جمع (شاد، عصبانی، غمگین، بد...) باشند. ما این پروژه علم داده را در R پیاده سازی خواهیم کرد و از مجموعه داده در بسته "janeaustenR" استفاده خواهیم کرد. ما از دیکشنری های عمومی مانند AFINN، bing و loughran استفاده می کنیم، یک اتصال داخلی انجام می دهیم و در پایان یک ابر کلمه برای نمایش نتیجه ایجاد می کنیم.
با کار بر روی یک پروژه علم داده برای مبتدیان، مهارت های خود را به سطح بعدی ببرید - تشخیص اخبار جعلی با پایتون.
اخبار جعلی اطلاعات نادرستی است که از طریق رسانه های اجتماعی و سایر رسانه های آنلاین برای دستیابی به اهداف سیاسی منتشر می شود. در این ایده پروژه علم داده، ما از پایتون برای ساخت مدلی استفاده خواهیم کرد که می تواند به طور دقیق واقعی یا جعلی بودن یک خبر را تعیین کند. ما یک TfidfVetorizer ایجاد می کنیم و از PassiveAggressiveClassifier برای طبقه بندی اخبار به "واقعی" و "جعلی" استفاده می کنیم. ما از مجموعه داده ای به شکل 7796×4 استفاده می کنیم و همه چیز را در Jupyter Lab اجرا می کنیم.
ما استفاده از Data Science را برای بهبود مراقبتهای بهداشتی و خدمات آغاز کردهایم - اگر بتوانیم یک بیماری را در مراحل اولیه پیشبینی کنیم، مزایای زیادی خواهیم داشت. بنابراین، در این ایده پروژه علم داده، نحوه تشخیص بیماری پارکینسون با استفاده از پایتون را یاد خواهیم گرفت. این یک بیماری عصبی و پیشرونده سیستم عصبی مرکزی است که بر حرکت تأثیر می گذارد و باعث لرزش و سفتی می شود. این بیماری بر روی نورون های تولید کننده دوپامین در مغز تأثیر می گذارد و هر ساله بیش از 1 میلیون نفر در هند را تحت تأثیر قرار می دهد.
حالا بیایید نحوه استفاده از کتابخانه های مختلف را بیاموزیم. این پروژه علم داده از لیبروسا برای تشخیص گفتار استفاده می کند. SER فرآیند شناسایی احساسات و حالات عاطفی انسان از گفتار است. از آنجایی که ما از لحن و زیر و بمی برای بیان احساسات با صدای خود استفاده می کنیم، SER مرتبط است. اما از آنجایی که احساسات ذهنی هستند، حاشیه نویسی صوتی یک کار چالش برانگیز است. ما از توابع mfcc، chroma و mel استفاده می کنیم و از مجموعه داده RAVDESS برای تشخیص احساسات استفاده می کنیم. ما یک طبقه بندی کننده MLPC برای این مدل ایجاد خواهیم کرد.
این یک علم داده جالب با پایتون است. تنها با استفاده از یک تصویر، می آموزید که جنسیت و سن افراد را پیش بینی کنید. در این مطلب شما را با کامپیوتر ویژن و اصول آن آشنا می کنیم. خواهیم ساخت شبکه عصبی کانولوشنال و از مدل های آموزش دیده توسط تال هاسنر و گیل لوی در مجموعه داده های Adience استفاده خواهد کرد. در طول مسیر از برخی فایلهای pb، .pbtxt، .prototxt و .caffemodel استفاده خواهیم کرد.
این یک پروژه تجسم داده با ggplot2 است که در آن از R و کتابخانه های آن استفاده کرده و پارامترهای مختلف را تجزیه و تحلیل خواهیم کرد. ما از مجموعه داده های Uber Pickups New York City استفاده می کنیم و تجسم هایی را برای بازه های زمانی مختلف سال ایجاد می کنیم. این به ما می گوید که زمان چگونه بر سفر مشتری تأثیر می گذارد.
زبان: R
مجموعه داده/بسته: Uber Pickups در مجموعه داده های شهر نیویورک
رانندگی با خواب آلودگی بسیار خطرناک است و سالانه نزدیک به هزار تصادف به دلیل خواب آلودگی رانندگان در حین رانندگی رخ می دهد. در این پروژه پایتون، سیستمی ایجاد خواهیم کرد که میتواند درایورهای خوابآلود را تشخیص دهد و همچنین با یک سیگنال صوتی به آنها هشدار دهد.
این پروژه با استفاده از Keras و OpenCV پیاده سازی شده است. ما از OpenCV برای تشخیص چهره و چشم استفاده خواهیم کرد و با Keras وضعیت چشم (باز یا بسته) را با استفاده از تکنیک های شبکه عصبی عمیق طبقه بندی خواهیم کرد.
8. چت بات
یک چت بات با پایتون ایجاد کنید و در حرفه خود یک گام به جلو بردارید - چت بات با NLTK و Keras.
چت بات ها بخشی جدایی ناپذیر از تجارت هستند. بسیاری از کسب و کارها باید خدماتی را به مشتریان خود ارائه دهند و خدمت به آنها نیروی انسانی، زمان و تلاش زیادی را می طلبد. چت ربات ها می توانند با پاسخ دادن به برخی از سوالات متداولی که مشتریان می پرسند، بسیاری از تعاملات شما با مشتری را خودکار کنند. اساساً دو نوع چت ربات وجود دارد: دامنه خاص و دامنه باز. یک چت بات مخصوص دامنه اغلب برای حل یک مشکل خاص استفاده می شود. بنابراین، شما باید آن را سفارشی کنید تا به طور موثر در زمینه شما کار کند. از چت ربات های دامنه باز می توان هر سوالی پرسید، بنابراین آموزش آنها به حجم عظیمی از داده نیاز دارد.
توصیف آنچه در یک تصویر وجود دارد برای انسان کار آسانی است، اما برای رایانه ها، یک تصویر به سادگی مجموعه ای از اعداد است که ارزش رنگ هر پیکسل را نشان می دهد. این یک کار دشوار برای کامپیوتر است. درک آنچه در یک تصویر وجود دارد و سپس ایجاد توصیف به زبان طبیعی (مانند انگلیسی) کار دشوار دیگری است. این پروژه از تکنیک های یادگیری عمیق استفاده می کند که در آن ما یک شبکه عصبی کانولوشن (CNN) با یک شبکه عصبی بازگشتی (LSTM) را برای ایجاد یک تولید کننده توصیف تصویر پیاده سازی می کنیم.
در حال حاضر شما شروع به درک تکنیک ها و مفاهیم کرده اید. بیایید به چند پروژه پیشرفته علم داده برویم. در این پروژه از زبان R با الگوریتم هایی مانند استفاده خواهیم کرد درختان تصمیم، رگرسیون لجستیک، شبکه های عصبی مصنوعی و طبقه بندی کننده تقویت گرادیان. ما از مجموعه داده ای از تراکنش های کارت برای طبقه بندی تراکنش های کارت اعتباری به عنوان تقلبی یا واقعی استفاده خواهیم کرد. ما مدل های مختلفی را برای آن ها انتخاب می کنیم و منحنی های عملکرد را می سازیم.
در این پروژه Data Science، ما از R برای پیاده سازی توصیه های فیلم از طریق یادگیری ماشینی استفاده خواهیم کرد. سیستم توصیهها پیشنهادات خود را از طریق فرآیند فیلتر بر اساس اولویتهای سایر کاربران و تاریخچه مرور، به کاربران ارسال میکند. اگر A و B دوست دارند در خانه تنها باشند و B از Mean Girls خوششان می آید، می توانید A و B را پیشنهاد دهید - آنها هم ممکن است آن را دوست داشته باشند. این به مشتریان اجازه می دهد تا با پلتفرم ارتباط برقرار کنند.
تقسیم بندی خریدار یک برنامه محبوب است یادگیری بدون نظارت. با استفاده از خوشهبندی، شرکتها بخشهای مشتری را برای هدف قرار دادن پایگاه کاربران بالقوه شناسایی میکنند. آنها مشتریان را بر اساس ویژگی های مشترکی مانند جنسیت، سن، علایق و عادات خرج کردن به گروه هایی تقسیم می کنند تا بتوانند به طور موثر محصولات خود را برای هر گروه بازاریابی کنند. ما استفاده خواهیم کرد K به معنی خوشه بندی استو همچنین توزیع را بر اساس جنسیت و سن تجسم کنید. سپس سطح درآمد و هزینه سالانه آنها را تجزیه و تحلیل خواهیم کرد.
با بازگشت به سهم پزشکی علم داده، بیاموزیم که چگونه سرطان سینه را با استفاده از پایتون تشخیص دهیم. ما از مجموعه داده IDC_regular برای شناسایی کارسینوم مجرای مهاجم، رایج ترین شکل سرطان سینه، استفاده خواهیم کرد. در مجاری شیر ایجاد می شود و در بافت فیبری یا چربی سینه خارج از مجرا نفوذ می کند. در این ایده پروژه علمی جمع آوری داده ها استفاده خواهیم کرد یادگیری عمیق و کتابخانه کراس برای طبقه بندی.
علائم راه و قوانین راهنمایی و رانندگی برای هر راننده بسیار مهم است تا از تصادف جلوگیری کند. برای پیروی از این قانون، ابتدا باید بفهمید که یک تابلوی راه چگونه به نظر می رسد. یک فرد باید قبل از اینکه گواهینامه رانندگی هر وسیله نقلیه ای به او داده شود، تمام علائم راه را یاد بگیرد. اما اکنون تعداد وسایل نقلیه خودمختار در حال افزایش است و در آینده نزدیک فرد دیگر به طور مستقل رانندگی نخواهد کرد. در پروژه تشخیص علائم جاده ای، یاد می گیرید که چگونه یک برنامه می تواند با گرفتن یک تصویر به عنوان ورودی، نوع علائم جاده را تشخیص دهد. مجموعه داده های معیار تشخیص علائم ترافیک آلمان (GTSRB) برای ساخت یک شبکه عصبی عمیق برای تشخیص کلاسی که یک علامت ترافیکی به آن تعلق دارد استفاده می شود. ما همچنین یک رابط کاربری گرافیکی ساده برای تعامل با برنامه ایجاد می کنیم.
زبان: پــایتــون
مجموعه داده ها: GTSRB (معیار تشخیص علائم ترافیکی آلمان)