Sentiment Analysis – це аналіз слів для визначення настроїв та думок, які можуть бути позитивними чи негативними. Це тип класифікації, при якому класи можуть бути двійковими (позитивними та негативними) або множинними (щасливими, злими, сумними, неприємними…). Ми реалізуємо цей Data Science проект мовою R і використовуватимемо набір даних у пакеті «janeaustenR». Ми будемо використовувати словники загального призначення, такі як AFINN, bing та loughran, виконувати внутрішнє з'єднання, і в кінці ми створимо хмару слів, щоб відобразити результат.
Фальшиві новини — це хибна інформація, яка розповсюджується через соціальні мережі та інші мережні ЗМІ для досягнення політичних цілей. У цій ідеї проекту з Data Science ми будемо використовувати Python для побудови моделі, яка може точно визначати, чи є новина реальною чи фальшивою. Ми створимо TfidfVectorizer і використовуємо PassiveAggressiveClassifier для класифікації новин на «реальні» та «підроблені». Ми будемо використовувати набір даних форми 7796 × 4 і виконувати все в Jupyter Lab.
Мова: Python
Набір даних/Пакет: news.csv
3. Detecting Parkinson's Disease (Виявлення хвороби Паркінсона)
Ми почали використовувати Data Science для покращення охорони здоров'я та послуг – якщо ми можемо передбачити захворювання на ранній стадії, то ми матимемо багато переваг. Отже, в цій ідеї проекту з Data Science ми навчимося виявляти хворобу Паркінсона за допомогою Python. Це нейродегенеративне, прогресуюче захворювання центральної нервової системи, яке впливає на рух і викликає тремтіння та скутість. Це впливає на продукуючі нейрони дофаміну в головному мозку, і щороку, це зачіпає більше 1 мільйона людей в Індії.
Мова: Python
Набір даних/Пакет: UCI ML Parkinsons dataset
Data Science проекти середньої складності
4. Speech Emotion Recognition (Розпізнавання емоції з мови)
Давайте тепер навчимося використовувати різні бібліотеки. Цей Data Science проект використовує librosa для розпізнавання мови. SER - це процес визначення людських емоцій та афективних станів по мові. Оскільки ми використовуємо тон і висоту тону для вираження емоцій голосом, SER є актуальним. Але оскільки емоції суб'єктивні, інструкція звуку є складним завданням. Ми будемо використовувати функції mfcc, chroma та mel та використовувати набір даних RAVDESS для розпізнавання емоцій. Ми створимо MLPC класифікатор для цієї моделі.
Мова: Python
Набір даних/Пакет: RAVDESS dataset
5. Gender and Age Detection (Виявлення статі та віку)
Це цікавий Data Science з Python. Використовуючи лише одне зображення, ви навчитеся передбачати стать та вік людини. У цьому ми познайомимо вас із Computer Vision та його принципами. Ми збудуємо згорткову нейронну мережу і будемо використовувати моделі, навчені Талом Хасснером та Джилом Леві для набору даних Adience. На шляху ми будемо використовувати деякі файли .pb, .pbtxt, .prototxt та .caffemodel.
Це проект візуалізації даних з ggplot2, в якому ми будемо використовувати R та його бібліотеки та аналізувати різні параметри. Ми будемо використовувати набір даних Uber Pickups у Нью-Йорку та створювати візуалізації для різних часових рамок року. Це говорить нам про те, як час впливає на подорожі клієнтів.
Мова: R
Набір даних/Пакет: Uber Pickups in New York City dataset
Сонне водіння надзвичайно небезпечне, і щороку трапляється близько тисячі аварій через те, що водії засинають під час водіння. У цьому проекті на Python ми створимо систему, яка зможе виявляти сонних водіїв та сповіщати їх звуковим сигналом.
Цей проект реалізовано з використанням Keras та OpenCV. Ми будемо використовувати OpenCV для виявлення обличчя та очей, а за допомогою Keras ми будемо класифікувати стан ока (Відкритий або Закритий) за допомогою методів глибокої нейронної мережі.
8. Чат-бот
Створіть чат-бота за допомогою Python і зробіть крок уперед у своїй кар'єрі. Chatbot з NLTK & Keras.
Чат-боти є невід'ємною частиною бізнесу. Багатьом підприємствам доводиться пропонувати послуги своїм клієнтам, і для їх обслуговування потрібно багато робочої сили, часу та зусиль. Чат-боти можуть автоматизувати більшу частину взаємодії з клієнтами, відповідаючи на деякі часті питання, які ставлять клієнти. В основному є два типи чат-ботів: Domain-specific та Open-domain. Domain-specific чат-бот часто використовується для вирішення конкретної проблеми. Таким чином, ви повинні налаштувати його для ефективної роботи у вашій сфері. Open-domain чат-ботам можна ставити будь-які питання, тому для їх навчання потрібна величезна кількість даних.
Набір даних: Intents json file
Мова: Python
Просунуті Data Science проекти
9. Image Caption Generator (Генератор опису зображення)
Опис того, що є на зображенні, є легким завданням для людей, але для комп'ютерів, зображення - це просто набір цифр, які є значенням кольору кожного пікселя. Це складне завдання для комп'ютерів. Зрозуміти, що знаходиться в зображенні, а потім створити опис природною мовою (наприклад, англійською), є іншою складною задачею. Цей проект використовує методи глибокого вивчення, в яких ми реалізуємо Конволюційну нейронну мережу (CNN) з нейронною рекурентною мережею (LSTM) для створення генератора опису зображення.
Набір даних: Flickr 8K
Мова: Python
Фреймворк: Керас
10. Credit Card Fraud Detection (Визначення шахрайства з кредитними картками)
На цей час ви почали розуміти методи та концепції. Давайте перейдемо до деяких розвинених проектів у галузі науки про дані. У цьому проекті ми будемо використовувати мову R з такими алгоритмами, як дерева рішень, логістична регресія, штучні нейронні мережі та класифікатор градієнтного бустингу Ми будемо використовувати набір даних операцій з картками, щоб класифікувати транзакції по кредитних картках як шахрайські та справжні. Ми підберемо для них різні моделі та побудуємо криві продуктивності.
Мова: R
Набір даних/Пакет: Card Transactions dataset
11. Movie Recommendation System (Система рекомендацій з фільмів)
У цьому проекті Data Science ми будемо використовувати R, щоб виконати рекомендації фільму за допомогою машинного навчання. Система рекомендацій розсилає пропозиції користувачам через процес фільтрації, що базується на перевагах інших користувачів та історії переглядів. Якщо A і B подобається Home Alone, а B любить Mean Girls, можна запропонувати A — їм це теж може сподобатися. Це дозволяє клієнтам взаємодіяти із платформою.
Сегментація покупців є популярним додатком неконтрольованого навчання (unsupervised learning). Використовуючи кластеризацію, компанії визначають сегменти клієнтів до роботи з потенційної базою користувачів. Вони ділять клієнтів на групи відповідно до загальних характеристик, таких як стать, вік, інтереси та звички витрачання коштів, щоб вони могли ефективно продавати свою продукцію кожній групі. Ми будемо використовувати K-означає кластеризацію, а також візуалізувати розподіл за статтю та віком. Потім ми проаналізуємо їхні річні прибутки та рівень витрат.
Мова: R
Набір даних/Пакет: Mall_Customers dataset
13. Breast Cancer Classification (Класифікація раку молочної залози)
Повертаючись до медичного внеску науки даних, давайте навчимося виявляти рак молочної залози за допомогою Python. Ми будемо використовувати набір даних IDC_regular для виявлення інвазивної карциноми протоки, найбільш поширеної форми раку молочної залози. Він розвивається в молочних протоках, що проникає у волокнисту або жирну тканину молочної залози зовні протоки. У цій ідеї наукового проекту збору даних ми будемо використовувати Глибоке навчання та бібліотеку Keras для класифікації.
Дорожні знаки та правила дорожнього руху дуже важливі для кожного водія, щоб уникнути нещасних випадків. Щоб дотримуватись правила, спочатку потрібно зрозуміти, як виглядає дорожній знак. Людина повинна вивчити всі дорожні знаки, перш ніж їй дадуть право керувати будь-яким транспортним засобом. Але зараз кількість автономних транспортних засобів зростає, і в найближчому майбутньому людина вже не самостійно керуватиме машиною. У проекті «Розпізнавання дорожніх знаків» ви дізнаєтесь, як програма може розпізнати тип дорожніх знаків, приймаючи зображення як вхідний сигнал. Набір контрольних даних розпізнавання дорожніх знаків Німеччини (GTSRB) використовується для побудови глибокої нейронної мережі розпізнавання класу, до якого відноситься дорожній знак. Ми також створюємо простий графічний інтерфейс для взаємодії з програмою.
Мова: Python
Набір даних: GTSRB (German Traffic Sign Recognition Benchmark)