14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

Data Science для початківців

1. Sentiment Analysis (Аналіз настроїв через текст)

14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

Перегляньте повну реалізацію проекту Data Science з використанням вихідного коду. Sentiment Analysis Project у R.

Sentiment Analysis – це аналіз слів для визначення настроїв та думок, які можуть бути позитивними чи негативними. Це тип класифікації, при якому класи можуть бути двійковими (позитивними та негативними) або множинними (щасливими, злими, сумними, неприємними…). Ми реалізуємо цей Data Science проект мовою R і використовуватимемо набір даних у пакеті «janeaustenR». Ми будемо використовувати словники загального призначення, такі як AFINN, bing та loughran, виконувати внутрішнє з'єднання, і в кінці ми створимо хмару слів, щоб відобразити результат.

Мова: R
Набір даних/Пакет: janeaustenR

14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

Статтю перекладено за підтримки компанії EDISON Software, яка робить віртуальні примірювальні для мультибрендових магазинів, а також тестує програмне забезпечення.

2. Fake News Detection (Виявлення фейкових новин)

Підніміть свої навички на новий рівень, працюючи над проектом Data Science для початківців. виявлення підроблених новин за допомогою Python.

14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

Фальшиві новини — це хибна інформація, яка розповсюджується через соціальні мережі та інші мережні ЗМІ для досягнення політичних цілей. У цій ідеї проекту з Data Science ми будемо використовувати Python для побудови моделі, яка може точно визначати, чи є новина реальною чи фальшивою. Ми створимо TfidfVectorizer і використовуємо PassiveAggressiveClassifier для класифікації новин на «реальні» та «підроблені». Ми будемо використовувати набір даних форми 7796 × 4 і виконувати все в Jupyter Lab.

Мова: Python

Набір даних/Пакет: news.csv

3. Detecting Parkinson's Disease (Виявлення хвороби Паркінсона)

Просувайтеся вперед, працюючи над ідеєю проекту Data Science Project Idea. виявлення хвороби Паркінсона за допомогою XGBoost.

14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

Ми почали використовувати Data Science для покращення охорони здоров'я та послуг – якщо ми можемо передбачити захворювання на ранній стадії, то ми матимемо багато переваг. Отже, в цій ідеї проекту з Data Science ми навчимося виявляти хворобу Паркінсона за допомогою Python. Це нейродегенеративне, прогресуюче захворювання центральної нервової системи, яке впливає на рух і викликає тремтіння та скутість. Це впливає на продукуючі нейрони дофаміну в головному мозку, і щороку, це зачіпає більше 1 мільйона людей в Індії.

Мова: Python

Набір даних/Пакет: UCI ML Parkinsons dataset

Data Science проекти середньої складності

4. Speech Emotion Recognition (Розпізнавання емоції з мови)

Ознайомтеся з повною реалізацією прикладу проекту Data Science. розпізнавання мови за допомогою Librosa.

14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

Давайте тепер навчимося використовувати різні бібліотеки. Цей Data Science проект використовує librosa для розпізнавання мови. SER - це процес визначення людських емоцій та афективних станів по мові. Оскільки ми використовуємо тон і висоту тону для вираження емоцій голосом, SER є актуальним. Але оскільки емоції суб'єктивні, інструкція звуку є складним завданням. Ми будемо використовувати функції mfcc, chroma та mel та використовувати набір даних RAVDESS для розпізнавання емоцій. Ми створимо MLPC класифікатор для цієї моделі.

Мова: Python

Набір даних/Пакет: RAVDESS dataset

5. Gender and Age Detection (Виявлення статі та віку)

Вразіть роботодавців за допомогою нового проекту Data Science. визначення статі та віку за допомогою OpenCV.

14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

Це цікавий Data Science з Python. Використовуючи лише одне зображення, ви навчитеся передбачати стать та вік людини. У цьому ми познайомимо вас із Computer Vision та його принципами. Ми збудуємо згорткову нейронну мережу і будемо використовувати моделі, навчені Талом Хасснером та Джилом Леві для набору даних Adience. На шляху ми будемо використовувати деякі файли .pb, .pbtxt, .prototxt та .caffemodel.

Мова: Python

Набір даних/Пакет: Adience

6. Uber Data Analysis (Аналіз даних Uber)

Подивіться повну реалізацію проекту Data Science з вихідним кодом Uber Data Analysis Project в R.

14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

Це проект візуалізації даних з ggplot2, в якому ми будемо використовувати R та його бібліотеки та аналізувати різні параметри. Ми будемо використовувати набір даних Uber Pickups у Нью-Йорку та створювати візуалізації для різних часових рамок року. Це говорить нам про те, як час впливає на подорожі клієнтів.

Мова: R

Набір даних/Пакет: Uber Pickups in New York City dataset

7. Driver Drowsiness detection (Виявлення сонливості водія)

Прокачайте свої навички, працюючи над Top Data Science Project системою виявлення сонливості із OpenCV & Keras.

14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

Сонне водіння надзвичайно небезпечне, і щороку трапляється близько тисячі аварій через те, що водії засинають під час водіння. У цьому проекті на Python ми створимо систему, яка зможе виявляти сонних водіїв та сповіщати їх звуковим сигналом.

Цей проект реалізовано з використанням Keras та OpenCV. Ми будемо використовувати OpenCV для виявлення обличчя та очей, а за допомогою Keras ми будемо класифікувати стан ока (Відкритий або Закритий) за допомогою методів глибокої нейронної мережі.

8. Чат-бот

Створіть чат-бота за допомогою Python і зробіть крок уперед у своїй кар'єрі. Chatbot з NLTK & Keras.

14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

Чат-боти є невід'ємною частиною бізнесу. Багатьом підприємствам доводиться пропонувати послуги своїм клієнтам, і для їх обслуговування потрібно багато робочої сили, часу та зусиль. Чат-боти можуть автоматизувати більшу частину взаємодії з клієнтами, відповідаючи на деякі часті питання, які ставлять клієнти. В основному є два типи чат-ботів: Domain-specific та Open-domain. Domain-specific чат-бот часто використовується для вирішення конкретної проблеми. Таким чином, ви повинні налаштувати його для ефективної роботи у вашій сфері. Open-domain чат-ботам можна ставити будь-які питання, тому для їх навчання потрібна величезна кількість даних.

Набір даних: Intents json file

Мова: Python

Просунуті Data Science проекти

9. Image Caption Generator (Генератор опису зображення)

Перевірте повну реалізацію проекту з вихідним кодом Image Caption Generator із CNN & LSTM.

14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

Опис того, що є на зображенні, є легким завданням для людей, але для комп'ютерів, зображення - це просто набір цифр, які є значенням кольору кожного пікселя. Це складне завдання для комп'ютерів. Зрозуміти, що знаходиться в зображенні, а потім створити опис природною мовою (наприклад, англійською), є іншою складною задачею. Цей проект використовує методи глибокого вивчення, в яких ми реалізуємо Конволюційну нейронну мережу (CNN) з нейронною рекурентною мережею (LSTM) для створення генератора опису зображення.

Набір даних: Flickr 8K

Мова: Python

Фреймворк: Керас

10. Credit Card Fraud Detection (Визначення шахрайства з кредитними картками)

Зробіть все можливе, працюючи над ідеєю проекту Data Science. виявлення шахрайства з кредитними картками за допомогою машинного навчання.

14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

На цей час ви почали розуміти методи та концепції. Давайте перейдемо до деяких розвинених проектів у галузі науки про дані. У цьому проекті ми будемо використовувати мову R з такими алгоритмами, як дерева рішень, логістична регресія, штучні нейронні мережі та класифікатор градієнтного бустингу Ми будемо використовувати набір даних операцій з картками, щоб класифікувати транзакції по кредитних картках як шахрайські та справжні. Ми підберемо для них різні моделі та побудуємо криві продуктивності.

Мова: R

Набір даних/Пакет: Card Transactions dataset

11. Movie Recommendation System (Система рекомендацій з фільмів)

Вивчіть реалізацію кращого Data Science проекту з Вихідним кодом Movie Recommendation System мовою R

14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

У цьому проекті Data Science ми будемо використовувати R, щоб виконати рекомендації фільму за допомогою машинного навчання. Система рекомендацій розсилає пропозиції користувачам через процес фільтрації, що базується на перевагах інших користувачів та історії переглядів. Якщо A і B подобається Home Alone, а B любить Mean Girls, можна запропонувати A — їм це теж може сподобатися. Це дозволяє клієнтам взаємодіяти із платформою.

Мова: R

Набір даних/Пакет: Набір даних MovieLens

12. Customer Segmentation (Сегментація покупців)

Зробіть враження на роботодавців за допомогою Data Science проекту (включаючи вихідний код). Сегментація клієнтів за допомогою машинного навчання.

14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

Сегментація покупців є популярним додатком неконтрольованого навчання (unsupervised learning). Використовуючи кластеризацію, компанії визначають сегменти клієнтів до роботи з потенційної базою користувачів. Вони ділять клієнтів на групи відповідно до загальних характеристик, таких як стать, вік, інтереси та звички витрачання коштів, щоб вони могли ефективно продавати свою продукцію кожній групі. Ми будемо використовувати K-означає кластеризацію, а також візуалізувати розподіл за статтю та віком. Потім ми проаналізуємо їхні річні прибутки та рівень витрат.

Мова: R

Набір даних/Пакет: Mall_Customers dataset

13. Breast Cancer Classification (Класифікація раку молочної залози)

Перегляньте повну реалізацію проекту Data Science в Python Класифікація раку молочної залози за допомогою глибокого навчання.

14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

Повертаючись до медичного внеску науки даних, давайте навчимося виявляти рак молочної залози за допомогою Python. Ми будемо використовувати набір даних IDC_regular для виявлення інвазивної карциноми протоки, найбільш поширеної форми раку молочної залози. Він розвивається в молочних протоках, що проникає у волокнисту або жирну тканину молочної залози зовні протоки. У цій ідеї наукового проекту збору даних ми будемо використовувати Глибоке навчання та бібліотеку Keras для класифікації.

Мова: Python

Набір даних/Пакет: IDC_regular

14. Traffic Signs Recognition (Розпізнавання дорожніх знаків)

Досягнення точності в технології самостійного керування автомобілем за допомогою проекту Data Science по розпізнавання дорожніх знаків із використанням CNN з відкритим кодом.

14 open-source проектів для прокачування Data Science майстерності (easy, normal, hard)

Дорожні знаки та правила дорожнього руху дуже важливі для кожного водія, щоб уникнути нещасних випадків. Щоб дотримуватись правила, спочатку потрібно зрозуміти, як виглядає дорожній знак. Людина повинна вивчити всі дорожні знаки, перш ніж їй дадуть право керувати будь-яким транспортним засобом. Але зараз кількість автономних транспортних засобів зростає, і в найближчому майбутньому людина вже не самостійно керуватиме машиною. У проекті «Розпізнавання дорожніх знаків» ви дізнаєтесь, як програма може розпізнати тип дорожніх знаків, приймаючи зображення як вхідний сигнал. Набір контрольних даних розпізнавання дорожніх знаків Німеччини (GTSRB) використовується для побудови глибокої нейронної мережі розпізнавання класу, до якого відноситься дорожній знак. Ми також створюємо простий графічний інтерфейс для взаємодії з програмою.

Мова: Python

Набір даних: GTSRB (German Traffic Sign Recognition Benchmark)

Читати ще

Джерело: habr.com

Додати коментар або відгук