14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

Data Science для пачаткоўцаў

1. Sentiment Analysis (Аналіз настрояў праз тэкст)

14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

Паглядзіце поўную рэалізацыю праекта Data Science з выкарыстаннем зыходнага кода Sentiment Analysis Project у R.

Sentiment Analysis - гэта аналіз слоў для вызначэння настрояў і меркаванняў, якія могуць быць станоўчымі або адмоўнымі. Гэта тып класіфікацыі, пры якім класы могуць быць двайковымі (станоўчымі і адмоўнымі) або множнымі (шчаслівымі, злымі, сумнымі, адваротнымі …). Мы рэалізуем гэты Data Science праект на мове R і будзем выкарыстоўваць набор дадзеных у пакеце "janeaustenR". Мы будзем выкарыстоўваць слоўнікі агульнага прызначэння, такія як AFINN, bing і loughran, выконваць унутранае злучэнне, і ў канцы мы створым воблака слоў, каб адлюстраваць вынік.

Мова: R
Набор даных/Пакет: janeaustenR

14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

Артыкул перакладзены пры падтрымцы кампаніі EDISON Software, якая робіць віртуальныя прымеркавыя для мультыбрэндавых крам, а таксама тэсціруе праграмнае забеспячэнне.

2. Fake News Detection (Выяўленне фэйкавых навін)

Падніміце свае навыкі на новы ўзровень, працуючы над праектам Data Science для пачаткоўцаў выяўленне падробленых навін з дапамогай Python.

14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

Фальшывыя навіны - гэта ілжывая інфармацыя, якая распаўсюджваецца праз сацыяльныя сеткі і іншыя сеткавыя СМІ для дасягнення палітычных мэтаў. У гэтай ідэі праекту па Data Science мы будзем выкарыстоўваць Python для пабудовы мадэлі, якая можа сапраўды вызначаць, ці з'яўляецца навіна рэальнай ці фальшывай. Мы створым TfidfVectorizer і выкарыстоўваем PassiveAggressiveClassifier для класіфікацыі навін на "рэальныя" і "падробленыя". Мы будзем выкарыстоўваць набор дадзеных формы 7796 × 4 і выконваць усё ў Jupyter Lab.

Мова: Пітон

Набор даных/Пакет: news.csv

3. Detecting Parkinson's Disease (Выяўленне хваробы Паркінсана)

Прасоўвайцеся наперад, працуючы над ідэяй праекта Data Science Project Idea выяўленне хваробы Паркінсана з дапамогай XGBoost.

14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

Мы пачалі выкарыстоўваць Data Science для паляпшэння аховы здароўя і паслуг - калі мы можам прадказаць захворванне на ранняй стадыі, то ў нас будзе шмат пераваг. Такім чынам, у гэтай ідэі праекту па Data Science мы навучымся выяўляць хваробу Паркінсана з дапамогай Python. Гэта нейродегенеративное, прагрэсавальнае захворванне цэнтральнай нервовай сістэмы, якое ўплывае на рух і выклікае дрыготку і скаванасць. Гэта ўплывае на прадукуюць дофаміна нейроны ў галаўным мозгу, і кожны год, гэта закранае больш за 1 мільёна чалавек у Індыі.

Мова: Пітон

Набор даных/Пакет: UCI ML Parkinsons dataset

Data Science праекты сярэдняй складанасці

4. Speech Emotion Recognition (Распазнаванне эмоцыі з гаворкі)

Азнаёмцеся з поўнай рэалізацыяй прыкладу праекта Data Science - распазнанне прамовы з дапамогай Librosa.

14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

Давайце зараз навучымся выкарыстоўваць розныя бібліятэкі. Гэты Data Science праект выкарыстоўвае librosa для распазнання прамовы. SER - гэта працэс вызначэння чалавечых эмоцый і афектыўных станаў па гаворкі. Паколькі мы выкарыстоўваем тон і вышыню тону для выражэння эмоцый голасам, SER актуальны. Але бо эмоцыі суб'ектыўныя, анатаванне гуку з'яўляецца складанай задачай. Мы будзем выкарыстоўваць функцыі mfcc, chroma і mel і выкарыстоўваць набор дадзеных RAVDESS для распазнання эмоцый. Мы створым MLPC-класіфікатар для гэтай мадэлі.

Мова: Пітон

Набор даных/Пакет: RAVDESS dataset

5. Gender and Age Detection (Выяўленне падлогі і ўзросту)

Уразіце працадаўцаў з дапамогай найноўшага праекта Data Science. вызначэнне полу і ўзросту з дапамогай OpenCV.

14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

Гэта цікавы Data Science з Python. Выкарыстоўваючы толькі адзін малюнак, вы навучыцеся прадказваць падлогу і ўзрост чалавека. У гэтым мы пазнаёмім вас з Computer Vision і ягонымі прынцыпамі. Мы пабудуем згортачную нейронавую сетку і будзем выкарыстоўваць мадэлі, навучаныя Талом Хасснерам і Джылам Леві для набору дадзеных Adience. Па шляху мы будзем выкарыстоўваць некаторыя файлы .pb, .pbtxt, .prototxt і .caffemodel.

Мова: Пітон

Набор даных/Пакет: Adience

6. Uber Data Analysis (Аналіз дадзеных Uber)

Паглядзіце поўную рэалізацыю праекта Data Science з зыходным кодам Uber Data Analysis Project у R.

14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

Гэта праект візуалізацыі даных з ggplot2, у якім мы будзем выкарыстоўваць R і яго бібліятэкі і аналізаваць розныя параметры. Мы будзем выкарыстоўваць набор дадзеных Uber Pickups у Нью-Ёрку і ствараць візуалізацыі для розных часавых рамак года. Гэта сведчыць нам аб тым, як час уплывае на паездкі кліентаў.

Мова: R

Набор даных/Пакет: Uber Pickups у New York City dataset

7. Driver Drowsiness detection (Выяўленне дрымотнасці кіроўцы)

Прапампуйце свае навыкі, працуючы над Top Data Science Project сістэмай выяўлення дрымотнасці з OpenCV & Keras.

14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

Соннае кіраванне надзвычай небяспечнае, і кожны год адбываецца каля тысячы аварый з-за таго, што кіроўцы засынаюць падчас кіравання. У гэтым праекце на Python мы створым сістэму, якая зможа выяўляць сонных кіроўцаў, а таксама апавяшчаць іх гукавым сігналам.

Гэты праект рэалізаваны з выкарыстаннем Keras і OpenCV. Мы будзем выкарыстоўваць OpenCV для выяўлення асобы і вачэй, а з дапамогай Keras мы будзем класіфікаваць стан вока (Адкрытае або Закрытае) з выкарыстаннем метадаў глыбокай нейронавай сеткі.

8. Чат-бот

Стварыце чат-бота з дапамогай Python і зрабіце крок наперад у сваёй кар'еры. Chatbot з NLTK & Keras.

14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

Чат-боты з'яўляюцца неад'емнай часткай бізнесу. Многім прадпрыемствам даводзіцца прапаноўваць паслугі сваім кліентам, і для іх абслугоўвання патрабуецца шмат працоўнай сілы, часу і намаганняў. Чат-боты могуць аўтаматызаваць большую частку ўзаемадзеяння з кліентамі, адказваючы на ​​некаторыя частыя пытанні, якія задаюць кліенты. У асноўным ёсць два тыпы чат-ботаў: Domain-specific і Open-domain. Domain-specific чат-бот часта выкарыстоўваецца для вырашэння канкрэтнай праблемы. Такім чынам, вам трэба настроіць яго для эфектыўнай працы ў вашай сферы. Open-domain чат-ботам можна задаваць любыя пытанні, таму для іх навучання патрабуецца велізарная колькасць дадзеных.

Набор дадзеных: Intents json file

Мова: Пітон

Прасунутыя Data Science праекты

9. Image Caption Generator(Генератар апісання выявы)

Праверце поўную рэалізацыю праекта з зыходным кодам Image Caption Generator з CNN & LSTM.

14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

Апісанне таго, што ёсць на малюнку, з'яўляецца лёгкай задачай для людзей, але для кампутараў, выява - гэта проста набор лічбаў, якія ўяўляюць сабой значэнне колеру кожнага пікселя. Гэта цяжкая задача для кампутараў. Зразумець, што знаходзіцца ў малюнку, а затым стварыць апісанне на натуральнай мове(напрыклад, на англійскай), з'яўляецца іншай цяжкай задачай. Гэты праект выкарыстоўвае метады глыбокага вывучэння, у якіх мы рэалізуем Канвалюцыйную нейронавую сетку (CNN) з рэкурэнтнай нейронавай сеткай (LSTM) для стварэння генератара апісання малюнка.

Набор дадзеных: Flickr 8K

Мова: Пітон

Фрэймворк: Керас

10. Credit Card Fraud Detection (Вызначэнне махлярства з крэдытнымі картамі)

Зрабіце ўсё магчымае, працуючы над ідэяй праекта Data Science. выяўленне махлярства з крэдытнымі картамі з дапамогай машыннага навучання.

14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

Да гэтага часу вы пачалі разумець метады і канцэпцыі. Давайце пяройдзем да некаторых прасунутых праектаў у галіне навукі аб дадзеных. У гэтым праекце мы будзем выкарыстоўваць мову R з такімі алгарытмамі, як дрэвы рашэнняў, лагістычная рэгрэсія, штучныя нейронавыя сеткі і класіфікатар градыентнага бустынгу. Мы будзем выкарыстоўваць набор дадзеных аперацый з картамі, каб класіфікаваць транзакцыі па крэдытных картах як ашуканскія і сапраўдныя. Мы падбяром для іх розныя мадэлі і пабудуем крывыя прадукцыйнасці.

Мова: R

Набор даных/Пакет: Card Transactions dataset

11. Movie Recommendation System (Сістэма рэкамендацый па фільмах)

Вывучыце рэалізацыю лепшага Data Science праекта з Зыходным кодам Movie Recommendation System на мове R

14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

У гэтым Data Science праекце мы будзем выкарыстоўваць R, каб выканаць рэкамендацыі фільма з дапамогай машыннага навучання. Сістэма рэкамендацый рассылае прапановы карыстальнікам праз працэс фільтрацыі, заснаваны на перавагах іншых карыстальнікаў і гісторыі праглядаў. Калі A і B падабаецца Home Alone, а B кахае Mean Girls, то можна прапанаваць A - ім гэта таксама можа спадабацца. Гэта дазваляе кліентам ўзаемадзейнічаць з платформай.

Мова: R

Набор даных/Пакет: MovieLens dataset

12. Customer Segmentation (Сегментацыя пакупнікоў)

Вырабіце ўражанне на працадаўцаў з дапамогай Data Science праекту (уключаючы зыходны код) — Сегментацыя кліентаў з дапамогай машыннага навучання.

14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

Сегментацыя пакупнікоў з'яўляецца папулярным дадаткам некантралюемага навучання (unsupervised learning). Выкарыстоўваючы кластарызацыю, кампаніі вызначаюць сегменты кліентаў для працы з патэнцыйнай базай карыстальнікаў. Яны падзяляюць кліентаў на групы ў адпаведнасці з агульнымі характарыстыкамі, такімі як пол, узрост, інтарэсы і звычкі расходавання сродкаў, каб яны маглі эфектыўна прадаваць сваю прадукцыю кожнай групе. Мы будзем выкарыстоўваць K-азначае кластэрызацыю, А таксама візуалізаваць размеркаванне па падлозе і ўзросце. Затым мы прааналізуем іх гадавыя даходы і ўзровень выдаткаў.

Мова: R

Набор даных/Пакет: Mall_Customers dataset

13. Breast Cancer Classification (Класіфікацыя раку малочнай залозы)

Паглядзіце поўную рэалізацыю праекта Data Science у Python Класіфікацыя раку малочнай залозы з дапамогай глыбокага навучання.

14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

Вяртаючыся да медыцынскага фундуша навукі дадзеных, давайце навучымся выяўляць рак малочнай залозы з дапамогай Python. Мы будзем выкарыстоўваць набор дадзеных IDC_regular для выяўлення інвазіўныя карцынома пратокі, найбольш распаўсюджанай формы раку малочнай залозы. Ён развіваецца ў малочных пратоках, пранікальным у кудзелістую або тоўстую тканіну малочнай залозы звонку пратокі. У гэтай ідэі навуковага праекта па зборы даных мы будзем выкарыстоўваць глыбокае вывучэнне і бібліятэку Keras для класіфікацыі.

Мова: Пітон

Набор даных/Пакет: IDC_regular

14. Traffic Signs Recognition (Распазнаванне дарожных знакаў)

Дасягненне дакладнасці ў тэхналогіі самастойнага ваджэння аўтамабіля з дапамогай праекта Data Science па распазнаванні дарожных знакаў з выкарыстаннем CNN з адкрытым зыходным кодам.

14 open-source праектаў для прапампоўкі Data Science майстэрства (easy, normal, hard)

Дарожныя знакі і правілы дарожнага руху вельмі важныя для кожнага кіроўцы, каб пазбегнуць няшчасных выпадкаў. Каб прытрымлівацца правіла, спачатку трэба зразумець, як выглядае дарожны знак. Чалавек павінен вывучыць усе дарожныя знакі, перш чым яму дадуць права на кіраванне любым транспартным сродкам. Але зараз колькасць аўтаномных транспартных сродкаў расце, і ў найбліжэйшай будучыні чалавек ужо не будзе самастойна кіраваць машынай. У праекце "Распазнаванне дарожных знакаў" вы даведаецеся, як праграма можа распазнаць тып дарожных знакаў, прымаючы малюнак у якасці ўваходнага сігналу. Набор кантрольных дадзеных распазнання дарожных знакаў Нямеччыны (GTSRB) выкарыстоўваецца для пабудовы глыбокай нейронавай сеткі для распазнання класа, да якога ставіцца дарожны знак. Мы таксама ствараем просты графічны інтэрфейс для ўзаемадзеяння з дадаткам.

Мова: Пітон

Набор дадзеных: GTSRB (German Traffic Sign Recognition Benchmark)

Чытаць яшчэ

Крыніца: habr.com

Дадаць каментар