Sentiment Analysis - гэта аналіз слоў для вызначэння настрояў і меркаванняў, якія могуць быць станоўчымі або адмоўнымі. Гэта тып класіфікацыі, пры якім класы могуць быць двайковымі (станоўчымі і адмоўнымі) або множнымі (шчаслівымі, злымі, сумнымі, адваротнымі …). Мы рэалізуем гэты Data Science праект на мове R і будзем выкарыстоўваць набор дадзеных у пакеце "janeaustenR". Мы будзем выкарыстоўваць слоўнікі агульнага прызначэння, такія як AFINN, bing і loughran, выконваць унутранае злучэнне, і ў канцы мы створым воблака слоў, каб адлюстраваць вынік.
Фальшывыя навіны - гэта ілжывая інфармацыя, якая распаўсюджваецца праз сацыяльныя сеткі і іншыя сеткавыя СМІ для дасягнення палітычных мэтаў. У гэтай ідэі праекту па Data Science мы будзем выкарыстоўваць Python для пабудовы мадэлі, якая можа сапраўды вызначаць, ці з'яўляецца навіна рэальнай ці фальшывай. Мы створым TfidfVectorizer і выкарыстоўваем PassiveAggressiveClassifier для класіфікацыі навін на "рэальныя" і "падробленыя". Мы будзем выкарыстоўваць набор дадзеных формы 7796 × 4 і выконваць усё ў Jupyter Lab.
Мова: Пітон
Набор даных/Пакет: news.csv
3. Detecting Parkinson's Disease (Выяўленне хваробы Паркінсана)
Мы пачалі выкарыстоўваць Data Science для паляпшэння аховы здароўя і паслуг - калі мы можам прадказаць захворванне на ранняй стадыі, то ў нас будзе шмат пераваг. Такім чынам, у гэтай ідэі праекту па Data Science мы навучымся выяўляць хваробу Паркінсана з дапамогай Python. Гэта нейродегенеративное, прагрэсавальнае захворванне цэнтральнай нервовай сістэмы, якое ўплывае на рух і выклікае дрыготку і скаванасць. Гэта ўплывае на прадукуюць дофаміна нейроны ў галаўным мозгу, і кожны год, гэта закранае больш за 1 мільёна чалавек у Індыі.
Мова: Пітон
Набор даных/Пакет: UCI ML Parkinsons dataset
Data Science праекты сярэдняй складанасці
4. Speech Emotion Recognition (Распазнаванне эмоцыі з гаворкі)
Давайце зараз навучымся выкарыстоўваць розныя бібліятэкі. Гэты Data Science праект выкарыстоўвае librosa для распазнання прамовы. SER - гэта працэс вызначэння чалавечых эмоцый і афектыўных станаў па гаворкі. Паколькі мы выкарыстоўваем тон і вышыню тону для выражэння эмоцый голасам, SER актуальны. Але бо эмоцыі суб'ектыўныя, анатаванне гуку з'яўляецца складанай задачай. Мы будзем выкарыстоўваць функцыі mfcc, chroma і mel і выкарыстоўваць набор дадзеных RAVDESS для распазнання эмоцый. Мы створым MLPC-класіфікатар для гэтай мадэлі.
Мова: Пітон
Набор даных/Пакет: RAVDESS dataset
5. Gender and Age Detection (Выяўленне падлогі і ўзросту)
Гэта цікавы Data Science з Python. Выкарыстоўваючы толькі адзін малюнак, вы навучыцеся прадказваць падлогу і ўзрост чалавека. У гэтым мы пазнаёмім вас з Computer Vision і ягонымі прынцыпамі. Мы пабудуем згортачную нейронавую сетку і будзем выкарыстоўваць мадэлі, навучаныя Талом Хасснерам і Джылам Леві для набору дадзеных Adience. Па шляху мы будзем выкарыстоўваць некаторыя файлы .pb, .pbtxt, .prototxt і .caffemodel.
Гэта праект візуалізацыі даных з ggplot2, у якім мы будзем выкарыстоўваць R і яго бібліятэкі і аналізаваць розныя параметры. Мы будзем выкарыстоўваць набор дадзеных Uber Pickups у Нью-Ёрку і ствараць візуалізацыі для розных часавых рамак года. Гэта сведчыць нам аб тым, як час уплывае на паездкі кліентаў.
Мова: R
Набор даных/Пакет: Uber Pickups у New York City dataset
Соннае кіраванне надзвычай небяспечнае, і кожны год адбываецца каля тысячы аварый з-за таго, што кіроўцы засынаюць падчас кіравання. У гэтым праекце на Python мы створым сістэму, якая зможа выяўляць сонных кіроўцаў, а таксама апавяшчаць іх гукавым сігналам.
Гэты праект рэалізаваны з выкарыстаннем Keras і OpenCV. Мы будзем выкарыстоўваць OpenCV для выяўлення асобы і вачэй, а з дапамогай Keras мы будзем класіфікаваць стан вока (Адкрытае або Закрытае) з выкарыстаннем метадаў глыбокай нейронавай сеткі.
8. Чат-бот
Стварыце чат-бота з дапамогай Python і зрабіце крок наперад у сваёй кар'еры. Chatbot з NLTK & Keras.
Чат-боты з'яўляюцца неад'емнай часткай бізнесу. Многім прадпрыемствам даводзіцца прапаноўваць паслугі сваім кліентам, і для іх абслугоўвання патрабуецца шмат працоўнай сілы, часу і намаганняў. Чат-боты могуць аўтаматызаваць большую частку ўзаемадзеяння з кліентамі, адказваючы на некаторыя частыя пытанні, якія задаюць кліенты. У асноўным ёсць два тыпы чат-ботаў: Domain-specific і Open-domain. Domain-specific чат-бот часта выкарыстоўваецца для вырашэння канкрэтнай праблемы. Такім чынам, вам трэба настроіць яго для эфектыўнай працы ў вашай сферы. Open-domain чат-ботам можна задаваць любыя пытанні, таму для іх навучання патрабуецца велізарная колькасць дадзеных.
Апісанне таго, што ёсць на малюнку, з'яўляецца лёгкай задачай для людзей, але для кампутараў, выява - гэта проста набор лічбаў, якія ўяўляюць сабой значэнне колеру кожнага пікселя. Гэта цяжкая задача для кампутараў. Зразумець, што знаходзіцца ў малюнку, а затым стварыць апісанне на натуральнай мове(напрыклад, на англійскай), з'яўляецца іншай цяжкай задачай. Гэты праект выкарыстоўвае метады глыбокага вывучэння, у якіх мы рэалізуем Канвалюцыйную нейронавую сетку (CNN) з рэкурэнтнай нейронавай сеткай (LSTM) для стварэння генератара апісання малюнка.
Набор дадзеных: Flickr 8K
Мова: Пітон
Фрэймворк: Керас
10. Credit Card Fraud Detection (Вызначэнне махлярства з крэдытнымі картамі)
Да гэтага часу вы пачалі разумець метады і канцэпцыі. Давайце пяройдзем да некаторых прасунутых праектаў у галіне навукі аб дадзеных. У гэтым праекце мы будзем выкарыстоўваць мову R з такімі алгарытмамі, як дрэвы рашэнняў, лагістычная рэгрэсія, штучныя нейронавыя сеткі і класіфікатар градыентнага бустынгу. Мы будзем выкарыстоўваць набор дадзеных аперацый з картамі, каб класіфікаваць транзакцыі па крэдытных картах як ашуканскія і сапраўдныя. Мы падбяром для іх розныя мадэлі і пабудуем крывыя прадукцыйнасці.
Мова: R
Набор даных/Пакет: Card Transactions dataset
11. Movie Recommendation System (Сістэма рэкамендацый па фільмах)
У гэтым Data Science праекце мы будзем выкарыстоўваць R, каб выканаць рэкамендацыі фільма з дапамогай машыннага навучання. Сістэма рэкамендацый рассылае прапановы карыстальнікам праз працэс фільтрацыі, заснаваны на перавагах іншых карыстальнікаў і гісторыі праглядаў. Калі A і B падабаецца Home Alone, а B кахае Mean Girls, то можна прапанаваць A - ім гэта таксама можа спадабацца. Гэта дазваляе кліентам ўзаемадзейнічаць з платформай.
Сегментацыя пакупнікоў з'яўляецца папулярным дадаткам некантралюемага навучання (unsupervised learning). Выкарыстоўваючы кластарызацыю, кампаніі вызначаюць сегменты кліентаў для працы з патэнцыйнай базай карыстальнікаў. Яны падзяляюць кліентаў на групы ў адпаведнасці з агульнымі характарыстыкамі, такімі як пол, узрост, інтарэсы і звычкі расходавання сродкаў, каб яны маглі эфектыўна прадаваць сваю прадукцыю кожнай групе. Мы будзем выкарыстоўваць K-азначае кластэрызацыю, А таксама візуалізаваць размеркаванне па падлозе і ўзросце. Затым мы прааналізуем іх гадавыя даходы і ўзровень выдаткаў.
Мова: R
Набор даных/Пакет: Mall_Customers dataset
13. Breast Cancer Classification (Класіфікацыя раку малочнай залозы)
Вяртаючыся да медыцынскага фундуша навукі дадзеных, давайце навучымся выяўляць рак малочнай залозы з дапамогай Python. Мы будзем выкарыстоўваць набор дадзеных IDC_regular для выяўлення інвазіўныя карцынома пратокі, найбольш распаўсюджанай формы раку малочнай залозы. Ён развіваецца ў малочных пратоках, пранікальным у кудзелістую або тоўстую тканіну малочнай залозы звонку пратокі. У гэтай ідэі навуковага праекта па зборы даных мы будзем выкарыстоўваць глыбокае вывучэнне і бібліятэку Keras для класіфікацыі.
Дарожныя знакі і правілы дарожнага руху вельмі важныя для кожнага кіроўцы, каб пазбегнуць няшчасных выпадкаў. Каб прытрымлівацца правіла, спачатку трэба зразумець, як выглядае дарожны знак. Чалавек павінен вывучыць усе дарожныя знакі, перш чым яму дадуць права на кіраванне любым транспартным сродкам. Але зараз колькасць аўтаномных транспартных сродкаў расце, і ў найбліжэйшай будучыні чалавек ужо не будзе самастойна кіраваць машынай. У праекце "Распазнаванне дарожных знакаў" вы даведаецеся, як праграма можа распазнаць тып дарожных знакаў, прымаючы малюнак у якасці ўваходнага сігналу. Набор кантрольных дадзеных распазнання дарожных знакаў Нямеччыны (GTSRB) выкарыстоўваецца для пабудовы глыбокай нейронавай сеткі для распазнання класа, да якога ставіцца дарожны знак. Мы таксама ствараем просты графічны інтэрфейс для ўзаемадзеяння з дадаткам.
Мова: Пітон
Набор дадзеных: GTSRB (German Traffic Sign Recognition Benchmark)