Analiza sentimentelor este analiza cuvintelor pentru a determina sentimente și opinii, care pot fi pozitive sau negative. Acesta este un tip de clasificare în care clasele pot fi binare (pozitive și negative) sau la plural (fericit, furios, trist, urât...). Vom implementa acest proiect Data Science în R și vom folosi setul de date din pachetul „janeaustenR”. Vom folosi dicționare de uz general precum AFINN, bing și loughran, vom efectua o îmbinare interioară, iar la sfârșit vom crea un nor de cuvinte pentru a afișa rezultatul.
Știrile false sunt informații false răspândite prin intermediul rețelelor sociale și al altor media online pentru a atinge obiectivele politice. În această idee de proiect Data Science, vom folosi Python pentru a construi un model care poate determina cu precizie dacă o știre este reală sau falsă. Vom crea un TfidfVectorizer și vom folosi un PassiveAggressiveClassifier pentru a clasifica știrile în „reale” și „false”. Vom folosi un set de date cu forma 7796×4 și vom rula totul în Jupyter Lab.
Am început să folosim Data Science pentru a îmbunătăți asistența medicală și serviciile - dacă putem prezice o boală într-un stadiu incipient, atunci vom avea multe avantaje. Deci, în această idee de proiect Data Science, vom învăța cum să detectăm boala Parkinson folosind Python. Este o boală neurodegenerativă, progresivă a sistemului nervos central, care afectează mișcarea și provoacă tremor și rigiditate. Afectează neuronii producători de dopamină din creier și, în fiecare an, afectează mai mult de 1 milion de oameni din India.
Limba: Piton
Set de date/Pachet: Setul de date UCI ML Parkinsons
Să învățăm acum cum să folosim diferite biblioteci. Acest proiect Data Science folosește librosa pentru recunoașterea vorbirii. SER este procesul de identificare a emoțiilor umane și a stărilor afective din vorbire. Deoarece folosim tonul și tonul pentru a exprima emoția cu vocile noastre, SER este relevantă. Dar, deoarece emoțiile sunt subiective, adnotarea audio este o sarcină provocatoare. Vom folosi funcțiile mfcc, chroma și mel și vom folosi setul de date RAVDESS pentru recunoașterea emoțiilor. Vom crea un clasificator MLPC pentru acest model.
Aceasta este o știință a datelor interesantă cu Python. Folosind o singură imagine, veți învăța să preziceți sexul și vârsta unei persoane. În aceasta vă vom prezenta Viziunea computerizată și principiile acesteia. Vom construi rețea neuronală convoluțională și va folosi modele instruite de Tal Hassner și Gil Levy pe setul de date Adience. Pe parcurs vom folosi câteva fișiere .pb, .pbtxt, .prototxt și .caffemodel.
Acesta este un proiect de vizualizare a datelor cu ggplot2 în care vom folosi R și bibliotecile sale și vom analiza diverși parametri. Vom folosi setul de date Uber Pickups New York City și vom crea vizualizări pentru diferite intervale de timp ale anului. Acest lucru ne spune cum afectează timpul călătoriile clienților.
Limba: R
Set de date/Pachet: Setul de date Uber Pickups în New York City
Conducerea somnolentă este extrem de periculoasă, iar aproape o mie de accidente au loc în fiecare an din cauza șoferilor care adorm în timp ce conduc. În acest proiect Python, vom crea un sistem care poate detecta șoferii somnolenți și, de asemenea, îi poate alerta cu un semnal audio.
Acest proiect este implementat folosind Keras și OpenCV. Vom folosi OpenCV pentru detectarea feței și a ochilor și cu Keras vom clasifica starea ochiului (Deschis sau Închis) folosind tehnici de rețea neuronală profundă.
Chatboții sunt o parte integrantă a afacerii. Multe companii trebuie să ofere servicii clienților lor și este nevoie de multă forță de muncă, timp și efort pentru a le deservi. Chatboții pot automatiza o mare parte din interacțiunea cu clienții, răspunzând la câteva întrebări frecvente pe care clienții le pun. Există, practic, două tipuri de chatbot: specific domeniului și domeniul deschis. Un chatbot specific unui domeniu este adesea folosit pentru a rezolva o anumită problemă. Deci, trebuie să-l personalizați pentru a funcționa eficient în domeniul dvs. Chatbot-urilor cu domeniu deschis pot fi adresate orice întrebări, așa că instruirea lor necesită o cantitate imensă de date.
Descrierea a ceea ce este într-o imagine este o sarcină ușoară pentru oameni, dar pentru computere, o imagine este pur și simplu o serie de numere care reprezintă valoarea culorii fiecărui pixel. Aceasta este o sarcină dificilă pentru computere. Înțelegerea a ceea ce este într-o imagine și apoi crearea unei descrieri în limbaj natural (cum ar fi engleza) este o altă sarcină dificilă. Acest proiect folosește tehnici de învățare profundă în care implementăm o rețea neuronală convoluțională (CNN) cu o rețea neuronală recurentă (LSTM) pentru a crea un generator de descriere a imaginii.
Până acum ați început să înțelegeți tehnicile și conceptele. Să trecem la câteva proiecte avansate de știință a datelor. În acest proiect vom folosi limbajul R cu algoritmi precum arbori de decizie, regresie logistică, rețele neuronale artificiale și clasificator de creștere a gradientului. Vom folosi un set de date de tranzacții cu cardul pentru a clasifica tranzacțiile cu cardul de credit ca fiind frauduloase sau autentice. Vom selecta diferite modele pentru ele și vom construi curbe de performanță.
Limba: R
Set de date/Pachet: Setul de date privind tranzacțiile cu card
În acest proiect Data Science, vom folosi R pentru a implementa recomandările filmului prin învățarea automată. Sistemul de recomandare trimite sugestii utilizatorilor printr-un proces de filtrare bazat pe preferințele altor utilizatori și pe istoricul de navigare. Dacă lui A și B le place Singur acasă și lui B îi plac Fetele rele, atunci îi poți sugera lui A - s-ar putea să le placă și lor. Acest lucru permite clienților să interacționeze cu platforma.
Segmentarea cumpărătorilor este o aplicație populară învăţare nesupravegheată. Folosind gruparea, companiile identifică segmente de clienți pentru a viza o bază de utilizatori potențiali. Ei împart clienții în grupuri în funcție de caracteristici comune, cum ar fi sexul, vârsta, interesele și obiceiurile de cheltuieli, astfel încât să își poată comercializa în mod eficient produsele fiecărui grup. Noi vom folosi K-înseamnă grupare, precum și vizualizați distribuția pe gen și vârstă. Apoi le vom analiza veniturile și cheltuielile anuale.
Revenind la contribuția medicală a științei datelor, să învățăm cum să detectăm cancerul de sân folosind Python. Vom folosi setul de date IDC_regular pentru a identifica carcinomul ductal invaziv, cea mai comună formă de cancer de sân. Se dezvoltă în canalele de lapte, adâncindu-se în țesutul mamar fibros sau gras din afara canalului. În această idee de proiect științific de colectare a datelor pe care o vom folosi Invatare profunda și biblioteca Keras pentru clasificare.
Semnele rutiere și regulile de circulație sunt foarte importante pentru fiecare șofer pentru a evita accidentele. Pentru a respecta regula, mai întâi trebuie să înțelegeți cum arată un semn rutier. O persoană trebuie să învețe toate semnele rutiere înainte de a primi permisul de a conduce orice vehicul. Dar acum numărul de vehicule autonome este în creștere, iar în viitorul apropiat o persoană nu va mai conduce o mașină independent. În proiectul de recunoaștere a semnelor rutiere, veți afla cum un program poate recunoaște tipul de semne rutiere luând o imagine ca intrare. Setul de date German Traffic Sign Recognition Benchmark (GTSRB) este folosit pentru a construi o rețea neuronală profundă pentru a recunoaște clasa căreia îi aparține un semn de trafic. De asemenea, creăm o interfață grafică simplă pentru a interacționa cu aplicația.
Limba: Piton
Set de date: GTSRB (benchmark german pentru recunoașterea semnelor de circulație)