14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

Știința datelor pentru începători

1. Analiza sentimentelor (Analiza sentimentelor prin text)

14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

Consultați implementarea completă a proiectului Data Science folosind codul sursă − Proiectul de analiză a sentimentelor în R.

Analiza sentimentelor este analiza cuvintelor pentru a determina sentimente și opinii, care pot fi pozitive sau negative. Acesta este un tip de clasificare în care clasele pot fi binare (pozitive și negative) sau la plural (fericit, furios, trist, urât...). Vom implementa acest proiect Data Science în R și vom folosi setul de date din pachetul „janeaustenR”. Vom folosi dicționare de uz general precum AFINN, bing și loughran, vom efectua o îmbinare interioară, iar la sfârșit vom crea un nor de cuvinte pentru a afișa rezultatul.

Limba: R
Set de date/Pachet: janeaustenR

14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

Articolul a fost tradus cu sprijinul EDISON Software, care realizează cabine de probă virtuale pentru magazine cu mai multe mărciși testează software-ul.

2. Detectarea știrilor false

Du-ți abilitățile la nivelul următor lucrând la un proiect Data Science pentru începători - detectarea știrilor false cu Python.

14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

Știrile false sunt informații false răspândite prin intermediul rețelelor sociale și al altor media online pentru a atinge obiectivele politice. În această idee de proiect Data Science, vom folosi Python pentru a construi un model care poate determina cu precizie dacă o știre este reală sau falsă. Vom crea un TfidfVectorizer și vom folosi un PassiveAggressiveClassifier pentru a clasifica știrile în „reale” și „false”. Vom folosi un set de date cu forma 7796×4 și vom rula totul în Jupyter Lab.

Limba: Piton

Set de date/Pachet: știri.csv

3. Detectarea bolii Parkinson

Continuați cu ideea dvs. de proiect Data Science - detectarea bolii Parkinson folosind XGBoost.

14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

Am început să folosim Data Science pentru a îmbunătăți asistența medicală și serviciile - dacă putem prezice o boală într-un stadiu incipient, atunci vom avea multe avantaje. Deci, în această idee de proiect Data Science, vom învăța cum să detectăm boala Parkinson folosind Python. Este o boală neurodegenerativă, progresivă a sistemului nervos central, care afectează mișcarea și provoacă tremor și rigiditate. Afectează neuronii producători de dopamină din creier și, în fiecare an, afectează mai mult de 1 milion de oameni din India.

Limba: Piton

Set de date/Pachet: Setul de date UCI ML Parkinsons

Proiecte Data Science de complexitate medie

4. Recunoașterea emoțiilor vorbirii

Consultați implementarea completă a proiectului exemplu Data Science − recunoașterea vorbirii folosind Librosa.

14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

Să învățăm acum cum să folosim diferite biblioteci. Acest proiect Data Science folosește librosa pentru recunoașterea vorbirii. SER este procesul de identificare a emoțiilor umane și a stărilor afective din vorbire. Deoarece folosim tonul și tonul pentru a exprima emoția cu vocile noastre, SER este relevantă. Dar, deoarece emoțiile sunt subiective, adnotarea audio este o sarcină provocatoare. Vom folosi funcțiile mfcc, chroma și mel și vom folosi setul de date RAVDESS pentru recunoașterea emoțiilor. Vom crea un clasificator MLPC pentru acest model.

Limba: Piton

Set de date/Pachet: Setul de date RAVDESS

5. Detectarea sexului și vârstei

Impresionați angajatorii cu cel mai recent proiect Data Science - determinarea sexului și a vârstei folosind OpenCV.

14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

Aceasta este o știință a datelor interesantă cu Python. Folosind o singură imagine, veți învăța să preziceți sexul și vârsta unei persoane. În aceasta vă vom prezenta Viziunea computerizată și principiile acesteia. Vom construi rețea neuronală convoluțională și va folosi modele instruite de Tal Hassner și Gil Levy pe setul de date Adience. Pe parcurs vom folosi câteva fișiere .pb, .pbtxt, .prototxt și .caffemodel.

Limba: Piton

Set de date/Pachet: Adiență

6. Analiza datelor Uber

Consultați implementarea completă a proiectului Data Science cu cod sursă − Proiectul de analiză a datelor Uber în R.

14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

Acesta este un proiect de vizualizare a datelor cu ggplot2 în care vom folosi R și bibliotecile sale și vom analiza diverși parametri. Vom folosi setul de date Uber Pickups New York City și vom crea vizualizări pentru diferite intervale de timp ale anului. Acest lucru ne spune cum afectează timpul călătoriile clienților.

Limba: R

Set de date/Pachet: Setul de date Uber Pickups în New York City

7. Detectarea somnolenței șoferului

Îmbunătățiți-vă abilitățile lucrând la Top Data Science Project - sistem de detectare a somnolenței cu OpenCV & Keras.

14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

Conducerea somnolentă este extrem de periculoasă, iar aproape o mie de accidente au loc în fiecare an din cauza șoferilor care adorm în timp ce conduc. În acest proiect Python, vom crea un sistem care poate detecta șoferii somnolenți și, de asemenea, îi poate alerta cu un semnal audio.

Acest proiect este implementat folosind Keras și OpenCV. Vom folosi OpenCV pentru detectarea feței și a ochilor și cu Keras vom clasifica starea ochiului (Deschis sau Închis) folosind tehnici de rețea neuronală profundă.

8.Chatbot

Creează un Chatbot cu Python și fă un pas înainte în cariera ta - Chatbot cu NLTK și Keras.

14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

Chatboții sunt o parte integrantă a afacerii. Multe companii trebuie să ofere servicii clienților lor și este nevoie de multă forță de muncă, timp și efort pentru a le deservi. Chatboții pot automatiza o mare parte din interacțiunea cu clienții, răspunzând la câteva întrebări frecvente pe care clienții le pun. Există, practic, două tipuri de chatbot: specific domeniului și domeniul deschis. Un chatbot specific unui domeniu este adesea folosit pentru a rezolva o anumită problemă. Deci, trebuie să-l personalizați pentru a funcționa eficient în domeniul dvs. Chatbot-urilor cu domeniu deschis pot fi adresate orice întrebări, așa că instruirea lor necesită o cantitate imensă de date.

Set de date: Fișierul json de intenții

Limba: Piton

Proiecte avansate de știință a datelor

9. Image Caption Generator

Consultați implementarea completă a proiectului cu codul sursă − Generator de subtitrări cu CNN și LSTM.

14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

Descrierea a ceea ce este într-o imagine este o sarcină ușoară pentru oameni, dar pentru computere, o imagine este pur și simplu o serie de numere care reprezintă valoarea culorii fiecărui pixel. Aceasta este o sarcină dificilă pentru computere. Înțelegerea a ceea ce este într-o imagine și apoi crearea unei descrieri în limbaj natural (cum ar fi engleza) este o altă sarcină dificilă. Acest proiect folosește tehnici de învățare profundă în care implementăm o rețea neuronală convoluțională (CNN) cu o rețea neuronală recurentă (LSTM) pentru a crea un generator de descriere a imaginii.

Set de date: Flickr 8K

Limba: Piton

Cadru: Keras

10. Detectarea fraudei cu cardul de credit

Faceți tot posibilul în timp ce lucrați la ideea de proiect Data Science − detecta fraudele cu cardul de credit folosind învățarea automată.

14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

Până acum ați început să înțelegeți tehnicile și conceptele. Să trecem la câteva proiecte avansate de știință a datelor. În acest proiect vom folosi limbajul R cu algoritmi precum arbori de decizie, regresie logistică, rețele neuronale artificiale și clasificator de creștere a gradientului. Vom folosi un set de date de tranzacții cu cardul pentru a clasifica tranzacțiile cu cardul de credit ca fiind frauduloase sau autentice. Vom selecta diferite modele pentru ele și vom construi curbe de performanță.

Limba: R

Set de date/Pachet: Setul de date privind tranzacțiile cu card

11. Sistem de recomandare de filme

Studiați implementarea celui mai bun proiect Data Science cu cod sursă - Sistem de recomandare de filme în limbaj R

14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

În acest proiect Data Science, vom folosi R pentru a implementa recomandările filmului prin învățarea automată. Sistemul de recomandare trimite sugestii utilizatorilor printr-un proces de filtrare bazat pe preferințele altor utilizatori și pe istoricul de navigare. Dacă lui A și B le place Singur acasă și lui B îi plac Fetele rele, atunci îi poți sugera lui A - s-ar putea să le placă și lor. Acest lucru permite clienților să interacționeze cu platforma.

Limba: R

Set de date/Pachet: Setul de date MovieLens

12. Segmentarea clienților

Impresionați angajatorii cu un proiect Data Science (inclusiv codul sursă) - Segmentarea clienților folosind învățarea automată.

14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

Segmentarea cumpărătorilor este o aplicație populară învăţare nesupravegheată. Folosind gruparea, companiile identifică segmente de clienți pentru a viza o bază de utilizatori potențiali. Ei împart clienții în grupuri în funcție de caracteristici comune, cum ar fi sexul, vârsta, interesele și obiceiurile de cheltuieli, astfel încât să își poată comercializa în mod eficient produsele fiecărui grup. Noi vom folosi K-înseamnă grupare, precum și vizualizați distribuția pe gen și vârstă. Apoi le vom analiza veniturile și cheltuielile anuale.

Limba: R

Set de date/Pachet: Setul de date Mall_Customers

13. Clasificarea cancerului de sân

Consultați implementarea completă a unui proiect Data Science în Python − Clasificarea cancerului de sân folosind învățarea profundă.

14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

Revenind la contribuția medicală a științei datelor, să învățăm cum să detectăm cancerul de sân folosind Python. Vom folosi setul de date IDC_regular pentru a identifica carcinomul ductal invaziv, cea mai comună formă de cancer de sân. Se dezvoltă în canalele de lapte, adâncindu-se în țesutul mamar fibros sau gras din afara canalului. În această idee de proiect științific de colectare a datelor pe care o vom folosi Invatare profunda și biblioteca Keras pentru clasificare.

Limba: Piton

Set de date/Pachet: IDC_regular

14. Recunoașterea semnelor de circulație

Atingerea preciziei în tehnologia de auto-conducere cu proiectul Data Science recunoașterea semnelor de trafic folosind CNN sursa deschisa.

14 proiecte open-source pentru a îmbunătăți abilitățile de știință a datelor (ușoare, normale, dificile)

Semnele rutiere și regulile de circulație sunt foarte importante pentru fiecare șofer pentru a evita accidentele. Pentru a respecta regula, mai întâi trebuie să înțelegeți cum arată un semn rutier. O persoană trebuie să învețe toate semnele rutiere înainte de a primi permisul de a conduce orice vehicul. Dar acum numărul de vehicule autonome este în creștere, iar în viitorul apropiat o persoană nu va mai conduce o mașină independent. În proiectul de recunoaștere a semnelor rutiere, veți afla cum un program poate recunoaște tipul de semne rutiere luând o imagine ca intrare. Setul de date German Traffic Sign Recognition Benchmark (GTSRB) este folosit pentru a construi o rețea neuronală profundă pentru a recunoaște clasa căreia îi aparține un semn de trafic. De asemenea, creăm o interfață grafică simplă pentru a interacționa cu aplicația.

Limba: Piton

Set de date: GTSRB (benchmark german pentru recunoașterea semnelor de circulație)

Citeşte mai mult

Sursa: www.habr.com

Adauga un comentariu