14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

Scienza dei dati per principianti

1. Analisi del sentimento (analisi dell'umore attraverso il testo)

14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

Visualizza l'implementazione completa del progetto Data Science utilizzando il codice sorgente - Progetto di analisi del sentiment in R.

La Sentiment Analysis è l'analisi delle parole per identificare sentimenti e opinioni, che possono essere positivi o negativi. Questo è un tipo di classificazione in cui le classi possono essere binarie (positivo e negativo) o plurale (felice, arrabbiato, triste, cattivo...). Implementeremo questo progetto di Data Science in R e utilizzeremo il set di dati nel pacchetto "janeaustenR". Useremo dizionari generici come AFINN, bing e loughran, faremo un inner join e alla fine creeremo una nuvola di parole per visualizzare il risultato.

Lingua: R
Set di dati/pacchetto: janeousten R

14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

L'articolo è stato tradotto con il supporto di EDISON Software, che realizza camerini virtuali per negozi multimarcae software di prova.

2. Rilevamento di notizie false

Porta le tue abilità a un livello superiore lavorando al Data Science Project for Beginners − rilevamento di notizie false con Python.

14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

Le notizie false sono informazioni false diffuse attraverso i social media e altri media online al fine di raggiungere obiettivi politici. In questa idea di progetto di Data Science, useremo Python per costruire un modello in grado di determinare con precisione se le notizie sono vere o false. Creeremo un TfidfVectorizer e useremo il PassiveAggressiveClassifier per classificare le notizie in "reali" e "false". Useremo un set di dati di forma 7796 × 4 e faremo tutto in Jupyter Lab.

Lingua: Python

Set di dati/pacchetto: notizie.csv

3. Rilevamento del morbo di Parkinson

Andare avanti lavorando sull'idea del progetto Data Science − rilevamento della malattia di Parkinson con XGBoost.

14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

Abbiamo iniziato a utilizzare la scienza dei dati per migliorare l'assistenza sanitaria e i servizi: se siamo in grado di prevedere la malattia in una fase iniziale, avremo molti vantaggi. Quindi, in questa idea di progetto di Data Science, impareremo come rilevare la malattia di Parkinson usando Python. È una malattia neurodegenerativa e progressiva del sistema nervoso centrale che colpisce il movimento e provoca tremori e rigidità. Colpisce i neuroni che producono dopamina nel cervello e ogni anno colpisce oltre 1 milione di persone in India.

Lingua: Python

Set di dati/pacchetto: Set di dati UCI ML Parkinson

Progetti di Data Science di media complessità

4. Riconoscimento delle emozioni vocali

Scopri la piena implementazione del progetto di esempio Data Science − riconoscimento vocale con Librosa.

14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

Impariamo ora come utilizzare diverse librerie. Questo progetto di Data Science utilizza librosa per il riconoscimento vocale. SER è il processo di identificazione delle emozioni umane e degli stati affettivi dalla parola. Poiché usiamo il tono e il tono per esprimere le emozioni con la nostra voce, SER è rilevante. Ma poiché le emozioni sono soggettive, l'annotazione audio è un compito difficile. Useremo le funzioni mfcc, chroma e mel e utilizzeremo il set di dati RAVDESS per il riconoscimento delle emozioni. Creeremo un classificatore MLPC per questo modello.

Lingua: Python

Set di dati/pacchetto: Insieme di dati RAVDESS

5. Rilevazione di genere ed età

Stupisci i datori di lavoro con l'ultimo progetto di Data Science - rilevamento di sesso ed età con OpenCV.

14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

Questa è un'interessante scienza dei dati con Python. Usando una sola immagine, imparerai come prevedere il sesso e l'età di una persona. In questo, ti presenteremo Computer Vision e i suoi principi. Costruiremo rete neurale convoluzionale e utilizzerà modelli addestrati da Tal Hassner e Gil Levy sul set di dati Adience. Lungo il percorso utilizzeremo alcuni file .pb, .pbtxt, .prototxt e .caffemodel.

Lingua: Python

Set di dati/pacchetto: Adienza

6. Analisi dei dati Uber

Visualizza l'implementazione completa del progetto Data Science con il codice sorgente - Progetto di analisi dei dati Uber in R.

14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

Questo è un progetto di visualizzazione dei dati con ggplot2 in cui utilizzeremo R e le sue librerie e analizzeremo vari parametri. Utilizzeremo il set di dati di Uber Pickups New York e creeremo visualizzazioni per diversi periodi dell'anno. Questo ci dice in che modo il tempo influisce sui percorsi dei clienti.

Lingua: R

Set di dati/pacchetto: Uber Pickups nel set di dati di New York City

7. Rilevamento della sonnolenza del conducente

Migliora le tue capacità lavorando al Top Data Science Project - sistema di rilevamento della sonnolenza con OpenCV e Keras.

14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

La guida assonnata è estremamente pericolosa, con circa un migliaio di incidenti ogni anno dovuti ad addormentamenti durante la guida. In questo progetto Python, costruiremo un sistema in grado di rilevare i conducenti assonnati e avvisarli anche con un segnale acustico.

Questo progetto è implementato utilizzando Keras e OpenCV. Useremo OpenCV per rilevare il viso e gli occhi e con l'aiuto di Keras classificheremo lo stato dell'occhio (aperto o chiuso) utilizzando metodi di rete neurale profonda.

8. chatbot

Crea un chatbot con Python e fai un passo avanti nella tua carriera - Chatbot con NLTK e Keras.

14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

I chatbot sono parte integrante del business. Molte aziende devono offrire servizi ai propri clienti e ci vuole molta manodopera, tempo e impegno per servirli. I chatbot possono automatizzare gran parte dell'interazione con il cliente rispondendo ad alcune delle domande più comuni poste dai clienti. Esistono fondamentalmente due tipi di chatbot: specifici del dominio e di dominio aperto. Un chatbot specifico del dominio viene spesso utilizzato per risolvere un problema specifico. Pertanto, è necessario personalizzarlo per funzionare efficacemente nel proprio campo. Ai chatbot di dominio aperto possono essere poste qualsiasi domanda, quindi la loro formazione richiede un'enorme quantità di dati.

Set di dati: File json degli intenti

Lingua: Python

Progetti avanzati di Data Science

9. Generatore di didascalie delle immagini

Controlla l'implementazione completa del progetto con il codice sorgente - Generatore di didascalie di immagini con CNN e LSTM.

14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

Descrivere cosa c'è in un'immagine è un compito facile per gli esseri umani, ma per i computer un'immagine è solo una raccolta di numeri che rappresentano il valore del colore di ciascun pixel. Questo è un compito difficile per i computer. Capire cosa c'è in un'immagine e quindi creare una descrizione in linguaggio naturale (ad esempio l'inglese) è un altro compito difficile. Questo progetto utilizza tecniche di deep learning in cui implementiamo una rete neurale convoluzionale (CNN) con una rete neurale ricorrente (LSTM) per creare un generatore di descrizioni di immagini.

Set di dati: Flickr 8K

Lingua: Python

Struttura: Keras

10. Rilevamento di frodi con carte di credito

Fai del tuo meglio lavorando all'idea del progetto Data Science − rilevamento delle frodi con carta di credito con l'apprendimento automatico.

14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

Ormai hai iniziato a capire i metodi e i concetti. Passiamo ad alcuni progetti avanzati di data science. In questo progetto utilizzeremo il linguaggio R con algoritmi come alberi decisionali, regressione logistica, reti neurali artificiali e classificatore gradient boosting. Utilizzeremo il set di dati delle transazioni con carta per classificare le transazioni con carta di credito come fraudolente e autentiche. Selezioneremo diversi modelli per loro e costruiremo curve di prestazione.

Lingua: R

Set di dati/pacchetto: Set di dati sulle transazioni con carta

11. Sistema di raccomandazione di film

Esplora l'implementazione del miglior progetto di Data Science con il codice sorgente - Sistema di raccomandazione di film in R

14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

In questo progetto di Data Science, useremo R per eseguire i consigli del film attraverso l'apprendimento automatico. Il sistema di raccomandazione invia suggerimenti agli utenti attraverso un processo di filtraggio basato sulle preferenze e sulla cronologia di navigazione di altri utenti. Se ad A e B piace Home Alone e a B piacciono le Mean Girls, allora puoi suggerire A: potrebbe piacere anche a loro. Ciò consente ai clienti di interagire con la piattaforma.

Lingua: R

Set di dati/pacchetto: Set di dati MovieLens

12. Segmentazione dei clienti

Stupisci i datori di lavoro con un progetto di Data Science (incluso il codice sorgente) - Segmentazione della clientela con il machine learning.

14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

La segmentazione degli acquirenti è un'applicazione popolare apprendimento non supervisionato. Utilizzando il clustering, le aziende definiscono i segmenti di clienti per lavorare con una potenziale base di utenti. Dividono i clienti in gruppi in base a caratteristiche comuni come sesso, età, interessi e abitudini di spesa, in modo che possano commercializzare efficacemente i loro prodotti a ciascun gruppo. Noi useremo K significa clustering, oltre a visualizzare la distribuzione per sesso ed età. Analizziamo quindi i loro livelli di entrate e spese annuali.

Lingua: R

Set di dati/pacchetto: Set di dati Mall_Customers

13. Classificazione del cancro al seno

Guarda l'implementazione completa del progetto Data Science in Python - Classificazione del cancro al seno utilizzando il deep learning.

14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

Tornando al contributo medico della scienza dei dati, impariamo come rilevare il cancro al seno con Python. Useremo il set di dati IDC_regular per rilevare il carcinoma duttale invasivo, la forma più comune di cancro al seno. Si sviluppa nei dotti lattiferi, penetrando nel tessuto fibroso o adiposo della ghiandola mammaria al di fuori del dotto. In questa idea di progetto scientifico di raccolta dati, useremo Deep Learning e la libreria Keras per la classificazione.

Lingua: Python

Set di dati/pacchetto: IDC_regolare

14. Riconoscimento dei segnali stradali

Raggiungere la precisione nella tecnologia delle auto a guida autonoma con il progetto Data Science attivo riconoscimento dei segnali stradali tramite CNN fonte aperta.

14 progetti open-source per migliorare le competenze di Data Science (facile, normale, difficile)

I segnali stradali e le regole del traffico sono molto importanti per ogni conducente per evitare incidenti. Per seguire la regola, devi prima capire come appare il segnale stradale. Una persona deve imparare tutti i segnali stradali prima che gli venga dato il diritto di guidare qualsiasi veicolo. Ma ora il numero di veicoli autonomi sta crescendo e nel prossimo futuro una persona non guiderà più un'auto da sola. Nel progetto Road Sign Recognition, imparerai come un programma può riconoscere un tipo di segnale stradale prendendo un'immagine come input. Il set di dati di riferimento per il riconoscimento dei segnali stradali tedeschi (GTSRB) viene utilizzato per creare una rete neurale profonda per riconoscere la classe a cui appartiene un segnale stradale. Stiamo anche creando una semplice GUI per interagire con l'applicazione.

Lingua: Python

Set di dati: GTRB (punto di riferimento tedesco per il riconoscimento dei segnali stradali)

Leggi di più

Fonte: habr.com

Aggiungi un commento