La Sentiment Analysis è l'analisi delle parole per identificare sentimenti e opinioni, che possono essere positivi o negativi. Questo è un tipo di classificazione in cui le classi possono essere binarie (positivo e negativo) o plurale (felice, arrabbiato, triste, cattivo...). Implementeremo questo progetto di Data Science in R e utilizzeremo il set di dati nel pacchetto "janeaustenR". Useremo dizionari generici come AFINN, bing e loughran, faremo un inner join e alla fine creeremo una nuvola di parole per visualizzare il risultato.
Le notizie false sono informazioni false diffuse attraverso i social media e altri media online al fine di raggiungere obiettivi politici. In questa idea di progetto di Data Science, useremo Python per costruire un modello in grado di determinare con precisione se le notizie sono vere o false. Creeremo un TfidfVectorizer e useremo il PassiveAggressiveClassifier per classificare le notizie in "reali" e "false". Useremo un set di dati di forma 7796 × 4 e faremo tutto in Jupyter Lab.
Abbiamo iniziato a utilizzare la scienza dei dati per migliorare l'assistenza sanitaria e i servizi: se siamo in grado di prevedere la malattia in una fase iniziale, avremo molti vantaggi. Quindi, in questa idea di progetto di Data Science, impareremo come rilevare la malattia di Parkinson usando Python. È una malattia neurodegenerativa e progressiva del sistema nervoso centrale che colpisce il movimento e provoca tremori e rigidità. Colpisce i neuroni che producono dopamina nel cervello e ogni anno colpisce oltre 1 milione di persone in India.
Lingua: Python
Set di dati/pacchetto: Set di dati UCI ML Parkinson
Impariamo ora come utilizzare diverse librerie. Questo progetto di Data Science utilizza librosa per il riconoscimento vocale. SER è il processo di identificazione delle emozioni umane e degli stati affettivi dalla parola. Poiché usiamo il tono e il tono per esprimere le emozioni con la nostra voce, SER è rilevante. Ma poiché le emozioni sono soggettive, l'annotazione audio è un compito difficile. Useremo le funzioni mfcc, chroma e mel e utilizzeremo il set di dati RAVDESS per il riconoscimento delle emozioni. Creeremo un classificatore MLPC per questo modello.
Questa è un'interessante scienza dei dati con Python. Usando una sola immagine, imparerai come prevedere il sesso e l'età di una persona. In questo, ti presenteremo Computer Vision e i suoi principi. Costruiremo rete neurale convoluzionale e utilizzerà modelli addestrati da Tal Hassner e Gil Levy sul set di dati Adience. Lungo il percorso utilizzeremo alcuni file .pb, .pbtxt, .prototxt e .caffemodel.
Questo è un progetto di visualizzazione dei dati con ggplot2 in cui utilizzeremo R e le sue librerie e analizzeremo vari parametri. Utilizzeremo il set di dati di Uber Pickups New York e creeremo visualizzazioni per diversi periodi dell'anno. Questo ci dice in che modo il tempo influisce sui percorsi dei clienti.
Lingua: R
Set di dati/pacchetto: Uber Pickups nel set di dati di New York City
La guida assonnata è estremamente pericolosa, con circa un migliaio di incidenti ogni anno dovuti ad addormentamenti durante la guida. In questo progetto Python, costruiremo un sistema in grado di rilevare i conducenti assonnati e avvisarli anche con un segnale acustico.
Questo progetto è implementato utilizzando Keras e OpenCV. Useremo OpenCV per rilevare il viso e gli occhi e con l'aiuto di Keras classificheremo lo stato dell'occhio (aperto o chiuso) utilizzando metodi di rete neurale profonda.
I chatbot sono parte integrante del business. Molte aziende devono offrire servizi ai propri clienti e ci vuole molta manodopera, tempo e impegno per servirli. I chatbot possono automatizzare gran parte dell'interazione con il cliente rispondendo ad alcune delle domande più comuni poste dai clienti. Esistono fondamentalmente due tipi di chatbot: specifici del dominio e di dominio aperto. Un chatbot specifico del dominio viene spesso utilizzato per risolvere un problema specifico. Pertanto, è necessario personalizzarlo per funzionare efficacemente nel proprio campo. Ai chatbot di dominio aperto possono essere poste qualsiasi domanda, quindi la loro formazione richiede un'enorme quantità di dati.
Descrivere cosa c'è in un'immagine è un compito facile per gli esseri umani, ma per i computer un'immagine è solo una raccolta di numeri che rappresentano il valore del colore di ciascun pixel. Questo è un compito difficile per i computer. Capire cosa c'è in un'immagine e quindi creare una descrizione in linguaggio naturale (ad esempio l'inglese) è un altro compito difficile. Questo progetto utilizza tecniche di deep learning in cui implementiamo una rete neurale convoluzionale (CNN) con una rete neurale ricorrente (LSTM) per creare un generatore di descrizioni di immagini.
Ormai hai iniziato a capire i metodi e i concetti. Passiamo ad alcuni progetti avanzati di data science. In questo progetto utilizzeremo il linguaggio R con algoritmi come alberi decisionali, regressione logistica, reti neurali artificiali e classificatore gradient boosting. Utilizzeremo il set di dati delle transazioni con carta per classificare le transazioni con carta di credito come fraudolente e autentiche. Selezioneremo diversi modelli per loro e costruiremo curve di prestazione.
Lingua: R
Set di dati/pacchetto: Set di dati sulle transazioni con carta
In questo progetto di Data Science, useremo R per eseguire i consigli del film attraverso l'apprendimento automatico. Il sistema di raccomandazione invia suggerimenti agli utenti attraverso un processo di filtraggio basato sulle preferenze e sulla cronologia di navigazione di altri utenti. Se ad A e B piace Home Alone e a B piacciono le Mean Girls, allora puoi suggerire A: potrebbe piacere anche a loro. Ciò consente ai clienti di interagire con la piattaforma.
La segmentazione degli acquirenti è un'applicazione popolare apprendimento non supervisionato. Utilizzando il clustering, le aziende definiscono i segmenti di clienti per lavorare con una potenziale base di utenti. Dividono i clienti in gruppi in base a caratteristiche comuni come sesso, età, interessi e abitudini di spesa, in modo che possano commercializzare efficacemente i loro prodotti a ciascun gruppo. Noi useremo K significa clustering, oltre a visualizzare la distribuzione per sesso ed età. Analizziamo quindi i loro livelli di entrate e spese annuali.
Tornando al contributo medico della scienza dei dati, impariamo come rilevare il cancro al seno con Python. Useremo il set di dati IDC_regular per rilevare il carcinoma duttale invasivo, la forma più comune di cancro al seno. Si sviluppa nei dotti lattiferi, penetrando nel tessuto fibroso o adiposo della ghiandola mammaria al di fuori del dotto. In questa idea di progetto scientifico di raccolta dati, useremo Deep Learning e la libreria Keras per la classificazione.
I segnali stradali e le regole del traffico sono molto importanti per ogni conducente per evitare incidenti. Per seguire la regola, devi prima capire come appare il segnale stradale. Una persona deve imparare tutti i segnali stradali prima che gli venga dato il diritto di guidare qualsiasi veicolo. Ma ora il numero di veicoli autonomi sta crescendo e nel prossimo futuro una persona non guiderà più un'auto da sola. Nel progetto Road Sign Recognition, imparerai come un programma può riconoscere un tipo di segnale stradale prendendo un'immagine come input. Il set di dati di riferimento per il riconoscimento dei segnali stradali tedeschi (GTSRB) viene utilizzato per creare una rete neurale profonda per riconoscere la classe a cui appartiene un segnale stradale. Stiamo anche creando una semplice GUI per interagire con l'applicazione.
Lingua: Python
Set di dati: GTRB (punto di riferimento tedesco per il riconoscimento dei segnali stradali)