L'analyse des sentiments est l'analyse des mots pour déterminer les sentiments et les opinions, qui peuvent être positives ou négatives. Il s'agit d'un type de classification dans lequel les classes peuvent être binaires (positives et négatives) ou plurielles (heureuses, en colère, tristes, méchantes...). Nous implémenterons ce projet Data Science en R et utiliserons l'ensemble de données du package "janeaustenR". Nous utiliserons des dictionnaires généraux tels que AFINN, bing et loughran, effectuerons une jointure interne et à la fin nous créerons un nuage de mots pour afficher le résultat.
Langue: R Ensemble de données/package : janeaustenR
Les fausses nouvelles sont de fausses informations diffusées sur les réseaux sociaux et autres médias en ligne pour atteindre des objectifs politiques. Dans cette idée de projet Data Science, nous utiliserons Python pour créer un modèle capable de déterminer avec précision si une actualité est réelle ou fausse. Nous allons créer un TfidfVectorizer et utiliser un PassiveAggressiveClassifier pour classer les actualités en « vraies » et « fausses ». Nous utiliserons un ensemble de données de la forme 7796 × 4 et exécuterons le tout dans Jupyter Lab.
Nous avons commencé à utiliser la science des données pour améliorer les soins de santé et les services. Si nous pouvons prédire une maladie à un stade précoce, nous aurons alors de nombreux avantages. Ainsi, dans cette idée de projet Data Science, nous apprendrons comment détecter la maladie de Parkinson à l'aide de Python. Il s’agit d’une maladie neurodégénérative et évolutive du système nerveux central qui affecte les mouvements et provoque des tremblements et des raideurs. Elle affecte les neurones producteurs de dopamine dans le cerveau et touche chaque année plus d’un million de personnes en Inde.
Langue: Python
Ensemble de données/package : Ensemble de données UCI ML Parkinsons
Apprenons maintenant à utiliser différentes bibliothèques. Ce projet Data Science utilise librosa pour la reconnaissance vocale. SER est le processus d'identification des émotions humaines et des états affectifs à partir de la parole. Puisque nous utilisons le ton et la hauteur pour exprimer nos émotions avec nos voix, le SER est pertinent. Mais comme les émotions sont subjectives, l’annotation audio est une tâche difficile. Nous utiliserons les fonctions mfcc, chroma et mel et utiliserons l'ensemble de données RAVDESS pour la reconnaissance des émotions. Nous allons créer un classificateur MLPC pour ce modèle.
Langue: Python
Ensemble de données/package : Ensemble de données RAVDESS
Il s'agit d'une science des données intéressante avec Python. À l'aide d'une seule image, vous apprendrez à prédire le sexe et l'âge d'une personne. En cela, nous vous présenterons la Computer Vision et ses principes. Nous construirons réseau neuronal convolutif et utilisera des modèles formés par Tal Hassner et Gil Levy sur l'ensemble de données Adience. En cours de route, nous utiliserons des fichiers .pb, .pbtxt, .prototxt et .caffemodel.
Il s'agit d'un projet de visualisation de données avec ggplot2 dans lequel nous utiliserons R et ses bibliothèques et analyserons divers paramètres. Nous utiliserons l'ensemble de données Uber Pickups New York City et créerons des visualisations pour différentes périodes de l'année. Cela nous indique l’impact du temps sur les déplacements des clients.
Langue: R
Ensemble de données/package : Ensemble de données Uber Pickups à New York
La somnolence au volant est extrêmement dangereuse et près d'un millier d'accidents se produisent chaque année en raison de l'endormissement des conducteurs en conduisant. Dans ce projet Python, nous allons créer un système capable de détecter les conducteurs somnolents et également de les alerter avec un signal audio.
Ce projet est implémenté en utilisant Keras et OpenCV. Nous utiliserons OpenCV pour la détection du visage et des yeux et avec Keras nous classifierons l'état de l'œil (ouvert ou fermé) à l'aide de techniques de réseaux neuronaux profonds.
8. Les chatbots
Créez un Chatbot avec Python et faites un pas en avant dans votre carrière - Chatbot avec NLTK et Keras.
Les chatbots font partie intégrante des entreprises. De nombreuses entreprises doivent offrir des services à leurs clients et cela demande beaucoup de main d’œuvre, de temps et d’efforts pour les servir. Les chatbots peuvent automatiser une grande partie de vos interactions avec les clients en répondant à certaines questions courantes posées par les clients. Il existe essentiellement deux types de chatbots : spécifiques au domaine et domaine ouvert. Un chatbot spécifique à un domaine est souvent utilisé pour résoudre un problème spécifique. Vous devez donc le personnaliser pour travailler efficacement dans votre domaine. Les chatbots de domaine ouvert peuvent répondre à toutes les questions, leur formation nécessite donc une énorme quantité de données.
Décrire le contenu d'une image est une tâche facile pour les humains, mais pour les ordinateurs, une image est simplement une série de nombres qui représentent la valeur de couleur de chaque pixel. C'est une tâche difficile pour les ordinateurs. Comprendre ce qu’il y a dans une image, puis créer une description en langage naturel (comme l’anglais) est une autre tâche difficile. Ce projet utilise des techniques d'apprentissage profond dans lesquelles nous implémentons un réseau neuronal convolutif (CNN) avec un réseau neuronal récurrent (LSTM) pour créer un générateur de description d'image.
Vous avez maintenant commencé à comprendre les techniques et les concepts. Passons à quelques projets avancés de science des données. Dans ce projet, nous utiliserons le langage R avec des algorithmes comme arbres de décision, régression logistique, réseaux de neurones artificiels et classificateur d'amplification de gradient. Nous utiliserons un ensemble de données de transactions par carte pour classer les transactions par carte de crédit comme frauduleuses ou authentiques. Nous sélectionnerons différents modèles pour eux et construirons des courbes de performances.
Langue: R
Ensemble de données/package : Ensemble de données sur les transactions par carte
Dans ce projet Data Science, nous utiliserons R pour mettre en œuvre les recommandations du film grâce à l'apprentissage automatique. Le système de recommandation envoie des suggestions aux utilisateurs via un processus de filtrage basé sur les préférences et l'historique de navigation des autres utilisateurs. Si A et B aiment Home Alone et que B aime Mean Girls, alors vous pouvez suggérer A - ils pourraient l'aimer aussi. Cela permet aux clients d'interagir avec la plateforme.
Langue: R
Ensemble de données/package : Ensemble de données MovieLens
La segmentation des acheteurs est une application populaire apprentissage non supervisé. Grâce au clustering, les entreprises identifient des segments de clientèle pour cibler une base d'utilisateurs potentiels. Ils divisent les clients en groupes en fonction de caractéristiques communes telles que le sexe, l'âge, les intérêts et les habitudes de dépenses, afin de pouvoir commercialiser efficacement leurs produits auprès de chaque groupe. Nous utiliserons Regroupement des K-moyennes, ainsi que visualiser la répartition par sexe et par âge. Nous analyserons ensuite leurs niveaux annuels de revenus et de dépenses.
Langue: R
Ensemble de données/package : Ensemble de données Mall_Customers
Pour en revenir à la contribution médicale de la science des données, apprenons à détecter le cancer du sein à l'aide de Python. Nous utiliserons l'ensemble de données IDC_regular pour identifier le carcinome canalaire invasif, la forme la plus courante de cancer du sein. Il se développe dans les canaux galactophores, s'enfouissant dans le tissu mammaire fibreux ou adipeux à l'extérieur du canal. Dans cette idée de projet scientifique de collecte de données, nous utiliserons L'apprentissage en profondeur et la bibliothèque Keras pour la classification.
La signalisation routière et les règles de circulation sont très importantes pour que chaque conducteur puisse éviter les accidents. Pour suivre la règle, vous devez d'abord comprendre à quoi ressemble un panneau routier. Une personne doit apprendre tous les panneaux de signalisation avant de recevoir le permis de conduire un véhicule. Mais aujourd’hui, le nombre de véhicules autonomes augmente et, dans un avenir proche, personne ne conduira plus de voiture de manière indépendante. Dans le projet Reconnaissance des panneaux routiers, vous apprendrez comment un programme peut reconnaître le type de panneaux routiers en prenant une image en entrée. L'ensemble de données GTSRB (allemand Traffic Sign Recognition Benchmark) est utilisé pour créer un réseau neuronal profond permettant de reconnaître la classe à laquelle appartient un panneau de signalisation. Nous créons également une interface graphique simple pour interagir avec l'application.
Langue: Python
Base de données: GTSRB (référence allemande en matière de reconnaissance des panneaux de signalisation)