14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

Science des données pour les débutants

1. Analyse des sentiments (analyse des sentiments à travers le texte)

14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

Découvrez la mise en œuvre complète du projet Data Science à l'aide du code source - Projet d'analyse des sentiments dans R.

L'analyse des sentiments est l'analyse des mots pour déterminer les sentiments et les opinions, qui peuvent être positives ou négatives. Il s'agit d'un type de classification dans lequel les classes peuvent être binaires (positives et négatives) ou plurielles (heureuses, en colère, tristes, méchantes...). Nous implémenterons ce projet Data Science en R et utiliserons l'ensemble de données du package "janeaustenR". Nous utiliserons des dictionnaires généraux tels que AFINN, bing et loughran, effectuerons une jointure interne et à la fin nous créerons un nuage de mots pour afficher le résultat.

Langue: R
Ensemble de données/package : janeaustenR

14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

L'article a été traduit avec le soutien d'EDISON Software, qui réalise des cabines d'essayage virtuelles pour les magasins multimarqueset logiciel de tests.

2. Détection des fausses nouvelles

Améliorez vos compétences en travaillant sur un projet de science des données pour débutants - détecter les fausses nouvelles avec Python.

14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

Les fausses nouvelles sont de fausses informations diffusées sur les réseaux sociaux et autres médias en ligne pour atteindre des objectifs politiques. Dans cette idée de projet Data Science, nous utiliserons Python pour créer un modèle capable de déterminer avec précision si une actualité est réelle ou fausse. Nous allons créer un TfidfVectorizer et utiliser un PassiveAggressiveClassifier pour classer les actualités en « vraies » et « fausses ». Nous utiliserons un ensemble de données de la forme 7796 × 4 et exécuterons le tout dans Jupyter Lab.

Langue: Python

Ensemble de données/package : nouvelles.csv

3. Détection de la maladie de Parkinson

Avancez avec votre idée de projet de science des données - détecter la maladie de Parkinson grâce à XGBoost.

14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

Nous avons commencé à utiliser la science des données pour améliorer les soins de santé et les services. Si nous pouvons prédire une maladie à un stade précoce, nous aurons alors de nombreux avantages. Ainsi, dans cette idée de projet Data Science, nous apprendrons comment détecter la maladie de Parkinson à l'aide de Python. Il s’agit d’une maladie neurodégénérative et évolutive du système nerveux central qui affecte les mouvements et provoque des tremblements et des raideurs. Elle affecte les neurones producteurs de dopamine dans le cerveau et touche chaque année plus d’un million de personnes en Inde.

Langue: Python

Ensemble de données/package : Ensemble de données UCI ML Parkinsons

Projets de Data Science de complexité moyenne

4. Reconnaissance des émotions vocales

Découvrez la mise en œuvre complète de l'exemple de projet Data Science - reconnaissance vocale à l'aide de Librosa.

14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

Apprenons maintenant à utiliser différentes bibliothèques. Ce projet Data Science utilise librosa pour la reconnaissance vocale. SER est le processus d'identification des émotions humaines et des états affectifs à partir de la parole. Puisque nous utilisons le ton et la hauteur pour exprimer nos émotions avec nos voix, le SER est pertinent. Mais comme les émotions sont subjectives, l’annotation audio est une tâche difficile. Nous utiliserons les fonctions mfcc, chroma et mel et utiliserons l'ensemble de données RAVDESS pour la reconnaissance des émotions. Nous allons créer un classificateur MLPC pour ce modèle.

Langue: Python

Ensemble de données/package : Ensemble de données RAVDESS

5. Détection du sexe et de l'âge

Impressionnez les employeurs avec le dernier projet Data Science - déterminer le sexe et l'âge à l'aide d'OpenCV.

14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

Il s'agit d'une science des données intéressante avec Python. À l'aide d'une seule image, vous apprendrez à prédire le sexe et l'âge d'une personne. En cela, nous vous présenterons la Computer Vision et ses principes. Nous construirons réseau neuronal convolutif et utilisera des modèles formés par Tal Hassner et Gil Levy sur l'ensemble de données Adience. En cours de route, nous utiliserons des fichiers .pb, .pbtxt, .prototxt et .caffemodel.

Langue: Python

Ensemble de données/package : Adieu

6. Analyse des données Uber

Découvrez la mise en œuvre complète du projet Data Science avec le code source - Projet d'analyse de données Uber en R.

14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

Il s'agit d'un projet de visualisation de données avec ggplot2 dans lequel nous utiliserons R et ses bibliothèques et analyserons divers paramètres. Nous utiliserons l'ensemble de données Uber Pickups New York City et créerons des visualisations pour différentes périodes de l'année. Cela nous indique l’impact du temps sur les déplacements des clients.

Langue: R

Ensemble de données/package : Ensemble de données Uber Pickups à New York

7. Détection de la somnolence du conducteur

Améliorez vos compétences en travaillant sur le Top Data Science Project - système de détection de somnolence avec OpenCV & Keras.

14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

La somnolence au volant est extrêmement dangereuse et près d'un millier d'accidents se produisent chaque année en raison de l'endormissement des conducteurs en conduisant. Dans ce projet Python, nous allons créer un système capable de détecter les conducteurs somnolents et également de les alerter avec un signal audio.

Ce projet est implémenté en utilisant Keras et OpenCV. Nous utiliserons OpenCV pour la détection du visage et des yeux et avec Keras nous classifierons l'état de l'œil (ouvert ou fermé) à l'aide de techniques de réseaux neuronaux profonds.

8. Les chatbots

Créez un Chatbot avec Python et faites un pas en avant dans votre carrière - Chatbot avec NLTK et Keras.

14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

Les chatbots font partie intégrante des entreprises. De nombreuses entreprises doivent offrir des services à leurs clients et cela demande beaucoup de main d’œuvre, de temps et d’efforts pour les servir. Les chatbots peuvent automatiser une grande partie de vos interactions avec les clients en répondant à certaines questions courantes posées par les clients. Il existe essentiellement deux types de chatbots : spécifiques au domaine et domaine ouvert. Un chatbot spécifique à un domaine est souvent utilisé pour résoudre un problème spécifique. Vous devez donc le personnaliser pour travailler efficacement dans votre domaine. Les chatbots de domaine ouvert peuvent répondre à toutes les questions, leur formation nécessite donc une énorme quantité de données.

Base de données: Fichier JSON d'intentions

Langue: Python

Projets avancés de science des données

9. Générateur de légende d'image

Découvrez la mise en œuvre complète du projet avec le code source - Générateur de légendes d'images avec CNN et LSTM.

14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

Décrire le contenu d'une image est une tâche facile pour les humains, mais pour les ordinateurs, une image est simplement une série de nombres qui représentent la valeur de couleur de chaque pixel. C'est une tâche difficile pour les ordinateurs. Comprendre ce qu’il y a dans une image, puis créer une description en langage naturel (comme l’anglais) est une autre tâche difficile. Ce projet utilise des techniques d'apprentissage profond dans lesquelles nous implémentons un réseau neuronal convolutif (CNN) avec un réseau neuronal récurrent (LSTM) pour créer un générateur de description d'image.

Base de données: Flickr 8K

Langue: Python

Cadre: Keras

10. Détection de fraude par carte de crédit

Faites de votre mieux tout en travaillant sur votre idée de projet Data Science - détecter la fraude par carte de crédit grâce à l'apprentissage automatique.

14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

Vous avez maintenant commencé à comprendre les techniques et les concepts. Passons à quelques projets avancés de science des données. Dans ce projet, nous utiliserons le langage R avec des algorithmes comme arbres de décision, régression logistique, réseaux de neurones artificiels et classificateur d'amplification de gradient. Nous utiliserons un ensemble de données de transactions par carte pour classer les transactions par carte de crédit comme frauduleuses ou authentiques. Nous sélectionnerons différents modèles pour eux et construirons des courbes de performances.

Langue: R

Ensemble de données/package : Ensemble de données sur les transactions par carte

11. Système de recommandation de films

Étudier la mise en œuvre du meilleur projet Data Science avec le code Source - Système de recommandation de films en langage R

14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

Dans ce projet Data Science, nous utiliserons R pour mettre en œuvre les recommandations du film grâce à l'apprentissage automatique. Le système de recommandation envoie des suggestions aux utilisateurs via un processus de filtrage basé sur les préférences et l'historique de navigation des autres utilisateurs. Si A et B aiment Home Alone et que B aime Mean Girls, alors vous pouvez suggérer A - ils pourraient l'aimer aussi. Cela permet aux clients d'interagir avec la plateforme.

Langue: R

Ensemble de données/package : Ensemble de données MovieLens

12. Segmentation client

Impressionnez les employeurs avec un projet Data Science (incluant le code source) - Segmentation client grâce à l'apprentissage automatique.

14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

La segmentation des acheteurs est une application populaire apprentissage non supervisé. Grâce au clustering, les entreprises identifient des segments de clientèle pour cibler une base d'utilisateurs potentiels. Ils divisent les clients en groupes en fonction de caractéristiques communes telles que le sexe, l'âge, les intérêts et les habitudes de dépenses, afin de pouvoir commercialiser efficacement leurs produits auprès de chaque groupe. Nous utiliserons Regroupement des K-moyennes, ainsi que visualiser la répartition par sexe et par âge. Nous analyserons ensuite leurs niveaux annuels de revenus et de dépenses.

Langue: R

Ensemble de données/package : Ensemble de données Mall_Customers

13. Classification du cancer du sein

Découvrez la mise en œuvre complète d'un projet Data Science en Python - Classification du cancer du sein grâce à l'apprentissage profond.

14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

Pour en revenir à la contribution médicale de la science des données, apprenons à détecter le cancer du sein à l'aide de Python. Nous utiliserons l'ensemble de données IDC_regular pour identifier le carcinome canalaire invasif, la forme la plus courante de cancer du sein. Il se développe dans les canaux galactophores, s'enfouissant dans le tissu mammaire fibreux ou adipeux à l'extérieur du canal. Dans cette idée de projet scientifique de collecte de données, nous utiliserons L'apprentissage en profondeur et la bibliothèque Keras pour la classification.

Langue: Python

Ensemble de données/package : IDC_regular

14. Reconnaissance des panneaux de signalisation

Atteindre la précision dans la technologie de conduite autonome avec le projet Data Science reconnaissance des panneaux de signalisation à l'aide de CNN Open source.

14 projets open-source pour améliorer les compétences en Data Science (facile, normal, difficile)

La signalisation routière et les règles de circulation sont très importantes pour que chaque conducteur puisse éviter les accidents. Pour suivre la règle, vous devez d'abord comprendre à quoi ressemble un panneau routier. Une personne doit apprendre tous les panneaux de signalisation avant de recevoir le permis de conduire un véhicule. Mais aujourd’hui, le nombre de véhicules autonomes augmente et, dans un avenir proche, personne ne conduira plus de voiture de manière indépendante. Dans le projet Reconnaissance des panneaux routiers, vous apprendrez comment un programme peut reconnaître le type de panneaux routiers en prenant une image en entrée. L'ensemble de données GTSRB (allemand Traffic Sign Recognition Benchmark) est utilisé pour créer un réseau neuronal profond permettant de reconnaître la classe à laquelle appartient un panneau de signalisation. Nous créons également une interface graphique simple pour interagir avec l'application.

Langue: Python

Base de données: GTSRB (référence allemande en matière de reconnaissance des panneaux de signalisation)

Lire la suite

Source: habr.com

Ajouter un commentaire