14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

Datawetenschap voor beginners

1. Sentimentanalyse (stemmingsanalyse via tekst)

14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

Bekijk de volledige implementatie van het Data Science-project met behulp van broncode − Sentimentanalyseproject in R.

Sentimentanalyse is de analyse van woorden om sentimenten en meningen te identificeren, die positief of negatief kunnen zijn. Dit is een type classificatie waarbij de klassen binair (positief en negatief) of meervoud (blij, boos, verdrietig, smerig...) kunnen zijn. We zullen dit Data Science-project in R implementeren en de dataset in het "janeaustenR" -pakket gebruiken. We gebruiken woordenboeken voor algemeen gebruik zoals AFINN, bing en loughran, doen een inner join en aan het eind maken we een woordwolk om het resultaat weer te geven.

Taal: R
Gegevensset/Pakket: janeoustenR

14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

Het artikel is vertaald met de steun van EDISON Software, dat maakt virtuele paskamers voor winkels met meerdere merkenEn software testen.

2. Detectie van nepnieuws

Til je vaardigheden naar een hoger niveau door te werken aan het Data Science Project voor beginners − nepnieuwsdetectie met Python.

14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

Nepnieuws is valse informatie die via sociale media en andere online media wordt verspreid om politieke doelen te bereiken. In dit Data Science-projectidee gaan we Python gebruiken om een ​​model te bouwen dat nauwkeurig kan bepalen of nieuws echt of nep is. We maken een TfidfVectorizer en gebruiken de PassiveAggressiveClassifier om nieuws te classificeren in "echt" en "nep". We zullen een gegevensset met een vorm van 7796 × 4 gebruiken en alles in Jupyter Lab doen.

Taal: Python

Gegevensset/Pakket: nieuws.csv

3. Detectie van de ziekte van Parkinson

Ga vooruit door te werken aan het Data Science-projectidee − detectie van de ziekte van Parkinson met XGBoost.

14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

We zijn Data Science gaan gebruiken om de zorg en dienstverlening te verbeteren. Als we de ziekte in een vroeg stadium kunnen voorspellen, hebben we veel voordelen. Dus, in dit Data Science-projectidee, zullen we leren hoe we de ziekte van Parkinson kunnen detecteren met behulp van Python. Het is een neurodegeneratieve, progressieve ziekte van het centrale zenuwstelsel die beweging beïnvloedt en trillingen en stijfheid veroorzaakt. Het beïnvloedt de dopamine-producerende neuronen in de hersenen, en elk jaar treft het meer dan 1 miljoen mensen in India.

Taal: Python

Gegevensset/Pakket: UCI ML Parkinson-gegevensset

Data Science projecten van gemiddelde complexiteit

4. Herkenning van spraakemoties

Bekijk de volledige implementatie van het voorbeeldproject Data Science − spraakherkenning met Librosa.

14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

Laten we nu leren hoe we verschillende bibliotheken kunnen gebruiken. Dit Data Science-project gebruikt librosa voor spraakherkenning. SER is het proces van het identificeren van menselijke emoties en affectieve toestanden uit spraak. Omdat we toon en toonhoogte gebruiken om emotie uit te drukken met de stem, is SER relevant. Maar aangezien emoties subjectief zijn, is audioannotatie een moeilijke taak. We zullen de mfcc-, chroma- en mel-functies gebruiken en de RAVDESS-dataset gebruiken voor emotieherkenning. We zullen een MLPC-classificatie voor dit model maken.

Taal: Python

Gegevensset/Pakket: RAVDESS-gegevensset

5. Detectie van geslacht en leeftijd

Maak indruk op werkgevers met het nieuwste Data Science-project - geslachts- en leeftijdsdetectie met OpenCV.

14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

Dit is een interessante Data Science met Python. Door slechts één afbeelding te gebruiken, leert u hoe u het geslacht en de leeftijd van een persoon kunt voorspellen. Hierin laten we u kennismaken met Computer Vision en de principes ervan. We zullen bouwen convolutioneel neuraal netwerk en zal modellen gebruiken die zijn getraind door Tal Hassner en Gil Levy op de Adience-dataset. We zullen onderweg enkele .pb-, .pbtxt-, .prototxt- en .caffemodel-bestanden gebruiken.

Taal: Python

Gegevensset/Pakket: geduld

6. Uber-gegevensanalyse

Bekijk de volledige implementatie van het Data Science-project met broncode − Uber-gegevensanalyseproject in R.

14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

Dit is een datavisualisatieproject met ggplot2 waarin we R en zijn bibliotheken zullen gebruiken en verschillende parameters zullen analyseren. We zullen de gegevensset van Uber Pickups New York gebruiken en visualisaties maken voor verschillende tijdframes van het jaar. Dit vertelt ons hoe tijd de klantreizen beïnvloedt.

Taal: R

Gegevensset/Pakket: Uber Pickups in gegevensset New York City

7. Detectie van slaperigheid bij chauffeurs

Upgrade je vaardigheden door te werken aan het Top Data Science Project - slaperigheidsdetectiesysteem met OpenCV & Keras.

14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

Slaperig rijden is buitengewoon gevaarlijk, met jaarlijks ongeveer duizend ongevallen doordat chauffeurs tijdens het rijden in slaap vallen. In dit Python-project gaan we een systeem bouwen dat slaperige chauffeurs kan detecteren en hen ook kan waarschuwen met een pieptoon.

Dit project is geïmplementeerd met behulp van Keras en OpenCV. We zullen OpenCV gebruiken om het gezicht en de ogen te detecteren en met behulp van Keras zullen we de toestand van het oog (open of gesloten) classificeren met behulp van diepe neurale netwerkmethoden.

8.Chatbot

Bouw een chatbot met Python en zet een stap vooruit in je carrière - Chatbot met NLTK & Keras.

14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

Chatbots zijn een integraal onderdeel van het bedrijfsleven. Veel bedrijven moeten hun klanten diensten aanbieden en het kost veel mankracht, tijd en moeite om hen van dienst te zijn. Chatbots kunnen een groot deel van de klantinteractie automatiseren door enkele veelgestelde vragen van klanten te beantwoorden. Er zijn grofweg twee soorten chatbots: Domeinspecifiek en Open-domein. Vaak wordt een domeinspecifieke chatbot ingezet om een ​​specifiek probleem op te lossen. U moet het dus aanpassen om effectief te werken in uw vakgebied. Open-domein chatbots kunnen alle vragen worden gesteld, dus het trainen ervan vereist een enorme hoeveelheid gegevens.

Gegevensverzameling: json-bestand

Taal: Python

Geavanceerde Data Science-projecten

9. Generator voor afbeeldingsbijschriften

Bekijk de volledige projectimplementatie met broncode − Image Caption Generator met CNN & LSTM.

14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

Beschrijven wat er in een afbeelding staat, is een gemakkelijke taak voor mensen, maar voor computers is een afbeelding slechts een verzameling getallen die de kleurwaarde van elke pixel vertegenwoordigen. Dit is een moeilijke taak voor computers. Begrijpen wat er in een afbeelding staat en vervolgens een beschrijving in natuurlijke taal maken (bijv. Engels) is een andere moeilijke taak. Dit project maakt gebruik van deep learning-technieken waarbij we een Convolutional Neural Network (CNN) implementeren met een Recurrent Neural Network (LSTM) om een ​​beeldbeschrijvingsgenerator te creëren.

Gegevensverzameling: Flickr 8K

Taal: Python

Kader: Keras

10. Detectie van creditcardfraude

Doe je best door te werken aan een Data Science-projectidee − creditcardfraudedetectie met machine learning.

14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

U begint nu de methoden en concepten te begrijpen. Laten we verder gaan met enkele geavanceerde data science-projecten. In dit project zullen we de R-taal gebruiken met algoritmen zoals Beslissingsbomen, logistische regressie, kunstmatige neurale netwerken en gradiëntversterkende classificatie. We zullen de gegevensset voor kaarttransacties gebruiken om creditcardtransacties te classificeren als frauduleus en echt. We zullen verschillende modellen voor hen selecteren en prestatiecurven bouwen.

Taal: R

Gegevensset/Pakket: Gegevensset kaarttransacties

11. Filmaanbevelingssysteem

Ontdek de implementatie van het beste Data Science-project met Source Code - Filmaanbevelingssysteem in R

14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

In dit Data Science-project zullen we R gebruiken om de aanbevelingen van de film uit te voeren door middel van machine learning. Het aanbevelingssysteem stuurt suggesties naar gebruikers via een filterproces op basis van de voorkeuren en browsegeschiedenis van andere gebruikers. Als A en B van Home Alone houden, en B van Mean Girls, dan kun je A voorstellen - misschien vinden zij het ook leuk. Hierdoor kunnen klanten communiceren met het platform.

Taal: R

Gegevensset/Pakket: MovieLens-gegevensset

12. Klantsegmentatie

Maak indruk op werkgevers met een Data Science-project (inclusief broncode) - Klantsegmentatie met machine learning.

14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

Koperssegmentatie is een populaire toepassing onbewaakt leren. Met behulp van clustering definiëren bedrijven klantsegmenten om met een potentiële gebruikersgroep te werken. Ze verdelen klanten in groepen op basis van gemeenschappelijke kenmerken zoals geslacht, leeftijd, interesses en bestedingspatroon, zodat ze hun producten effectief aan elke groep kunnen verkopen. We zullen gebruiken K-betekent clustering, evenals de verdeling naar geslacht en leeftijd visualiseren. Vervolgens analyseren we hun jaarlijkse inkomsten- en uitgavenniveau.

Taal: R

Gegevensset/Pakket: Mall_Customers-gegevensset

13. Classificatie van borstkanker

Bekijk de volledige implementatie van het Data Science-project in Python − Classificatie van borstkanker met behulp van deep learning.

14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

Terugkomend op de medische bijdrage van datawetenschap, laten we leren hoe we borstkanker kunnen opsporen met Python. We zullen de IDC_regular dataset gebruiken om invasief ductaal carcinoom, de meest voorkomende vorm van borstkanker, op te sporen. Het ontwikkelt zich in de melkkanalen en dringt door in het vezelachtige of vetweefsel van de borstklier buiten het kanaal. In dit idee voor een wetenschappelijk project voor gegevensverzameling zullen we gebruiken Diepe leren en de Keras-bibliotheek voor classificatie.

Taal: Python

Gegevensset/Pakket: IDC_normaal

14. Verkeersbordenherkenning

Precisie bereiken in zelfrijdende autotechnologie met Data Science-project op verkeersbordherkenning met behulp van CNN open source.

14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)

Verkeersborden en verkeersregels zijn erg belangrijk voor elke bestuurder om ongelukken te voorkomen. Om de regel te volgen, moet u eerst begrijpen hoe het verkeersbord eruitziet. Een persoon moet alle verkeersborden leren voordat hij het recht krijgt om een ​​voertuig te besturen. Maar nu groeit het aantal autonome voertuigen en in de nabije toekomst zal een persoon niet langer alleen autorijden. In het project Verkeersbordenherkenning leer je hoe een programma een type verkeersbord kan herkennen door een afbeelding als invoer te nemen. De Duitse Road Sign Recognition Reference Dataset (GTSRB) wordt gebruikt om een ​​diep neuraal netwerk op te bouwen om de klasse te herkennen waartoe een verkeersbord behoort. We maken ook een eenvoudige GUI voor interactie met de applicatie.

Taal: Python

Gegevensverzameling: GTRB (Duitse Benchmark voor Verkeersbordherkenning)

Lees verder

Bron: www.habr.com

Voeg een reactie