ProHoster > blog > internetnieuws > 14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)
14 open-sourceprojecten om Data Science-vaardigheden te verbeteren (eenvoudig, normaal, moeilijk)
Datawetenschap voor beginners
1. Sentimentanalyse (stemmingsanalyse via tekst)
Bekijk de volledige implementatie van het Data Science-project met behulp van broncode − Sentimentanalyseproject in R.
Sentimentanalyse is de analyse van woorden om sentimenten en meningen te identificeren, die positief of negatief kunnen zijn. Dit is een type classificatie waarbij de klassen binair (positief en negatief) of meervoud (blij, boos, verdrietig, smerig...) kunnen zijn. We zullen dit Data Science-project in R implementeren en de dataset in het "janeaustenR" -pakket gebruiken. We gebruiken woordenboeken voor algemeen gebruik zoals AFINN, bing en loughran, doen een inner join en aan het eind maken we een woordwolk om het resultaat weer te geven.
Til je vaardigheden naar een hoger niveau door te werken aan het Data Science Project voor beginners − nepnieuwsdetectie met Python.
Nepnieuws is valse informatie die via sociale media en andere online media wordt verspreid om politieke doelen te bereiken. In dit Data Science-projectidee gaan we Python gebruiken om een model te bouwen dat nauwkeurig kan bepalen of nieuws echt of nep is. We maken een TfidfVectorizer en gebruiken de PassiveAggressiveClassifier om nieuws te classificeren in "echt" en "nep". We zullen een gegevensset met een vorm van 7796 × 4 gebruiken en alles in Jupyter Lab doen.
We zijn Data Science gaan gebruiken om de zorg en dienstverlening te verbeteren. Als we de ziekte in een vroeg stadium kunnen voorspellen, hebben we veel voordelen. Dus, in dit Data Science-projectidee, zullen we leren hoe we de ziekte van Parkinson kunnen detecteren met behulp van Python. Het is een neurodegeneratieve, progressieve ziekte van het centrale zenuwstelsel die beweging beïnvloedt en trillingen en stijfheid veroorzaakt. Het beïnvloedt de dopamine-producerende neuronen in de hersenen, en elk jaar treft het meer dan 1 miljoen mensen in India.
Taal: Python
Gegevensset/Pakket: UCI ML Parkinson-gegevensset
Data Science projecten van gemiddelde complexiteit
Laten we nu leren hoe we verschillende bibliotheken kunnen gebruiken. Dit Data Science-project gebruikt librosa voor spraakherkenning. SER is het proces van het identificeren van menselijke emoties en affectieve toestanden uit spraak. Omdat we toon en toonhoogte gebruiken om emotie uit te drukken met de stem, is SER relevant. Maar aangezien emoties subjectief zijn, is audioannotatie een moeilijke taak. We zullen de mfcc-, chroma- en mel-functies gebruiken en de RAVDESS-dataset gebruiken voor emotieherkenning. We zullen een MLPC-classificatie voor dit model maken.
Dit is een interessante Data Science met Python. Door slechts één afbeelding te gebruiken, leert u hoe u het geslacht en de leeftijd van een persoon kunt voorspellen. Hierin laten we u kennismaken met Computer Vision en de principes ervan. We zullen bouwen convolutioneel neuraal netwerk en zal modellen gebruiken die zijn getraind door Tal Hassner en Gil Levy op de Adience-dataset. We zullen onderweg enkele .pb-, .pbtxt-, .prototxt- en .caffemodel-bestanden gebruiken.
Dit is een datavisualisatieproject met ggplot2 waarin we R en zijn bibliotheken zullen gebruiken en verschillende parameters zullen analyseren. We zullen de gegevensset van Uber Pickups New York gebruiken en visualisaties maken voor verschillende tijdframes van het jaar. Dit vertelt ons hoe tijd de klantreizen beïnvloedt.
Taal: R
Gegevensset/Pakket: Uber Pickups in gegevensset New York City
Slaperig rijden is buitengewoon gevaarlijk, met jaarlijks ongeveer duizend ongevallen doordat chauffeurs tijdens het rijden in slaap vallen. In dit Python-project gaan we een systeem bouwen dat slaperige chauffeurs kan detecteren en hen ook kan waarschuwen met een pieptoon.
Dit project is geïmplementeerd met behulp van Keras en OpenCV. We zullen OpenCV gebruiken om het gezicht en de ogen te detecteren en met behulp van Keras zullen we de toestand van het oog (open of gesloten) classificeren met behulp van diepe neurale netwerkmethoden.
Chatbots zijn een integraal onderdeel van het bedrijfsleven. Veel bedrijven moeten hun klanten diensten aanbieden en het kost veel mankracht, tijd en moeite om hen van dienst te zijn. Chatbots kunnen een groot deel van de klantinteractie automatiseren door enkele veelgestelde vragen van klanten te beantwoorden. Er zijn grofweg twee soorten chatbots: Domeinspecifiek en Open-domein. Vaak wordt een domeinspecifieke chatbot ingezet om een specifiek probleem op te lossen. U moet het dus aanpassen om effectief te werken in uw vakgebied. Open-domein chatbots kunnen alle vragen worden gesteld, dus het trainen ervan vereist een enorme hoeveelheid gegevens.
Beschrijven wat er in een afbeelding staat, is een gemakkelijke taak voor mensen, maar voor computers is een afbeelding slechts een verzameling getallen die de kleurwaarde van elke pixel vertegenwoordigen. Dit is een moeilijke taak voor computers. Begrijpen wat er in een afbeelding staat en vervolgens een beschrijving in natuurlijke taal maken (bijv. Engels) is een andere moeilijke taak. Dit project maakt gebruik van deep learning-technieken waarbij we een Convolutional Neural Network (CNN) implementeren met een Recurrent Neural Network (LSTM) om een beeldbeschrijvingsgenerator te creëren.
U begint nu de methoden en concepten te begrijpen. Laten we verder gaan met enkele geavanceerde data science-projecten. In dit project zullen we de R-taal gebruiken met algoritmen zoals Beslissingsbomen, logistische regressie, kunstmatige neurale netwerken en gradiëntversterkende classificatie. We zullen de gegevensset voor kaarttransacties gebruiken om creditcardtransacties te classificeren als frauduleus en echt. We zullen verschillende modellen voor hen selecteren en prestatiecurven bouwen.
In dit Data Science-project zullen we R gebruiken om de aanbevelingen van de film uit te voeren door middel van machine learning. Het aanbevelingssysteem stuurt suggesties naar gebruikers via een filterproces op basis van de voorkeuren en browsegeschiedenis van andere gebruikers. Als A en B van Home Alone houden, en B van Mean Girls, dan kun je A voorstellen - misschien vinden zij het ook leuk. Hierdoor kunnen klanten communiceren met het platform.
Koperssegmentatie is een populaire toepassing onbewaakt leren. Met behulp van clustering definiëren bedrijven klantsegmenten om met een potentiële gebruikersgroep te werken. Ze verdelen klanten in groepen op basis van gemeenschappelijke kenmerken zoals geslacht, leeftijd, interesses en bestedingspatroon, zodat ze hun producten effectief aan elke groep kunnen verkopen. We zullen gebruiken K-betekent clustering, evenals de verdeling naar geslacht en leeftijd visualiseren. Vervolgens analyseren we hun jaarlijkse inkomsten- en uitgavenniveau.
Terugkomend op de medische bijdrage van datawetenschap, laten we leren hoe we borstkanker kunnen opsporen met Python. We zullen de IDC_regular dataset gebruiken om invasief ductaal carcinoom, de meest voorkomende vorm van borstkanker, op te sporen. Het ontwikkelt zich in de melkkanalen en dringt door in het vezelachtige of vetweefsel van de borstklier buiten het kanaal. In dit idee voor een wetenschappelijk project voor gegevensverzameling zullen we gebruiken Diepe leren en de Keras-bibliotheek voor classificatie.
Verkeersborden en verkeersregels zijn erg belangrijk voor elke bestuurder om ongelukken te voorkomen. Om de regel te volgen, moet u eerst begrijpen hoe het verkeersbord eruitziet. Een persoon moet alle verkeersborden leren voordat hij het recht krijgt om een voertuig te besturen. Maar nu groeit het aantal autonome voertuigen en in de nabije toekomst zal een persoon niet langer alleen autorijden. In het project Verkeersbordenherkenning leer je hoe een programma een type verkeersbord kan herkennen door een afbeelding als invoer te nemen. De Duitse Road Sign Recognition Reference Dataset (GTSRB) wordt gebruikt om een diep neuraal netwerk op te bouwen om de klasse te herkennen waartoe een verkeersbord behoort. We maken ook een eenvoudige GUI voor interactie met de applicatie.
Taal: Python
Gegevensverzameling: GTRB (Duitse Benchmark voor Verkeersbordherkenning)