14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

Datavetenskap för nybörjare

1. Sentimentanalys (sentimentanalys genom text)

14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

Kolla in den fullständiga implementeringen av Data Science-projektet med källkod − Sentiment Analysis Project i R.

Sentimentanalys är analysen av ord för att bestämma känslor och åsikter, som kan vara positiva eller negativa. Detta är en typ av klassificering där klasser kan vara binära (positiva och negativa) eller plural (glad, arg, ledsen, otäck...). Vi kommer att implementera detta Data Science-projekt i R och kommer att använda datasetet i "janeaustenR"-paketet. Vi kommer att använda allmänna ordböcker som AFINN, bing och loughran, utföra en inre sammanfogning och i slutet kommer vi att skapa ett ordmoln för att visa resultatet.

Språk: R
Datauppsättning/paket: janeaustenR

14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

Artikeln översattes med stöd av EDISON Software, som gör virtuella provrum för flermärkesbutikerOch testar mjukvara.

2. Upptäckt av falska nyheter

Ta dina färdigheter till nästa nivå genom att arbeta på ett Data Science-projekt för nybörjare - upptäcka falska nyheter med Python.

14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

Fake news är falsk information som sprids via sociala medier och andra nätmedier för att uppnå politiska mål. I denna Data Science-projektidé kommer vi att använda Python för att bygga en modell som exakt kan avgöra om en nyhet är verklig eller falsk. Vi kommer att skapa en TfidfVectorizer och använda en PassiveAggressiveClassifier för att klassificera nyheter i "riktiga" och "falska". Vi kommer att använda ett dataset med formen 7796×4 och köra allt i Jupyter Lab.

Språk: Python

Datauppsättning/paket: nyheter.csv

3. Upptäcka Parkinsons sjukdom

Gå vidare med din datavetenskapsprojektidé - upptäcka Parkinsons sjukdom med XGBoost.

14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

Vi har börjat använda Data Science för att förbättra vården och tjänsterna – om vi kan förutsäga en sjukdom i ett tidigt skede så har vi många fördelar. Så i denna Data Science-projektidé kommer vi att lära oss hur man upptäcker Parkinsons sjukdom med Python. Det är en neurodegenerativ, progressiv sjukdom i centrala nervsystemet som påverkar rörelser och orsakar skakningar och stelhet. Det påverkar dopaminproducerande nervceller i hjärnan, och varje år påverkar det mer än 1 miljon människor i Indien.

Språk: Python

Datauppsättning/paket: UCI ML Parkinsons dataset

Data Science-projekt av medelhög komplexitet

4. Tal Känsloigenkänning

Kolla in den fullständiga implementeringen av Data Science-exempelprojektet − taligenkänning med Librosa.

14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

Låt oss nu lära oss hur man använder olika bibliotek. Detta Data Science-projekt använder librosa för taligenkänning. SER är processen att identifiera mänskliga känslor och affektiva tillstånd från tal. Eftersom vi använder ton och tonhöjd för att uttrycka känslor med våra röster är SER relevant. Men eftersom känslor är subjektiva är ljudkommentarer en utmanande uppgift. Vi kommer att använda mfcc-, chroma- och mel-funktioner och använda RAVDESS-datauppsättningen för känslorigenkänning. Vi kommer att skapa en MLPC-klassificerare för denna modell.

Språk: Python

Datauppsättning/paket: RAVDESS dataset

5. Identifiering av kön och ålder

Imponera på arbetsgivare med det senaste Data Science-projektet - bestämma kön och ålder med OpenCV.

14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

Detta är en intressant datavetenskap med Python. Med bara en bild lär du dig att förutsäga en persons kön och ålder. I detta kommer vi att introducera dig till Computer Vision och dess principer. Vi kommer att bygga konvolutionerande neurala nätverk och kommer att använda modeller utbildade av Tal Hassner och Gil Levy på Adience-dataset. Längs vägen kommer vi att använda några .pb-, .pbtxt-, .prototxt- och .caffemodel-filer.

Språk: Python

Datauppsättning/paket: Adience

6. Uber Data Analysis

Kolla in den fullständiga implementeringen av Data Science-projektet med källkod − Uber Data Analysis Project i R.

14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

Detta är ett datavisualiseringsprojekt med ggplot2 där vi kommer att använda R och dess bibliotek och analysera olika parametrar. Vi kommer att använda Uber Pickups New York Citys datauppsättning och skapa visualiseringar för olika tidsramar på året. Detta berättar hur tiden påverkar kundernas resor.

Språk: R

Datauppsättning/paket: Uber Pickups i New York City dataset

7. Detektering av dåsighet för föraren

Förbättra dina färdigheter genom att arbeta på Top Data Science Project - dåsighetsdetekteringssystem med OpenCV & Keras.

14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

Dåsig körning är extremt farlig och nästan tusen olyckor inträffar varje år på grund av att förare somnar under körning. I detta Python-projekt kommer vi att skapa ett system som kan upptäcka dåsiga förare och även varna dem med en ljudsignal.

Detta projekt implementeras med hjälp av Keras och OpenCV. Vi kommer att använda OpenCV för ansikts- och ögondetektion och med Keras kommer vi att klassificera ögontillståndet (öppet eller stängt) med hjälp av tekniker för djupa neurala nätverk.

8. Chatbot

Skapa en Chatbot med Python och ta ett steg framåt i din karriär - Chatbot med NLTK & Keras.

14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

Chatbots är en integrerad del av verksamheten. Många företag måste erbjuda tjänster till sina kunder och det krävs mycket arbetskraft, tid och ansträngning för att betjäna dem. Chatbots kan automatisera mycket av din kundinteraktion genom att svara på några vanliga frågor som kunder ställer. Det finns i princip två typer av chatbots: Domänspecifik och öppen domän. En domänspecifik chatbot används ofta för att lösa ett specifikt problem. Så du måste anpassa den för att fungera effektivt inom ditt område. Chatbotar med öppen domän kan ställas vilka frågor som helst, så att träna dem kräver en enorm mängd data.

Datauppsättning: Intents json-fil

Språk: Python

Avancerade datavetenskapsprojekt

9. Bildtextgenerator

Kolla in hela implementeringen av projektet med källkod − Bildtextgenerator med CNN & LSTM.

14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

Att beskriva vad som finns i en bild är en enkel uppgift för människor, men för datorer är en bild helt enkelt en serie siffror som representerar färgvärdet för varje pixel. Detta är en svår uppgift för datorer. Att förstå vad som finns i en bild och sedan skapa en beskrivning på naturligt språk (som engelska) är en annan svår uppgift. Detta projekt använder djupinlärningstekniker där vi implementerar ett Convolutional Neural Network (CNN) med ett Recurrent Neural Network (LSTM) för att skapa en bildbeskrivningsgenerator.

Datauppsättning: Flickr 8K

Språk: Python

Ramverk: Keras

10. Identifiering av kreditkortsbedrägerier

Gör ditt bästa medan du arbetar med din datavetenskapsprojektidé − upptäcka kreditkortsbedrägerier med hjälp av maskininlärning.

14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

Vid det här laget har du börjat förstå teknikerna och begreppen. Låt oss gå vidare till några avancerade datavetenskapliga projekt. I det här projektet kommer vi att använda R-språket med algoritmer som beslutsträd, logistisk regression, artificiella neurala nätverk och gradientförstärkande klassificerare. Vi kommer att använda en datauppsättning av korttransaktioner för att klassificera kreditkortstransaktioner som bedrägliga eller äkta. Vi kommer att välja olika modeller för dem och bygga prestandakurvor.

Språk: R

Datauppsättning/paket: Datauppsättning för korttransaktioner

11. System för filmrekommendationer

Studera implementeringen av det bästa Data Science-projektet med källkod - Filmrekommendationssystem i R-språk

14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

I detta Data Science-projekt kommer vi att använda R för att implementera filmens rekommendationer genom maskininlärning. Rekommendationssystemet skickar förslag till användare genom en filtreringsprocess baserad på andra användares preferenser och webbhistorik. Om A och B gillar Home Alone, och B gillar Mean Girls, så kan du föreslå A - de kanske gillar det också. Detta gör att kunderna kan interagera med plattformen.

Språk: R

Datauppsättning/paket: MovieLens dataset

12. Kundsegmentering

Imponera på arbetsgivare med ett Data Science-projekt (inklusive källkod) - Kundsegmentering med hjälp av maskininlärning.

14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

Köparsegmentering är en populär applikation oövervakat lärande. Med hjälp av klustring identifierar företag kundsegment för att rikta in sig på en potentiell användarbas. De delar in kunder i grupper efter gemensamma egenskaper som kön, ålder, intressen och konsumtionsvanor så att de effektivt kan marknadsföra sina produkter till varje grupp. Vi kommer använda K-betyder kluster, samt visualisera fördelningen efter kön och ålder. Vi kommer sedan att analysera deras årliga inkomst- och kostnadsnivåer.

Språk: R

Datauppsättning/paket: Mall_Customers dataset

13. Bröstcancerklassificering

Kolla in den fullständiga implementeringen av ett Data Science-projekt i Python − Bröstcancerklassificering med hjälp av djupinlärning.

14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

För att komma tillbaka till det medicinska bidraget från datavetenskap, låt oss lära oss hur man upptäcker bröstcancer med Python. Vi kommer att använda IDC_regular datasetet för att identifiera invasivt duktalt karcinom, den vanligaste formen av bröstcancer. Det utvecklas i mjölkkanalerna, gräver sig in i den fibrösa eller feta bröstvävnaden utanför kanalen. I denna datainsamlingsprojektidé kommer vi att använda Deep Learning och Keras bibliotek för klassificering.

Språk: Python

Datauppsättning/paket: IDC_regular

14. Igenkänning av trafikmärken

Att uppnå precision i självkörande teknik med Data Science-projektet igenkänning av trafikmärken med CNN öppen källa.

14 projekt med öppen källkod för att förbättra datavetenskapliga färdigheter (enkelt, normalt, svårt)

Vägmärken och trafikregler är mycket viktiga för varje förare för att undvika olyckor. För att följa regeln måste du först förstå hur en vägskylt ser ut. En person måste lära sig alla vägmärken innan han får licens att köra något fordon. Men nu växer antalet autonoma fordon, och inom en snar framtid kommer en person inte längre att köra en bil självständigt. I projektet Road Sign Recognition får du lära dig hur ett program kan känna igen typen av vägmärken genom att ta en bild som indata. German Traffic Sign Recognition Benchmark (GTSRB) dataset används för att bygga ett djupt neuralt nätverk för att känna igen klassen som en trafikskylt tillhör. Vi skapar också ett enkelt GUI för att interagera med applikationen.

Språk: Python

Datauppsättning: GTSRB (German Traffic Sign Recognition Benchmark)

Läs mer

Källa: will.com

Lägg en kommentar