Sentimentanalys är analysen av ord för att bestämma känslor och åsikter, som kan vara positiva eller negativa. Detta är en typ av klassificering där klasser kan vara binära (positiva och negativa) eller plural (glad, arg, ledsen, otäck...). Vi kommer att implementera detta Data Science-projekt i R och kommer att använda datasetet i "janeaustenR"-paketet. Vi kommer att använda allmänna ordböcker som AFINN, bing och loughran, utföra en inre sammanfogning och i slutet kommer vi att skapa ett ordmoln för att visa resultatet.
Fake news är falsk information som sprids via sociala medier och andra nätmedier för att uppnå politiska mål. I denna Data Science-projektidé kommer vi att använda Python för att bygga en modell som exakt kan avgöra om en nyhet är verklig eller falsk. Vi kommer att skapa en TfidfVectorizer och använda en PassiveAggressiveClassifier för att klassificera nyheter i "riktiga" och "falska". Vi kommer att använda ett dataset med formen 7796×4 och köra allt i Jupyter Lab.
Vi har börjat använda Data Science för att förbättra vården och tjänsterna – om vi kan förutsäga en sjukdom i ett tidigt skede så har vi många fördelar. Så i denna Data Science-projektidé kommer vi att lära oss hur man upptäcker Parkinsons sjukdom med Python. Det är en neurodegenerativ, progressiv sjukdom i centrala nervsystemet som påverkar rörelser och orsakar skakningar och stelhet. Det påverkar dopaminproducerande nervceller i hjärnan, och varje år påverkar det mer än 1 miljon människor i Indien.
Språk: Python
Datauppsättning/paket: UCI ML Parkinsons dataset
Data Science-projekt av medelhög komplexitet
4. Tal Känsloigenkänning
Kolla in den fullständiga implementeringen av Data Science-exempelprojektet − taligenkänning med Librosa.
Låt oss nu lära oss hur man använder olika bibliotek. Detta Data Science-projekt använder librosa för taligenkänning. SER är processen att identifiera mänskliga känslor och affektiva tillstånd från tal. Eftersom vi använder ton och tonhöjd för att uttrycka känslor med våra röster är SER relevant. Men eftersom känslor är subjektiva är ljudkommentarer en utmanande uppgift. Vi kommer att använda mfcc-, chroma- och mel-funktioner och använda RAVDESS-datauppsättningen för känslorigenkänning. Vi kommer att skapa en MLPC-klassificerare för denna modell.
Detta är en intressant datavetenskap med Python. Med bara en bild lär du dig att förutsäga en persons kön och ålder. I detta kommer vi att introducera dig till Computer Vision och dess principer. Vi kommer att bygga konvolutionerande neurala nätverk och kommer att använda modeller utbildade av Tal Hassner och Gil Levy på Adience-dataset. Längs vägen kommer vi att använda några .pb-, .pbtxt-, .prototxt- och .caffemodel-filer.
Detta är ett datavisualiseringsprojekt med ggplot2 där vi kommer att använda R och dess bibliotek och analysera olika parametrar. Vi kommer att använda Uber Pickups New York Citys datauppsättning och skapa visualiseringar för olika tidsramar på året. Detta berättar hur tiden påverkar kundernas resor.
Språk: R
Datauppsättning/paket: Uber Pickups i New York City dataset
Dåsig körning är extremt farlig och nästan tusen olyckor inträffar varje år på grund av att förare somnar under körning. I detta Python-projekt kommer vi att skapa ett system som kan upptäcka dåsiga förare och även varna dem med en ljudsignal.
Detta projekt implementeras med hjälp av Keras och OpenCV. Vi kommer att använda OpenCV för ansikts- och ögondetektion och med Keras kommer vi att klassificera ögontillståndet (öppet eller stängt) med hjälp av tekniker för djupa neurala nätverk.
Chatbots är en integrerad del av verksamheten. Många företag måste erbjuda tjänster till sina kunder och det krävs mycket arbetskraft, tid och ansträngning för att betjäna dem. Chatbots kan automatisera mycket av din kundinteraktion genom att svara på några vanliga frågor som kunder ställer. Det finns i princip två typer av chatbots: Domänspecifik och öppen domän. En domänspecifik chatbot används ofta för att lösa ett specifikt problem. Så du måste anpassa den för att fungera effektivt inom ditt område. Chatbotar med öppen domän kan ställas vilka frågor som helst, så att träna dem kräver en enorm mängd data.
Att beskriva vad som finns i en bild är en enkel uppgift för människor, men för datorer är en bild helt enkelt en serie siffror som representerar färgvärdet för varje pixel. Detta är en svår uppgift för datorer. Att förstå vad som finns i en bild och sedan skapa en beskrivning på naturligt språk (som engelska) är en annan svår uppgift. Detta projekt använder djupinlärningstekniker där vi implementerar ett Convolutional Neural Network (CNN) med ett Recurrent Neural Network (LSTM) för att skapa en bildbeskrivningsgenerator.
Vid det här laget har du börjat förstå teknikerna och begreppen. Låt oss gå vidare till några avancerade datavetenskapliga projekt. I det här projektet kommer vi att använda R-språket med algoritmer som beslutsträd, logistisk regression, artificiella neurala nätverk och gradientförstärkande klassificerare. Vi kommer att använda en datauppsättning av korttransaktioner för att klassificera kreditkortstransaktioner som bedrägliga eller äkta. Vi kommer att välja olika modeller för dem och bygga prestandakurvor.
Språk: R
Datauppsättning/paket: Datauppsättning för korttransaktioner
I detta Data Science-projekt kommer vi att använda R för att implementera filmens rekommendationer genom maskininlärning. Rekommendationssystemet skickar förslag till användare genom en filtreringsprocess baserad på andra användares preferenser och webbhistorik. Om A och B gillar Home Alone, och B gillar Mean Girls, så kan du föreslå A - de kanske gillar det också. Detta gör att kunderna kan interagera med plattformen.
Köparsegmentering är en populär applikation oövervakat lärande. Med hjälp av klustring identifierar företag kundsegment för att rikta in sig på en potentiell användarbas. De delar in kunder i grupper efter gemensamma egenskaper som kön, ålder, intressen och konsumtionsvanor så att de effektivt kan marknadsföra sina produkter till varje grupp. Vi kommer använda K-betyder kluster, samt visualisera fördelningen efter kön och ålder. Vi kommer sedan att analysera deras årliga inkomst- och kostnadsnivåer.
För att komma tillbaka till det medicinska bidraget från datavetenskap, låt oss lära oss hur man upptäcker bröstcancer med Python. Vi kommer att använda IDC_regular datasetet för att identifiera invasivt duktalt karcinom, den vanligaste formen av bröstcancer. Det utvecklas i mjölkkanalerna, gräver sig in i den fibrösa eller feta bröstvävnaden utanför kanalen. I denna datainsamlingsprojektidé kommer vi att använda Deep Learning och Keras bibliotek för klassificering.
Vägmärken och trafikregler är mycket viktiga för varje förare för att undvika olyckor. För att följa regeln måste du först förstå hur en vägskylt ser ut. En person måste lära sig alla vägmärken innan han får licens att köra något fordon. Men nu växer antalet autonoma fordon, och inom en snar framtid kommer en person inte längre att köra en bil självständigt. I projektet Road Sign Recognition får du lära dig hur ett program kan känna igen typen av vägmärken genom att ta en bild som indata. German Traffic Sign Recognition Benchmark (GTSRB) dataset används för att bygga ett djupt neuralt nätverk för att känna igen klassen som en trafikskylt tillhör. Vi skapar också ett enkelt GUI för att interagera med applikationen.