Følelsesanalyse er en analyse af ord for at identificere følelser og meninger, som kan være positive eller negative. Dette er en type klassifikation, hvor klasserne kan være binære (positive og negative) eller flertal (glad, vred, trist, grim...). Vi vil implementere dette Data Science-projekt i R og vil bruge datasættet i "janeaustenR"-pakken. Vi vil bruge generelle ordbøger som AFINN, bing og loughran, lave en indre sammenføjning og til sidst vil vi oprette en ordsky for at vise resultatet.
Fake news er falsk information, der spredes gennem sociale medier og andre online medier for at nå politiske mål. I denne Data Science projektidé vil vi bruge Python til at bygge en model, der præcist kan afgøre, om nyheder er ægte eller falske. Vi opretter en TfidfVectorizer og bruger PassiveAggressiveClassifier til at klassificere nyheder i "rigtige" og "falske". Vi vil bruge et 7796×4 figurdatasæt og gøre alt i Jupyter Lab.
Vi er begyndt at bruge Data Science til at forbedre sundhedsvæsenet og services – hvis vi kan forudsige sygdommen på et tidligt tidspunkt, så vil vi have mange fordele. Så i denne Data Science-projektidé vil vi lære, hvordan man opdager Parkinsons sygdom ved hjælp af Python. Det er en neurodegenerativ, fremadskridende sygdom i centralnervesystemet, der påvirker bevægelse og forårsager rysten og stivhed. Det påvirker de dopaminproducerende neuroner i hjernen, og hvert år påvirker det over 1 million mennesker i Indien.
Lad os nu lære at bruge forskellige biblioteker. Dette Data Science-projekt bruger librosa til talegenkendelse. SER er processen med at identificere menneskelige følelser og affektive tilstande ud fra tale. Fordi vi bruger tone og tonehøjde til at udtrykke følelser med vores stemme, er SER relevant. Men da følelser er subjektive, er lydkommentarer en vanskelig opgave. Vi vil bruge funktionerne mfcc, chroma og mel og bruge RAVDESS-datasættet til følelsesgenkendelse. Vi vil oprette en MLPC-klassifikator til denne model.
Dette er en interessant Data Science med Python. Ved kun at bruge ét billede lærer du at forudsige en persons køn og alder. I dette vil vi introducere dig til Computer Vision og dets principper. Vi vil bygge konvolutionerende neurale netværk og vil bruge modeller trænet af Tal Hassner og Gil Levy på Adience-datasættet. Vi vil bruge nogle .pb, .pbtxt, .prototxt og .caffemodel filer undervejs.
Dette er et datavisualiseringsprojekt med ggplot2, hvor vi vil bruge R og dets biblioteker og analysere forskellige parametre. Vi vil bruge Uber Pickups New York-datasættet og skabe visualiseringer for forskellige tidsrammer af året. Dette fortæller os, hvordan tiden påvirker kunderejser.
Sprog: R
Datasæt/pakke: Uber Pickups i New York City datasæt
Søvnig kørsel er ekstremt farligt, med omkring tusind ulykker hvert år på grund af bilister, der falder i søvn under kørsel. I dette Python-projekt vil vi skabe et system, der kan registrere søvnige chauffører og også advare dem med et bip.
Dette projekt er implementeret ved hjælp af Keras og OpenCV. Vi vil bruge OpenCV til at detektere ansigt og øjne, og ved hjælp af Keras vil vi klassificere øjets tilstand (åben eller lukket) ved hjælp af dybe neurale netværksmetoder.
Chatbots er en integreret del af forretningen. Mange virksomheder skal tilbyde tjenester til deres kunder, og det kræver en masse arbejdskraft, tid og kræfter at betjene dem. Chatbots kan automatisere meget af kundeinteraktionen ved at besvare nogle af de almindelige spørgsmål, som kunder stiller. Der er grundlæggende to typer chatbots: Domænespecifikke og Åbent domæne. En domænespecifik chatbot bruges ofte til at løse et specifikt problem. Derfor skal du tilpasse den til at fungere effektivt inden for dit felt. Chatbots med åbent domæne kan stilles alle spørgsmål, så træning af dem kræver en enorm mængde data.
At beskrive, hvad der er på et billede, er en nem opgave for mennesker, men for computere er et billede blot en samling af tal, der repræsenterer farveværdien af hver pixel. Dette er en vanskelig opgave for computere. At forstå, hvad der er i et billede og derefter skabe en naturlig sprogbeskrivelse (f.eks. engelsk) er en anden vanskelig opgave. Dette projekt bruger deep learning-teknikker, hvor vi implementerer et Convolutional Neural Network (CNN) med et Recurrent Neural Network (LSTM) for at skabe en billedbeskrivelsesgenerator.
Nu er du begyndt at forstå metoderne og koncepterne. Lad os gå videre til nogle avancerede datavidenskabelige projekter. I dette projekt vil vi bruge R-sproget med algoritmer som f.eks beslutningstræer, logistisk regression, kunstige neurale netværk og gradientforstærkende klassifikator. Vi vil bruge korttransaktionsdatasættet til at klassificere kreditkorttransaktioner som svigagtige og ægte. Vi vil vælge forskellige modeller til dem og bygge præstationskurver.
Sprog: R
Datasæt/pakke: Korttransaktioner datasæt
11. Filmanbefalingssystem
Udforsk implementeringen af det bedste Data Science-projekt med kildekode - Filmanbefalingssystem i R
I dette Data Science-projekt vil vi bruge R til at udføre filmens anbefalinger gennem maskinlæring. Anbefalingssystemet sender forslag til brugerne gennem en filtreringsproces baseret på andre brugeres præferencer og browserhistorik. Hvis A og B kan lide Home Alone, og B kan lide Mean Girls, så kan du foreslå A – de kan også lide det. Dette giver kunderne mulighed for at interagere med platformen.
Købersegmentering er en populær applikation uovervåget læring. Ved hjælp af clustering definerer virksomheder kundesegmenter for at arbejde med en potentiel brugerbase. De opdeler kunder i grupper efter fælles karakteristika såsom køn, alder, interesser og forbrugsvaner, så de kan markedsføre deres produkter til hver gruppe effektivt. Vi vil bruge K-betyder gruppering, samt visualisere fordelingen efter køn og alder. Derefter analyserer vi deres årlige indtægts- og udgiftsniveauer.
For at vende tilbage til det medicinske bidrag fra datavidenskab, lad os lære, hvordan man opdager brystkræft med Python. Vi vil bruge IDC_regular-datasættet til at opdage invasivt duktalt karcinom, den mest almindelige form for brystkræft. Det udvikler sig i mælkekanalerne og trænger ind i det fibrøse eller fedtede væv i mælkekirtlen uden for kanalen. I denne dataindsamlingsprojektidé vil vi bruge Deep Learning og Keras-biblioteket til klassificering.
Vejskilte og trafikregler er meget vigtige for enhver bilist for at undgå ulykker. For at følge reglen skal du først forstå, hvordan vejskiltet ser ud. En person skal lære alle vejskilte, før han får ret til at føre et køretøj. Men nu vokser antallet af autonome køretøjer, og i den nærmeste fremtid vil en person ikke længere køre bil på egen hånd. I projektet Vejskiltgenkendelse lærer du, hvordan et program kan genkende en type vejskilte ved at tage et billede som input. Det tyske vejskiltgenkendelsesreferencedatasæt (GTSRB) bruges til at bygge et dybt neuralt netværk for at genkende den klasse, som et trafikskilt tilhører. Vi laver også en simpel GUI til at interagere med applikationen.