ProHoster > Log > Internett-nyheter > 14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)
14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)
Datavitenskap for nybegynnere
1. Sentimentanalyse (sentimentanalyse gjennom tekst)
Sjekk ut den komplette implementeringen av Data Science-prosjektet ved å bruke kildekode − Sentiment Analysis Project i R.
Sentimentanalyse er analysen av ord for å bestemme følelser og meninger, som kan være positive eller negative. Dette er en type klassifisering der klasser kan være binære (positive og negative) eller flertall (glad, sint, trist, ekkel...). Vi vil implementere dette Data Science-prosjektet i R og vil bruke datasettet i "janeaustenR"-pakken. Vi vil bruke generelle ordbøker som AFINN, bing og loughran, utføre en indre sammenføyning, og på slutten vil vi lage en ordsky for å vise resultatet.
Falske nyheter er falsk informasjon som spres gjennom sosiale medier og andre nettmedier for å nå politiske mål. I denne Data Science-prosjektideen vil vi bruke Python til å bygge en modell som nøyaktig kan avgjøre om en nyhet er ekte eller falsk. Vi vil lage en TfidfVectorizer og bruke en PassiveAggressiveClassifier for å klassifisere nyheter i "ekte" og "falske". Vi vil bruke et datasett med formen 7796×4 og kjøre alt i Jupyter Lab.
Vi har begynt å bruke Data Science for å forbedre helsevesenet og tjenester – hvis vi kan forutsi en sykdom på et tidlig stadium, vil vi ha mange fordeler. Så i denne Data Science-prosjektideen vil vi lære hvordan vi kan oppdage Parkinsons sykdom ved hjelp av Python. Det er en nevrodegenerativ, progressiv sykdom i sentralnervesystemet som påvirker bevegelse og forårsaker skjelvinger og stivhet. Det påvirker dopaminproduserende nevroner i hjernen, og hvert år påvirker det mer enn 1 million mennesker i India.
La oss nå lære hvordan du bruker forskjellige biblioteker. Dette Data Science-prosjektet bruker librosa for talegjenkjenning. SER er prosessen med å identifisere menneskelige følelser og affektive tilstander fra tale. Siden vi bruker tone og tonehøyde for å uttrykke følelser med stemmene våre, er SER relevant. Men siden følelser er subjektive, er lydkommentarer en utfordrende oppgave. Vi vil bruke mfcc, chroma og mel-funksjoner og bruke RAVDESS-datasettet for følelsesgjenkjenning. Vi vil lage en MLPC-klassifisering for denne modellen.
Dette er en interessant datavitenskap med Python. Ved å bruke bare ett bilde vil du lære å forutsi en persons kjønn og alder. I dette vil vi introdusere deg til Computer Vision og dets prinsipper. Vi skal bygge konvolusjonelt nevrale nettverk og vil bruke modeller trent av Tal Hassner og Gil Levy på Adience-datasettet. Underveis vil vi bruke noen .pb, .pbtxt, .prototxt og .caffemodel filer.
Dette er et datavisualiseringsprosjekt med ggplot2 der vi skal bruke R og dets biblioteker og analysere ulike parametere. Vi bruker Uber Pickups New York City-datasettet og lager visualiseringer for ulike tidsrammer av året. Dette forteller oss hvordan tid påvirker kundereiser.
Språk: R
Datasett/pakke: Uber Pickups i New York City datasett
Døsig kjøring er ekstremt farlig, og nesten tusen ulykker skjer hvert år på grunn av at sjåfører sovner mens de kjører. I dette Python-prosjektet skal vi lage et system som kan oppdage døsige drivere og også varsle dem med et lydsignal.
Dette prosjektet er implementert ved hjelp av Keras og OpenCV. Vi vil bruke OpenCV for ansikts- og øyedeteksjon og med Keras vil vi klassifisere øyetilstanden (Åpen eller lukket) ved hjelp av dype nevrale nettverksteknikker.
Chatbots er en integrert del av virksomheten. Mange bedrifter må tilby tjenester til sine kunder, og det krever mye arbeidskraft, tid og krefter å betjene dem. Chatbots kan automatisere mye av kundeinteraksjonen din ved å svare på noen vanlige spørsmål som kunder stiller. Det er i utgangspunktet to typer chatbots: Domenespesifikke og åpne domene. En domenespesifikk chatbot brukes ofte til å løse et spesifikt problem. Så du må tilpasse den for å fungere effektivt i ditt felt. Chatboter med åpent domene kan stilles alle spørsmål, så opplæring av dem krever en enorm mengde data.
Å beskrive hva som er i et bilde er en enkel oppgave for mennesker, men for datamaskiner er et bilde ganske enkelt en serie tall som representerer fargeverdien til hver piksel. Dette er en vanskelig oppgave for datamaskiner. Å forstå hva som er i et bilde og deretter lage en beskrivelse på naturlig språk (som engelsk) er en annen vanskelig oppgave. Dette prosjektet bruker dyplæringsteknikker der vi implementerer et Convolutional Neural Network (CNN) med et Recurrent Neural Network (LSTM) for å lage en bildebeskrivelsesgenerator.
Nå har du begynt å forstå teknikkene og konseptene. La oss gå videre til noen avanserte datavitenskapelige prosjekter. I dette prosjektet vil vi bruke R-språk med algoritmer som beslutningstrær, logistisk regresjon, kunstige nevrale nettverk og gradientforsterkende klassifikator. Vi vil bruke et datasett med korttransaksjoner for å klassifisere kredittkorttransaksjoner som uredelige eller ekte. Vi vil velge forskjellige modeller for dem og bygge ytelseskurver.
I dette Data Science-prosjektet skal vi bruke R til å implementere filmens anbefalinger gjennom maskinlæring. Anbefalingssystemet sender forslag til brukerne gjennom en filtreringsprosess basert på andre brukeres preferanser og nettleserhistorikk. Hvis A og B liker Home Alone, og B liker Mean Girls, så kan du foreslå A – de vil kanskje like det også. Dette lar kundene samhandle med plattformen.
Kjøpersegmentering er en populær applikasjon uovervåket læring. Ved å bruke klynging identifiserer bedrifter kundesegmenter for å målrette mot en potensiell brukerbase. De deler kundene inn i grupper etter vanlige egenskaper som kjønn, alder, interesser og forbruksvaner slik at de effektivt kan markedsføre produktene sine til hver gruppe. Vi vil bruke K-betyr klynging, samt visualisere fordelingen etter kjønn og alder. Vi vil deretter analysere deres årlige inntekts- og utgiftsnivåer.
For å komme tilbake til det medisinske bidraget til datavitenskap, la oss lære hvordan du oppdager brystkreft ved hjelp av Python. Vi vil bruke IDC_regular datasettet for å identifisere invasivt duktalt karsinom, den vanligste formen for brystkreft. Det utvikler seg i melkekanalene, graver seg inn i det fibrøse eller fettholdige brystvevet utenfor kanalen. I denne datainnsamlingsvitenskapelige prosjektideen vil vi bruke Dyp læring og Keras-biblioteket for klassifisering.
Veiskilt og trafikkregler er svært viktig for hver sjåfør for å unngå ulykker. For å følge regelen må du først forstå hvordan et veiskilt ser ut. En person må lære seg alle veiskiltene før han får lisens til å kjøre et kjøretøy. Men nå vokser antallet autonome kjøretøy, og i nær fremtid vil en person ikke lenger kjøre bil uavhengig. I prosjektet Vegskiltgjenkjenning lærer du hvordan et program kan gjenkjenne typen veiskilt ved å ta et bilde som input. Det tyske trafikkskiltgjenkjenningsbenchmark (GTSRB) datasettet brukes til å bygge et dypt nevralt nettverk for å gjenkjenne klassen som et trafikkskilt tilhører. Vi lager også en enkel GUI for å samhandle med applikasjonen.