14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

Datavitenskap for nybegynnere

1. Sentimentanalyse (sentimentanalyse gjennom tekst)

14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

Sjekk ut den komplette implementeringen av Data Science-prosjektet ved å bruke kildekode − Sentiment Analysis Project i R.

Sentimentanalyse er analysen av ord for å bestemme følelser og meninger, som kan være positive eller negative. Dette er en type klassifisering der klasser kan være binære (positive og negative) eller flertall (glad, sint, trist, ekkel...). Vi vil implementere dette Data Science-prosjektet i R og vil bruke datasettet i "janeaustenR"-pakken. Vi vil bruke generelle ordbøker som AFINN, bing og loughran, utføre en indre sammenføyning, og på slutten vil vi lage en ordsky for å vise resultatet.

Språk: R
Datasett/pakke: janeaustenR

14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

Artikkelen ble oversatt med støtte fra EDISON Software, som lager virtuelle prøverom for multimerkebutikkerOg tester programvare.

2. Oppdagelse av falske nyheter

Ta ferdighetene dine til neste nivå ved å jobbe med et Data Science-prosjekt for nybegynnere - oppdage falske nyheter med Python.

14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

Falske nyheter er falsk informasjon som spres gjennom sosiale medier og andre nettmedier for å nå politiske mål. I denne Data Science-prosjektideen vil vi bruke Python til å bygge en modell som nøyaktig kan avgjøre om en nyhet er ekte eller falsk. Vi vil lage en TfidfVectorizer og bruke en PassiveAggressiveClassifier for å klassifisere nyheter i "ekte" og "falske". Vi vil bruke et datasett med formen 7796×4 og kjøre alt i Jupyter Lab.

Språk: Python

Datasett/pakke: nyheter.csv

3. Påvisning av Parkinsons sykdom

Gå videre med din datavitenskapelige prosjektide - oppdage Parkinsons sykdom ved hjelp av XGBoost.

14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

Vi har begynt å bruke Data Science for å forbedre helsevesenet og tjenester – hvis vi kan forutsi en sykdom på et tidlig stadium, vil vi ha mange fordeler. Så i denne Data Science-prosjektideen vil vi lære hvordan vi kan oppdage Parkinsons sykdom ved hjelp av Python. Det er en nevrodegenerativ, progressiv sykdom i sentralnervesystemet som påvirker bevegelse og forårsaker skjelvinger og stivhet. Det påvirker dopaminproduserende nevroner i hjernen, og hvert år påvirker det mer enn 1 million mennesker i India.

Språk: Python

Datasett/pakke: UCI ML Parkinsons datasett

Data Science-prosjekter av middels kompleksitet

4. Talefølelsesgjenkjenning

Sjekk ut den fullstendige implementeringen av eksempelprosjektet Data Science − talegjenkjenning ved hjelp av Librosa.

14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

La oss nå lære hvordan du bruker forskjellige biblioteker. Dette Data Science-prosjektet bruker librosa for talegjenkjenning. SER er prosessen med å identifisere menneskelige følelser og affektive tilstander fra tale. Siden vi bruker tone og tonehøyde for å uttrykke følelser med stemmene våre, er SER relevant. Men siden følelser er subjektive, er lydkommentarer en utfordrende oppgave. Vi vil bruke mfcc, chroma og mel-funksjoner og bruke RAVDESS-datasettet for følelsesgjenkjenning. Vi vil lage en MLPC-klassifisering for denne modellen.

Språk: Python

Datasett/pakke: RAVDESS datasett

5. Kjønns- og aldersdeteksjon

Imponer arbeidsgivere med det siste Data Science-prosjektet - bestemme kjønn og alder ved hjelp av OpenCV.

14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

Dette er en interessant datavitenskap med Python. Ved å bruke bare ett bilde vil du lære å forutsi en persons kjønn og alder. I dette vil vi introdusere deg til Computer Vision og dets prinsipper. Vi skal bygge konvolusjonelt nevrale nettverk og vil bruke modeller trent av Tal Hassner og Gil Levy på Adience-datasettet. Underveis vil vi bruke noen .pb, .pbtxt, .prototxt og .caffemodel filer.

Språk: Python

Datasett/pakke: Adience

6. Uber-dataanalyse

Sjekk ut den komplette implementeringen av Data Science-prosjektet med kildekode − Uber Data Analysis Project i R.

14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

Dette er et datavisualiseringsprosjekt med ggplot2 der vi skal bruke R og dets biblioteker og analysere ulike parametere. Vi bruker Uber Pickups New York City-datasettet og lager visualiseringer for ulike tidsrammer av året. Dette forteller oss hvordan tid påvirker kundereiser.

Språk: R

Datasett/pakke: Uber Pickups i New York City datasett

7. Driver Døsighetsdeteksjon

Forbedre ferdighetene dine ved å jobbe med Top Data Science Project - døsighetsdeteksjonssystem med OpenCV og Keras.

14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

Døsig kjøring er ekstremt farlig, og nesten tusen ulykker skjer hvert år på grunn av at sjåfører sovner mens de kjører. I dette Python-prosjektet skal vi lage et system som kan oppdage døsige drivere og også varsle dem med et lydsignal.

Dette prosjektet er implementert ved hjelp av Keras og OpenCV. Vi vil bruke OpenCV for ansikts- og øyedeteksjon og med Keras vil vi klassifisere øyetilstanden (Åpen eller lukket) ved hjelp av dype nevrale nettverksteknikker.

8. Chatbot

Lag en Chatbot med Python og ta et skritt fremover i karrieren din - Chatbot med NLTK og Keras.

14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

Chatbots er en integrert del av virksomheten. Mange bedrifter må tilby tjenester til sine kunder, og det krever mye arbeidskraft, tid og krefter å betjene dem. Chatbots kan automatisere mye av kundeinteraksjonen din ved å svare på noen vanlige spørsmål som kunder stiller. Det er i utgangspunktet to typer chatbots: Domenespesifikke og åpne domene. En domenespesifikk chatbot brukes ofte til å løse et spesifikt problem. Så du må tilpasse den for å fungere effektivt i ditt felt. Chatboter med åpent domene kan stilles alle spørsmål, så opplæring av dem krever en enorm mengde data.

Datasett: Intents json-fil

Språk: Python

Avanserte datavitenskapelige prosjekter

9. Bildetekstgenerator

Sjekk ut den fullstendige implementeringen av prosjektet med kildekode − Bildetekstgenerator med CNN og LSTM.

14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

Å beskrive hva som er i et bilde er en enkel oppgave for mennesker, men for datamaskiner er et bilde ganske enkelt en serie tall som representerer fargeverdien til hver piksel. Dette er en vanskelig oppgave for datamaskiner. Å forstå hva som er i et bilde og deretter lage en beskrivelse på naturlig språk (som engelsk) er en annen vanskelig oppgave. Dette prosjektet bruker dyplæringsteknikker der vi implementerer et Convolutional Neural Network (CNN) med et Recurrent Neural Network (LSTM) for å lage en bildebeskrivelsesgenerator.

Datasett: Flickr 8K

Språk: Python

Rammeverk: Keras

10. Oppdagelse av kredittkortsvindel

Gjør ditt beste mens du jobber med Data Science-prosjektideen din − oppdage kredittkortsvindel ved hjelp av maskinlæring.

14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

Nå har du begynt å forstå teknikkene og konseptene. La oss gå videre til noen avanserte datavitenskapelige prosjekter. I dette prosjektet vil vi bruke R-språk med algoritmer som beslutningstrær, logistisk regresjon, kunstige nevrale nettverk og gradientforsterkende klassifikator. Vi vil bruke et datasett med korttransaksjoner for å klassifisere kredittkorttransaksjoner som uredelige eller ekte. Vi vil velge forskjellige modeller for dem og bygge ytelseskurver.

Språk: R

Datasett/pakke: Datasett for korttransaksjoner

11. System for filmanbefaling

Studer implementeringen av det beste Data Science-prosjektet med kildekode - Filmanbefalingssystem på R-språk

14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

I dette Data Science-prosjektet skal vi bruke R til å implementere filmens anbefalinger gjennom maskinlæring. Anbefalingssystemet sender forslag til brukerne gjennom en filtreringsprosess basert på andre brukeres preferanser og nettleserhistorikk. Hvis A og B liker Home Alone, og B liker Mean Girls, så kan du foreslå A – de vil kanskje like det også. Dette lar kundene samhandle med plattformen.

Språk: R

Datasett/pakke: MovieLens datasett

12. Kundesegmentering

Imponer arbeidsgivere med et Data Science-prosjekt (inkludert kildekode) - Kundesegmentering ved hjelp av maskinlæring.

14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

Kjøpersegmentering er en populær applikasjon uovervåket læring. Ved å bruke klynging identifiserer bedrifter kundesegmenter for å målrette mot en potensiell brukerbase. De deler kundene inn i grupper etter vanlige egenskaper som kjønn, alder, interesser og forbruksvaner slik at de effektivt kan markedsføre produktene sine til hver gruppe. Vi vil bruke K-betyr klynging, samt visualisere fordelingen etter kjønn og alder. Vi vil deretter analysere deres årlige inntekts- og utgiftsnivåer.

Språk: R

Datasett/pakke: Mall_Customers datasett

13. Klassifisering av brystkreft

Sjekk ut den fullstendige implementeringen av et Data Science-prosjekt i Python − Brystkreftklassifisering ved hjelp av dyp læring.

14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

For å komme tilbake til det medisinske bidraget til datavitenskap, la oss lære hvordan du oppdager brystkreft ved hjelp av Python. Vi vil bruke IDC_regular datasettet for å identifisere invasivt duktalt karsinom, den vanligste formen for brystkreft. Det utvikler seg i melkekanalene, graver seg inn i det fibrøse eller fettholdige brystvevet utenfor kanalen. I denne datainnsamlingsvitenskapelige prosjektideen vil vi bruke Dyp læring og Keras-biblioteket for klassifisering.

Språk: Python

Datasett/pakke: IDC_regular

14. Trafikkskiltgjenkjenning

Oppnå presisjon i selvkjørende teknologi med Data Science-prosjektet trafikkskiltgjenkjenning ved hjelp av CNN åpen kilde.

14 åpen kildekode-prosjekter for å forbedre datavitenskapsferdigheter (enkelt, normalt, vanskelig)

Veiskilt og trafikkregler er svært viktig for hver sjåfør for å unngå ulykker. For å følge regelen må du først forstå hvordan et veiskilt ser ut. En person må lære seg alle veiskiltene før han får lisens til å kjøre et kjøretøy. Men nå vokser antallet autonome kjøretøy, og i nær fremtid vil en person ikke lenger kjøre bil uavhengig. I prosjektet Vegskiltgjenkjenning lærer du hvordan et program kan gjenkjenne typen veiskilt ved å ta et bilde som input. Det tyske trafikkskiltgjenkjenningsbenchmark (GTSRB) datasettet brukes til å bygge et dypt nevralt nettverk for å gjenkjenne klassen som et trafikkskilt tilhører. Vi lager også en enkel GUI for å samhandle med applikasjonen.

Språk: Python

Datasett: GTSRB (German Traffic Sign Recognition Benchmark)

Les mer

Kilde: www.habr.com

Legg til en kommentar