14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

Datavidenskab for begyndere

1. Følelsesanalyse (stemningsanalyse gennem tekst)

14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

Se den komplette implementering af Data Science-projektet ved hjælp af kildekode − Sentiment Analysis Project i R.

Følelsesanalyse er en analyse af ord for at identificere følelser og meninger, som kan være positive eller negative. Dette er en type klassifikation, hvor klasserne kan være binære (positive og negative) eller flertal (glad, vred, trist, grim...). Vi vil implementere dette Data Science-projekt i R og vil bruge datasættet i "janeaustenR"-pakken. Vi vil bruge generelle ordbøger som AFINN, bing og loughran, lave en indre sammenføjning og til sidst vil vi oprette en ordsky for at vise resultatet.

Sprog: R
Datasæt/pakke: janeoustenR

14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

Artiklen er oversat med støtte fra EDISON Software, som laver virtuelle prøverum til multi-brand butikkerog tester software.

2. Registrering af falske nyheder

Tag dine færdigheder til det næste niveau ved at arbejde på Data Science Project for Beginners − opdagelse af falske nyheder med Python.

14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

Fake news er falsk information, der spredes gennem sociale medier og andre online medier for at nå politiske mål. I denne Data Science projektidé vil vi bruge Python til at bygge en model, der præcist kan afgøre, om nyheder er ægte eller falske. Vi opretter en TfidfVectorizer og bruger PassiveAggressiveClassifier til at klassificere nyheder i "rigtige" og "falske". Vi vil bruge et 7796×4 figurdatasæt og gøre alt i Jupyter Lab.

Sprog: Python

Datasæt/pakke: nyheder.csv

3. Påvisning af Parkinsons sygdom

Kom videre ved at arbejde på Data Science-projektideen − påvisning af Parkinsons sygdom med XGBoost.

14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

Vi er begyndt at bruge Data Science til at forbedre sundhedsvæsenet og services – hvis vi kan forudsige sygdommen på et tidligt tidspunkt, så vil vi have mange fordele. Så i denne Data Science-projektidé vil vi lære, hvordan man opdager Parkinsons sygdom ved hjælp af Python. Det er en neurodegenerativ, fremadskridende sygdom i centralnervesystemet, der påvirker bevægelse og forårsager rysten og stivhed. Det påvirker de dopaminproducerende neuroner i hjernen, og hvert år påvirker det over 1 million mennesker i Indien.

Sprog: Python

Datasæt/pakke: UCI ML Parkinsons datasæt

Data Science-projekter af middel kompleksitet

4. Talefølelsesgenkendelse

Se den fulde implementering af prøveprojektet Data Science − talegenkendelse med Librosa.

14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

Lad os nu lære at bruge forskellige biblioteker. Dette Data Science-projekt bruger librosa til talegenkendelse. SER er processen med at identificere menneskelige følelser og affektive tilstande ud fra tale. Fordi vi bruger tone og tonehøjde til at udtrykke følelser med vores stemme, er SER relevant. Men da følelser er subjektive, er lydkommentarer en vanskelig opgave. Vi vil bruge funktionerne mfcc, chroma og mel og bruge RAVDESS-datasættet til følelsesgenkendelse. Vi vil oprette en MLPC-klassifikator til denne model.

Sprog: Python

Datasæt/pakke: RAVDESS datasæt

5. Detektion af køn og alder

Imponer arbejdsgivere med det seneste Data Science-projekt - køns- og aldersregistrering med OpenCV.

14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

Dette er en interessant Data Science med Python. Ved kun at bruge ét billede lærer du at forudsige en persons køn og alder. I dette vil vi introducere dig til Computer Vision og dets principper. Vi vil bygge konvolutionerende neurale netværk og vil bruge modeller trænet af Tal Hassner og Gil Levy på Adience-datasættet. Vi vil bruge nogle .pb, .pbtxt, .prototxt og .caffemodel filer undervejs.

Sprog: Python

Datasæt/pakke: Adience

6. Uber Data Analyse

Se den komplette implementering af Data Science-projektet med kildekode − Uber Data Analysis Project i R.

14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

Dette er et datavisualiseringsprojekt med ggplot2, hvor vi vil bruge R og dets biblioteker og analysere forskellige parametre. Vi vil bruge Uber Pickups New York-datasættet og skabe visualiseringer for forskellige tidsrammer af året. Dette fortæller os, hvordan tiden påvirker kunderejser.

Sprog: R

Datasæt/pakke: Uber Pickups i New York City datasæt

7. Driver Døsighed detektion

Opgrader dine færdigheder ved at arbejde på Top Data Science Project - søvnighedsdetektionssystem med OpenCV & Keras.

14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

Søvnig kørsel er ekstremt farligt, med omkring tusind ulykker hvert år på grund af bilister, der falder i søvn under kørsel. I dette Python-projekt vil vi skabe et system, der kan registrere søvnige chauffører og også advare dem med et bip.

Dette projekt er implementeret ved hjælp af Keras og OpenCV. Vi vil bruge OpenCV til at detektere ansigt og øjne, og ved hjælp af Keras vil vi klassificere øjets tilstand (åben eller lukket) ved hjælp af dybe neurale netværksmetoder.

8. Chatbot

Byg en chatbot med Python og tag et skridt fremad i din karriere - Chatbot med NLTK & Keras.

14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

Chatbots er en integreret del af forretningen. Mange virksomheder skal tilbyde tjenester til deres kunder, og det kræver en masse arbejdskraft, tid og kræfter at betjene dem. Chatbots kan automatisere meget af kundeinteraktionen ved at besvare nogle af de almindelige spørgsmål, som kunder stiller. Der er grundlæggende to typer chatbots: Domænespecifikke og Åbent domæne. En domænespecifik chatbot bruges ofte til at løse et specifikt problem. Derfor skal du tilpasse den til at fungere effektivt inden for dit felt. Chatbots med åbent domæne kan stilles alle spørgsmål, så træning af dem kræver en enorm mængde data.

Datasæt: Intents json-fil

Sprog: Python

Avancerede datavidenskabelige projekter

9. Billedtekstgenerator

Tjek den komplette projektimplementering med kildekode - Billedtekstgenerator med CNN & LSTM.

14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

At beskrive, hvad der er på et billede, er en nem opgave for mennesker, men for computere er et billede blot en samling af tal, der repræsenterer farveværdien af ​​hver pixel. Dette er en vanskelig opgave for computere. At forstå, hvad der er i et billede og derefter skabe en naturlig sprogbeskrivelse (f.eks. engelsk) er en anden vanskelig opgave. Dette projekt bruger deep learning-teknikker, hvor vi implementerer et Convolutional Neural Network (CNN) med et Recurrent Neural Network (LSTM) for at skabe en billedbeskrivelsesgenerator.

Datasæt: Flickr 8K

Sprog: Python

Ramme: Keras

10. Opdagelse af kreditkortsvindel

Gør dit bedste ved at arbejde på Data Science projektidé − registrering af kreditkortsvindel med maskinlæring.

14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

Nu er du begyndt at forstå metoderne og koncepterne. Lad os gå videre til nogle avancerede datavidenskabelige projekter. I dette projekt vil vi bruge R-sproget med algoritmer som f.eks beslutningstræer, logistisk regression, kunstige neurale netværk og gradientforstærkende klassifikator. Vi vil bruge korttransaktionsdatasættet til at klassificere kreditkorttransaktioner som svigagtige og ægte. Vi vil vælge forskellige modeller til dem og bygge præstationskurver.

Sprog: R

Datasæt/pakke: Korttransaktioner datasæt

11. Filmanbefalingssystem

Udforsk implementeringen af ​​det bedste Data Science-projekt med kildekode - Filmanbefalingssystem i R

14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

I dette Data Science-projekt vil vi bruge R til at udføre filmens anbefalinger gennem maskinlæring. Anbefalingssystemet sender forslag til brugerne gennem en filtreringsproces baseret på andre brugeres præferencer og browserhistorik. Hvis A og B kan lide Home Alone, og B kan lide Mean Girls, så kan du foreslå A – de kan også lide det. Dette giver kunderne mulighed for at interagere med platformen.

Sprog: R

Datasæt/pakke: MovieLens datasæt

12. Kundesegmentering

Imponer arbejdsgivere med et Data Science-projekt (inklusive kildekode) - Kundesegmentering med maskinlæring.

14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

Købersegmentering er en populær applikation uovervåget læring. Ved hjælp af clustering definerer virksomheder kundesegmenter for at arbejde med en potentiel brugerbase. De opdeler kunder i grupper efter fælles karakteristika såsom køn, alder, interesser og forbrugsvaner, så de kan markedsføre deres produkter til hver gruppe effektivt. Vi vil bruge K-betyder gruppering, samt visualisere fordelingen efter køn og alder. Derefter analyserer vi deres årlige indtægts- og udgiftsniveauer.

Sprog: R

Datasæt/pakke: Mall_Customers datasæt

13. Klassificering af brystkræft

Se den fulde implementering af Data Science-projektet i Python − Brystkræftklassificering ved hjælp af dyb læring.

14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

For at vende tilbage til det medicinske bidrag fra datavidenskab, lad os lære, hvordan man opdager brystkræft med Python. Vi vil bruge IDC_regular-datasættet til at opdage invasivt duktalt karcinom, den mest almindelige form for brystkræft. Det udvikler sig i mælkekanalerne og trænger ind i det fibrøse eller fedtede væv i mælkekirtlen uden for kanalen. I denne dataindsamlingsprojektidé vil vi bruge Deep Learning og Keras-biblioteket til klassificering.

Sprog: Python

Datasæt/pakke: IDC_regular

14. Genkendelse af trafikskilte

Opnå præcision i selvkørende bilteknologi med Data Science projekt på trafikskiltgenkendelse ved hjælp af CNN åben kildekode.

14 open source-projekter for at forbedre datavidenskabsfærdigheder (let, normalt, hårdt)

Vejskilte og trafikregler er meget vigtige for enhver bilist for at undgå ulykker. For at følge reglen skal du først forstå, hvordan vejskiltet ser ud. En person skal lære alle vejskilte, før han får ret til at føre et køretøj. Men nu vokser antallet af autonome køretøjer, og i den nærmeste fremtid vil en person ikke længere køre bil på egen hånd. I projektet Vejskiltgenkendelse lærer du, hvordan et program kan genkende en type vejskilte ved at tage et billede som input. Det tyske vejskiltgenkendelsesreferencedatasæt (GTSRB) bruges til at bygge et dybt neuralt netværk for at genkende den klasse, som et trafikskilt tilhører. Vi laver også en simpel GUI til at interagere med applikationen.

Sprog: Python

Datasæt: GTRB (German Traffic Sign Recognition Benchmark)

Læs mere

Kilde: www.habr.com

Tilføj en kommentar