14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

Datawetenskap vir beginners

1. Sentimentanalise (stemmingsanalise deur teks)

14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

Bekyk die volledige implementering van die Data Science-projek deur gebruik te maak van bronkode − Sentimentanalise-projek in R.

Sentimentanalise is die ontleding van woorde om sentimente en menings te identifiseer, wat positief of negatief kan wees. Dit is 'n tipe klassifikasie waar die klasse binêr (positief en negatief) of meervoud (gelukkig, kwaad, hartseer, nare...) kan wees. Ons sal hierdie Data Science-projek in R implementeer en sal die datastel in die "janeaustenR"-pakket gebruik. Ons sal algemene doelwoordeboeke soos AFINN, bing en loughran gebruik, 'n innerlike aansluiting doen en aan die einde sal ons 'n woordwolk skep om die resultaat te vertoon.

Taal: R
Datastel/Pakket: janeoustenR

14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

Die artikel is vertaal met die ondersteuning van EDISON Software, wat maak virtuele paskamers vir multi-handelsmerk winkelsEn toets sagteware.

2. Opsporing van vals nuus

Neem jou vaardighede na die volgende vlak deur aan die Data Science Project for Beginners te werk − vals nuusopsporing met Python.

14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

Vals nuus is vals inligting wat deur sosiale media en ander aanlyn media versprei word om politieke doelwitte te bereik. In hierdie Data Science-projekidee sal ons Python gebruik om 'n model te bou wat akkuraat kan bepaal of nuus eg of vals is. Ons sal 'n TfidfVectorizer skep en die PassiveAggressiveClassifier gebruik om nuus in "regte" en "vals" te klassifiseer. Ons sal 'n 7796 × 4-vormdatastel gebruik en alles in Jupyter Lab doen.

Taal: Python

Datastel/Pakket: nuus.csv

3. Die opsporing van Parkinson se siekte

Beweeg vorentoe deur aan die Data Science Project Idee te werk − opsporing van Parkinson se siekte met XGBoost.

14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

Ons het Data Science begin gebruik om gesondheidsorg en dienste te verbeter - as ons die siekte op 'n vroeë stadium kan voorspel, sal ons baie voordele hê. Dus, in hierdie Data Science projek idee, sal ons leer hoe om Parkinson se siekte op te spoor met behulp van Python. Dit is 'n neurodegeneratiewe, progressiewe siekte van die sentrale senuweestelsel wat beweging aantas en bewing en styfheid veroorsaak. Dit raak die dopamien-produserende neurone in die brein, en elke jaar raak dit meer as 1 miljoen mense in Indië.

Taal: Python

Datastel/Pakket: UCI ML Parkinsons datastel

Datawetenskap-projekte van medium kompleksiteit

4. Spraak Emosie Herkenning

Kyk na die volledige implementering van die Data Science-steekproefprojek − spraakherkenning met Librosa.

14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

Kom ons leer nou hoe om verskillende biblioteke te gebruik. Hierdie Data Science-projek gebruik librosa vir spraakherkenning. SER is die proses om menslike emosies en affektiewe toestande uit spraak te identifiseer. Omdat ons toon en toonhoogte gebruik om emosies met ons stem uit te druk, is SER relevant. Maar aangesien emosies subjektief is, is klankaantekeninge 'n moeilike taak. Ons sal die mfcc-, chroma- en mel-funksies gebruik en die RAVDESS-datastel vir emosie-herkenning gebruik. Ons sal 'n MLPC-klassifiseerder vir hierdie model skep.

Taal: Python

Datastel/Pakket: RAVDESS-datastel

5. Geslag en Ouderdom Opsporing

Beïndruk werkgewers met die nuutste Data Science-projek - geslag en ouderdom opsporing met OpenCV.

14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

Dit is 'n interessante Data Science met Python. Deur net een beeld te gebruik, sal jy leer hoe om 'n persoon se geslag en ouderdom te voorspel. Hierin sal ons jou bekendstel aan Rekenaarvisie en sy beginsels. Ons sal bou konvolusionele neurale netwerk en sal modelle gebruik wat deur Tal Hassner en Gil Levy op die Adience-datastel opgelei is. Ons sal 'n paar .pb-, .pbtxt-, .prototxt- en .caffemodel-lêers langs die pad gebruik.

Taal: Python

Datastel/Pakket: Gewilligheid

6. Uber-data-analise

Bekyk die volledige implementering van die Data Science-projek met bronkode − Uber-data-analiseprojek in R.

14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

Dit is 'n datavisualiseringsprojek met ggplot2 waarin ons R en sy biblioteke sal gebruik en verskeie parameters sal ontleed. Ons sal die Uber Pickups New York-datastel gebruik en visualiserings vir verskillende tydraamwerke van die jaar skep. Dit vertel ons hoe tyd kliëntereise beïnvloed.

Taal: R

Datastel/Pakket: Uber-bakkies in New York City-datastel

7. Bestuurder Lomerigheid opsporing

Gradeer jou vaardighede op deur aan die Top Data Science Project te werk - slaperigheid opsporing stelsel met OpenCV & Keras.

14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

Slaperig bestuur is uiters gevaarlik, met ongeveer duisend ongelukke elke jaar as gevolg van bestuurders wat aan die slaap raak terwyl hulle bestuur. In hierdie Python-projek sal ons 'n stelsel bou wat slaperige bestuurders kan opspoor en hulle ook met 'n piep kan waarsku.

Hierdie projek word geïmplementeer met behulp van Keras en OpenCV. Ons sal OpenCV gebruik om die gesig en oë op te spoor en met behulp van Keras sal ons die toestand van die oog (Oop of Toe) klassifiseer deur gebruik te maak van diep neurale netwerk metodes.

8.Geselsbot

Bou 'n kletsbot met Python en neem 'n stap vorentoe in jou loopbaan - Chatbot met NLTK en Keras.

14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

Chatbots is 'n integrale deel van besigheid. Baie besighede moet dienste aan hul kliënte bied en dit verg baie mannekrag, tyd en moeite om hulle te bedien. Chatbots kan baie van die kliëntinteraksie outomatiseer deur sommige van die algemene vrae wat kliënte vra te beantwoord. Daar is basies twee tipes kletsbotte: domeinspesifiek en oopdomein. 'n Domeinspesifieke kletsbot word dikwels gebruik om 'n spesifieke probleem op te los. U moet dit dus aanpas om effektief in u veld te werk. Oop-domein kletsbotte kan enige vrae gevra word, dus om hulle op te lei vereis 'n groot hoeveelheid data.

Datastel: Bedoelings json-lêer

Taal: Python

Gevorderde datawetenskapprojekte

9. Image Caption Generator

Kyk na die volledige projekimplementering met bronkode − Image Caption Generator met CNN & LSTM.

14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

Om te beskryf wat in 'n prent is, is 'n maklike taak vir mense, maar vir rekenaars is 'n prent net 'n versameling getalle wat die kleurwaarde van elke pixel verteenwoordig. Dit is 'n moeilike taak vir rekenaars. Om te verstaan ​​wat in 'n beeld is en dan 'n natuurlike taalbeskrywing (bv. Engels) te skep, is nog 'n moeilike taak. Hierdie projek gebruik diepleertegnieke waarin ons 'n konvolusionele neurale netwerk (CNN) met 'n herhalende neurale netwerk (LSTM) implementeer om 'n beeldbeskrywinggenerator te skep.

Datastel: Flickr 8K

Taal: Python

Raamwerk: Keras

10. Opsporing van kredietkaartbedrog

Doen jou bes deur aan Data Science-projekidee te werk − opsporing van kredietkaartbedrog met masjienleer.

14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

Jy het nou al begin om die metodes en konsepte te verstaan. Kom ons gaan aan na 'n paar gevorderde datawetenskapprojekte. In hierdie projek gaan ons die R-taal gebruik met algoritmes soos besluit bome, logistiese regressie, kunsmatige neurale netwerke en gradiëntversterkende klassifiseerder. Ons sal die kaarttransaksiedatastel gebruik om kredietkaarttransaksies as bedrieglik en eg te klassifiseer. Ons sal verskillende modelle daarvoor kies en prestasiekurwes bou.

Taal: R

Datastel/Pakket: Kaarttransaksie-datastel

11. Fliek-aanbevelingstelsel

Verken die implementering van die beste Data Science-projek met Bronkode - Fliekaanbevelingstelsel in R

14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

In hierdie Data Science-projek sal ons R gebruik om die fliek se aanbevelings deur masjienleer uit te voer. Die aanbevelingstelsel stuur voorstelle aan gebruikers deur 'n filterproses gebaseer op ander gebruikers se voorkeure en blaaigeskiedenis. As A en B van Home Alone hou, en B van Mean Girls hou, dan kan jy A voorstel – hulle sal dalk ook daarvan hou. Dit stel kliënte in staat om met die platform te kommunikeer.

Taal: R

Datastel/Pakket: MovieLens-datastel

12. Kliëntesegmentering

Beïndruk werkgewers met 'n Data Science-projek (insluitend bronkode) - Kliëntesegmentering met masjienleer.

14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

Kopersegmentering is 'n gewilde toepassing leer sonder toesig. Deur gebruik te maak van groepering, definieer maatskappye klantsegmente om met 'n potensiële gebruikersbasis te werk. Hulle verdeel klante in groepe volgens gemeenskaplike kenmerke soos geslag, ouderdom, belangstellings en bestedingsgewoontes, sodat hulle hul produkte effektief aan elke groep kan bemark. Ons sal gebruik K-beteken groepering, asook visualiseer die verspreiding volgens geslag en ouderdom. Ons ontleed dan hul jaarlikse inkomste- en uitgawevlakke.

Taal: R

Datastel/Pakket: Mall_Customers datastel

13. Borskankerklassifikasie

Sien die volledige implementering van die Data Science-projek in Python − Borskankerklassifikasie met behulp van diep leer.

14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

Om terug te keer na die mediese bydrae van datawetenskap, kom ons leer hoe om borskanker op te spoor met Python. Ons sal die IDC_regular datastel gebruik om indringende ductale karsinoom, die mees algemene vorm van borskanker, op te spoor. Dit ontwikkel in die melkbuise en dring in die veselagtige of vetterige weefsel van die melkklier buite die buis binne. In hierdie data-insameling wetenskap projek idee, sal ons gebruik Diep leer en die Keras-biblioteek vir klassifikasie.

Taal: Python

Datastel/Pakket: IDC_gereelde

14. Verkeerstekensherkenning

Die bereiking van presisie in selfbesturende motortegnologie met Data Science-projek aan verkeerstekenherkenning met behulp van CNN oop bron.

14 oopbronprojekte om datawetenskapvaardighede te verbeter (maklik, normaal, moeilik)

Padtekens en verkeersreëls is baie belangrik vir elke bestuurder om ongelukke te vermy. Om die reël te volg, moet jy eers verstaan ​​hoe die padteken lyk. 'n Persoon moet alle padtekens leer voordat hy die reg kry om enige voertuig te bestuur. Maar nou groei die aantal outonome voertuie, en in die nabye toekoms sal 'n persoon nie meer 'n motor op sy eie bestuur nie. In die Padtekenherkenning-projek sal jy leer hoe 'n program 'n tipe padteken kan herken deur 'n beeld as inset te neem. Die Duitse Padtekenherkenning-verwysingsdatastel (GTSRB) word gebruik om 'n diep neurale netwerk te bou om die klas te herken waaraan 'n verkeersteken behoort. Ons skep ook 'n eenvoudige GUI vir interaksie met die toepassing.

Taal: Python

Datastel: GTRB (Duitse Verkeerstekenherkenningsmaatstaf)

Lees meer

Bron: will.com

Voeg 'n opmerking