14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

Data Science foar begjinners

1. Sentimintanalyze (sentimintanalyze fia tekst)

14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

Besjoch de folsleine ymplemintaasje fan Data Science-projekt mei boarnekoade - Sentiment Analysis Project yn R.

Sentimintanalyze is de analyze fan wurden om gefoelens en mieningen te bepalen, dy't posityf of negatyf kinne wêze. Dit is in soarte fan klassifikaasje wêryn klassen binêr wêze kinne (posityf en negatyf) of meartal (lokkich, lilk, tryst, ferfelend ...). Wy sille dit Data Science-projekt yn R ymplementearje en sille de dataset brûke yn it pakket "janeaustenR". Wy sille wurdboeken foar algemiene doelen brûke lykas AFINN, bing en loughran, in ynderlike join útfiere, en oan 'e ein meitsje wy in wurdwolk om it resultaat wer te jaan.

Taal: R
Dataset/pakket: janeausten R

14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

It artikel waard oerset mei de stipe fan EDISON Software, dy't makket firtuele paskeamers foar multi-merk winkels, lykas ek test software.

2. Fake News Detection

Nim jo feardigens nei it folgjende nivo troch te wurkjen oan in Data Science-projekt foar begjinners - falsk nijs opspoaren mei Python.

14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

Fake nijs is falske ynformaasje ferspraat fia sosjale media en oare online media om politike doelen te berikken. Yn dit Data Science-projektidee sille wy Python brûke om in model te bouwen dat sekuer kin bepale oft in nijsferhaal echt of nep is. Wy sille in TfidfVectorizer oanmeitsje en in PassiveAggressiveClassifier brûke om nijs te klassifisearjen yn "echt" en "nep". Wy sille in dataset brûke fan 'e foarm 7796 × 4 en alles útfiere yn Jupyter Lab.

Taal: Python

Dataset/pakket: nijs.csv

3. Detektearje de sykte fan Parkinson

Gean foarút mei jo Data Science Project Idee - it opspoaren fan de sykte fan Parkinson mei XGBoost.

14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

Wy binne Data Science begon te brûken om sûnenssoarch en tsjinsten te ferbetterjen - as wy in sykte yn in ier stadium kinne foarsizze, dan sille wy in protte foardielen hawwe. Dat, yn dit Data Science-projektidee, sille wy leare hoe't wy de sykte fan Parkinson kinne opspoare mei Python. It is in neurodegenerative, progressive sykte fan it sintrale senuwstelsel dy't beweging beynfloedet en tremors en stivens feroarsaket. It beynfloedet dopamine-produsearjende neuronen yn it harsens, en elk jier hat it ynfloed op mear as 1 miljoen minsken yn Yndia.

Taal: Python

Dataset/pakket: UCI ML Parkinsons dataset

Data Science-projekten fan medium kompleksiteit

4. Spraak Emoasje Erkenning

Besjoch de folsleine ymplemintaasje fan it foarbyldprojekt Data Science - spraakherkenning mei Librosa.

14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

Litte wy no leare hoe't jo ferskate bibleteken kinne brûke. Dit Data Science-projekt brûkt librosa foar spraakherkenning. SER is it proses fan it identifisearjen fan minsklike emoasjes en affektive steaten út spraak. Om't wy toan en toanhichte brûke om emoasjes út te drukken mei ús stimmen, is SER relevant. Mar om't emoasjes subjektyf binne, is audioannotaasje in útdaagjende taak. Wy sille mfcc, chroma en mel-funksjes brûke en de RAVDESS-dataset brûke foar emoasjeerkenning. Wy sille in MLPC-klasser meitsje foar dit model.

Taal: Python

Dataset/pakket: RAVDESS dataset

5. Gender en Age Detection

Yndruk meitsje op wurkjouwers mei it lêste Data Science-projekt - it bepalen fan geslacht en leeftyd mei OpenCV.

14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

Dit is in nijsgjirrige Data Science mei Python. Mei mar ien ôfbylding sille jo leare om it geslacht en leeftyd fan in persoan te foarsizzen. Hjiryn sille wy jo yntrodusearje oan Computer Vision en har prinsipes. Wy sille bouwe convolutional neural netwurk en sil modellen brûke oplaat troch Tal Hassner en Gil Levy op de Adience dataset. Underweis sille wy wat .pb-, .pbtxt-, .prototxt- en .caffemodel-bestannen brûke.

Taal: Python

Dataset/pakket: Adience

6. Uber Data Analysis

Besjoch de folsleine ymplemintaasje fan Data Science-projekt mei boarnekoade - Uber Data Analysis Project yn R.

14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

Dit is in datafisualisaasjeprojekt mei ggplot2 wêryn wy R en syn bibleteken sille brûke en ferskate parameters analysearje. Wy sille de Uber Pickups New York City dataset brûke en fisualisaasjes meitsje foar ferskate tiidframes fan it jier. Dit fertelt ús hoe't tiid ynfloed hat op klantreizen.

Taal: R

Dataset/pakket: Uber Pickups yn New York City dataset

7. Driver Drowsiness detection

Ferbetterje jo feardigens troch te wurkjen oan it Top Data Science Project - slaperigheidsdetectiesysteem mei OpenCV & Keras.

14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

Drogerich riden is ekstreem gefaarlik, en elk jier barre der hast tûzen ûngelokken trochdat bestjoerders ûnder it riden yn sliep falle. Yn dit Python-projekt sille wy in systeem meitsje dat slaperige bestjoerders kin detectearje en se ek warskôgje mei in audiosinjaal.

Dit projekt wurdt ymplementearre mei Keras en OpenCV. Wy sille OpenCV brûke foar gesichts- en eachdeteksje en mei Keras sille wy de eachstatus (Iepen of sluten) klassifisearje mei techniken foar djippe neurale netwurken.

8. Chatbot

Meitsje in Chatbot mei Python en nim in stap foarút yn jo karriêre - Chatbot mei NLTK & Keras.

14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

Chatbots binne in yntegraal diel fan bedriuw. In protte bedriuwen moatte tsjinsten oan har klanten oanbiede en it kostet in protte mankrêft, tiid en muoite om har te tsjinjen. Chatbots kinne in protte fan jo klantinteraksje automatisearje troch guon gewoane fragen te beantwurdzjen dy't klanten freegje. D'r binne yn prinsipe twa soarten chatbots: domeinspesifyk en iepen domein. In domein-spesifike chatbot wurdt faak brûkt om in spesifyk probleem op te lossen. Dat, jo moatte it oanpasse om effektyf te wurkjen yn jo fjild. Chatbots mei iepen domein kinne alle fragen steld wurde, dus it oplieden fan se freget in enoarme hoemannichte gegevens.

Gegevens set: Intents json triem

Taal: Python

Avansearre Data Science projekten

9. Image Caption Generator

Besjoch de folsleine ymplemintaasje fan it projekt mei boarnekoade - Image Caption Generator mei CNN & LSTM.

14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

It beskriuwen fan wat der yn in ôfbylding is is in maklike taak foar minsken, mar foar kompjûters is in ôfbylding gewoan in searje sifers dy't de kleurwearde fan elke piksel fertsjintwurdigje. Dit is in drege taak foar kompjûters. Begripe wat der yn in byld stiet en dan in beskriuwing yn natuerlike taal (lykas Ingelsk) meitsje is in oare drege taak. Dit projekt brûkt djippe leartechniken wêryn wy in Convolutional Neural Network (CNN) ymplementearje mei in weromkommend neural netwurk (LSTM) om in ôfbyldingsbeskriuwingsgenerator te meitsjen.

Gegevens set: Flickr 8K

Taal: Python

Kader: Keras

10. Credit Card Fraude Detection

Doch jo bêst wylst jo wurkje oan jo Data Science-projektidee - detect credit card fraude mei help fan masine learen.

14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

No binne jo begon de techniken en begripen te begripen. Litte wy trochgean nei wat avansearre projekten foar gegevenswittenskip. Yn dit projekt sille wy R-taal brûke mei algoritmen lykas beslút beammen, logistyske regression, keunstmjittige neurale netwurken en klassifikaasje foar gradientferbettering. Wy sille in dataset fan kaarttransaksjes brûke om kredytkaarttransaksjes te klassifisearjen as frauduleus of echt. Wy sille ferskate modellen foar har selektearje en prestaasjeskurven bouwe.

Taal: R

Dataset/pakket: Kaart Transaksjes dataset

11. Movie Oanbefelling System

Studearje de ymplemintaasje fan it bêste Data Science-projekt mei Boarnekoade - Filmoanbefellingssysteem yn R-taal

14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

Yn dit Data Science-projekt sille wy R brûke om de oanbefellings fan 'e film te ymplementearjen fia masine learen. It oanbefellingssysteem stjoert suggestjes nei brûkers fia in filterproses basearre op de foarkarren en blêdzjenskiednis fan oare brûkers. As A en B like Home Alone, en B fan Mean Girls, dan kinne jo A foarstelle - se kinne it ek leuk fine. Hjirmei kinne klanten ynteraksje mei it platfoarm.

Taal: R

Dataset/pakket: MovieLens dataset

12. Customer Segmentation

Yndruk meitsje op wurkjouwers mei in Data Science-projekt (ynklusyf boarnekoade) - Klantsegmentaasje mei masine learen.

14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

Keapersegmentaasje is in populêre applikaasje sûnder tafersjoch learen. Mei help fan klustering identifisearje bedriuwen klantsegminten om in potinsjele brûkersbasis te rjochtsjen. Se ferdiele klanten yn groepen neffens mienskiplike skaaimerken lykas geslacht, leeftyd, ynteresses en bestegingsgewoanten, sadat se har produkten effektyf kinne ferkeapje oan elke groep. Wy sille brûke K-betsjut klustering, en ek fisualisearje de ferdieling troch geslacht en leeftyd. Wy sille dan har jierlikse ynkomsten en útjeftennivo's analysearje.

Taal: R

Dataset/pakket: Mall_Customers dataset

13. Breast Cancer Classification

Besjoch de folsleine ymplemintaasje fan in Data Science-projekt yn Python - Klassifikaasje fan boarstkanker mei djip learen.

14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

Werom nei de medyske bydrage fan gegevenswittenskip, litte wy leare hoe't jo boarstkanker kinne opspoare mei Python. Wy sille de IDC_regular dataset brûke om invasive ductal carcinoma te identifisearjen, de meast foarkommende foarm fan boarstkanker. It ûntwikkelt yn 'e molke kanalen, burrowing yn' e fibrous of fatty boarst weefsel bûten it kanaal. Yn dit wittenskiplike projektidee foar gegevenssammeling sille wy brûke Djippe learen en de Keras-bibleteek foar klassifikaasje.

Taal: Python

Dataset/pakket: IDC_regulier

14. Ferkearsbuorden Erkenning

It berikken fan presyzje yn selsridende technology mei Data Science-projekt ferkearsteken erkenning mei CNN iepen Boarne.

14 iepen boarne-projekten om feardigens yn gegevenswittenskip te ferbetterjen (maklik, normaal, hurd)

Ferkearsbuorden en ferkearsregels binne heul wichtich foar elke bestjoerder om ûngelokken te foarkommen. Om de regel te folgjen, moatte jo earst begripe hoe't in ferkearsboerd derút sjocht. In persoan moat alle ferkearsbuorden leare foardat hy de lisinsje krijt om in auto te riden. Mar no groeit it oantal autonome auto's, en yn 'e heine takomst sil in persoan net langer in auto selsstannich ride. Yn it projekt Road Sign Recognition sille jo leare hoe't in programma it type ferkearsbuorden kin werkenne troch in ôfbylding as ynfier te nimmen. De dataset fan 'e German Traffic Sign Recognition Benchmark (GTSRB) wurdt brûkt om in djip neuraal netwurk te bouwen om de klasse te werkennen wêr't in ferkearsteken heart. Wy meitsje ek in ienfâldige GUI om te ynteraksje mei de applikaasje.

Taal: Python

Gegevens set: GTSRB (German Traffic Sign Recognition Benchmark)

Lês mear

Boarne: www.habr.com

Add a comment