14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Data Science alang sa mga Nagsugod

1. Pagtuki sa Sentimento (Pagtuki sa Sentimento pinaagi sa Teksto)

14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Tan-awa ang kompleto nga pagpatuman sa proyekto sa Data Science gamit ang source code βˆ’ Sentiment Analysis Project sa R.

Ang Pag-analisa sa Sentimento mao ang pag-analisar sa mga pulong aron mahibal-an ang mga sentimento ug opinyon, nga mahimong positibo o negatibo. Kini usa ka matang sa klasipikasyon diin ang mga klase mahimong binary (positibo ug negatibo) o plural (malipayon, masuko, maguol, daotan...). Ipatuman namo kini nga proyekto sa Data Science sa R ​​ug gamiton ang dataset sa package nga "janeaustenR". Gamiton namo ang mga diksyonaryo sa kinatibuk-ang katuyoan sama sa AFINN, bing ug loughran, maghimo ug inner join, ug sa katapusan maghimo kami ug pulong nga panganod aron ipakita ang resulta.

Yano: R
Dataset/Pakete: janeaustenR

14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Ang artikulo gihubad uban ang suporta sa EDISON Software, nga naghimo og mga virtual fitting nga kwarto alang sa mga tindahan nga adunay daghang tatakUg pagsulay sa software.

2. Fake News Detection

Dad-a ang imong kahanas sa sunod nga lebel pinaagi sa pagtrabaho sa usa ka proyekto sa Data Science alang sa mga nagsugod - pagpangita sa peke nga balita sa Python.

14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Ang peke nga balita mao ang bakak nga impormasyon nga gipakaylap pinaagi sa social media ug uban pang online media aron makab-ot ang mga katuyoan sa politika. Niini nga ideya sa proyekto sa Data Science, atong gamiton ang Python sa paghimo ug modelo nga tukma nga makatino kung tinuod ba o peke ang usa ka balita. Maghimo kami usa ka TfidfVectorizer ug mogamit usa ka PassiveAggressiveClassifier aron maklasipikar ang balita sa "tinuod" ug "peke". Maggamit kami usa ka dataset sa porma nga 7796 Γ— 4 ug ipadagan ang tanan sa Jupyter Lab.

Yano: Python

Dataset/Pakete: balita.csv

3. Pag-ila sa Parkinson's Disease

Ipadayon ang imong Ideya sa Proyekto sa Data Science - pag-ila sa sakit nga Parkinson gamit ang XGBoost.

14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Nagsugod kami sa paggamit sa Data Science aron mapaayo ang pag-atiman sa kahimsog ug serbisyo - kung makatagna kami usa ka sakit sa sayo nga yugto, nan kami adunay daghang mga bentaha. Mao nga, sa kini nga ideya sa proyekto sa Data Science, mahibal-an naton kung giunsa ang pag-ila sa sakit nga Parkinson gamit ang Python. Kini usa ka neurodegenerative, progresibong sakit sa sentral nga sistema sa nerbiyos nga makaapekto sa paglihok ug hinungdan sa pagkurog ug pagkagahi. Kini makaapekto sa dopamine-producing neurons sa utok, ug matag tuig, kini makaapekto sa labaw pa sa 1 milyon nga mga tawo sa India.

Yano: Python

Dataset/Pakete: Ang datos sa UCI ML Parkinsons

Mga proyekto sa Data Science sa medium nga pagkakomplikado

4. Pag-ila sa Emosyon sa Pagsulti

Tan-awa ang kompleto nga pagpatuman sa proyekto sa panig-ingnan sa Data Science βˆ’ pag-ila sa sinultihan gamit ang Librosa.

14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Atong tun-an karon unsaon sa paggamit sa lain-laing mga librarya. Kini nga proyekto sa Data Science naggamit sa librosa alang sa pag-ila sa sinultihan. Ang SER mao ang proseso sa pag-ila sa mga emosyon sa tawo ug mga estado sa pagbati gikan sa sinultihan. Tungod kay gigamit namon ang tono ug tono aron ipahayag ang emosyon sa among mga tingog, ang SER adunay kalabotan. Apan tungod kay ang mga emosyon kay suhetibo, ang audio annotation usa ka mahagiton nga buluhaton. Atong gamiton ang mfcc, chroma ug mel functions ug gamiton ang RAVDESS dataset para sa pag-ila sa emosyon. Maghimo kami og MLPC classifier alang niini nga modelo.

Yano: Python

Dataset/Pakete: RAVDESS dataset

5. Gender ug Age Detection

Impress ang mga amo sa pinakabag-o nga proyekto sa Data Science - pagtino sa gender ug edad gamit ang OpenCV.

14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Kini usa ka makapaikag nga Data Science nga adunay Python. Gamit ang usa lang ka imahe, makakat-on ka sa pagtagna sa gender ug edad sa usa ka tawo. Niini among ipaila kanimo ang Computer Vision ug ang mga prinsipyo niini. Magtukod kami convolutional neural network ug mogamit ug mga modelo nga gibansay ni Tal Hassner ug Gil Levy sa Adience dataset. Sa dalan mogamit kami og pipila ka .pb, .pbtxt, .prototxt ug .caffemodel nga mga file.

Yano: Python

Dataset/Pakete: Adience

6. Uber Data Analysis

Tan-awa ang kompleto nga pagpatuman sa proyekto sa Data Science nga adunay source code βˆ’ Uber Data Analysis Project sa R.

14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Kini usa ka proyekto sa pagtan-aw sa datos nga adunay ggplot2 diin among gamiton ang R ug ang mga librarya niini ug analisahon ang lainlaing mga parameter. Gamiton namo ang dataset sa Uber Pickups New York City ug maghimog mga visualization para sa lain-laing time frame sa tuig. Gisultihan kami niini kung giunsa ang epekto sa oras sa pagbiyahe sa kustomer.

Yano: R

Dataset/Pakete: Uber Pickups sa New York City dataset

7. Pagsusi sa Pagduka sa Driver

Pauswaga ang imong kahanas pinaagi sa pagtrabaho sa Top Data Science Project - sistema sa pag-ila sa pagduka nga adunay OpenCV & Keras.

14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Ang pagduka nga pagdrayb hilabihan ka delikado, ug dul-an sa usa ka libo ka aksidente ang mahitabo kada tuig tungod sa mga drayber nga makatulog samtang nagdrayb. Sa kini nga proyekto sa Python, maghimo kami usa ka sistema nga makamatikod sa mga nagduka nga drayber ug alerto usab sila sa usa ka signal sa audio.

Kini nga proyekto gipatuman gamit ang Keras ug OpenCV. Gamiton namon ang OpenCV para sa pagkakita sa nawong ug mata ug uban sa Keras among iklasipikar ang kahimtang sa mata (Bukas o Sirado) gamit ang lawom nga mga teknik sa neural network.

8. Chatbot

Paghimo usa ka Chatbot gamit ang Python ug paghimo usa ka lakang sa unahan sa imong karera - Chatbot uban sa NLTK & Keras.

14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Ang mga chatbot usa ka hinungdanon nga bahin sa negosyo. Daghang mga negosyo ang kinahanglan nga magtanyag mga serbisyo sa ilang mga kostumer ug nanginahanglan daghang tawo, oras ug paningkamot aron maserbisyohan sila. Ang mga chatbots makahimo sa pag-automate sa kadaghanan sa imong interaksyon sa kustomer pinaagi sa pagtubag sa pipila ka kasagarang mga pangutana nga gipangutana sa mga kustomer. Adunay batakan nga duha ka klase sa chatbots: Domain-specific ug Open-domain. Ang chatbot nga espesipiko sa domain sagad gigamit aron masulbad ang usa ka piho nga problema. Busa, kinahanglan nimo nga ipasibo kini aron epektibo nga magtrabaho sa imong uma. Ang mga chatbot sa open-domain mahimong pangutan-on sa bisan unsang mga pangutana, mao nga ang pagbansay kanila nanginahanglan daghang datos.

Set sa datos: Mga katuyoan sa json file

Yano: Python

Mga proyekto sa Advanced Data Science

9. Image Caption Generator

Susihon ang kompleto nga pagpatuman sa proyekto nga adunay source code βˆ’ Image Caption Generator uban sa CNN & LSTM.

14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Ang paghubit kung unsa ang naa sa usa ka imahe usa ka dali nga buluhaton alang sa mga tawo, apan alang sa mga kompyuter, ang usa ka imahe usa lamang ka serye sa mga numero nga nagrepresentar sa kantidad sa kolor sa matag pixel. Kini usa ka lisud nga buluhaton alang sa mga kompyuter. Ang pagsabut kung unsa ang naa sa usa ka imahe ug dayon paghimo usa ka paghulagway sa natural nga sinultian (sama sa English) usa pa ka lisud nga buluhaton. Kini nga proyekto naggamit ug lawom nga mga pamaagi sa pagkat-on diin atong gipatuman ang usa ka Convolutional Neural Network (CNN) nga adunay usa ka Recurrent Neural Network (LSTM) aron makahimo usa ka generator sa paghulagway sa imahe.

Set sa datos: Flickr 8K

Yano: Python

Balay: Keras

10. Pagsusi sa Panglimbong sa Credit Card

Buhata ang imong labing maayo samtang nagtrabaho sa imong ideya sa proyekto sa Data Science βˆ’ makamatikod sa pagpanglimbong sa credit card gamit ang pagkat-on sa makina.

14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Sa pagkakaron nagsugod ka sa pagsabot sa mga teknik ug mga konsepto. Mopadayon kita sa pipila ka mga advanced data science nga proyekto. Niini nga proyekto atong gamiton ang R nga pinulongan nga adunay mga algorithm sama sa mga punoan sa desisyon, logistic regression, artipisyal nga neural network ug gradient boosting classifier. Maggamit kami usa ka dataset sa mga transaksyon sa kard aron maklasipikar ang mga transaksyon sa credit card ingon malimbungon o tinuod. Magpili kami og lain-laing mga modelo alang kanila ug magtukod og mga kurba sa pasundayag.

Yano: R

Dataset/Pakete: Dataset sa mga Transaksyon sa Card

11. Sistema sa Rekomendasyon sa Pelikula

Tun-i ang pagpatuman sa labing kaayo nga proyekto sa Data Science nga adunay Source code - Sistema sa Rekomendasyon sa Pelikula sa pinulongang R

14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Niini nga proyekto sa Data Science, atong gamiton ang R aron ipatuman ang mga rekomendasyon sa salida pinaagi sa pagkat-on sa makina. Ang sistema sa rekomendasyon nagpadala mga sugyot sa mga tiggamit pinaagi sa proseso sa pagsala base sa gusto sa ubang mga tiggamit ug kasaysayan sa pag-browse. Kung si A ug B ganahan sa Home Alone, ug si B ganahan sa Mean Girls, mahimo nimong isugyot ang A - basin ganahan sab sila. Gitugotan niini ang mga kustomer nga makig-uban sa plataporma.

Yano: R

Dataset/Pakete: Ang dataset sa MovieLens

12. Segmentasyon sa Kustomer

Impress ang mga amo sa usa ka proyekto sa Data Science (lakip ang source code) - Pagbahinbahin sa kustomer gamit ang pagkat-on sa makina.

14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Ang pagbahinbahin sa pumapalit usa ka sikat nga aplikasyon unsupervised nga pagkat-on. Gamit ang clustering, giila sa mga kompanya ang mga bahin sa kostumer aron ma-target ang usa ka potensyal nga base sa tiggamit. Gibahinbahin nila ang mga kustomer sa mga grupo sumala sa sagad nga mga kinaiya sama sa gender, edad, interes ug mga batasan sa paggasto aron epektibo nila nga ibaligya ang ilang mga produkto sa matag grupo. Atong gamiton K-nagpasabot sa clustering, ingon man i-visualize ang pag-apod-apod pinaagi sa gender ug edad. Atong analisahon ang ilang tinuig nga lebel sa kita ug gasto.

Yano: R

Dataset/Pakete: Mga datos sa Mall_Customers

13. Klasipikasyon sa Kanser sa Suso

Susihon ang kompleto nga pagpatuman sa usa ka proyekto sa Data Science sa Python βˆ’ Klasipikasyon sa kanser sa suso gamit ang lawom nga pagkat-on.

14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Balik sa medikal nga kontribusyon sa data science, atong tun-an unsaon pag-detect ang breast cancer gamit ang Python. Gamiton namo ang IDC_regular dataset aron mailhan ang invasive ductal carcinoma, ang labing kasagarang porma sa kanser sa suso. Nagtubo kini sa mga duct sa gatas, nga naglubog sa fibrous o fatty breast tissue sa gawas sa duct. Niini nga ideya sa proyekto sa siyensiya sa pagkolekta sa datos atong gamiton Maayong Pagkat-on ug ang Keras library para sa klasipikasyon.

Yano: Python

Dataset/Pakete: IDC_regular

14. Pag-ila sa mga Karatula sa Trapiko

Pagkab-ot sa katukma sa teknolohiya sa pagmaneho sa kaugalingon gamit ang proyekto sa Data Science traffic sign recognition gamit ang CNN bukas nga tinubdan.

14 nga open-source nga mga proyekto aron mapaayo ang mga kahanas sa Data Science (sayon, normal, lisud)

Ang mga karatula sa kadalanan ug mga lagda sa trapiko hinungdanon kaayo alang sa matag drayber aron malikayan ang mga aksidente. Aron masunod ang lagda, kinahanglan una nimong masabtan kung unsa ang hitsura sa usa ka karatula sa dalan. Kinahanglang makat-on ang usa ka tawo sa tanang karatula sa dalan sa dili pa siya hatagan ug lisensiya sa pagmaneho sa bisan unsang sakyanan. Apan karon ang gidaghanon sa mga awtonomous nga mga awto nagkadako, ug sa umaabot nga panahon ang usa ka tawo dili na magmaneho sa awto nga independente. Sa proyekto sa Road Sign Recognition, mahibal-an nimo kung giunsa pag-ila sa usa ka programa ang klase sa mga karatula sa dalan pinaagi sa pagkuha usa ka imahe ingon input. Ang German Traffic Sign Recognition Benchmark (GTSRB) dataset gigamit sa paghimo og lawom nga neural network aron mailhan ang klase diin nahisakop ang usa ka traffic sign. Naghimo usab kami usa ka yano nga GUI aron makig-uban sa aplikasyon.

Yano: Python

Set sa datos: GTSRB (German Traffic Sign Recognition Benchmark)

Basaha ang dugang pa

Source: www.habr.com

Idugang sa usa ka comment