14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

Xjenza tad-Data għall-Bidu

1. Analiżi tas-Sentiment (Analiżi tal-burdata permezz tat-test)

14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

Ara l-implimentazzjoni sħiħa tal-proġett tax-Xjenza tad-Data billi tuża l-kodiċi tas-sors − Proġett ta 'Analiżi tas-Sentiment f'R.

L-Analiżi tas-Sentiment hija l-analiżi tal-kliem biex tidentifika sentimenti u opinjonijiet, li jistgħu jkunu pożittivi jew negattivi. Din hija tip ta’ klassifikazzjoni fejn il-klassijiet jistgħu jkunu binarji (pożittivi u negattivi) jew plurali (kuntenti, rrabjati, imdejjaq, diżgustanti...). Aħna se nimplimentaw dan il-proġett tax-Xjenza tad-Data f'R u se nużaw is-sett tad-dejta fil-pakkett "janeaustenR". Se nużaw dizzjunarji għal skopijiet ġenerali bħal AFINN, bing u loughran, nagħmlu inner join u fl-aħħar noħolqu word cloud biex nuru r-riżultat.

Lingwa: R
Sett tad-Data/Pakkett: janeoustenR

14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

L-artiklu ġie tradott bl-appoġġ ta 'EDISON Software, li jagħmel fitting rooms virtwali għal ħwienet b'ħafna markiU softwer tat-testijiet.

2. Sejbien ta 'Aħbarijiet Foloz

Ħu l-ħiliet tiegħek għal-livell li jmiss billi taħdem fuq il-Proġett tax-Xjenza tad-Data għall-Bidu − sejbien ta' aħbarijiet foloz b'Python.

14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

L-aħbarijiet foloz huma informazzjoni falza mifruxa permezz tal-midja soċjali u midja oħra onlajn sabiex jintlaħqu l-għanijiet politiċi. F'din l-idea tal-proġett Data Science, se nużaw Python biex nibnu mudell li jista 'jiddetermina b'mod preċiż jekk l-aħbarijiet humiex reali jew foloz. Aħna ser noħolqu TfidfVectorizer u nużaw il-PassiveAggressiveClassifier biex nikklassifikaw l-aħbarijiet bħala "reali" u "foloz". Aħna se nużaw dataset ta 'forma 7796 × 4 u nagħmlu kollox f'Jupyter Lab.

Lingwa: Python

Sett tad-Data/Pakkett: aħbarijiet.csv

3. Sejbien tal-Marda ta' Parkinson

Imxi 'l quddiem billi taħdem fuq l-Idea tal-Proġett tax-Xjenza tad-Data − sejbien tal-marda ta' Parkinson b'XGBoost.

14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

Bdejna nużaw id-Data Science biex intejbu l-kura tas-saħħa u s-servizzi - jekk nistgħu nbassru l-marda fi stadju bikri, allura jkollna ħafna vantaġġi. Għalhekk, f'din l-idea tal-proġett tax-Xjenza tad-Data, se nitgħallmu kif niskopru l-marda ta 'Parkinson bl-użu ta' Python. Hija marda newrodeġenerattiva u progressiva tas-sistema nervuża ċentrali li taffettwa l-moviment u tikkawża rogħda u ebusija. Taffettwa n-newroni li jipproduċu d-dopamina fil-moħħ, u kull sena, taffettwa aktar minn miljun ruħ fl-Indja.

Lingwa: Python

Sett tad-Data/Pakkett: Sett tad-dejta tal-UCI ML Parkinsons

Proġetti tax-Xjenza tad-Data ta' kumplessità medja

4. Rikonoxximent tal-Emozzjonijiet tad-Diskors

Iċċekkja l-implimentazzjoni sħiħa tal-proġett kampjun tax-Xjenza tad-Data − rikonoxximent tad-diskors ma’ Librosa.

14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

Ejja issa nitgħallmu kif nużaw libreriji differenti. Dan il-proġett tax-Xjenza tad-Data juża librosa għar-rikonoxximent tad-diskors. SER huwa l-proċess ta 'identifikazzjoni ta' emozzjonijiet umani u stati affettivi mid-diskors. Minħabba li nużaw it-ton u l-pitch biex nesprimu l-emozzjonijiet bil-vuċi tagħna, SER hija rilevanti. Iżda peress li l-emozzjonijiet huma suġġettivi, l-annotazzjoni awdjo hija biċċa xogħol diffiċli. Se nużaw il-funzjonijiet mfcc, chroma u mel u nużaw is-sett tad-dejta RAVDESS għar-rikonoxximent tal-emozzjonijiet. Aħna se noħolqu klassifikatur MLPC għal dan il-mudell.

Lingwa: Python

Sett tad-Data/Pakkett: sett tad-dejta RAVDESS

5. Is-sessi u l-Età

Impressjona lil min iħaddem bl-aħħar proġett tax-Xjenza tad-Data - skoperta tas-sess u l-età b'OpenCV.

14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

Din hija Xjenza tad-Data interessanti b'Python. Billi tuża immaġini waħda biss, titgħallem kif tbassar is-sess u l-età ta 'persuna. F'dan, aħna ser nintroduċu inti għall-Viżjoni tal-Kompjuter u l-prinċipji tagħha. Aħna se nibnu netwerk newrali konvoluzzjonali u se juża mudelli mħarrġa minn Tal Hassner u Gil Levy fuq id-dataset Adience. Se nużaw xi fajls .pb, .pbtxt, .prototxt u .caffemodel tul it-triq.

Lingwa: Python

Sett tad-Data/Pakkett: Adjenza

6. Analiżi tad-Dejta Uber

Ara l-implimentazzjoni sħiħa tal-proġett tax-Xjenza tad-Data bil-kodiċi tas-sors − Proġett ta' Analiżi tad-Dejta Uber f'R.

14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

Dan huwa proġett ta 'viżwalizzazzjoni tad-dejta b'ggplot2 li fih se nużaw R u l-libreriji tiegħu u nanalizzaw diversi parametri. Se nużaw is-sett tad-dejta Uber Pickups New York u noħolqu viżwalizzazzjonijiet għal perjodi ta' żmien differenti tas-sena. Dan jgħidilna kif il-ħin jaffettwa l-vjaġġi tal-klijenti.

Lingwa: R

Sett tad-Data/Pakkett: Uber Pickups fi New York City dataset

7. Sejbien ta' ngħas tas-sewwieq

Aġġorna l-ħiliet tiegħek billi taħdem fuq il-Proġett Top Data Science - sistema ta 'skoperta ta' ngħas b'OpenCV & Keras.

14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

Is-sewqan bi ngħas huwa estremament perikoluż, b’madwar elf inċident kull sena minħabba sewwieqa li jorqdu waqt is-sewqan. F'dan il-proġett Python, se noħolqu sistema li tista' tiskopri sewwieqa bi ngħas u wkoll tavżahom b'ħoss.

Dan il-proġett huwa implimentat bl-użu ta' Keras u OpenCV. Se nużaw OpenCV biex niskopru l-wiċċ u l-għajnejn u bl-għajnuna ta 'Keras se nikklassifikaw l-istat tal-għajn (Miftuħ jew Magħluq) bl-użu ta' metodi ta 'netwerk newrali profond.

8.Chatbot

Ibni chatbot ma' Python u agħmel pass 'il quddiem fil-karriera tiegħek - Chatbot ma' NLTK & Keras.

14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

Iċ-chatbots huma parti integrali min-negozju. Ħafna negozji jridu joffru servizzi lill-klijenti tagħhom u jeħtieġ ħafna ħaddiema, ħin u sforz biex jaqduhom. Chatbots jistgħu awtomatizzati ħafna mill-interazzjoni tal-klijent billi jwieġbu xi wħud mill-mistoqsijiet komuni li jistaqsu l-klijenti. Bażikament hemm żewġ tipi ta 'chatbots: Domain-specific u Open-domain. Chatbot speċifiku għad-dominju huwa spiss użat biex issolvi problema speċifika. Għalhekk, għandek bżonn tippersonalizzaha biex taħdem b'mod effettiv fil-qasam tiegħek. Chatbots ta 'dominju miftuħ jistgħu jintalbu kwalunkwe mistoqsija, għalhekk it-taħriġ tagħhom jeħtieġ ammont kbir ta' dejta.

Sett tad-dejta: Intenti fajl json

Lingwa: Python

Proġetti Avvanzati tax-Xjenza tad-Data

9. Ġeneratur tal-Caption tal-Immaġni

Iċċekkja l-implimentazzjoni sħiħa tal-proġett bil-kodiċi tas-sors − Ġeneratur tal-Caption tal-Immaġni b'CNN & LSTM.

14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

Id-deskrizzjoni ta’ x’hemm f’immaġini hija biċċa xogħol faċli għall-bnedmin, iżda għall-kompjuters, immaġini hija biss ġabra ta’ numri li jirrappreżentaw il-valur tal-kulur ta’ kull pixel. Dan huwa kompitu diffiċli għall-kompjuters. Il-fehim ta' dak li hemm f'immaġini u mbagħad il-ħolqien ta' deskrizzjoni tal-lingwa naturali (eż. l-Ingliż) huwa kompitu diffiċli ieħor. Dan il-proġett juża tekniki ta’ tagħlim fil-fond li fihom nimplimentaw Netwerk Neurali Konvoluzzjonali (CNN) b’Netwerk Neurali Rikorrenti (LSTM) biex noħolqu ġeneratur tad-deskrizzjoni tal-immaġni.

Sett tad-dejta: Flickr 8K

Lingwa: Python

Qafas: Keras

10. Sejbien ta' Frodi tal-Kard ta' Kreditu

Agħmel l-almu tiegħek billi taħdem fuq l-idea tal-proġett Data Science − sejbien ta 'frodi tal-karti ta' kreditu bit-tagħlim tal-magni.

14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

Sa issa bdejt tifhem il-metodi u l-kunċetti. Ejja ngħaddu għal xi proġetti avvanzati tax-xjenza tad-dejta. F'dan il-proġett, se nużaw il-lingwa R b'algoritmi bħal siġar tad-deċiżjonijiet, rigressjoni loġistika, netwerks newrali artifiċjali u klassifikatur li jsaħħaħ il-gradjent. Se nużaw is-sett tad-dejta dwar it-tranżazzjonijiet bil-kards biex nikklassifikaw it-tranżazzjonijiet bil-kards ta’ kreditu bħala frawdolenti u ġenwini. Aħna se nagħżlu mudelli differenti għalihom u nibnu kurvi tal-prestazzjoni.

Lingwa: R

Sett tad-Data/Pakkett: Sett ta' dejta dwar Transazzjonijiet bil-Kard

11. Sistema ta 'Rakkomandazzjoni tal-films

Esplora l-implimentazzjoni tal-aħjar proġett tax-Xjenza tad-Data bil-Kodiċi Sors - Sistema ta’ Rakkomandazzjoni tal-films f’R

14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

F'dan il-proġett tax-Xjenza tad-Data, se nużaw R biex inwettqu r-rakkomandazzjonijiet tal-film permezz tat-tagħlim tal-magni. Is-sistema ta 'rakkomandazzjoni tibgħat suġġerimenti lill-utenti permezz ta' proċess ta 'filtrazzjoni bbażat fuq il-preferenzi ta' utenti oħra u l-istorja tal-ibbrawżjar. Jekk A u B jħobbu Home Alone, u B jħobb Mean Girls, allura tista' tissuġġerixxi A - jistgħu jogħġobhom ukoll. Dan jippermetti lill-klijenti jinteraġixxu mal-pjattaforma.

Lingwa: R

Sett tad-Data/Pakkett: Sett tad-dejta tal-MovieLens

12. Segmentazzjoni tal-Klijent

Impressjona lil min iħaddem bi proġett tax-Xjenza tad-Data (inkluż il-kodiċi tas-sors) - Segmentazzjoni tal-klijenti bit-tagħlim tal-magni.

14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

Is-segmentazzjoni tax-xerrej hija applikazzjoni popolari tagħlim mhux sorveljat. Bl-użu ta 'clustering, il-kumpaniji jiddefinixxu s-segmenti tal-klijenti biex jaħdmu ma' bażi ta 'utenti potenzjali. Huma jaqsmu l-klijenti fi gruppi skont karatteristiċi komuni bħall-ġeneru, l-età, l-interessi u d-drawwiet tal-infiq, sabiex ikunu jistgħu jikkummerċjalizzaw b’mod effettiv il-prodotti tagħhom lil kull grupp. Aħna se nużaw K-tfisser raggruppament, kif ukoll Ħares id-distribuzzjoni skond is-sess u l-età. Imbagħad nanalizzaw il-livelli tad-dħul u n-nefqa annwali tagħhom.

Lingwa: R

Sett tad-Data/Pakkett: Mall_Sett tad-dejta tal-Klijenti

13. Klassifikazzjoni tal-Kanċer tas-Sider

Ara l-implimentazzjoni sħiħa tal-proġett Data Science f'Python − Klassifikazzjoni tal-Kanċer tas-Sider billi tuża Tagħlim Profond.

14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

Nirritornaw għall-kontribut mediku tax-xjenza tad-dejta, ejja nitgħallmu kif niskopru l-kanċer tas-sider b'Python. Se nużaw is-sett tad-dejta IDC_regular biex niskopru karċinoma ductal invażiva, l-aktar forma komuni ta’ kanċer tas-sider. Jiżviluppa fil-kanali tal-ħalib, jippenetra fit-tessut fibruż jew xaħmi tal-glandola mammarja barra l-kanal. F'din l-idea tal-proġett tax-xjenza tal-ġbir tad-dejta, se nużaw Tagħlim fil-fond u l-librerija Keras għall-klassifikazzjoni.

Lingwa: Python

Sett tad-Data/Pakkett: IDC_regular

14. Rikonoxximent tas-Sinjali tat-Traffiku

Il-kisba ta 'preċiżjoni fit-teknoloġija tal-karozzi li ssuq waħedha bil-proġett tax-Xjenza tad-Data fuq rikonoxximent tas-sinjali tat-traffiku bl-użu tas-CNN sors miftuħ.

14-il proġett open-source biex itejbu l-ħiliet tax-Xjenza tad-Data (faċli, normali, diffiċli)

Is-sinjali tat-toroq u r-regoli tat-traffiku huma importanti ħafna għal kull sewwieq biex jevita inċidenti. Biex issegwi r-regola, l-ewwel trid tifhem kif jidher is-sinjal tat-triq. Persuna trid titgħallem is-sinjali kollha tat-toroq qabel ma tingħata d-dritt li ssuq xi vettura. Imma issa n-numru ta 'vetturi awtonomi qed jikber, u fil-futur qarib, persuna mhux se tibqa' ssuq karozza waħedha. Fil-proġett tar-Rikonoxximent tas-Sinjali tat-Toroq, titgħallem kif programm jista’ jagħraf tip ta’ sinjal tat-triq billi tieħu immaġni bħala input. Is-Set ta' Data ta' Referenza għar-Rikonoxximent tas-Sinjali tat-Toroq (GTSRB) Ġermaniż jintuża biex jinbena netwerk newrali profond biex jagħraf il-klassi li għaliha jappartjeni sinjal tat-traffiku. Qed noħolqu wkoll GUI sempliċi għall-interazzjoni mal-applikazzjoni.

Lingwa: Python

Sett tad-dejta: GTRB (Punt ta' Rikonoxximent tas-Sinjali tat-Traffiku Ġermaniż)

Aqra iktar

Sors: www.habr.com

Żid kumment