14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Shkenca e të dhënave për fillestarët

1. Analiza e ndjenjave (Analiza e ndjenjave përmes tekstit)

14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Shikoni zbatimin e plotë të projektit të Shkencës së të Dhënave duke përdorur kodin burimor − Projekti i analizës së ndjenjave në R.

Analiza e ndjenjave është analiza e fjalëve për të përcaktuar ndjenjat dhe opinionet, të cilat mund të jenë pozitive ose negative. Ky është një lloj klasifikimi në të cilin klasat mund të jenë binare (pozitive dhe negative) ose shumës (të lumtur, të zemëruar, të trishtuar, të keqe...). Ne do ta zbatojmë këtë projekt të Data Science në R dhe do të përdorim grupin e të dhënave në paketën "janeaustenR". Ne do të përdorim fjalorë për qëllime të përgjithshme si AFINN, bing dhe loughran, do të kryejmë një bashkim të brendshëm dhe në fund do të krijojmë një re fjalësh për të shfaqur rezultatin.

Gjuha: R
Grupi i të dhënave/Paketa: janeaustenR

14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Artikulli është përkthyer me mbështetjen e EDISON Software, i cili bën dhoma virtuale të montimit për dyqane me shumë markaDhe teston softuerin.

2. Zbulimi i lajmeve të rreme

Ngrini aftësitë tuaja në nivelin tjetër duke punuar në një projekt të Shkencës së të Dhënave për fillestarët - zbulimi i lajmeve të rreme me Python.

14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Lajmet e rreme janë informacion i rremë i përhapur përmes mediave sociale dhe mediave të tjera online për të arritur qëllime politike. Në këtë ide të projektit të Data Science, ne do të përdorim Python për të ndërtuar një model që mund të përcaktojë me saktësi nëse një lajm është i vërtetë apo i rremë. Ne do të krijojmë një TfidfVetorizer dhe do të përdorim një Klasifikues PasivAgresiv për të klasifikuar lajmet në "të vërteta" dhe "të rreme". Ne do të përdorim një grup të dhënash të formës 7796×4 dhe do të ekzekutojmë gjithçka në Jupyter Lab.

Gjuha: Piton

Grupi i të dhënave/Paketa: lajme.csv

3. Zbulimi i sëmundjes së Parkinsonit

Ecni përpara me idenë tuaj të projektit të shkencës së të dhënave - zbulimi i sëmundjes së Parkinsonit duke përdorur XGBoost.

14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Ne kemi filluar të përdorim Data Science për të përmirësuar kujdesin shëndetësor dhe shërbimet - nëse mund të parashikojmë një sëmundje në një fazë të hershme, atëherë do të kemi shumë përparësi. Pra, në këtë ide të projektit të Data Science, ne do të mësojmë se si të zbulojmë sëmundjen e Parkinsonit duke përdorur Python. Është një sëmundje neurodegjenerative, progresive e sistemit nervor qendror që ndikon në lëvizje dhe shkakton dridhje dhe ngurtësi. Ai prek neuronet që prodhojnë dopaminë në tru dhe çdo vit prek më shumë se 1 milion njerëz në Indi.

Gjuha: Piton

Grupi i të dhënave/Paketa: Të dhënat e UCI ML Parkinson

Projekte të Shkencës së të Dhënave me kompleksitet mesatar

4. Njohja e emocioneve të të folurit

Shikoni zbatimin e plotë të projektit shembullor të Data Science − njohja e të folurit duke përdorur Librosa.

14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Tani le të mësojmë se si të përdorim biblioteka të ndryshme. Ky projekt i Data Science përdor librosa për njohjen e të folurit. SER është procesi i identifikimit të emocioneve njerëzore dhe gjendjeve afektive nga të folurit. Meqenëse ne përdorim tonin dhe zërin për të shprehur emocionet me zërat tanë, SER është i rëndësishëm. Por meqenëse emocionet janë subjektive, shënimi audio është një detyrë sfiduese. Ne do të përdorim funksionet mfcc, chroma dhe mel dhe do të përdorim grupin e të dhënave RAVDESS për njohjen e emocioneve. Ne do të krijojmë një klasifikues MLPC për këtë model.

Gjuha: Piton

Grupi i të dhënave/Paketa: Të dhënat e të dhënave RAVDESS

5. Zbulimi i gjinisë dhe moshës

Lëshoni përshtypje punëdhënësit me projektin më të fundit të Data Science - përcaktimi i gjinisë dhe moshës duke përdorur OpenCV.

14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Kjo është një shkencë interesante e të dhënave me Python. Duke përdorur vetëm një imazh, do të mësoni të parashikoni gjininë dhe moshën e një personi. Në këtë do t'ju njohim me Computer Vision dhe parimet e tij. ne do të ndërtojmë rrjeti nervor konvolucional dhe do të përdorë modele të trajnuara nga Tal Hassner dhe Gil Levy në bazën e të dhënave Adience. Gjatë rrugës do të përdorim disa skedarë .pb, .pbtxt, .prototxt dhe .caffemodel.

Gjuha: Piton

Grupi i të dhënave/Paketa: Adience

6. Analiza e të dhënave Uber

Shikoni zbatimin e plotë të projektit të Data Science me kodin burimor − Projekti i analizës së të dhënave Uber në R.

14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Ky është një projekt vizualizimi i të dhënave me ggplot2 në të cilin ne do të përdorim R dhe bibliotekat e tij dhe do të analizojmë parametra të ndryshëm. Ne do të përdorim të dhënat e Uber Pickups në New York City dhe do të krijojmë vizualizime për periudha të ndryshme kohore të vitit. Kjo na tregon se si koha ndikon në udhëtimin e klientit.

Gjuha: R

Grupi i të dhënave/Paketa: Marrjet Uber në të dhënat e qytetit të Nju Jorkut

7. Zbulimi i përgjumjes së shoferit

Përmirësoni aftësitë tuaja duke punuar në Projektin Top Data Science - Sistemi i zbulimit të përgjumjes me OpenCV & Keras.

14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Ngasja e përgjumur është jashtëzakonisht e rrezikshme, dhe pothuajse një mijë aksidente ndodhin çdo vit për shkak të shoferëve që u zënë gjumi gjatë vozitjes. Në këtë projekt Python, ne do të krijojmë një sistem që mund të zbulojë drejtuesit e përgjumur dhe gjithashtu t'i paralajmërojë ata me një sinjal audio.

Ky projekt zbatohet duke përdorur Keras dhe OpenCV. Ne do të përdorim OpenCV për zbulimin e fytyrës dhe syve dhe me Keras do të klasifikojmë gjendjen e syrit (të hapur ose të mbyllur) duke përdorur teknikat e rrjetit të thellë nervor.

8.Chatbot

Krijoni një Chatbot me Python dhe bëni një hap përpara në karrierën tuaj - Chatbot me NLTK & Keras.

14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Chatbots janë një pjesë integrale e biznesit. Shumë biznese duhet të ofrojnë shërbime për klientët e tyre dhe duhet shumë fuqi punëtore, kohë dhe përpjekje për t'u shërbyer atyre. Chatbots mund të automatizojnë pjesën më të madhe të ndërveprimit me klientët tuaj duke iu përgjigjur disa pyetjeve të zakonshme që bëjnë klientët. Në thelb ekzistojnë dy lloje chatbots: Domain-specific dhe Open-domain. Një chatbot specifik për domenin shpesh përdoret për të zgjidhur një problem specifik. Pra, ju duhet ta personalizoni atë për të punuar në mënyrë efektive në fushën tuaj. Chatbots me domen të hapur mund t'u bëhet çdo pyetje, kështu që trajnimi i tyre kërkon një sasi të madhe të dhënash.

Seti i të dhënave: Skedari i qëllimeve json

Gjuha: Piton

Projekte të avancuara të shkencës së të dhënave

9. Gjeneruesi i titrave të imazhit

Shikoni zbatimin e plotë të projektit me kodin burimor − Gjenerator i titrave të imazhit me CNN dhe LSTM.

14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Përshkrimi i asaj që është në një imazh është një detyrë e lehtë për njerëzit, por për kompjuterët, një imazh është thjesht një seri numrash që përfaqësojnë vlerën e ngjyrës së çdo piksel. Kjo është një detyrë e vështirë për kompjuterët. Kuptimi i asaj që është në një imazh dhe më pas krijimi i një përshkrimi në gjuhën natyrore (siç është anglishtja) është një detyrë tjetër e vështirë. Ky projekt përdor teknika të të mësuarit të thellë në të cilat ne implementojmë një Rrjet Neural Konvolucionist (CNN) me një Rrjet Neural Recurrent (LSTM) për të krijuar një gjenerator të përshkrimit të imazhit.

Seti i të dhënave: Flickr 8K

Gjuha: Piton

Korniza: Keras

10. Zbulimi i mashtrimit me kartën e kreditit

Bëni më të mirën ndërsa punoni në idenë e projektit tuaj të Shkencës së të Dhënave - zbuloni mashtrimin e kartës së kreditit duke përdorur mësimin e makinerive.

14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Tani keni filluar të kuptoni teknikat dhe konceptet. Le të kalojmë në disa projekte të avancuara të shkencës së të dhënave. Në këtë projekt do të përdorim gjuhën R me algoritme si pemë vendimi, regresioni logjistik, rrjetet nervore artificiale dhe klasifikuesi i rritjes së gradientit. Ne do të përdorim një grup të dhënash të transaksioneve me kartë për të klasifikuar transaksionet me kartë krediti si mashtruese ose të vërteta. Ne do të zgjedhim modele të ndryshme për to dhe do të ndërtojmë kthesa të performancës.

Gjuha: R

Grupi i të dhënave/Paketa: Të dhënat e transaksioneve me karta

11. Sistemi i rekomandimit të filmave

Studioni zbatimin e projektit më të mirë të Data Science me kod burim - Sistemi i rekomandimit të filmit në gjuhën R

14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Në këtë projekt të Data Science, ne do të përdorim R për të zbatuar rekomandimet e filmit përmes mësimit të makinës. Sistemi i rekomandimeve u dërgon sugjerime përdoruesve përmes një procesi filtrimi bazuar në preferencat e përdoruesve të tjerë dhe historinë e shfletimit. Nëse A dhe B pëlqejnë Home Alone, dhe B i pëlqejnë Mean Girls, atëherë ju mund t'i sugjeroni A-së - mund t'u pëlqejë edhe atyre. Kjo i lejon klientët të ndërveprojnë me platformën.

Gjuha: R

Grupi i të dhënave/Paketa: Të dhënat e MovieLens

12. Segmentimi i klientit

Lërini përshtypje punëdhënësve me një projekt të Data Science (përfshirë kodin burimor) - Segmentimi i klientit duke përdorur mësimin e makinerive.

14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Segmentimi i blerësve është një aplikacion popullor të mësuarit pa mbikëqyrje. Duke përdorur grupimin, kompanitë identifikojnë segmentet e klientëve për të synuar një bazë të mundshme përdoruesish. Ata i ndajnë klientët në grupe sipas karakteristikave të përbashkëta si gjinia, mosha, interesat dhe zakonet e shpenzimeve në mënyrë që ata të mund të tregtojnë në mënyrë efektive produktet e tyre për secilin grup. ne do të përdorim K-do të thotë grumbullim, si dhe vizualizoni shpërndarjen sipas gjinisë dhe moshës. Më pas do të analizojmë nivelet e të ardhurave dhe shpenzimeve të tyre vjetore.

Gjuha: R

Grupi i të dhënave/Paketa: Të dhënat e Mall_Customers

13. Klasifikimi i kancerit të gjirit

Shikoni zbatimin e plotë të një projekti të Shkencës së të Dhënave në Python − Klasifikimi i kancerit të gjirit duke përdorur të mësuarit e thellë.

14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Duke u kthyer te kontributi mjekësor i shkencës së të dhënave, le të mësojmë se si të zbulojmë kancerin e gjirit duke përdorur Python. Ne do të përdorim grupin e të dhënave IDC_regular për të identifikuar karcinomën duktale invazive, forma më e zakonshme e kancerit të gjirit. Zhvillohet në kanalet e qumështit, duke u gërmuar në indin fijor ose yndyror të gjirit jashtë kanalit. Në këtë ide të projektit shkencor për mbledhjen e të dhënave ne do të përdorim Mësim i thellë dhe bibliotekën Keras për klasifikim.

Gjuha: Piton

Grupi i të dhënave/Paketa: IDC_i rregullt

14. Njohja e Shenjave të Komunikacionit

Arritja e saktësisë në teknologjinë e vetëdrejtimit me projektin Data Science njohja e shenjave të trafikut duke përdorur CNN burim i hapur.

14 projekte me burim të hapur për të përmirësuar aftësitë e shkencës së të dhënave (të lehta, normale, të vështira)

Shenjat rrugore dhe rregullat e qarkullimit rrugor janë shumë të rëndësishme për çdo shofer për të shmangur aksidentet. Për të ndjekur rregullin, së pari duhet të kuptoni se si duket një shenjë rrugore. Një person duhet të mësojë të gjitha shenjat rrugore përpara se t'i jepet patenta për të drejtuar ndonjë automjet. Por tani numri i automjeteve autonome po rritet, dhe në të ardhmen e afërt një person nuk do të drejtojë më një makinë në mënyrë të pavarur. Në projektin e Njohjes së Shenjave Rrugore, do të mësoni se si një program mund të njohë llojin e shenjave rrugore duke marrë një imazh si hyrje. Baza e të dhënave gjermane të njohjes së shenjave të trafikut (GTSRB) përdoret për të ndërtuar një rrjet nervor të thellë për të njohur klasën së cilës i përket një shenjë trafiku. Ne gjithashtu krijojmë një GUI të thjeshtë për të bashkëvepruar me aplikacionin.

Gjuha: Piton

Seti i të dhënave: GTSRB (Banchmark Gjerman i Njohjes së Shenjave të Trafikut)

Lexo më shumë

Burimi: www.habr.com

Shto një koment