Shkenca e të dhënave për fillestarët
1. Analiza e ndjenjave (Analiza e ndjenjave përmes tekstit)

Shikoni zbatimin e plotĂ« tĂ« projektit tĂ« ShkencĂ«s sĂ« tĂ« DhĂ«nave duke pĂ«rdorur kodin burimor â .
Analiza e ndjenjave është analiza e fjalëve për të përcaktuar ndjenjat dhe opinionet, të cilat mund të jenë pozitive ose negative. Ky është një lloj klasifikimi në të cilin klasat mund të jenë binare (pozitive dhe negative) ose shumës (të lumtur, të zemëruar, të trishtuar, të keqe...). Ne do ta zbatojmë këtë projekt të Data Science në R dhe do të përdorim grupin e të dhënave në paketën "janeaustenR". Ne do të përdorim fjalorë për qëllime të përgjithshme si AFINN, bing dhe loughran, do të kryejmë një bashkim të brendshëm dhe në fund do të krijojmë një re fjalësh për të shfaqur rezultatin.
Gjuha: R
Grupi i të dhënave/Paketa: janeaustenR
Artikulli është përkthyer me mbështetjen e EDISON Software, i cili Dhe .
2. Zbulimi i lajmeve të rreme
Ngrini aftësitë tuaja në nivelin tjetër duke punuar në një projekt të Shkencës së të Dhënave për fillestarët - .

Lajmet e rreme janĂ« informacion i rremĂ« i pĂ«rhapur pĂ«rmes mediave sociale dhe mediave tĂ« tjera online pĂ«r tĂ« arritur qĂ«llime politike. NĂ« kĂ«tĂ« ide tĂ« projektit tĂ« Data Science, ne do tĂ« pĂ«rdorim Python pĂ«r tĂ« ndĂ«rtuar njĂ« model qĂ« mund tĂ« pĂ«rcaktojĂ« me saktĂ«si nĂ«se njĂ« lajm Ă«shtĂ« i vĂ«rtetĂ« apo i rremĂ«. Ne do tĂ« krijojmĂ« njĂ« TfidfVetorizer dhe do tĂ« pĂ«rdorim njĂ« Klasifikues PasivAgresiv pĂ«r tĂ« klasifikuar lajmet nĂ« "tĂ« vĂ«rteta" dhe "tĂ« rreme". Ne do tĂ« pĂ«rdorim njĂ« grup tĂ« dhĂ«nash tĂ« formĂ«s 7796Ă4 dhe do tĂ« ekzekutojmĂ« gjithçka nĂ« Jupyter Lab.
Gjuha: Piton
Grupi i të dhënave/Paketa: lajme.csv
3. Zbulimi i sëmundjes së Parkinsonit
Ecni përpara me idenë tuaj të projektit të shkencës së të dhënave - .

Ne kemi filluar tĂ« pĂ«rdorim Data Science pĂ«r tĂ« pĂ«rmirĂ«suar kujdesin shĂ«ndetĂ«sor dhe shĂ«rbimet - nĂ«se mund tĂ« parashikojmĂ« njĂ« sĂ«mundje nĂ« njĂ« fazĂ« tĂ« hershme, atĂ«herĂ« do tĂ« kemi shumĂ« pĂ«rparĂ«si. Pra, nĂ« kĂ«tĂ« ide tĂ« projektit tĂ« Data Science, ne do tĂ« mĂ«sojmĂ« se si tĂ« zbulojmĂ« sĂ«mundjen e Parkinsonit duke pĂ«rdorur Python. ĂshtĂ« njĂ« sĂ«mundje neurodegjenerative, progresive e sistemit nervor qendror qĂ« ndikon nĂ« lĂ«vizje dhe shkakton dridhje dhe ngurtĂ«si. Ai prek neuronet qĂ« prodhojnĂ« dopaminĂ« nĂ« tru dhe çdo vit prek mĂ« shumĂ« se 1 milion njerĂ«z nĂ« Indi.
Gjuha: Piton
Grupi i të dhënave/Paketa: Të dhënat e UCI ML Parkinson
Projekte të Shkencës së të Dhënave me kompleksitet mesatar
4. Njohja e emocioneve të të folurit
Shikoni zbatimin e plotĂ« tĂ« projektit shembullor tĂ« Data Science â .

Tani le të mësojmë se si të përdorim biblioteka të ndryshme. Ky projekt i Data Science përdor librosa për njohjen e të folurit. SER është procesi i identifikimit të emocioneve njerëzore dhe gjendjeve afektive nga të folurit. Meqenëse ne përdorim tonin dhe zërin për të shprehur emocionet me zërat tanë, SER është i rëndësishëm. Por meqenëse emocionet janë subjektive, shënimi audio është një detyrë sfiduese. Ne do të përdorim funksionet mfcc, chroma dhe mel dhe do të përdorim grupin e të dhënave RAVDESS për njohjen e emocioneve. Ne do të krijojmë një klasifikues MLPC për këtë model.
Gjuha: Piton
Grupi i të dhënave/Paketa: Të dhënat e të dhënave RAVDESS
5. Zbulimi i gjinisë dhe moshës
Lëshoni përshtypje punëdhënësit me projektin më të fundit të Data Science - .

Kjo është një shkencë interesante e të dhënave me Python. Duke përdorur vetëm një imazh, do të mësoni të parashikoni gjininë dhe moshën e një personi. Në këtë do t'ju njohim me Computer Vision dhe parimet e tij. ne do të ndërtojmë dhe do të përdorë modele të trajnuara nga Tal Hassner dhe Gil Levy në bazën e të dhënave Adience. Gjatë rrugës do të përdorim disa skedarë .pb, .pbtxt, .prototxt dhe .caffemodel.
Gjuha: Piton
Grupi i të dhënave/Paketa: Adience
6. Analiza e të dhënave Uber
Shikoni zbatimin e plotĂ« tĂ« projektit tĂ« Data Science me kodin burimor â .

Ky është një projekt vizualizimi i të dhënave me ggplot2 në të cilin ne do të përdorim R dhe bibliotekat e tij dhe do të analizojmë parametra të ndryshëm. Ne do të përdorim të dhënat e Uber Pickups në New York City dhe do të krijojmë vizualizime për periudha të ndryshme kohore të vitit. Kjo na tregon se si koha ndikon në udhëtimin e klientit.
Gjuha: R
Grupi i të dhënave/Paketa: Marrjet Uber në të dhënat e qytetit të Nju Jorkut
7. Zbulimi i përgjumjes së shoferit
Përmirësoni aftësitë tuaja duke punuar në Projektin Top Data Science - .

Ngasja e përgjumur është jashtëzakonisht e rrezikshme, dhe pothuajse një mijë aksidente ndodhin çdo vit për shkak të shoferëve që u zënë gjumi gjatë vozitjes. Në këtë projekt Python, ne do të krijojmë një sistem që mund të zbulojë drejtuesit e përgjumur dhe gjithashtu t'i paralajmërojë ata me një sinjal audio.
Ky projekt zbatohet duke përdorur Keras dhe OpenCV. Ne do të përdorim OpenCV për zbulimin e fytyrës dhe syve dhe me Keras do të klasifikojmë gjendjen e syrit (të hapur ose të mbyllur) duke përdorur teknikat e rrjetit të thellë nervor.
8.Chatbot
Krijoni një Chatbot me Python dhe bëni një hap përpara në karrierën tuaj - .

Chatbots janë një pjesë integrale e biznesit. Shumë biznese duhet të ofrojnë shërbime për klientët e tyre dhe duhet shumë fuqi punëtore, kohë dhe përpjekje për t'u shërbyer atyre. Chatbots mund të automatizojnë pjesën më të madhe të ndërveprimit me klientët tuaj duke iu përgjigjur disa pyetjeve të zakonshme që bëjnë klientët. Në thelb ekzistojnë dy lloje chatbots: Domain-specific dhe Open-domain. Një chatbot specifik për domenin shpesh përdoret për të zgjidhur një problem specifik. Pra, ju duhet ta personalizoni atë për të punuar në mënyrë efektive në fushën tuaj. Chatbots me domen të hapur mund t'u bëhet çdo pyetje, kështu që trajnimi i tyre kërkon një sasi të madhe të dhënash.
Seti i të dhënave: Skedari i qëllimeve json
Gjuha: Piton
Projekte të avancuara të shkencës së të dhënave
9. Gjeneruesi i titrave të imazhit
Shikoni zbatimin e plotĂ« tĂ« projektit me kodin burimor â .

Përshkrimi i asaj që është në një imazh është një detyrë e lehtë për njerëzit, por për kompjuterët, një imazh është thjesht një seri numrash që përfaqësojnë vlerën e ngjyrës së çdo piksel. Kjo është një detyrë e vështirë për kompjuterët. Kuptimi i asaj që është në një imazh dhe më pas krijimi i një përshkrimi në gjuhën natyrore (siç është anglishtja) është një detyrë tjetër e vështirë. Ky projekt përdor teknika të të mësuarit të thellë në të cilat ne implementojmë një Rrjet Neural Konvolucionist (CNN) me një Rrjet Neural Recurrent (LSTM) për të krijuar një gjenerator të përshkrimit të imazhit.
Seti i të dhënave: Flickr 8K
Gjuha: Piton
Korniza: Keras
10. Zbulimi i mashtrimit me kartën e kreditit
Bëni më të mirën ndërsa punoni në idenë e projektit tuaj të Shkencës së të Dhënave - .

Tani keni filluar të kuptoni teknikat dhe konceptet. Le të kalojmë në disa projekte të avancuara të shkencës së të dhënave. Në këtë projekt do të përdorim gjuhën R me algoritme si , regresioni logjistik, rrjetet nervore artificiale dhe klasifikuesi i rritjes së gradientit. Ne do të përdorim një grup të dhënash të transaksioneve me kartë për të klasifikuar transaksionet me kartë krediti si mashtruese ose të vërteta. Ne do të zgjedhim modele të ndryshme për to dhe do të ndërtojmë kthesa të performancës.
Gjuha: R
Grupi i të dhënave/Paketa: Të dhënat e transaksioneve me karta
11. Sistemi i rekomandimit të filmave
Studioni zbatimin e projektit më të mirë të Data Science me kod burim -

Në këtë projekt të Data Science, ne do të përdorim R për të zbatuar rekomandimet e filmit përmes mësimit të makinës. Sistemi i rekomandimeve u dërgon sugjerime përdoruesve përmes një procesi filtrimi bazuar në preferencat e përdoruesve të tjerë dhe historinë e shfletimit. Nëse A dhe B pëlqejnë Home Alone, dhe B i pëlqejnë Mean Girls, atëherë ju mund t'i sugjeroni A-së - mund t'u pëlqejë edhe atyre. Kjo i lejon klientët të ndërveprojnë me platformën.
Gjuha: R
Grupi i të dhënave/Paketa: Të dhënat e MovieLens
12. Segmentimi i klientit
Lërini përshtypje punëdhënësve me një projekt të Data Science (përfshirë kodin burimor) - .

Segmentimi i blerësve është një aplikacion popullor . Duke përdorur grupimin, kompanitë identifikojnë segmentet e klientëve për të synuar një bazë të mundshme përdoruesish. Ata i ndajnë klientët në grupe sipas karakteristikave të përbashkëta si gjinia, mosha, interesat dhe zakonet e shpenzimeve në mënyrë që ata të mund të tregtojnë në mënyrë efektive produktet e tyre për secilin grup. ne do të përdorim , si dhe vizualizoni shpërndarjen sipas gjinisë dhe moshës. Më pas do të analizojmë nivelet e të ardhurave dhe shpenzimeve të tyre vjetore.
Gjuha: R
Grupi i të dhënave/Paketa: Të dhënat e Mall_Customers
13. Klasifikimi i kancerit të gjirit
Shikoni zbatimin e plotĂ« tĂ« njĂ« projekti tĂ« ShkencĂ«s sĂ« tĂ« DhĂ«nave nĂ« Python â .

Duke u kthyer te kontributi mjekësor i shkencës së të dhënave, le të mësojmë se si të zbulojmë kancerin e gjirit duke përdorur Python. Ne do të përdorim grupin e të dhënave IDC_regular për të identifikuar karcinomën duktale invazive, forma më e zakonshme e kancerit të gjirit. Zhvillohet në kanalet e qumështit, duke u gërmuar në indin fijor ose yndyror të gjirit jashtë kanalit. Në këtë ide të projektit shkencor për mbledhjen e të dhënave ne do të përdorim dhe bibliotekën Keras për klasifikim.
Gjuha: Piton
Grupi i të dhënave/Paketa: IDC_i rregullt
14. Njohja e Shenjave të Komunikacionit
Arritja e saktësisë në teknologjinë e vetëdrejtimit me projektin Data Science burim i hapur.

Shenjat rrugore dhe rregullat e qarkullimit rrugor janë shumë të rëndësishme për çdo shofer për të shmangur aksidentet. Për të ndjekur rregullin, së pari duhet të kuptoni se si duket një shenjë rrugore. Një person duhet të mësojë të gjitha shenjat rrugore përpara se t'i jepet patenta për të drejtuar ndonjë automjet. Por tani numri i automjeteve autonome po rritet, dhe në të ardhmen e afërt një person nuk do të drejtojë më një makinë në mënyrë të pavarur. Në projektin e Njohjes së Shenjave Rrugore, do të mësoni se si një program mund të njohë llojin e shenjave rrugore duke marrë një imazh si hyrje. Baza e të dhënave gjermane të njohjes së shenjave të trafikut (GTSRB) përdoret për të ndërtuar një rrjet nervor të thellë për të njohur klasën së cilës i përket një shenjë trafiku. Ne gjithashtu krijojmë një GUI të thjeshtë për të bashkëvepruar me aplikacionin.
Gjuha: Piton
Seti i të dhënave: GTSRB (Banchmark Gjerman i Njohjes së Shenjave të Trafikut)
Lexo më shumë
Burimi: www.habr.com
