14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Data Science para sa Mga Nagsisimula

1. Pagsusuri ng Sentimento (Pagsusuri ng Mood sa pamamagitan ng teksto)

14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Tingnan ang kumpletong pagpapatupad ng proyekto ng Data Science gamit ang source code βˆ’ Proyekto sa Pagsusuri ng Sentimento sa R.

Ang Sentiment Analysis ay ang pagsusuri ng mga salita upang matukoy ang mga sentimyento at opinyon, na maaaring maging positibo o negatibo. Ito ay isang uri ng klasipikasyon kung saan ang mga klase ay maaaring binary (positibo at negatibo) o maramihan (masaya, galit, malungkot, makukulit...). Ipapatupad namin ang proyektong ito ng Data Science sa R ​​at gagamitin namin ang dataset sa package na "janeaustenR". Gagamit kami ng mga pangkalahatang layunin na diksyunaryo tulad ng AFINN, bing at loughran, gagawa ng panloob na pagsali at sa dulo ay gagawa kami ng word cloud upang ipakita ang resulta.

Wika: R
Dataset/Package: janeoustenR

14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Ang artikulo ay isinalin sa suporta ng EDISON Software, na gumagawa ng mga virtual fitting room para sa mga multi-brand na tindahanAt sumusubok ng software.

2. Pagtuklas ng Pekeng Balita

Dalhin ang iyong mga kasanayan sa susunod na antas sa pamamagitan ng pagtatrabaho sa Data Science Project para sa mga Nagsisimula βˆ’ pagtuklas ng pekeng balita gamit ang Python.

14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Ang fake news ay maling impormasyon na kumakalat sa pamamagitan ng social media at iba pang online media upang makamit ang mga layuning pampulitika. Sa ideya ng proyektong ito ng Data Science, gagamitin namin ang Python para bumuo ng isang modelo na tumpak na matutukoy kung totoo o peke ang balita. Gagawa kami ng TfidfVectorizer at gagamitin ang PassiveAggressiveClassifier para i-classify ang balita sa "real" at "fake". Gagamit kami ng 7796Γ—4 na hugis na dataset at gagawin ang lahat sa Jupyter Lab.

Wika: Sawa

Dataset/Package: balita.csv

3. Pag-detect ng Parkinson's Disease

Sumulong sa pamamagitan ng pagtatrabaho sa Ideya ng Proyekto ng Data Science βˆ’ pagtuklas ng sakit na Parkinson sa XGBoost.

14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Sinimulan na naming gamitin ang Data Science para mapabuti ang pangangalagang pangkalusugan at mga serbisyo - kung mahuhulaan namin ang sakit sa maagang yugto, magkakaroon kami ng maraming pakinabang. Kaya, sa ideya ng proyektong ito ng Data Science, malalaman natin kung paano matukoy ang sakit na Parkinson gamit ang Python. Ito ay isang neurodegenerative, progresibong sakit ng central nervous system na nakakaapekto sa paggalaw at nagiging sanhi ng panginginig at paninigas. Nakakaapekto ito sa mga neuron na gumagawa ng dopamine sa utak, at bawat taon, nakakaapekto ito sa mahigit 1 milyong tao sa India.

Wika: Sawa

Dataset/Package: dataset ng UCI ML Parkinsons

Mga proyekto ng Data Science na may katamtamang pagiging kumplikado

4. Pagkilala sa Emosyon ng Pagsasalita

Tingnan ang buong pagpapatupad ng sample na proyekto ng Data Science βˆ’ speech recognition kasama si Librosa.

14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Alamin natin ngayon kung paano gumamit ng iba't ibang mga aklatan. Ang proyektong ito ng Data Science ay gumagamit ng librosa para sa speech recognition. Ang SER ay ang proseso ng pagtukoy ng mga damdamin ng tao at mga estado ng affective mula sa pagsasalita. Dahil ginagamit namin ang tono at pitch para ipahayag ang mga emosyon gamit ang aming boses, may kaugnayan ang SER. Ngunit dahil ang mga emosyon ay subjective, ang audio annotation ay isang mahirap na gawain. Gagamitin namin ang mfcc, chroma at mel function at gagamitin namin ang RAVDESS dataset para sa pagkilala sa emosyon. Gagawa kami ng MLPC classifier para sa modelong ito.

Wika: Sawa

Dataset/Package: RAVDESS dataset

5. Pagtukoy sa Kasarian at Edad

Pahangain ang mga employer sa pinakabagong proyekto ng Data Science - pagtukoy ng kasarian at edad gamit ang OpenCV.

14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Ito ay isang kawili-wiling Data Science sa Python. Gamit ang isang larawan lamang, matututunan mo kung paano mahulaan ang kasarian at edad ng isang tao. Dito, ipapakilala namin sa iyo ang Computer Vision at ang mga prinsipyo nito. Tayo ang magtatayo convolutional neural network at gagamit ng mga modelong sinanay nina Tal Hassner at Gil Levy sa dataset ng Adience. Gagamit kami ng ilang .pb, .pbtxt, .prototxt at .caffemodel na file sa daan.

Wika: Sawa

Dataset/Package: Adience

6. Pagsusuri ng Data ng Uber

Tingnan ang kumpletong pagpapatupad ng proyekto ng Data Science na may source code βˆ’ Uber Data Analysis Project sa R.

14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Ito ay isang proyekto sa visualization ng data na may ggplot2 kung saan gagamitin namin ang R at ang mga library nito at susuriin ang iba't ibang mga parameter. Gagamitin namin ang dataset ng Uber Pickups New York at gagawa kami ng mga visualization para sa iba't ibang time frame ng taon. Sinasabi nito sa amin kung paano nakakaapekto ang oras sa mga paglalakbay ng customer.

Wika: R

Dataset/Package: Mga Uber Pickup sa dataset ng New York City

7. Pagtuklas ng Pag-aantok ng Driver

I-upgrade ang iyong mga kasanayan sa pamamagitan ng pagtatrabaho sa Top Data Science Project - sistema ng pagtukoy ng antok na may OpenCV at Keras.

14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Ang inaantok na pagmamaneho ay lubhang mapanganib, na may halos isang libong aksidente bawat taon dahil sa mga driver na natutulog habang nagmamaneho. Sa proyektong ito ng Python, gagawa kami ng isang sistema na makaka-detect ng mga inaantok na driver at maa-alerto din sila sa isang beep.

Ang proyektong ito ay ipinatupad gamit ang Keras at OpenCV. Gagamitin natin ang OpenCV para ma-detect ang mukha at mata at sa tulong ng Keras ay uuriin natin ang estado ng mata (Open or Closed) gamit ang deep neural network method.

8.Chatbot

Bumuo ng chatbot gamit ang Python at gumawa ng isang hakbang pasulong sa iyong karera - Chatbot sa NLTK at Keras.

14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Ang mga chatbot ay isang mahalagang bahagi ng negosyo. Maraming mga negosyo ang kailangang mag-alok ng mga serbisyo sa kanilang mga customer at nangangailangan ng maraming lakas-tao, oras at pagsisikap upang mapagsilbihan sila. Maaaring i-automate ng mga Chatbot ang karamihan sa pakikipag-ugnayan ng customer sa pamamagitan ng pagsagot sa ilan sa mga karaniwang tanong na itinatanong ng mga customer. Mayroong dalawang uri ng chatbots: Domain-specific at Open-domain. Ang isang chatbot na tukoy sa domain ay kadalasang ginagamit upang malutas ang isang partikular na problema. Kaya, kailangan mong i-customize ito upang gumana nang epektibo sa iyong larangan. Ang mga open-domain na chatbot ay maaaring magtanong ng anumang mga katanungan, kaya ang pagsasanay sa kanila ay nangangailangan ng malaking halaga ng data.

Set ng data: Intents json file

Wika: Sawa

Mga advanced na proyekto sa Data Science

9. Image Caption Generator

Tingnan ang kumpletong pagpapatupad ng proyekto na may source code βˆ’ Image Caption Generator na may CNN at LSTM.

14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Ang paglalarawan kung ano ang nasa isang imahe ay isang madaling gawain para sa mga tao, ngunit para sa mga computer, ang isang imahe ay isang koleksyon lamang ng mga numero na kumakatawan sa halaga ng kulay ng bawat pixel. Ito ay isang mahirap na gawain para sa mga computer. Ang pag-unawa sa kung ano ang nasa isang imahe at pagkatapos ay ang paglikha ng isang natural na paglalarawan ng wika (hal. English) ay isa pang mahirap na gawain. Gumagamit ang proyektong ito ng mga diskarte sa malalim na pag-aaral kung saan nagpapatupad kami ng Convolutional Neural Network (CNN) na may Recurrent Neural Network (LSTM) upang lumikha ng generator ng paglalarawan ng imahe.

Set ng data: Flickr 8K

Wika: Sawa

Framework: Keras

10. Pagtukoy sa Panloloko sa Credit Card

Gawin ang iyong makakaya sa pamamagitan ng pagtatrabaho sa ideya ng proyekto ng Data Science βˆ’ pagtuklas ng pandaraya sa credit card gamit ang machine learning.

14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Sa ngayon ay nagsimula ka nang maunawaan ang mga pamamaraan at konsepto. Lumipat tayo sa ilang advanced na proyekto sa agham ng data. Sa proyektong ito, gagamitin namin ang wikang R na may mga algorithm tulad ng mga puno ng desisyon, logistic regression, mga artipisyal na neural network at gradient boosting classifier. Gagamitin namin ang dataset ng mga transaksyon sa card upang uriin ang mga transaksyon sa credit card bilang mapanlinlang at totoo. Pipili kami ng iba't ibang modelo para sa kanila at bubuo kami ng mga curve ng pagganap.

Wika: R

Dataset/Package: Dataset ng Mga Transaksyon sa Card

11. Sistema ng Rekomendasyon ng Pelikula

Galugarin ang pagpapatupad ng pinakamahusay na proyekto ng Data Science na may Source Code - Sistema ng Rekomendasyon ng Pelikula sa R

14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Sa proyektong ito ng Data Science, gagamitin namin ang R para isagawa ang mga rekomendasyon ng pelikula sa pamamagitan ng machine learning. Ang sistema ng rekomendasyon ay nagpapadala ng mga mungkahi sa mga user sa pamamagitan ng proseso ng pag-filter batay sa mga kagustuhan ng ibang mga user at kasaysayan ng pagba-browse. Kung gusto ni A at B ang Home Alone, at gusto ni B ang Mean Girls, maaari mong imungkahi si A - baka magustuhan din nila ito. Nagbibigay-daan ito sa mga kliyente na makipag-ugnayan sa platform.

Wika: R

Dataset/Package: dataset ng MovieLens

12. Segmentation ng Customer

Pahangain ang mga employer sa isang proyekto ng Data Science (kabilang ang source code) - Pag-segment ng customer gamit ang machine learning.

14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Ang segmentasyon ng mamimili ay isang sikat na application hindi pinangangasiwaang pag-aaral. Gamit ang clustering, tinutukoy ng mga kumpanya ang mga segment ng customer para magtrabaho kasama ang potensyal na user base. Hinahati nila ang mga customer sa mga grupo ayon sa mga karaniwang katangian tulad ng kasarian, edad, interes, at mga gawi sa paggastos, upang epektibo nilang maibenta ang kanilang mga produkto sa bawat grupo. Gagamitin natin K-nangangahulugang clustering, pati na rin ilarawan ang pamamahagi ayon sa kasarian at edad. Pagkatapos ay sinusuri namin ang kanilang taunang antas ng kita at paggasta.

Wika: R

Dataset/Package: Dataset ng Mall_Customers

13. Pag-uuri ng Kanser sa Suso

Tingnan ang kumpletong pagpapatupad ng proyekto ng Data Science sa Python βˆ’ Pag-uuri ng Kanser sa Suso Gamit ang Malalim na Pag-aaral.

14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Pagbabalik sa kontribusyong medikal ng data science, alamin natin kung paano tuklasin ang breast cancer gamit ang Python. Gagamitin namin ang IDC_regular dataset para matukoy ang invasive ductal carcinoma, ang pinakakaraniwang anyo ng breast cancer. Nabubuo ito sa mga duct ng gatas, na tumatagos sa fibrous o fatty tissue ng mammary gland sa labas ng duct. Sa ideya ng proyektong pang-agham sa pangongolekta ng data na ito, gagamitin namin Malalim na Pag-aaral at ang Keras library para sa pag-uuri.

Wika: Sawa

Dataset/Package: IDC_regular

14. Pagkilala sa mga Tanda ng Trapiko

Pagkamit ng katumpakan sa self-driving na teknolohiya ng kotse kung saan naka-on ang proyekto ng Data Science pagkilala sa traffic sign gamit ang CNN open source.

14 na open-source na proyekto upang mapabuti ang mga kasanayan sa Data Science (madali, normal, mahirap)

Ang mga palatandaan sa kalsada at mga patakaran sa trapiko ay napakahalaga para sa bawat driver upang maiwasan ang mga aksidente. Upang sundin ang panuntunan, kailangan mo munang maunawaan kung ano ang hitsura ng karatula sa kalsada. Dapat matutunan ng isang tao ang lahat ng mga palatandaan sa kalsada bago siya bigyan ng karapatang magmaneho ng anumang sasakyan. Ngunit ngayon ang bilang ng mga autonomous na sasakyan ay lumalaki, at sa malapit na hinaharap, ang isang tao ay hindi na magdadala ng kotse sa kanyang sarili. Sa proyekto ng Road Sign Recognition, matututunan mo kung paano makilala ng isang programa ang isang uri ng road sign sa pamamagitan ng pagkuha ng isang imahe bilang input. Ang German Road Sign Recognition Reference Dataset (GTSRB) ay ginagamit upang bumuo ng isang malalim na neural network upang makilala ang klase kung saan kabilang ang isang traffic sign. Gumagawa din kami ng isang simpleng GUI para sa pakikipag-ugnayan sa application.

Wika: Sawa

Set ng data: GTRB (German Traffic Sign Recognition Benchmark)

Magbasa pa

Pinagmulan: www.habr.com

Magdagdag ng komento