Ang Sentiment Analysis ay ang pagsusuri ng mga salita upang matukoy ang mga sentimyento at opinyon, na maaaring maging positibo o negatibo. Ito ay isang uri ng klasipikasyon kung saan ang mga klase ay maaaring binary (positibo at negatibo) o maramihan (masaya, galit, malungkot, makukulit...). Ipapatupad namin ang proyektong ito ng Data Science sa R ββat gagamitin namin ang dataset sa package na "janeaustenR". Gagamit kami ng mga pangkalahatang layunin na diksyunaryo tulad ng AFINN, bing at loughran, gagawa ng panloob na pagsali at sa dulo ay gagawa kami ng word cloud upang ipakita ang resulta.
Dalhin ang iyong mga kasanayan sa susunod na antas sa pamamagitan ng pagtatrabaho sa Data Science Project para sa mga Nagsisimula β pagtuklas ng pekeng balita gamit ang Python.
Ang fake news ay maling impormasyon na kumakalat sa pamamagitan ng social media at iba pang online media upang makamit ang mga layuning pampulitika. Sa ideya ng proyektong ito ng Data Science, gagamitin namin ang Python para bumuo ng isang modelo na tumpak na matutukoy kung totoo o peke ang balita. Gagawa kami ng TfidfVectorizer at gagamitin ang PassiveAggressiveClassifier para i-classify ang balita sa "real" at "fake". Gagamit kami ng 7796Γ4 na hugis na dataset at gagawin ang lahat sa Jupyter Lab.
Sinimulan na naming gamitin ang Data Science para mapabuti ang pangangalagang pangkalusugan at mga serbisyo - kung mahuhulaan namin ang sakit sa maagang yugto, magkakaroon kami ng maraming pakinabang. Kaya, sa ideya ng proyektong ito ng Data Science, malalaman natin kung paano matukoy ang sakit na Parkinson gamit ang Python. Ito ay isang neurodegenerative, progresibong sakit ng central nervous system na nakakaapekto sa paggalaw at nagiging sanhi ng panginginig at paninigas. Nakakaapekto ito sa mga neuron na gumagawa ng dopamine sa utak, at bawat taon, nakakaapekto ito sa mahigit 1 milyong tao sa India.
Wika: Sawa
Dataset/Package: dataset ng UCI ML Parkinsons
Mga proyekto ng Data Science na may katamtamang pagiging kumplikado
Alamin natin ngayon kung paano gumamit ng iba't ibang mga aklatan. Ang proyektong ito ng Data Science ay gumagamit ng librosa para sa speech recognition. Ang SER ay ang proseso ng pagtukoy ng mga damdamin ng tao at mga estado ng affective mula sa pagsasalita. Dahil ginagamit namin ang tono at pitch para ipahayag ang mga emosyon gamit ang aming boses, may kaugnayan ang SER. Ngunit dahil ang mga emosyon ay subjective, ang audio annotation ay isang mahirap na gawain. Gagamitin namin ang mfcc, chroma at mel function at gagamitin namin ang RAVDESS dataset para sa pagkilala sa emosyon. Gagawa kami ng MLPC classifier para sa modelong ito.
Ito ay isang kawili-wiling Data Science sa Python. Gamit ang isang larawan lamang, matututunan mo kung paano mahulaan ang kasarian at edad ng isang tao. Dito, ipapakilala namin sa iyo ang Computer Vision at ang mga prinsipyo nito. Tayo ang magtatayo convolutional neural network at gagamit ng mga modelong sinanay nina Tal Hassner at Gil Levy sa dataset ng Adience. Gagamit kami ng ilang .pb, .pbtxt, .prototxt at .caffemodel na file sa daan.
Ito ay isang proyekto sa visualization ng data na may ggplot2 kung saan gagamitin namin ang R at ang mga library nito at susuriin ang iba't ibang mga parameter. Gagamitin namin ang dataset ng Uber Pickups New York at gagawa kami ng mga visualization para sa iba't ibang time frame ng taon. Sinasabi nito sa amin kung paano nakakaapekto ang oras sa mga paglalakbay ng customer.
Wika: R
Dataset/Package: Mga Uber Pickup sa dataset ng New York City
Ang inaantok na pagmamaneho ay lubhang mapanganib, na may halos isang libong aksidente bawat taon dahil sa mga driver na natutulog habang nagmamaneho. Sa proyektong ito ng Python, gagawa kami ng isang sistema na makaka-detect ng mga inaantok na driver at maa-alerto din sila sa isang beep.
Ang proyektong ito ay ipinatupad gamit ang Keras at OpenCV. Gagamitin natin ang OpenCV para ma-detect ang mukha at mata at sa tulong ng Keras ay uuriin natin ang estado ng mata (Open or Closed) gamit ang deep neural network method.
8.Chatbot
Bumuo ng chatbot gamit ang Python at gumawa ng isang hakbang pasulong sa iyong karera - Chatbot sa NLTK at Keras.
Ang mga chatbot ay isang mahalagang bahagi ng negosyo. Maraming mga negosyo ang kailangang mag-alok ng mga serbisyo sa kanilang mga customer at nangangailangan ng maraming lakas-tao, oras at pagsisikap upang mapagsilbihan sila. Maaaring i-automate ng mga Chatbot ang karamihan sa pakikipag-ugnayan ng customer sa pamamagitan ng pagsagot sa ilan sa mga karaniwang tanong na itinatanong ng mga customer. Mayroong dalawang uri ng chatbots: Domain-specific at Open-domain. Ang isang chatbot na tukoy sa domain ay kadalasang ginagamit upang malutas ang isang partikular na problema. Kaya, kailangan mong i-customize ito upang gumana nang epektibo sa iyong larangan. Ang mga open-domain na chatbot ay maaaring magtanong ng anumang mga katanungan, kaya ang pagsasanay sa kanila ay nangangailangan ng malaking halaga ng data.
Ang paglalarawan kung ano ang nasa isang imahe ay isang madaling gawain para sa mga tao, ngunit para sa mga computer, ang isang imahe ay isang koleksyon lamang ng mga numero na kumakatawan sa halaga ng kulay ng bawat pixel. Ito ay isang mahirap na gawain para sa mga computer. Ang pag-unawa sa kung ano ang nasa isang imahe at pagkatapos ay ang paglikha ng isang natural na paglalarawan ng wika (hal. English) ay isa pang mahirap na gawain. Gumagamit ang proyektong ito ng mga diskarte sa malalim na pag-aaral kung saan nagpapatupad kami ng Convolutional Neural Network (CNN) na may Recurrent Neural Network (LSTM) upang lumikha ng generator ng paglalarawan ng imahe.
Sa ngayon ay nagsimula ka nang maunawaan ang mga pamamaraan at konsepto. Lumipat tayo sa ilang advanced na proyekto sa agham ng data. Sa proyektong ito, gagamitin namin ang wikang R na may mga algorithm tulad ng mga puno ng desisyon, logistic regression, mga artipisyal na neural network at gradient boosting classifier. Gagamitin namin ang dataset ng mga transaksyon sa card upang uriin ang mga transaksyon sa credit card bilang mapanlinlang at totoo. Pipili kami ng iba't ibang modelo para sa kanila at bubuo kami ng mga curve ng pagganap.
Wika: R
Dataset/Package: Dataset ng Mga Transaksyon sa Card
Sa proyektong ito ng Data Science, gagamitin namin ang R para isagawa ang mga rekomendasyon ng pelikula sa pamamagitan ng machine learning. Ang sistema ng rekomendasyon ay nagpapadala ng mga mungkahi sa mga user sa pamamagitan ng proseso ng pag-filter batay sa mga kagustuhan ng ibang mga user at kasaysayan ng pagba-browse. Kung gusto ni A at B ang Home Alone, at gusto ni B ang Mean Girls, maaari mong imungkahi si A - baka magustuhan din nila ito. Nagbibigay-daan ito sa mga kliyente na makipag-ugnayan sa platform.
Ang segmentasyon ng mamimili ay isang sikat na application hindi pinangangasiwaang pag-aaral. Gamit ang clustering, tinutukoy ng mga kumpanya ang mga segment ng customer para magtrabaho kasama ang potensyal na user base. Hinahati nila ang mga customer sa mga grupo ayon sa mga karaniwang katangian tulad ng kasarian, edad, interes, at mga gawi sa paggastos, upang epektibo nilang maibenta ang kanilang mga produkto sa bawat grupo. Gagamitin natin K-nangangahulugang clustering, pati na rin ilarawan ang pamamahagi ayon sa kasarian at edad. Pagkatapos ay sinusuri namin ang kanilang taunang antas ng kita at paggasta.
Pagbabalik sa kontribusyong medikal ng data science, alamin natin kung paano tuklasin ang breast cancer gamit ang Python. Gagamitin namin ang IDC_regular dataset para matukoy ang invasive ductal carcinoma, ang pinakakaraniwang anyo ng breast cancer. Nabubuo ito sa mga duct ng gatas, na tumatagos sa fibrous o fatty tissue ng mammary gland sa labas ng duct. Sa ideya ng proyektong pang-agham sa pangongolekta ng data na ito, gagamitin namin Malalim na Pag-aaral at ang Keras library para sa pag-uuri.
Wika: Sawa
Dataset/Package: IDC_regular
14. Pagkilala sa mga Tanda ng Trapiko
Pagkamit ng katumpakan sa self-driving na teknolohiya ng kotse kung saan naka-on ang proyekto ng Data Science pagkilala sa traffic sign gamit ang CNN open source.
Ang mga palatandaan sa kalsada at mga patakaran sa trapiko ay napakahalaga para sa bawat driver upang maiwasan ang mga aksidente. Upang sundin ang panuntunan, kailangan mo munang maunawaan kung ano ang hitsura ng karatula sa kalsada. Dapat matutunan ng isang tao ang lahat ng mga palatandaan sa kalsada bago siya bigyan ng karapatang magmaneho ng anumang sasakyan. Ngunit ngayon ang bilang ng mga autonomous na sasakyan ay lumalaki, at sa malapit na hinaharap, ang isang tao ay hindi na magdadala ng kotse sa kanyang sarili. Sa proyekto ng Road Sign Recognition, matututunan mo kung paano makilala ng isang programa ang isang uri ng road sign sa pamamagitan ng pagkuha ng isang imahe bilang input. Ang German Road Sign Recognition Reference Dataset (GTSRB) ay ginagamit upang bumuo ng isang malalim na neural network upang makilala ang klase kung saan kabilang ang isang traffic sign. Gumagawa din kami ng isang simpleng GUI para sa pakikipag-ugnayan sa application.
Wika: Sawa
Set ng data: GTRB (German Traffic Sign Recognition Benchmark)