Sentiment Analysis on sõnade analüüs, et tuvastada tundeid ja arvamusi, mis võivad olla positiivsed või negatiivsed. See on klassifikatsiooni tüüp, kus klassid võivad olla binaarsed (positiivsed ja negatiivsed) või mitmuses (õnnelik, vihane, kurb, vastik...). Rakendame seda Data Science projekti R-is ja kasutame paketis "janeaustenR" olevat andmekogumit. Kasutame üldotstarbelisi sõnastikke nagu AFINN, bing ja loughran, teeme sisemise liitmise ja lõpuks loome tulemuse kuvamiseks sõnapilve.
Võltsuudised on sotsiaalmeedia ja muu veebimeedia kaudu poliitiliste eesmärkide saavutamiseks levitatav valeinformatsioon. Selles Data Science'i projektiidees kasutame Pythonit mudeli loomiseks, mis suudab täpselt kindlaks teha, kas uudised on tõelised või võlts. Loome TfidfVectorizeri ja kasutame PassiveAggressiveClassifierit uudiste klassifitseerimiseks "päris" ja "võlts". Kasutame 7796 × 4 kuju andmestikku ja teeme kõik Jupyteri laboris.
Oleme hakanud kasutama Data Science'i tervishoiu ja teenuste täiustamiseks – kui suudame haigust varajases staadiumis ennustada, on meil palju eeliseid. Seega õpime selles Data Science'i projektiidees, kuidas Pythoni abil Parkinsoni tõbe tuvastada. See on neurodegeneratiivne, progresseeruv kesknärvisüsteemi haigus, mis mõjutab liikumist ja põhjustab värisemist ja jäikust. See mõjutab dopamiini tootvaid neuroneid ajus ja igal aastal mõjutab see üle 1 miljoni inimese Indias.
Õppime nüüd kasutama erinevaid teeke. See Data Science projekt kasutab kõnetuvastuseks librosat. SER on inimese emotsioonide ja afektiivsete seisundite tuvastamise protsess kõne põhjal. Kuna me kasutame oma häälega emotsioonide väljendamiseks tooni ja helikõrgust, on SER asjakohane. Kuid kuna emotsioonid on subjektiivsed, on heliannotatsioon keeruline ülesanne. Kasutame emotsioonide tuvastamiseks funktsioone mfcc, chroma ja mel ning RAVDESSi andmestikku. Loome selle mudeli jaoks MLPC klassifikaatori.
See on Pythoniga huvitav andmeteadus. Ainult ühte pilti kasutades saate teada, kuidas ennustada inimese sugu ja vanust. Selles tutvustame teile Computer Visioni ja selle põhimõtteid. Me ehitame konvolutsiooniline närvivõrk ja kasutab Tal Hassneri ja Gil Levy poolt Adience'i andmestikul koolitatud mudeleid. Kasutame sellel teel mõningaid .pb, .pbtxt, .prototxt ja .caffemodel faile.
See on andmete visualiseerimise projekt ggplot2-ga, milles kasutame R-i ja selle teeke ning analüüsime erinevaid parameetreid. Kasutame Uber Pickups New Yorki andmestikku ja loome visualiseeringud aasta erinevateks ajavahemikeks. See näitab meile, kuidas aeg mõjutab klientide teekondi.
Keel: R
Andmekogum/pakett: Uber Pickups New Yorgis andmekogus
Unine autojuhtimine on äärmiselt ohtlik, igal aastal juhtub umbes tuhat liiklusõnnetust, mille põhjuseks on juhtide magamajäämine sõidu ajal. Selles Pythoni projektis loome süsteemi, mis suudab tuvastada uniseid juhte ja ka neid piiksuga hoiatada.
See projekt on ellu viidud Keras ja OpenCV abil. Kasutame OpenCV-d näo ja silmade tuvastamiseks ning Kerase abil klassifitseerime sügava närvivõrgu meetoditega silma seisundi (avatud või suletud).
Vestlusbotid on äri lahutamatu osa. Paljud ettevõtted peavad oma klientidele teenuseid pakkuma ning nende teenindamiseks kulub palju tööjõudu, aega ja vaeva. Vestlusbotid saavad automatiseerida suure osa klientidega suhtlemisest, vastates mõnele tavalistele küsimustele, mida kliendid küsivad. Põhimõtteliselt on kahte tüüpi vestlusroboteid: domeenispetsiifilised ja avatud domeenid. Konkreetse probleemi lahendamiseks kasutatakse sageli domeenispetsiifilist vestlusbotti. Seega peate seda kohandama, et see teie valdkonnas tõhusalt töötaks. Avatud domeeniga vestlusrobotidele saab esitada mis tahes küsimusi, nii et nende koolitamine nõuab tohutul hulgal andmeid.
Pildil oleva kirjeldamine on inimese jaoks lihtne ülesanne, kuid arvutite jaoks on pilt vaid numbrite kogum, mis tähistab iga piksli värviväärtust. See on arvutite jaoks keeruline ülesanne. Pildil olevast arusaamine ja seejärel loomuliku keele kirjelduse loomine (nt inglise keel) on teine raske ülesanne. See projekt kasutab süvaõppe tehnikaid, mille käigus rakendame pildikirjelduse generaatori loomiseks konvolutsioonilist närvivõrku (CNN) koos korduva närvivõrguga (LSTM).
Nüüdseks olete hakanud meetoditest ja mõistetest aru saama. Liigume edasi mõne täiustatud andmeteaduse projekti juurde. Selles projektis kasutame R-keelt selliste algoritmidega nagu otsustuspuud, logistiline regressioon, tehisnärvivõrgud ja gradiendi võimendamise klassifikaator. Kasutame kaarditehingute andmestikku, et klassifitseerida krediitkaarditehingud petturlikeks ja ehtsateks. Valime neile erinevad mudelid ja koostame jõudluskõverad.
Selles Data Science'i projektis kasutame R-i, et täita masinõppe kaudu filmi soovitusi. Soovitussüsteem saadab kasutajatele soovitusi läbi filtreerimisprotsessi, mis põhineb teiste kasutajate eelistustel ja sirvimisajaloos. Kui A-le ja B-le meeldib Home Alone ja B-le Mean Girls, siis võite soovitada A-d – see võib ka neile meeldida. See võimaldab klientidel platvormiga suhelda.
Ostjate segmenteerimine on populaarne rakendus juhendamata õppimine. Klastrite abil määratlevad ettevõtted potentsiaalse kasutajabaasiga töötamiseks kliendisegmendid. Nad jagavad kliendid rühmadesse vastavalt ühistele tunnustele, nagu sugu, vanus, huvid ja kulutamisharjumused, et nad saaksid oma tooteid igale rühmale tõhusalt turustada. Me kasutame K-tähendab klastrite moodustamist, samuti visualiseerida jaotust soo ja vanuse järgi. Seejärel analüüsime nende iga-aastast sissetulekute ja kulude taset.
Tulles tagasi andmeteaduse meditsiinilise panuse juurde, õpime Pythoni abil rinnavähki tuvastama. Me kasutame IDC_regular andmestikku, et tuvastada invasiivne duktaalne kartsinoom, mis on kõige levinum rinnavähi vorm. See areneb piimajuhades, tungides piimanäärme kiu- või rasvkoesse väljaspool kanalit. Selles andmekogumisteaduse projekti idees kasutame Sügav õppimine ja Kerase raamatukogu klassifitseerimiseks.
Liiklusmärgid ja liikluseeskirjad on iga juhi jaoks õnnetuste vältimiseks väga olulised. Reegli järgimiseks peate esmalt aru saama, kuidas liiklusmärk välja näeb. Inimene peab õppima selgeks kõik liiklusmärgid, enne kui talle antakse mis tahes sõiduki juhtimisõigus. Nüüd aga kasvab autonoomsete sõidukite hulk ning lähiajal ei hakka inimene enam iseseisvalt autoga sõitma. Teeviitade tuvastamise projektis saate teada, kuidas programm suudab tuvastada teatud tüüpi liiklusmärke, võttes sisendiks pildi. Saksa liiklusmärkide tuvastamise viiteandmeid (GTSRB) kasutatakse sügava närvivõrgu ehitamiseks, et tuvastada klass, kuhu liiklusmärk kuulub. Samuti loome rakendusega suhtlemiseks lihtsa graafilise kasutajaliidese.
Keel: Python
Andmekogum: GTRB (Saksa liiklusmärkide tuvastamise etalon)