14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

Andmeteadus algajatele

1. Sentiment Analysis (meeleolu analüüs teksti kaudu)

14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

Vaadake Data Science projekti täielikku rakendamist lähtekoodi abil − Sentiment Analysis Project R.

Sentiment Analysis on sõnade analüüs, et tuvastada tundeid ja arvamusi, mis võivad olla positiivsed või negatiivsed. See on klassifikatsiooni tüüp, kus klassid võivad olla binaarsed (positiivsed ja negatiivsed) või mitmuses (õnnelik, vihane, kurb, vastik...). Rakendame seda Data Science projekti R-is ja kasutame paketis "janeaustenR" olevat andmekogumit. Kasutame üldotstarbelisi sõnastikke nagu AFINN, bing ja loughran, teeme sisemise liitmise ja lõpuks loome tulemuse kuvamiseks sõnapilve.

Keel: R
Andmekogum/pakett: janeoustenR

14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

Artikkel on tõlgitud EDISON Tarkvara toel, mis teeb virtuaalseid proovikabiine mitme kaubamärgi kauplustele ning testib tarkvara.

2. Võltsuudiste tuvastamine

Viige oma oskused järgmisele tasemele, töötades algajatele mõeldud andmeteaduse projekti kallal võltsuudiste tuvastamine Pythoni abil.

14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

Võltsuudised on sotsiaalmeedia ja muu veebimeedia kaudu poliitiliste eesmärkide saavutamiseks levitatav valeinformatsioon. Selles Data Science'i projektiidees kasutame Pythonit mudeli loomiseks, mis suudab täpselt kindlaks teha, kas uudised on tõelised või võlts. Loome TfidfVectorizeri ja kasutame PassiveAggressiveClassifierit uudiste klassifitseerimiseks "päris" ja "võlts". Kasutame 7796 × 4 kuju andmestikku ja teeme kõik Jupyteri laboris.

Keel: Python

Andmekogum/pakett: news.csv

3. Parkinsoni tõve avastamine

Liikuge edasi, töötades andmeteaduse projekti ideega − Parkinsoni tõve avastamine XGBoostiga.

14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

Oleme hakanud kasutama Data Science'i tervishoiu ja teenuste täiustamiseks – kui suudame haigust varajases staadiumis ennustada, on meil palju eeliseid. Seega õpime selles Data Science'i projektiidees, kuidas Pythoni abil Parkinsoni tõbe tuvastada. See on neurodegeneratiivne, progresseeruv kesknärvisüsteemi haigus, mis mõjutab liikumist ja põhjustab värisemist ja jäikust. See mõjutab dopamiini tootvaid neuroneid ajus ja igal aastal mõjutab see üle 1 miljoni inimese Indias.

Keel: Python

Andmekogum/pakett: UCI ML Parkinsonsi andmestik

Keskmise keerukusega andmeteaduse projektid

4. Kõne Emotsioonide äratundmine

Tutvuge andmeteaduse näidisprojekti täieliku rakendamisega − kõnetuvastus Librosa abil.

14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

Õppime nüüd kasutama erinevaid teeke. See Data Science projekt kasutab kõnetuvastuseks librosat. SER on inimese emotsioonide ja afektiivsete seisundite tuvastamise protsess kõne põhjal. Kuna me kasutame oma häälega emotsioonide väljendamiseks tooni ja helikõrgust, on SER asjakohane. Kuid kuna emotsioonid on subjektiivsed, on heliannotatsioon keeruline ülesanne. Kasutame emotsioonide tuvastamiseks funktsioone mfcc, chroma ja mel ning RAVDESSi andmestikku. Loome selle mudeli jaoks MLPC klassifikaatori.

Keel: Python

Andmekogum/pakett: RAVDESS andmestik

5. Soo ja vanuse tuvastamine

Jälgige tööandjaid uusima andmeteaduse projektiga - soo ja vanuse tuvastamine OpenCV abil.

14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

See on Pythoniga huvitav andmeteadus. Ainult ühte pilti kasutades saate teada, kuidas ennustada inimese sugu ja vanust. Selles tutvustame teile Computer Visioni ja selle põhimõtteid. Me ehitame konvolutsiooniline närvivõrk ja kasutab Tal Hassneri ja Gil Levy poolt Adience'i andmestikul koolitatud mudeleid. Kasutame sellel teel mõningaid .pb, .pbtxt, .prototxt ja .caffemodel faile.

Keel: Python

Andmekogum/pakett: Adience

6. Uberi andmete analüüs

Vaadake Data Science projekti täielikku rakendamist lähtekoodiga − Uberi andmeanalüüsi projekt R.

14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

See on andmete visualiseerimise projekt ggplot2-ga, milles kasutame R-i ja selle teeke ning analüüsime erinevaid parameetreid. Kasutame Uber Pickups New Yorki andmestikku ja loome visualiseeringud aasta erinevateks ajavahemikeks. See näitab meile, kuidas aeg mõjutab klientide teekondi.

Keel: R

Andmekogum/pakett: Uber Pickups New Yorgis andmekogus

7. Juhi uimasuse tuvastamine

Täiendage oma oskusi, töötades tippandmete teaduse projektis - unisuse tuvastamise süsteem OpenCV ja Kerasega.

14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

Unine autojuhtimine on äärmiselt ohtlik, igal aastal juhtub umbes tuhat liiklusõnnetust, mille põhjuseks on juhtide magamajäämine sõidu ajal. Selles Pythoni projektis loome süsteemi, mis suudab tuvastada uniseid juhte ja ka neid piiksuga hoiatada.

See projekt on ellu viidud Keras ja OpenCV abil. Kasutame OpenCV-d näo ja silmade tuvastamiseks ning Kerase abil klassifitseerime sügava närvivõrgu meetoditega silma seisundi (avatud või suletud).

8. Vestlusbot

Ehitage Pythoniga vestlusbot ja astuge oma karjääris samm edasi - Vestlusbot NLTK ja Kerasega.

14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

Vestlusbotid on äri lahutamatu osa. Paljud ettevõtted peavad oma klientidele teenuseid pakkuma ning nende teenindamiseks kulub palju tööjõudu, aega ja vaeva. Vestlusbotid saavad automatiseerida suure osa klientidega suhtlemisest, vastates mõnele tavalistele küsimustele, mida kliendid küsivad. Põhimõtteliselt on kahte tüüpi vestlusroboteid: domeenispetsiifilised ja avatud domeenid. Konkreetse probleemi lahendamiseks kasutatakse sageli domeenispetsiifilist vestlusbotti. Seega peate seda kohandama, et see teie valdkonnas tõhusalt töötaks. Avatud domeeniga vestlusrobotidele saab esitada mis tahes küsimusi, nii et nende koolitamine nõuab tohutul hulgal andmeid.

Andmekogum: Intents json-fail

Keel: Python

Täiustatud andmeteaduse projektid

9. Pilditiitrite generaator

Tutvuge kogu projekti teostusega koos lähtekoodiga − Pilditiitrite generaator koos CNN-i ja LSTM-iga.

14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

Pildil oleva kirjeldamine on inimese jaoks lihtne ülesanne, kuid arvutite jaoks on pilt vaid numbrite kogum, mis tähistab iga piksli värviväärtust. See on arvutite jaoks keeruline ülesanne. Pildil olevast arusaamine ja seejärel loomuliku keele kirjelduse loomine (nt inglise keel) on teine ​​raske ülesanne. See projekt kasutab süvaõppe tehnikaid, mille käigus rakendame pildikirjelduse generaatori loomiseks konvolutsioonilist närvivõrku (CNN) koos korduva närvivõrguga (LSTM).

Andmekogum: Flickr 8K

Keel: Python

Raamistik: Keras

10. Krediitkaardipettuste tuvastamine

Andke endast parim, töötades Data Science'i projektiideega − krediitkaardipettuste tuvastamine masinõppega.

14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

Nüüdseks olete hakanud meetoditest ja mõistetest aru saama. Liigume edasi mõne täiustatud andmeteaduse projekti juurde. Selles projektis kasutame R-keelt selliste algoritmidega nagu otsustuspuud, logistiline regressioon, tehisnärvivõrgud ja gradiendi võimendamise klassifikaator. Kasutame kaarditehingute andmestikku, et klassifitseerida krediitkaarditehingud petturlikeks ja ehtsateks. Valime neile erinevad mudelid ja koostame jõudluskõverad.

Keel: R

Andmekogum/pakett: Kaarditehingute andmestik

11. Filmisoovitussüsteem

Uurige lähtekoodiga parima andmeteaduse projekti rakendamist - Filmide soovitussüsteem R

14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

Selles Data Science'i projektis kasutame R-i, et täita masinõppe kaudu filmi soovitusi. Soovitussüsteem saadab kasutajatele soovitusi läbi filtreerimisprotsessi, mis põhineb teiste kasutajate eelistustel ja sirvimisajaloos. Kui A-le ja B-le meeldib Home Alone ja B-le Mean Girls, siis võite soovitada A-d – see võib ka neile meeldida. See võimaldab klientidel platvormiga suhelda.

Keel: R

Andmekogum/pakett: MovieLensi andmestik

12. Klientide segmenteerimine

Andmeteaduse projektiga (sh lähtekoodiga) avaldage tööandjatele muljet – Klientide segmenteerimine masinõppega.

14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

Ostjate segmenteerimine on populaarne rakendus juhendamata õppimine. Klastrite abil määratlevad ettevõtted potentsiaalse kasutajabaasiga töötamiseks kliendisegmendid. Nad jagavad kliendid rühmadesse vastavalt ühistele tunnustele, nagu sugu, vanus, huvid ja kulutamisharjumused, et nad saaksid oma tooteid igale rühmale tõhusalt turustada. Me kasutame K-tähendab klastrite moodustamist, samuti visualiseerida jaotust soo ja vanuse järgi. Seejärel analüüsime nende iga-aastast sissetulekute ja kulude taset.

Keel: R

Andmekogum/pakett: Mall_Customers andmestik

13. Rinnavähi klassifikatsioon

Vaadake Data Science projekti täielikku rakendamist Pythonis − Rinnavähi klassifikatsioon süvaõppe abil.

14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

Tulles tagasi andmeteaduse meditsiinilise panuse juurde, õpime Pythoni abil rinnavähki tuvastama. Me kasutame IDC_regular andmestikku, et tuvastada invasiivne duktaalne kartsinoom, mis on kõige levinum rinnavähi vorm. See areneb piimajuhades, tungides piimanäärme kiu- või rasvkoesse väljaspool kanalit. Selles andmekogumisteaduse projekti idees kasutame Sügav õppimine ja Kerase raamatukogu klassifitseerimiseks.

Keel: Python

Andmekogum/pakett: IDC_regulaarne

14. Liiklusmärkide äratundmine

Täpsuse saavutamine isejuhtivate autode tehnoloogias Data Science projektiga liiklusmärkide tuvastamine CNN-i abil avatud lähtekoodiga.

14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske)

Liiklusmärgid ja liikluseeskirjad on iga juhi jaoks õnnetuste vältimiseks väga olulised. Reegli järgimiseks peate esmalt aru saama, kuidas liiklusmärk välja näeb. Inimene peab õppima selgeks kõik liiklusmärgid, enne kui talle antakse mis tahes sõiduki juhtimisõigus. Nüüd aga kasvab autonoomsete sõidukite hulk ning lähiajal ei hakka inimene enam iseseisvalt autoga sõitma. Teeviitade tuvastamise projektis saate teada, kuidas programm suudab tuvastada teatud tüüpi liiklusmärke, võttes sisendiks pildi. Saksa liiklusmärkide tuvastamise viiteandmeid (GTSRB) kasutatakse sügava närvivõrgu ehitamiseks, et tuvastada klass, kuhu liiklusmärk kuulub. Samuti loome rakendusega suhtlemiseks lihtsa graafilise kasutajaliidese.

Keel: Python

Andmekogum: GTRB (Saksa liiklusmärkide tuvastamise etalon)

Loe rohkem

Allikas: www.habr.com

Lisa kommentaar