Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Sayansi ya Data kwa Kompyuta

1. Uchambuzi wa hisia (Uchambuzi wa hisia kupitia maandishi)

Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Tazama utekelezaji kamili wa mradi wa Sayansi ya Data kwa kutumia msimbo wa chanzo - Mradi wa Uchambuzi wa Sentiment katika R.

Uchambuzi wa hisia ni uchanganuzi wa maneno ili kutambua hisia na maoni, ambayo yanaweza kuwa chanya au hasi. Hii ni aina ya uainishaji ambapo madarasa yanaweza kuwa binary (chanya na hasi) au wingi (furaha, hasira, huzuni, mbaya...). Tutatekeleza mradi huu wa Sayansi ya Data katika R na tutatumia mkusanyiko wa data katika kifurushi cha "janeaustenR". Tutatumia kamusi za madhumuni ya jumla kama vile AFINN, bing na loughran, kuunganisha ndani na mwisho tutaunda wingu la maneno ili kuonyesha matokeo.

Lugha: R
Seti ya data/Kifurushi: janeoustenR

Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Nakala hiyo ilitafsiriwa kwa usaidizi wa Programu ya EDISON, ambayo hutengeneza vyumba vya kufaa kwa maduka ya bidhaa nyingiNa programu ya majaribio.

2. Ugunduzi wa Habari za Uongo

Peleka ujuzi wako kwenye ngazi inayofuata kwa kufanyia kazi Mradi wa Sayansi ya Data kwa Wanaoanza - ugunduzi wa habari bandia na Python.

Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Habari za uwongo ni habari za uongo zinazoenezwa kupitia mitandao ya kijamii na mitandao mingine ya mtandaoni ili kufikia malengo ya kisiasa. Katika wazo hili la mradi wa Sayansi ya Data, tutatumia Python kuunda muundo ambao unaweza kubainisha kwa usahihi ikiwa habari ni za kweli au bandia. Tutaunda TfidfVectorizer na kutumia PassiveAggressiveClassifier kuainisha habari kuwa "halisi" na "bandia". Tutatumia mkusanyiko wa data wa umbo la 7796Γ—4 na kufanya kila kitu katika Jupyter Lab.

Lugha: Chatu

Seti ya data/Kifurushi: habari.csv

3. Kugundua Ugonjwa wa Parkinson

Songa mbele kwa kufanyia kazi Wazo la Mradi wa Sayansi ya Data - kugundua ugonjwa wa Parkinson na XGBoost.

Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Tumeanza kutumia Data Science ili kuboresha huduma za afya na huduma - ikiwa tunaweza kutabiri ugonjwa huo katika hatua ya awali, basi tutakuwa na manufaa mengi. Kwa hivyo, katika wazo hili la mradi wa Sayansi ya Data, tutajifunza jinsi ya kugundua ugonjwa wa Parkinson kwa kutumia Chatu. Ni ugonjwa wa neurodegenerative, unaoendelea wa mfumo mkuu wa neva unaoathiri harakati na kusababisha kutetemeka na ugumu. Huathiri niuroni zinazozalisha dopamini kwenye ubongo, na kila mwaka, huathiri zaidi ya watu milioni 1 nchini India.

Lugha: Chatu

Seti ya data/Kifurushi: Seti ya data ya UCI ML Parkinsons

Miradi ya Sayansi ya Data ya ugumu wa kati

4. Utambuzi wa Hisia ya Hotuba

Angalia utekelezaji kamili wa mradi wa sampuli ya Sayansi ya Data - utambuzi wa hotuba na Librosa.

Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Hebu sasa tujifunze jinsi ya kutumia maktaba mbalimbali. Mradi huu wa Sayansi ya Data hutumia librosa kwa utambuzi wa usemi. SER ni mchakato wa kutambua hisia za binadamu na hali ya hisia kutoka kwa hotuba. Kwa sababu tunatumia toni na sauti kueleza hisia kwa sauti yetu, SER inafaa. Lakini kwa kuwa hisia ni za kibinafsi, ufafanuzi wa sauti ni kazi ngumu. Tutatumia vipengele vya mfcc, chroma na mel na kutumia mkusanyiko wa data wa RAVDESS kwa utambuzi wa hisia. Tutaunda kiainishaji cha MLPC cha muundo huu.

Lugha: Chatu

Seti ya data/Kifurushi: Mkusanyiko wa data wa RAVDESS

5. Utambuzi wa Jinsia na Umri

Wavutie waajiri na mradi wa hivi punde wa Sayansi ya Data - utambuzi wa jinsia na umri kwa OpenCV.

Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Hii ni Sayansi ya Data ya kuvutia na Python. Kwa kutumia picha moja tu, utajifunza jinsi ya kutabiri jinsia na umri wa mtu. Katika hili, tutakujulisha Maono ya Kompyuta na kanuni zake. Tutajenga mtandao wa neva wa kubadilisha na itatumia miundo iliyofunzwa na Tal Hassner na Gil Levy kwenye mkusanyiko wa data wa Adience. Tutatumia baadhi ya faili za .pb, .pbtxt, .prototxt na .caffemodel.

Lugha: Chatu

Seti ya data/Kifurushi: Adience

6. Uchambuzi wa Data wa Uber

Tazama utekelezaji kamili wa mradi wa Sayansi ya Data kwa msimbo wa chanzo - Mradi wa Uchambuzi wa Data wa Uber nchini R.

Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Huu ni mradi wa taswira ya data na ggplot2 ambapo tutatumia R na maktaba zake na kuchambua vigezo mbalimbali. Tutatumia seti ya data ya Uber Pickups New York na kuunda taswira za muafaka tofauti wa mwaka. Hii inatuambia jinsi muda unavyoathiri safari za wateja.

Lugha: R

Seti ya data/Kifurushi: Uber Pickups katika mkusanyiko wa data wa Jiji la New York

7. Utambuzi wa Kusinzia kwa Dereva

Boresha ujuzi wako kwa kufanya kazi kwenye Mradi wa Sayansi ya Data ya Juu - mfumo wa kugundua usingizi kwa OpenCV & Keras.

Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Kuendesha gari kwa usingizi ni hatari sana, kukiwa na ajali takriban elfu moja kila mwaka kutokana na madereva kusinzia wanapoendesha. Katika mradi huu wa Python, tutaunda mfumo ambao unaweza kugundua madereva walio na usingizi na pia kuwatahadharisha kwa mlio wa sauti.

Mradi huu unatekelezwa kwa kutumia Keras na OpenCV. Tutatumia OpenCV kugundua uso na macho na kwa msaada wa Keras tutaainisha hali ya jicho (Kufunguliwa au Kufungwa) kwa kutumia njia za mtandao wa neva wa kina.

8. Gumzo

Jenga chatbot na Python na uchukue hatua mbele katika kazi yako - Piga gumzo na NLTK & Keras.

Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Chatbots ni sehemu muhimu ya biashara. Biashara nyingi zinapaswa kutoa huduma kwa wateja wao na inachukua nguvu kazi nyingi, wakati na bidii kuwahudumia. Chatbots zinaweza kubadilisha mwingiliano wa wateja kiotomatiki kwa kujibu baadhi ya maswali ya kawaida ambayo wateja huuliza. Kimsingi kuna aina mbili za chatbots: Kikoa mahususi na Open-domain. Chatbot maalum ya kikoa mara nyingi hutumiwa kutatua tatizo mahususi. Kwa hivyo, unahitaji kuibadilisha ili ifanye kazi kwa ufanisi katika uwanja wako. Chatbots za kikoa huria zinaweza kuulizwa maswali yoyote, kwa hivyo kuwafundisha kunahitaji data nyingi.

Seti ya data: Inakusudia faili ya json

Lugha: Chatu

Miradi ya Sayansi ya Data ya Juu

9. Jenereta ya Manukuu ya Picha

Angalia utekelezaji kamili wa mradi na msimbo wa chanzo - Jenereta ya Manukuu ya Picha yenye CNN na LSTM.

Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Kuelezea kilicho kwenye picha ni kazi rahisi kwa wanadamu, lakini kwa kompyuta, picha ni mkusanyiko wa nambari zinazowakilisha thamani ya rangi ya kila pikseli. Hii ni kazi ngumu kwa kompyuta. Kuelewa kile kilicho kwenye picha na kisha kuunda maelezo ya lugha asilia (km Kiingereza) ni kazi nyingine ngumu. Mradi huu unatumia mbinu za kujifunza kwa kina ambapo tunatekeleza Mtandao wa Mabadiliko ya Neural (CNN) na Mtandao wa Kawaida wa Neural (LSTM) ili kuunda jenereta ya maelezo ya picha.

Seti ya data: Flickr 8K

Lugha: Chatu

Mfumo: Keras

10. Utambuzi wa Udanganyifu wa Kadi ya Mkopo

Fanya uwezavyo kwa kufanyia kazi wazo la mradi wa Sayansi ya Data - utambuzi wa ulaghai wa kadi ya mkopo kwa kujifunza mashine.

Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Kwa sasa umeanza kuelewa mbinu na dhana. Wacha tuendelee kwenye miradi ya juu ya sayansi ya data. Katika mradi huu, tutatumia lugha ya R yenye algoriti kama vile miti ya maamuzi, urejeshaji wa vifaa, mitandao ya neva bandia na kiaainishaji cha kuongeza upinde rangi. Tutatumia mkusanyiko wa data wa miamala ya kadi kuainisha miamala ya kadi ya mkopo kuwa ya ulaghai na halisi. Tutachagua mifano tofauti kwao na kujenga curves za utendaji.

Lugha: R

Seti ya data/Kifurushi: Seti ya data ya Miamala ya Kadi

11. Mfumo wa Mapendekezo ya Sinema

Chunguza utekelezaji wa mradi bora wa Sayansi ya Data na Msimbo wa Chanzo - Mfumo wa Mapendekezo ya Filamu katika R

Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Katika mradi huu wa Sayansi ya Data, tutatumia R kutekeleza mapendekezo ya filamu kupitia kujifunza kwa mashine. Mfumo wa mapendekezo hutuma mapendekezo kwa watumiaji kupitia mchakato wa kuchuja kulingana na mapendeleo ya watumiaji wengine na historia ya kuvinjari. Ikiwa A na B wanapenda Home Alone, na B anapenda Mean Girls, basi unaweza kupendekeza A - wanaweza kuipenda pia. Hii inaruhusu wateja kuingiliana na jukwaa.

Lugha: R

Seti ya data/Kifurushi: Seti ya data ya MovieLens

12. Mgawanyiko wa Wateja

Wavutie waajiri na mradi wa Sayansi ya Data (pamoja na msimbo wa chanzo) - Mgawanyiko wa wateja na kujifunza kwa mashine.

Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Sehemu ya mnunuzi ni programu maarufu kujifunza bila kusimamiwa. Kwa kutumia nguzo, kampuni hufafanua sehemu za wateja ili kufanya kazi na msingi wa watumiaji. Wanagawanya wateja katika vikundi kulingana na sifa za kawaida kama vile jinsia, umri, maslahi, na tabia ya matumizi, ili waweze kuuza bidhaa zao kwa kila kikundi. Tutatumia K-inamaanisha mkusanyiko, pamoja na taswira ya usambazaji kwa jinsia na umri. Kisha tunachanganua viwango vyao vya mapato na matumizi ya kila mwaka.

Lugha: R

Seti ya data/Kifurushi: Seti ya data ya Mall_Customers

13. Ainisho la Saratani ya Matiti

Tazama utekelezaji kamili wa mradi wa Sayansi ya Data huko Python - Uainishaji wa Saratani ya Matiti Kwa Kutumia Mafunzo ya Kina.

Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Tukirudi kwenye mchango wa matibabu wa sayansi ya data, hebu tujifunze jinsi ya kugundua saratani ya matiti kwa kutumia Chatu. Tutatumia seti ya data ya IDC_regular kugundua saratani ya ductal vamizi, aina inayojulikana zaidi ya saratani ya matiti. Inakua kwenye mifereji ya maziwa, ikiingia ndani ya tishu za nyuzi au mafuta ya tezi ya mammary nje ya bomba. Katika wazo hili la mradi wa sayansi ya ukusanyaji data, tutatumia Kujifunza kwa kina na maktaba ya Keras kwa uainishaji.

Lugha: Chatu

Seti ya data/Kifurushi: IDC_ya kawaida

14. Utambuzi wa Alama za Trafiki

Kufikia usahihi katika teknolojia ya magari yanayojiendesha yenyewe na mradi wa Sayansi ya Data umewashwa utambuzi wa alama za trafiki kwa kutumia CNN chanzo wazi.

Miradi 14 ya chanzo-wazi ili kuboresha ujuzi wa Sayansi ya Data (rahisi, kawaida, ngumu)

Alama za barabarani na sheria za barabarani ni muhimu sana kwa kila dereva ili kuepusha ajali. Ili kufuata sheria, kwanza unahitaji kuelewa jinsi ishara ya barabara inavyoonekana. Ni lazima mtu ajifunze alama zote za barabarani kabla hajapewa haki ya kuendesha gari lolote. Lakini sasa idadi ya magari ya uhuru inakua, na katika siku za usoni, mtu hataendesha gari peke yake. Katika mradi wa Kutambua Alama za Barabarani, utajifunza jinsi programu inavyoweza kutambua aina ya ishara ya barabarani kwa kuchukua picha kama ingizo. Seti ya Data ya Marejeleo ya Utambuzi wa Alama ya Barabarani ya Ujerumani (GTSRB) inatumika kujenga mtandao wa kina wa neva ili kutambua darasa ambalo ishara ya trafiki ni yake. Pia tunaunda GUI rahisi ya kuingiliana na programu.

Lugha: Chatu

Seti ya data: GTRB (Kigezo cha Utambuzi wa Alama ya Trafiki ya Ujerumani)

Soma zaidi

Chanzo: mapenzi.com

Kuongeza maoni