Sayansi ya Data kwa Kompyuta
1. Uchambuzi wa hisia (Uchambuzi wa hisia kupitia maandishi)

Tazama utekelezaji kamili wa mradi wa Sayansi ya Data kwa kutumia msimbo wa chanzo - .
Uchambuzi wa hisia ni uchanganuzi wa maneno ili kutambua hisia na maoni, ambayo yanaweza kuwa chanya au hasi. Hii ni aina ya uainishaji ambapo madarasa yanaweza kuwa binary (chanya na hasi) au wingi (furaha, hasira, huzuni, mbaya...). Tutatekeleza mradi huu wa Sayansi ya Data katika R na tutatumia mkusanyiko wa data katika kifurushi cha "janeaustenR". Tutatumia kamusi za madhumuni ya jumla kama vile AFINN, bing na loughran, kuunganisha ndani na mwisho tutaunda wingu la maneno ili kuonyesha matokeo.
Lugha: R
Seti ya data/Kifurushi: janeoustenR
Nakala hiyo ilitafsiriwa kwa usaidizi wa Programu ya EDISON, ambayo Na .
2. Ugunduzi wa Habari za Uongo
Peleka ujuzi wako kwenye ngazi inayofuata kwa kufanyia kazi Mradi wa Sayansi ya Data kwa Wanaoanza - .

Habari za uwongo ni habari za uongo zinazoenezwa kupitia mitandao ya kijamii na mitandao mingine ya mtandaoni ili kufikia malengo ya kisiasa. Katika wazo hili la mradi wa Sayansi ya Data, tutatumia Python kuunda muundo ambao unaweza kubainisha kwa usahihi ikiwa habari ni za kweli au bandia. Tutaunda TfidfVectorizer na kutumia PassiveAggressiveClassifier kuainisha habari kuwa "halisi" na "bandia". Tutatumia mkusanyiko wa data wa umbo la 7796×4 na kufanya kila kitu katika Jupyter Lab.
Lugha: Chatu
Seti ya data/Kifurushi: habari.csv
3. Kugundua Ugonjwa wa Parkinson
Songa mbele kwa kufanyia kazi Wazo la Mradi wa Sayansi ya Data - .

Tumeanza kutumia Data Science ili kuboresha huduma za afya na huduma - ikiwa tunaweza kutabiri ugonjwa huo katika hatua ya awali, basi tutakuwa na manufaa mengi. Kwa hivyo, katika wazo hili la mradi wa Sayansi ya Data, tutajifunza jinsi ya kugundua ugonjwa wa Parkinson kwa kutumia Chatu. Ni ugonjwa wa neurodegenerative, unaoendelea wa mfumo mkuu wa neva unaoathiri harakati na kusababisha kutetemeka na ugumu. Huathiri niuroni zinazozalisha dopamini kwenye ubongo, na kila mwaka, huathiri zaidi ya watu milioni 1 nchini India.
Lugha: Chatu
Seti ya data/Kifurushi: Seti ya data ya UCI ML Parkinsons
Miradi ya Sayansi ya Data ya ugumu wa kati
4. Utambuzi wa Hisia ya Hotuba
Angalia utekelezaji kamili wa mradi wa sampuli ya Sayansi ya Data - .

Hebu sasa tujifunze jinsi ya kutumia maktaba mbalimbali. Mradi huu wa Sayansi ya Data hutumia librosa kwa utambuzi wa usemi. SER ni mchakato wa kutambua hisia za binadamu na hali ya hisia kutoka kwa hotuba. Kwa sababu tunatumia toni na sauti kueleza hisia kwa sauti yetu, SER inafaa. Lakini kwa kuwa hisia ni za kibinafsi, ufafanuzi wa sauti ni kazi ngumu. Tutatumia vipengele vya mfcc, chroma na mel na kutumia mkusanyiko wa data wa RAVDESS kwa utambuzi wa hisia. Tutaunda kiainishaji cha MLPC cha muundo huu.
Lugha: Chatu
Seti ya data/Kifurushi: Mkusanyiko wa data wa RAVDESS
5. Utambuzi wa Jinsia na Umri
Wavutie waajiri na mradi wa hivi punde wa Sayansi ya Data - .

Hii ni Sayansi ya Data ya kuvutia na Python. Kwa kutumia picha moja tu, utajifunza jinsi ya kutabiri jinsia na umri wa mtu. Katika hili, tutakujulisha Maono ya Kompyuta na kanuni zake. Tutajenga na itatumia miundo iliyofunzwa na Tal Hassner na Gil Levy kwenye mkusanyiko wa data wa Adience. Tutatumia baadhi ya faili za .pb, .pbtxt, .prototxt na .caffemodel.
Lugha: Chatu
Seti ya data/Kifurushi: Adience
6. Uchambuzi wa Data wa Uber
Tazama utekelezaji kamili wa mradi wa Sayansi ya Data kwa msimbo wa chanzo - .

Huu ni mradi wa taswira ya data na ggplot2 ambapo tutatumia R na maktaba zake na kuchambua vigezo mbalimbali. Tutatumia seti ya data ya Uber Pickups New York na kuunda taswira za muafaka tofauti wa mwaka. Hii inatuambia jinsi muda unavyoathiri safari za wateja.
Lugha: R
Seti ya data/Kifurushi: Uber Pickups katika mkusanyiko wa data wa Jiji la New York
7. Utambuzi wa Kusinzia kwa Dereva
Boresha ujuzi wako kwa kufanya kazi kwenye Mradi wa Sayansi ya Data ya Juu - .

Kuendesha gari kwa usingizi ni hatari sana, kukiwa na ajali takriban elfu moja kila mwaka kutokana na madereva kusinzia wanapoendesha. Katika mradi huu wa Python, tutaunda mfumo ambao unaweza kugundua madereva walio na usingizi na pia kuwatahadharisha kwa mlio wa sauti.
Mradi huu unatekelezwa kwa kutumia Keras na OpenCV. Tutatumia OpenCV kugundua uso na macho na kwa msaada wa Keras tutaainisha hali ya jicho (Kufunguliwa au Kufungwa) kwa kutumia njia za mtandao wa neva wa kina.
8. Gumzo
Jenga chatbot na Python na uchukue hatua mbele katika kazi yako - .

Chatbots ni sehemu muhimu ya biashara. Biashara nyingi zinapaswa kutoa huduma kwa wateja wao na inachukua nguvu kazi nyingi, wakati na bidii kuwahudumia. Chatbots zinaweza kubadilisha mwingiliano wa wateja kiotomatiki kwa kujibu baadhi ya maswali ya kawaida ambayo wateja huuliza. Kimsingi kuna aina mbili za chatbots: Kikoa mahususi na Open-domain. Chatbot maalum ya kikoa mara nyingi hutumiwa kutatua tatizo mahususi. Kwa hivyo, unahitaji kuibadilisha ili ifanye kazi kwa ufanisi katika uwanja wako. Chatbots za kikoa huria zinaweza kuulizwa maswali yoyote, kwa hivyo kuwafundisha kunahitaji data nyingi.
Seti ya data: Inakusudia faili ya json
Lugha: Chatu
Miradi ya Sayansi ya Data ya Juu
9. Jenereta ya Manukuu ya Picha
Angalia utekelezaji kamili wa mradi na msimbo wa chanzo - .

Kuelezea kilicho kwenye picha ni kazi rahisi kwa wanadamu, lakini kwa kompyuta, picha ni mkusanyiko wa nambari zinazowakilisha thamani ya rangi ya kila pikseli. Hii ni kazi ngumu kwa kompyuta. Kuelewa kile kilicho kwenye picha na kisha kuunda maelezo ya lugha asilia (km Kiingereza) ni kazi nyingine ngumu. Mradi huu unatumia mbinu za kujifunza kwa kina ambapo tunatekeleza Mtandao wa Mabadiliko ya Neural (CNN) na Mtandao wa Kawaida wa Neural (LSTM) ili kuunda jenereta ya maelezo ya picha.
Seti ya data: Flickr 8K
Lugha: Chatu
Mfumo: Keras
10. Utambuzi wa Udanganyifu wa Kadi ya Mkopo
Fanya uwezavyo kwa kufanyia kazi wazo la mradi wa Sayansi ya Data - .

Kwa sasa umeanza kuelewa mbinu na dhana. Wacha tuendelee kwenye miradi ya juu ya sayansi ya data. Katika mradi huu, tutatumia lugha ya R yenye algoriti kama vile , urejeshaji wa vifaa, mitandao ya neva bandia na kiaainishaji cha kuongeza upinde rangi. Tutatumia mkusanyiko wa data wa miamala ya kadi kuainisha miamala ya kadi ya mkopo kuwa ya ulaghai na halisi. Tutachagua mifano tofauti kwao na kujenga curves za utendaji.
Lugha: R
Seti ya data/Kifurushi: Seti ya data ya Miamala ya Kadi
11. Mfumo wa Mapendekezo ya Sinema
Chunguza utekelezaji wa mradi bora wa Sayansi ya Data na Msimbo wa Chanzo -

Katika mradi huu wa Sayansi ya Data, tutatumia R kutekeleza mapendekezo ya filamu kupitia kujifunza kwa mashine. Mfumo wa mapendekezo hutuma mapendekezo kwa watumiaji kupitia mchakato wa kuchuja kulingana na mapendeleo ya watumiaji wengine na historia ya kuvinjari. Ikiwa A na B wanapenda Home Alone, na B anapenda Mean Girls, basi unaweza kupendekeza A - wanaweza kuipenda pia. Hii inaruhusu wateja kuingiliana na jukwaa.
Lugha: R
Seti ya data/Kifurushi: Seti ya data ya MovieLens
12. Mgawanyiko wa Wateja
Wavutie waajiri na mradi wa Sayansi ya Data (pamoja na msimbo wa chanzo) - .

Sehemu ya mnunuzi ni programu maarufu . Kwa kutumia nguzo, kampuni hufafanua sehemu za wateja ili kufanya kazi na msingi wa watumiaji. Wanagawanya wateja katika vikundi kulingana na sifa za kawaida kama vile jinsia, umri, maslahi, na tabia ya matumizi, ili waweze kuuza bidhaa zao kwa kila kikundi. Tutatumia , pamoja na taswira ya usambazaji kwa jinsia na umri. Kisha tunachanganua viwango vyao vya mapato na matumizi ya kila mwaka.
Lugha: R
Seti ya data/Kifurushi: Seti ya data ya Mall_Customers
13. Ainisho la Saratani ya Matiti
Tazama utekelezaji kamili wa mradi wa Sayansi ya Data huko Python - .

Tukirudi kwenye mchango wa matibabu wa sayansi ya data, hebu tujifunze jinsi ya kugundua saratani ya matiti kwa kutumia Chatu. Tutatumia seti ya data ya IDC_regular kugundua saratani ya ductal vamizi, aina inayojulikana zaidi ya saratani ya matiti. Inakua kwenye mifereji ya maziwa, ikiingia ndani ya tishu za nyuzi au mafuta ya tezi ya mammary nje ya bomba. Katika wazo hili la mradi wa sayansi ya ukusanyaji data, tutatumia na maktaba ya Keras kwa uainishaji.
Lugha: Chatu
Seti ya data/Kifurushi: IDC_ya kawaida
14. Utambuzi wa Alama za Trafiki
Kufikia usahihi katika teknolojia ya magari yanayojiendesha yenyewe na mradi wa Sayansi ya Data umewashwa chanzo wazi.

Alama za barabarani na sheria za barabarani ni muhimu sana kwa kila dereva ili kuepusha ajali. Ili kufuata sheria, kwanza unahitaji kuelewa jinsi ishara ya barabara inavyoonekana. Ni lazima mtu ajifunze alama zote za barabarani kabla hajapewa haki ya kuendesha gari lolote. Lakini sasa idadi ya magari ya uhuru inakua, na katika siku za usoni, mtu hataendesha gari peke yake. Katika mradi wa Kutambua Alama za Barabarani, utajifunza jinsi programu inavyoweza kutambua aina ya ishara ya barabarani kwa kuchukua picha kama ingizo. Seti ya Data ya Marejeleo ya Utambuzi wa Alama ya Barabarani ya Ujerumani (GTSRB) inatumika kujenga mtandao wa kina wa neva ili kutambua darasa ambalo ishara ya trafiki ni yake. Pia tunaunda GUI rahisi ya kuingiliana na programu.
Lugha: Chatu
Seti ya data: GTRB (Kigezo cha Utambuzi wa Alama ya Trafiki ya Ujerumani)
Soma zaidi
Chanzo: mapenzi.com
