Uchambuzi wa hisia ni uchanganuzi wa maneno ili kutambua hisia na maoni, ambayo yanaweza kuwa chanya au hasi. Hii ni aina ya uainishaji ambapo madarasa yanaweza kuwa binary (chanya na hasi) au wingi (furaha, hasira, huzuni, mbaya...). Tutatekeleza mradi huu wa Sayansi ya Data katika R na tutatumia mkusanyiko wa data katika kifurushi cha "janeaustenR". Tutatumia kamusi za madhumuni ya jumla kama vile AFINN, bing na loughran, kuunganisha ndani na mwisho tutaunda wingu la maneno ili kuonyesha matokeo.
Habari za uwongo ni habari za uongo zinazoenezwa kupitia mitandao ya kijamii na mitandao mingine ya mtandaoni ili kufikia malengo ya kisiasa. Katika wazo hili la mradi wa Sayansi ya Data, tutatumia Python kuunda muundo ambao unaweza kubainisha kwa usahihi ikiwa habari ni za kweli au bandia. Tutaunda TfidfVectorizer na kutumia PassiveAggressiveClassifier kuainisha habari kuwa "halisi" na "bandia". Tutatumia mkusanyiko wa data wa umbo la 7796Γ4 na kufanya kila kitu katika Jupyter Lab.
Tumeanza kutumia Data Science ili kuboresha huduma za afya na huduma - ikiwa tunaweza kutabiri ugonjwa huo katika hatua ya awali, basi tutakuwa na manufaa mengi. Kwa hivyo, katika wazo hili la mradi wa Sayansi ya Data, tutajifunza jinsi ya kugundua ugonjwa wa Parkinson kwa kutumia Chatu. Ni ugonjwa wa neurodegenerative, unaoendelea wa mfumo mkuu wa neva unaoathiri harakati na kusababisha kutetemeka na ugumu. Huathiri niuroni zinazozalisha dopamini kwenye ubongo, na kila mwaka, huathiri zaidi ya watu milioni 1 nchini India.
Lugha: Chatu
Seti ya data/Kifurushi: Seti ya data ya UCI ML Parkinsons
Hebu sasa tujifunze jinsi ya kutumia maktaba mbalimbali. Mradi huu wa Sayansi ya Data hutumia librosa kwa utambuzi wa usemi. SER ni mchakato wa kutambua hisia za binadamu na hali ya hisia kutoka kwa hotuba. Kwa sababu tunatumia toni na sauti kueleza hisia kwa sauti yetu, SER inafaa. Lakini kwa kuwa hisia ni za kibinafsi, ufafanuzi wa sauti ni kazi ngumu. Tutatumia vipengele vya mfcc, chroma na mel na kutumia mkusanyiko wa data wa RAVDESS kwa utambuzi wa hisia. Tutaunda kiainishaji cha MLPC cha muundo huu.
Lugha: Chatu
Seti ya data/Kifurushi: Mkusanyiko wa data wa RAVDESS
Hii ni Sayansi ya Data ya kuvutia na Python. Kwa kutumia picha moja tu, utajifunza jinsi ya kutabiri jinsia na umri wa mtu. Katika hili, tutakujulisha Maono ya Kompyuta na kanuni zake. Tutajenga mtandao wa neva wa kubadilisha na itatumia miundo iliyofunzwa na Tal Hassner na Gil Levy kwenye mkusanyiko wa data wa Adience. Tutatumia baadhi ya faili za .pb, .pbtxt, .prototxt na .caffemodel.
Huu ni mradi wa taswira ya data na ggplot2 ambapo tutatumia R na maktaba zake na kuchambua vigezo mbalimbali. Tutatumia seti ya data ya Uber Pickups New York na kuunda taswira za muafaka tofauti wa mwaka. Hii inatuambia jinsi muda unavyoathiri safari za wateja.
Lugha: R
Seti ya data/Kifurushi: Uber Pickups katika mkusanyiko wa data wa Jiji la New York
Kuendesha gari kwa usingizi ni hatari sana, kukiwa na ajali takriban elfu moja kila mwaka kutokana na madereva kusinzia wanapoendesha. Katika mradi huu wa Python, tutaunda mfumo ambao unaweza kugundua madereva walio na usingizi na pia kuwatahadharisha kwa mlio wa sauti.
Mradi huu unatekelezwa kwa kutumia Keras na OpenCV. Tutatumia OpenCV kugundua uso na macho na kwa msaada wa Keras tutaainisha hali ya jicho (Kufunguliwa au Kufungwa) kwa kutumia njia za mtandao wa neva wa kina.
Chatbots ni sehemu muhimu ya biashara. Biashara nyingi zinapaswa kutoa huduma kwa wateja wao na inachukua nguvu kazi nyingi, wakati na bidii kuwahudumia. Chatbots zinaweza kubadilisha mwingiliano wa wateja kiotomatiki kwa kujibu baadhi ya maswali ya kawaida ambayo wateja huuliza. Kimsingi kuna aina mbili za chatbots: Kikoa mahususi na Open-domain. Chatbot maalum ya kikoa mara nyingi hutumiwa kutatua tatizo mahususi. Kwa hivyo, unahitaji kuibadilisha ili ifanye kazi kwa ufanisi katika uwanja wako. Chatbots za kikoa huria zinaweza kuulizwa maswali yoyote, kwa hivyo kuwafundisha kunahitaji data nyingi.
Kuelezea kilicho kwenye picha ni kazi rahisi kwa wanadamu, lakini kwa kompyuta, picha ni mkusanyiko wa nambari zinazowakilisha thamani ya rangi ya kila pikseli. Hii ni kazi ngumu kwa kompyuta. Kuelewa kile kilicho kwenye picha na kisha kuunda maelezo ya lugha asilia (km Kiingereza) ni kazi nyingine ngumu. Mradi huu unatumia mbinu za kujifunza kwa kina ambapo tunatekeleza Mtandao wa Mabadiliko ya Neural (CNN) na Mtandao wa Kawaida wa Neural (LSTM) ili kuunda jenereta ya maelezo ya picha.
Kwa sasa umeanza kuelewa mbinu na dhana. Wacha tuendelee kwenye miradi ya juu ya sayansi ya data. Katika mradi huu, tutatumia lugha ya R yenye algoriti kama vile miti ya maamuzi, urejeshaji wa vifaa, mitandao ya neva bandia na kiaainishaji cha kuongeza upinde rangi. Tutatumia mkusanyiko wa data wa miamala ya kadi kuainisha miamala ya kadi ya mkopo kuwa ya ulaghai na halisi. Tutachagua mifano tofauti kwao na kujenga curves za utendaji.
Lugha: R
Seti ya data/Kifurushi: Seti ya data ya Miamala ya Kadi
Katika mradi huu wa Sayansi ya Data, tutatumia R kutekeleza mapendekezo ya filamu kupitia kujifunza kwa mashine. Mfumo wa mapendekezo hutuma mapendekezo kwa watumiaji kupitia mchakato wa kuchuja kulingana na mapendeleo ya watumiaji wengine na historia ya kuvinjari. Ikiwa A na B wanapenda Home Alone, na B anapenda Mean Girls, basi unaweza kupendekeza A - wanaweza kuipenda pia. Hii inaruhusu wateja kuingiliana na jukwaa.
Sehemu ya mnunuzi ni programu maarufu kujifunza bila kusimamiwa. Kwa kutumia nguzo, kampuni hufafanua sehemu za wateja ili kufanya kazi na msingi wa watumiaji. Wanagawanya wateja katika vikundi kulingana na sifa za kawaida kama vile jinsia, umri, maslahi, na tabia ya matumizi, ili waweze kuuza bidhaa zao kwa kila kikundi. Tutatumia K-inamaanisha mkusanyiko, pamoja na taswira ya usambazaji kwa jinsia na umri. Kisha tunachanganua viwango vyao vya mapato na matumizi ya kila mwaka.
Lugha: R
Seti ya data/Kifurushi: Seti ya data ya Mall_Customers
Tukirudi kwenye mchango wa matibabu wa sayansi ya data, hebu tujifunze jinsi ya kugundua saratani ya matiti kwa kutumia Chatu. Tutatumia seti ya data ya IDC_regular kugundua saratani ya ductal vamizi, aina inayojulikana zaidi ya saratani ya matiti. Inakua kwenye mifereji ya maziwa, ikiingia ndani ya tishu za nyuzi au mafuta ya tezi ya mammary nje ya bomba. Katika wazo hili la mradi wa sayansi ya ukusanyaji data, tutatumia Kujifunza kwa kina na maktaba ya Keras kwa uainishaji.
Alama za barabarani na sheria za barabarani ni muhimu sana kwa kila dereva ili kuepusha ajali. Ili kufuata sheria, kwanza unahitaji kuelewa jinsi ishara ya barabara inavyoonekana. Ni lazima mtu ajifunze alama zote za barabarani kabla hajapewa haki ya kuendesha gari lolote. Lakini sasa idadi ya magari ya uhuru inakua, na katika siku za usoni, mtu hataendesha gari peke yake. Katika mradi wa Kutambua Alama za Barabarani, utajifunza jinsi programu inavyoweza kutambua aina ya ishara ya barabarani kwa kuchukua picha kama ingizo. Seti ya Data ya Marejeleo ya Utambuzi wa Alama ya Barabarani ya Ujerumani (GTSRB) inatumika kujenga mtandao wa kina wa neva ili kutambua darasa ambalo ishara ya trafiki ni yake. Pia tunaunda GUI rahisi ya kuingiliana na programu.
Lugha: Chatu
Seti ya data: GTRB (Kigezo cha Utambuzi wa Alama ya Trafiki ya Ujerumani)