Sentimentų analizė yra žodžių analizė, siekiant nustatyti jausmus ir nuomones, kurios gali būti teigiamos arba neigiamos. Tai yra klasifikacijos tipas, kuriame klasės gali būti dvejetainės (teigiama ir neigiama) arba daugiskaita (linksma, pikta, liūdna, bjauri...). Mes įgyvendinsime šį duomenų mokslo projektą R ir naudosime duomenų rinkinį „janeaustenR“ pakete. Naudosime bendrosios paskirties žodynus, tokius kaip AFINN, bing ir loughran, atliksime vidinį sujungimą, o pabaigoje sukursime žodžių debesį rezultatui rodyti.
Netikros naujienos – tai melaginga informacija, skleidžiama socialiniuose tinkluose ir kitose internetinėse žiniasklaidos priemonėse, siekiant politinių tikslų. Šioje duomenų mokslo projekto idėjoje naudosime Python, kad sukurtume modelį, galintį tiksliai nustatyti, ar naujienų istorija yra tikra, ar netikra. Mes sukursime TfidfVectorizer ir naudosime PassiveAggressiveClassifier naujienas klasifikuoti į „tikras“ ir „netikras“. Naudosime 7796 × 4 formos duomenų rinkinį ir viską vykdysime Jupyter Lab.
Pradėjome naudoti „Data Science“ sveikatos priežiūrai ir paslaugoms gerinti – jei galime numatyti ligą ankstyvoje stadijoje, turėsime daug privalumų. Taigi, šioje duomenų mokslo projekto idėjoje išmoksime aptikti Parkinsono ligą naudojant Python. Tai neurodegeneracinė, progresuojanti centrinės nervų sistemos liga, pažeidžianti judesius ir sukelianti drebulį bei sustingimą. Tai paveikia dopaminą gaminančius neuronus smegenyse, ir kiekvienais metais ji paveikia daugiau nei 1 milijoną žmonių Indijoje.
Kalba: Pitonas
Duomenų rinkinys / paketas: UCI ML Parkinsono duomenų rinkinys
Dabar išmokime naudotis įvairiomis bibliotekomis. Šiame duomenų mokslo projekte kalbai atpažinti naudojama librosa. SER yra žmogaus emocijų ir emocinių būsenų atpažinimo iš kalbos procesas. Kadangi emocijoms išreikšti balsu naudojame toną ir aukštį, SER yra aktualus. Tačiau kadangi emocijos yra subjektyvios, garso anotacija yra sudėtinga užduotis. Naudosime mfcc, chroma ir mel funkcijas ir naudosime RAVDESS duomenų rinkinį emocijoms atpažinti. Šiam modeliui sukursime MLPC klasifikatorių.
Kalba: Pitonas
Duomenų rinkinys / paketas: RAVDESS duomenų rinkinys
Tai įdomus duomenų mokslas su Python. Naudodami tik vieną vaizdą, išmoksite nuspėti žmogaus lytį ir amžių. Čia supažindinsime su kompiuterine vizija ir jos principais. Mes statysime konvoliucinis neuroninis tinklas ir naudos modelius, kuriuos apmokė Tal Hassner ir Gil Levy apie Adience duomenų rinkinį. Pakeliui naudosime kai kuriuos .pb, .pbtxt, .prototxt ir .caffemodel failus.
Tai duomenų vizualizacijos projektas su ggplot2, kuriame naudosime R ir jo bibliotekas bei analizuosime įvairius parametrus. Naudosime Uber Pickups New York City duomenų rinkinį ir kursime vizualizacijas įvairiems metų laikotarpiams. Tai parodo, kaip laikas veikia klientų keliones.
Kalba: R
Duomenų rinkinys / paketas: „Uber Pickups“ Niujorke duomenų rinkinys
Mieguistas vairavimas yra itin pavojingas, kasmet įvyksta beveik tūkstantis nelaimingų atsitikimų dėl vairuotojų užmigimo vairuojant. Šiame Python projekte sukursime sistemą, kuri gali aptikti snaudžiančius vairuotojus ir įspėti juos garso signalu.
Šis projektas įgyvendinamas naudojant Keras ir OpenCV. Naudosime OpenCV veido ir akių aptikimui, o su Keras klasifikuosime akių būseną (Atvira arba Uždaryta), naudodami giluminio neuroninio tinklo metodus.
Pokalbių robotai yra neatsiejama verslo dalis. Daugelis įmonių turi siūlyti paslaugas savo klientams, todėl jiems aptarnauti reikia daug darbo jėgos, laiko ir pastangų. Pokalbių robotai gali automatizuoti didžiąją dalį jūsų sąveikos su klientais atsakydami į kai kuriuos dažniausiai klientų užduodamus klausimus. Iš esmės yra dviejų tipų pokalbių robotai: specifinis domenas ir atvirasis domenas. Konkrečiam domenui skirtas pokalbių robotas dažnai naudojamas konkrečiai problemai išspręsti. Taigi, jūs turite jį pritaikyti, kad galėtumėte efektyviai dirbti savo srityje. Atviro domeno pokalbių robotams galima užduoti bet kokius klausimus, todėl jų mokymas reikalauja didžiulio duomenų kiekio.
Apibūdinti, kas yra vaizde, žmonėms yra lengva užduotis, tačiau kompiuteriams vaizdas yra tiesiog skaičių serija, nurodanti kiekvieno pikselio spalvos reikšmę. Tai sudėtinga užduotis kompiuteriams. Kita sudėtinga užduotis yra suprasti, kas yra paveikslėlyje, ir sukurti aprašymą natūralia kalba (pvz., anglų kalba). Šiame projekte naudojami giluminio mokymosi metodai, kuriuose įdiegiame konvoliucinį neuronų tinklą (CNN) su pasikartojančiu neuroniniu tinklu (LSTM), kad sukurtume vaizdo aprašymo generatorių.
Iki šiol jūs pradėjote suprasti metodus ir sąvokas. Pereikime prie kai kurių pažangių duomenų mokslo projektų. Šiame projekte naudosime R kalbą su tokiais algoritmais kaip sprendimų medžiai, logistinė regresija, dirbtiniai neuroniniai tinklai ir gradiento didinimo klasifikatorius. Naudosime kortelių operacijų duomenų rinkinį, kad kreditinės kortelės operacijas klasifikuotume kaip nesąžiningas ar tikras. Jiems parinksime skirtingus modelius ir sukursime veikimo kreives.
Kalba: R
Duomenų rinkinys / paketas: Kortelių operacijų duomenų rinkinys
Šiame duomenų mokslo projekte naudosime R, kad įgyvendintume filmo rekomendacijas per mašininį mokymąsi. Rekomendacijų sistema siunčia pasiūlymus vartotojams per filtravimo procesą, pagrįstą kitų vartotojų pageidavimais ir naršymo istorija. Jei A ir B patinka „Home Alone“, o B – „Mean Girls“, galite pasiūlyti A – gali patikti ir jiems. Tai leidžia klientams bendrauti su platforma.
Kalba: R
Duomenų rinkinys / paketas: MovieLens duomenų rinkinys
Pirkėjų segmentavimas yra populiari programa mokymasis be priežiūros. Naudodamos klasterizavimą, įmonės nustato klientų segmentus, kad nukreiptų į potencialų vartotojų bazę. Jie suskirsto klientus į grupes pagal bendras ypatybes, tokias kaip lytis, amžius, pomėgiai ir išlaidų įpročiai, kad jie galėtų veiksmingai parduoti savo produktus kiekvienai grupei. Mes naudosime K reiškia grupavimą, taip pat vizualizuoti pasiskirstymą pagal lytį ir amžių. Tada išanalizuosime jų metinių pajamų ir išlaidų lygius.
Kalba: R
Duomenų rinkinys / paketas: „Mall_Customers“ duomenų rinkinys
Grįždami prie medicininio duomenų mokslo indėlio, išmokime aptikti krūties vėžį naudojant Python. Naudosime IDC_regular duomenų rinkinį, norėdami nustatyti invazinę latakų karcinomą, labiausiai paplitusią krūties vėžio formą. Jis vystosi pieno latakuose, įsiskverbia į pluoštinį arba riebalinį krūties audinį už latako ribų. Šioje duomenų rinkimo mokslo projekto idėjoje naudosime Gilus mokymasis ir Kero biblioteką klasifikacijai.
Kelio ženklai ir eismo taisyklės yra labai svarbūs kiekvienam vairuotojui siekiant išvengti nelaimingų atsitikimų. Norėdami laikytis taisyklės, pirmiausia turite suprasti, kaip atrodo kelio ženklas. Asmuo turi išmokti visus kelio ženklus prieš suteikiant teisę vairuoti bet kurią transporto priemonę. Tačiau dabar autonominių transporto priemonių daugėja, o artimiausiu metu žmogus savarankiškai automobilio nebevairuos. Kelio ženklų atpažinimo projekte sužinosite, kaip programa gali atpažinti kelio ženklų tipą, paimdama vaizdą kaip įvestį. Vokietijos eismo ženklų atpažinimo etalonas (GTSRB) duomenų rinkinys naudojamas giliajam neuroniniam tinklui sukurti, kad atpažintų klasę, kuriai priklauso kelio ženklas. Taip pat sukuriame paprastą GUI, kad galėtume sąveikauti su programa.
Kalba: Pitonas
Duomenų rinkinys: GTSRB (vokiečių eismo ženklų atpažinimo etalonas)