Analýza sentimentu je analýza slov na určenie pocitov a názorov, ktoré môžu byť pozitívne alebo negatívne. Ide o typ klasifikácie, v ktorom môžu byť triedy binárne (kladné a záporné) alebo množné číslo (veselé, nahnevané, smutné, škaredé...). Tento projekt Data Science implementujeme v R a použijeme súbor údajov v balíku „janeaustenR“. Použijeme všeobecné slovníky ako AFINN, bing a loughran, vykonáme vnútorné spojenie a na konci vytvoríme slovný oblak na zobrazenie výsledku.
Falošné správy sú nepravdivé informácie šírené prostredníctvom sociálnych médií a iných online médií na dosiahnutie politických cieľov. V tejto myšlienke projektu Data Science použijeme Python na vytvorenie modelu, ktorý dokáže presne určiť, či je spravodajský príbeh skutočný alebo falošný. Vytvoríme TfidfVectorizer a použijeme PassiveAggressiveClassifier na klasifikáciu správ na „skutočné“ a „falošné“. Použijeme dataset v tvare 7796×4 a všetko spustíme v Jupyter Lab.
Začali sme využívať Data Science na zlepšenie zdravotnej starostlivosti a služieb – ak dokážeme predpovedať ochorenie v počiatočnom štádiu, budeme mať veľa výhod. Takže v tejto myšlienke projektu Data Science sa naučíme, ako odhaliť Parkinsonovu chorobu pomocou Pythonu. Ide o neurodegeneratívne, progresívne ochorenie centrálneho nervového systému, ktoré ovplyvňuje pohyb a spôsobuje tras a stuhnutosť. Ovplyvňuje neuróny v mozgu produkujúce dopamín a každý rok postihuje viac ako 1 milión ľudí v Indii.
Jazyk: Pytón
Súbor údajov/balík: Dátový súbor UCI ML Parkinsonovcov
Poďme sa teraz naučiť, ako používať rôzne knižnice. Tento projekt Data Science využíva knižnicu librosa na rozpoznávanie reči. SER je proces identifikácie ľudských emócií a afektívnych stavov z reči. Keďže používame tón a výšku na vyjadrenie emócií našimi hlasmi, SER je relevantný. Ale keďže emócie sú subjektívne, zvuková anotácia je náročná úloha. Využijeme funkcie mfcc, chroma a mel a na rozpoznávanie emócií použijeme dataset RAVDESS. Pre tento model vytvoríme klasifikátor MLPC.
Toto je zaujímavá veda o údajoch s Pythonom. Pomocou jediného obrázka sa naučíte predpovedať pohlavie a vek osoby. V tomto vám predstavíme počítačové videnie a jeho princípy. Budeme stavať konvolučná neurónová sieť a bude používať modely vyškolené Talom Hassnerom a Gilom Levym na súbore údajov Adience. Počas cesty použijeme niektoré súbory .pb, .pbtxt, .prototxt a .caffemodel.
Toto je projekt vizualizácie dát s ggplot2, v ktorom budeme používať R a jeho knižnice a analyzovať rôzne parametre. Použijeme dátový súbor Uber Pickups New York City a vytvoríme vizualizácie pre rôzne časové rámce roka. To nám hovorí, ako čas ovplyvňuje cestovanie zákazníkov.
Jazyk: R
Súbor údajov/balík: Súbor údajov Uber Pickups v New Yorku
Ospalá jazda je mimoriadne nebezpečná a každý rok sa stane takmer tisíc nehôd v dôsledku zaspávania vodičov počas jazdy. V tomto projekte Python vytvoríme systém, ktorý dokáže rozpoznať ospalé ovládače a tiež ich upozorniť zvukovým signálom.
Tento projekt je implementovaný pomocou Keras a OpenCV. Použijeme OpenCV na detekciu tváre a očí a pomocou Keras klasifikujeme stav oka (otvorené alebo zatvorené) pomocou techník hlbokých neurónových sietí.
8. Chatbot
Vytvorte si chatbota s Pythonom a urobte krok vpred vo svojej kariére - Chatbot s NLTK & Keras.
Chatboty sú neoddeliteľnou súčasťou podnikania. Mnohé podniky musia svojim zákazníkom ponúkať služby a obsluhovať ich si vyžaduje veľa pracovných síl, času a úsilia. Chatboty dokážu zautomatizovať veľkú časť vašej interakcie so zákazníkmi zodpovedaním niektorých bežných otázok, ktoré zákazníci kladú. V zásade existujú dva typy chatbotov: špecifická pre doménu a otvorená doména. Na vyriešenie konkrétneho problému sa často používa chatbot špecifický pre doménu. Musíte si ho teda prispôsobiť, aby efektívne fungoval vo vašom odbore. Chatbotom v otvorenej doméne možno klásť akékoľvek otázky, takže ich školenie si vyžaduje obrovské množstvo údajov.
Opísať, čo je na obrázku, je pre ľudí jednoduchá úloha, ale pre počítače je obrázok jednoducho sériou čísel, ktoré predstavujú farebnú hodnotu každého pixelu. Pre počítače je to náročná úloha. Porozumieť tomu, čo je na obrázku, a potom vytvoriť popis v prirodzenom jazyku (napríklad v angličtine) je ďalšia náročná úloha. Tento projekt využíva techniky hlbokého učenia, v ktorých implementujeme konvolučnú neurónovú sieť (CNN) s rekurentnou neurónovou sieťou (LSTM) na vytvorenie generátora popisu obrázkov.
Teraz ste začali chápať techniky a koncepty. Prejdime k niektorým pokročilým projektom v oblasti dátovej vedy. V tomto projekte budeme používať jazyk R s podobnými algoritmami rozhodovacie stromy, logistická regresia, umelé neurónové siete a klasifikátor zvyšujúci gradient. Na klasifikáciu transakcií kreditnou kartou ako podvodných alebo pravých použijeme súbor údajov o kartových transakciách. Vyberieme im rôzne modely a zostavíme výkonnostné krivky.
Jazyk: R
Súbor údajov/balík: Dátový súbor kartových transakcií
V tomto projekte Data Science použijeme R na implementáciu odporúčaní filmu prostredníctvom strojového učenia. Systém odporúčaní odosiela návrhy používateľom prostredníctvom procesu filtrovania na základe preferencií iných používateľov a histórie prehliadania. Ak sa A a B páči Sám doma a B má rada Mean Girls, potom môžete navrhnúť A – mohlo by sa im to páčiť. To umožňuje zákazníkom interakciu s platformou.
Segmentácia kupujúcich je populárna aplikácia učenie bez dozoru. Pomocou klastrovania spoločnosti identifikujú segmenty zákazníkov, aby sa zamerali na potenciálnu používateľskú základňu. Rozdeľujú zákazníkov do skupín podľa spoločných charakteristík, ako je pohlavie, vek, záujmy a míňacie návyky, aby mohli efektívne predávať svoje produkty každej skupine. Budeme používať K-znamená zhlukovanie, ako aj vizualizovať rozdelenie podľa pohlavia a veku. Potom analyzujeme ich ročné príjmy a výdavky.
Vráťme sa k medicínskemu prínosu dátovej vedy, naučme sa, ako odhaliť rakovinu prsníka pomocou Pythonu. Na identifikáciu invazívneho duktálneho karcinómu, najbežnejšej formy rakoviny prsníka, použijeme súbor údajov IDC_regular. Vyvíja sa v mliekovodoch, zavŕtava sa do vláknitého alebo tukového tkaniva prsníka mimo kanálika. V tomto nápade vedeckého projektu zberu údajov použijeme Deep Learning a knižnicu Keras na klasifikáciu.
Dopravné značky a pravidlá cestnej premávky sú pre každého vodiča veľmi dôležité, aby sa vyhli nehodám. Aby ste sa riadili pravidlom, musíte najprv pochopiť, ako vyzerá dopravná značka. Osoba sa musí naučiť všetky dopravné značky predtým, ako dostane oprávnenie na vedenie akéhokoľvek vozidla. Teraz však počet autonómnych vozidiel rastie a v blízkej budúcnosti už človek nebude riadiť auto samostatne. V projekte Rozpoznávanie dopravných značiek sa naučíte, ako program dokáže rozpoznať typ dopravných značiek tak, že zadá obrázok. Dátový súbor German Traffic Sign Recognition Benchmark (GTSRB) sa používa na vybudovanie hlbokej neurónovej siete na rozpoznanie triedy, do ktorej patrí dopravná značka. Vytvárame tiež jednoduché GUI na interakciu s aplikáciou.
Jazyk: Pytón
Množina údajov: GTSRB (nemecký benchmark na rozpoznávanie dopravných značiek)