Analýza sentimentu je analýza slov k identifikaci sentimentů a názorů, které mohou být pozitivní nebo negativní. Jedná se o typ klasifikace, kde třídy mohou být binární (kladná a záporná) nebo množná (veselý, naštvaný, smutný, ošklivý...). Tento projekt Data Science implementujeme v R a použijeme datovou sadu v balíčku „janeaustenR“. Použijeme univerzální slovníky jako AFINN, bing a loughran, provedeme vnitřní spojení a na konci vytvoříme slovní mrak pro zobrazení výsledku.
Fake news jsou nepravdivé informace šířené prostřednictvím sociálních médií a dalších online médií za účelem dosažení politických cílů. V této myšlence projektu Data Science použijeme Python k vytvoření modelu, který dokáže přesně určit, zda jsou zprávy skutečné nebo falešné. Vytvoříme TfidfVectorizer a použijeme PassiveAggressiveClassifier ke klasifikaci zpráv na „skutečné“ a „falešné“. Použijeme datovou sadu tvaru 7796×4 a vše uděláme v Jupyter Lab.
Začali jsme využívat Data Science ke zlepšení zdravotní péče a služeb – pokud dokážeme předvídat nemoc v rané fázi, pak budeme mít mnoho výhod. V tomto projektu Data Science se tedy naučíme, jak detekovat Parkinsonovu nemoc pomocí Pythonu. Je to neurodegenerativní, progresivní onemocnění centrálního nervového systému, které ovlivňuje pohyb a způsobuje třes a ztuhlost. Ovlivňuje neurony produkující dopamin v mozku a každý rok postihuje více než 1 milion lidí v Indii.
Jazyk: PYTHON
Datová sada/balíček: Datový soubor UCI ML Parkinsons
Pojďme se nyní naučit, jak používat různé knihovny. Tento projekt Data Science využívá knihovnu librosa pro rozpoznávání řeči. SER je proces identifikace lidských emocí a afektivních stavů z řeči. Protože k vyjádření emocí hlasem používáme tón a výšku, je SER relevantní. Ale protože emoce jsou subjektivní, je zvuková anotace obtížný úkol. Využijeme funkce mfcc, chroma a mel a pro rozpoznávání emocí využijeme datovou sadu RAVDESS. Pro tento model vytvoříme klasifikátor MLPC.
Jedná se o zajímavou datovou vědu s Pythonem. Pomocí jediného obrázku se naučíte předpovídat pohlaví a věk člověka. V tomto vám představíme počítačové vidění a jeho principy. Budeme stavět konvoluční neuronové sítě a bude používat modely vyškolené Talem Hassnerem a Gilem Levym na datovém souboru Adience. Po cestě použijeme některé soubory .pb, .pbtxt, .prototxt a .caffemodel.
Toto je projekt vizualizace dat s ggplot2, ve kterém budeme používat R a jeho knihovny a analyzovat různé parametry. Použijeme datovou sadu Uber Pickups New York a vytvoříme vizualizace pro různá časová období roku. To nám říká, jak čas ovlivňuje cesty zákazníků.
Jazyk: R
Datová sada/balíček: Datová sada Uber Pickups v New Yorku
Ospalá jízda je extrémně nebezpečná, ročně se zde stane asi tisíc nehod kvůli tomu, že řidiči za jízdy usnou. V tomto projektu v Pythonu vytvoříme systém, který dokáže detekovat ospalé řidiče a také je upozornit pípnutím.
Tento projekt je implementován pomocí Keras a OpenCV. OpenCV použijeme k detekci obličeje a očí a pomocí Keras klasifikujeme stav oka (otevřené nebo zavřené) pomocí metod hlubokých neuronových sítí.
8. Chatbot
Postavte si chatbota s Pythonem a udělejte krok vpřed ve své kariéře - Chatbot s NLTK & Keras.
Chatboti jsou nedílnou součástí podnikání. Mnoho podniků musí svým zákazníkům nabízet služby a obsluhovat je vyžaduje spoustu pracovních sil, času a úsilí. Chatboti dokážou zautomatizovat velkou část interakce se zákazníky tím, že odpoví na některé běžné otázky, které zákazníci pokládají. V zásadě existují dva typy chatbotů: Domain-specific a Open-domain. K řešení konkrétního problému se často používá chatbot pro konkrétní doménu. Proto jej musíte přizpůsobit, aby efektivně fungoval ve vašem oboru. Chatbotům v otevřené doméně lze klást jakékoli otázky, takže jejich školení vyžaduje obrovské množství dat.
Popis toho, co je na obrázku, je pro lidi snadný úkol, ale pro počítače je obrázek pouze sbírkou čísel, která představují barevnou hodnotu každého pixelu. To je pro počítače obtížný úkol. Dalším obtížným úkolem je porozumět tomu, co je na obrázku, a následně vytvořit popis přirozeného jazyka (např. angličtina). Tento projekt využívá techniky hlubokého učení, ve kterých implementujeme konvoluční neuronovou síť (CNN) s rekurentní neuronovou sítí (LSTM), abychom vytvořili generátor popisu obrázků.
Nyní jste začali chápat metody a koncepty. Pojďme k některým pokročilým projektům datové vědy. V tomto projektu budeme používat jazyk R s algoritmy jako např rozhodovací stromy, logistická regrese, umělé neuronové sítě a klasifikátor zvyšující gradient. Soubor údajů o kartových transakcích použijeme ke klasifikaci transakcí kreditními kartami jako podvodných a pravých. Vybereme pro ně různé modely a postavíme výkonové křivky.
Jazyk: R
Datová sada/balíček: Datová sada karetních transakcí
V tomto projektu Data Science použijeme R k provedení doporučení filmu prostřednictvím strojového učení. Systém doporučení odesílá návrhy uživatelům prostřednictvím procesu filtrování na základě preferencí ostatních uživatelů a historie procházení. Pokud A a B mají rádi Sám doma a B má rádi Mean Girls, pak můžete navrhnout A – mohlo by se jim to líbit také. To umožňuje klientům interakci s platformou.
Segmentace kupujících je oblíbená aplikace učení bez dozoru. Pomocí clusteringu společnosti definují segmenty zákazníků, aby mohly pracovat s potenciální uživatelskou základnou. Rozdělují zákazníky do skupin podle společných charakteristik, jako je pohlaví, věk, zájmy a výdajové návyky, aby mohli efektivně prodávat své produkty každé skupině. budeme používat K znamená shlukování, stejně jako vizualizovat rozdělení podle pohlaví a věku. Poté analyzujeme jejich roční příjmy a výdaje.
Vrátíme-li se k lékařskému přínosu datové vědy, pojďme se naučit, jak detekovat rakovinu prsu pomocí Pythonu. Dataset IDC_regular použijeme k detekci invazivního duktálního karcinomu, nejběžnější formy rakoviny prsu. Vyvíjí se v mléčných kanálcích, proniká do vazivové nebo tukové tkáně mléčné žlázy mimo kanál. V tomto nápadu vědeckého projektu sběru dat použijeme Hluboké učení a knihovna Keras pro klasifikaci.
Dopravní značky a dopravní pravidla jsou pro každého řidiče velmi důležité, aby se vyhnul nehodám. Abyste toto pravidlo dodrželi, musíte nejprve pochopit, jak dopravní značka vypadá. Osoba se musí naučit všechny dopravní značky, než mu bude uděleno právo řídit jakékoli vozidlo. Nyní ale počet autonomních vozidel roste a v blízké budoucnosti už člověk sám auto řídit nebude. V projektu Rozpoznávání dopravních značek se dozvíte, jak program dokáže rozpoznat typ dopravní značky tím, že jako vstup vezme obrázek. Německý referenční datový soubor pro rozpoznávání dopravních značek (GTSRB) se používá k vybudování hluboké neuronové sítě k rozpoznání třídy, do které dopravní značka patří. Vytváříme také jednoduché GUI pro interakci s aplikací.
Jazyk: PYTHON
Soubor dat: GTRB (německý benchmark pro rozpoznávání dopravních značek)