14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

Data Science pro začátečníky

1. Analýza sentimentu (analýza nálady prostřednictvím textu)

14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

Prohlédněte si kompletní implementaci projektu Data Science pomocí zdrojového kódu − Projekt analýzy sentimentu v R.

Analýza sentimentu je analýza slov k identifikaci sentimentů a názorů, které mohou být pozitivní nebo negativní. Jedná se o typ klasifikace, kde třídy mohou být binární (kladná a záporná) nebo množná (veselý, naštvaný, smutný, ošklivý...). Tento projekt Data Science implementujeme v R a použijeme datovou sadu v balíčku „janeaustenR“. Použijeme univerzální slovníky jako AFINN, bing a loughran, provedeme vnitřní spojení a na konci vytvoříme slovní mrak pro zobrazení výsledku.

Jazyk: R
Datová sada/balíček: janeoustenR

14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

Článek byl přeložen s podporou EDISON Software, která vytváří virtuální prostory pro prodejny více značeka testuje software.

2. Detekce falešných zpráv

Posuňte své dovednosti na další úroveň prací na Data Science Project for Beginners − detekce falešných zpráv pomocí Pythonu.

14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

Fake news jsou nepravdivé informace šířené prostřednictvím sociálních médií a dalších online médií za účelem dosažení politických cílů. V této myšlence projektu Data Science použijeme Python k vytvoření modelu, který dokáže přesně určit, zda jsou zprávy skutečné nebo falešné. Vytvoříme TfidfVectorizer a použijeme PassiveAggressiveClassifier ke klasifikaci zpráv na „skutečné“ a „falešné“. Použijeme datovou sadu tvaru 7796×4 a vše uděláme v Jupyter Lab.

Jazyk: PYTHON

Datová sada/balíček: news.csv

3. Detekce Parkinsonovy choroby

Posuňte se vpřed prací na projektu Data Science Project Idea − detekce Parkinsonovy choroby pomocí XGBoost.

14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

Začali jsme využívat Data Science ke zlepšení zdravotní péče a služeb – pokud dokážeme předvídat nemoc v rané fázi, pak budeme mít mnoho výhod. V tomto projektu Data Science se tedy naučíme, jak detekovat Parkinsonovu nemoc pomocí Pythonu. Je to neurodegenerativní, progresivní onemocnění centrálního nervového systému, které ovlivňuje pohyb a způsobuje třes a ztuhlost. Ovlivňuje neurony produkující dopamin v mozku a každý rok postihuje více než 1 milion lidí v Indii.

Jazyk: PYTHON

Datová sada/balíček: Datový soubor UCI ML Parkinsons

Projekty datové vědy střední složitosti

4. Rozpoznávání emocí řeči

Podívejte se na úplnou implementaci ukázkového projektu Data Science − rozpoznávání řeči pomocí Librosa.

14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

Pojďme se nyní naučit, jak používat různé knihovny. Tento projekt Data Science využívá knihovnu librosa pro rozpoznávání řeči. SER je proces identifikace lidských emocí a afektivních stavů z řeči. Protože k vyjádření emocí hlasem používáme tón a výšku, je SER relevantní. Ale protože emoce jsou subjektivní, je zvuková anotace obtížný úkol. Využijeme funkce mfcc, chroma a mel a pro rozpoznávání emocí využijeme datovou sadu RAVDESS. Pro tento model vytvoříme klasifikátor MLPC.

Jazyk: PYTHON

Datová sada/balíček: Datový soubor RAVDESS

5. Detekce pohlaví a věku

Zapůsobte na zaměstnavatele nejnovějším projektem Data Science – zjišťování pohlaví a věku pomocí OpenCV.

14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

Jedná se o zajímavou datovou vědu s Pythonem. Pomocí jediného obrázku se naučíte předpovídat pohlaví a věk člověka. V tomto vám představíme počítačové vidění a jeho principy. Budeme stavět konvoluční neuronové sítě a bude používat modely vyškolené Talem Hassnerem a Gilem Levym na datovém souboru Adience. Po cestě použijeme některé soubory .pb, .pbtxt, .prototxt a .caffemodel.

Jazyk: PYTHON

Datová sada/balíček: Adience

6. Analýza dat Uber

Prohlédněte si kompletní implementaci projektu Data Science se zdrojovým kódem − Projekt analýzy dat Uber v R.

14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

Toto je projekt vizualizace dat s ggplot2, ve kterém budeme používat R a jeho knihovny a analyzovat různé parametry. Použijeme datovou sadu Uber Pickups New York a vytvoříme vizualizace pro různá časová období roku. To nám říká, jak čas ovlivňuje cesty zákazníků.

Jazyk: R

Datová sada/balíček: Datová sada Uber Pickups v New Yorku

7. Detekce ospalosti řidiče

Vylepšete své dovednosti prací na projektu Top Data Science Project - systém detekce ospalosti s OpenCV & Keras.

14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

Ospalá jízda je extrémně nebezpečná, ročně se zde stane asi tisíc nehod kvůli tomu, že řidiči za jízdy usnou. V tomto projektu v Pythonu vytvoříme systém, který dokáže detekovat ospalé řidiče a také je upozornit pípnutím.

Tento projekt je implementován pomocí Keras a OpenCV. OpenCV použijeme k detekci obličeje a očí a pomocí Keras klasifikujeme stav oka (otevřené nebo zavřené) pomocí metod hlubokých neuronových sítí.

8. Chatbot

Postavte si chatbota s Pythonem a udělejte krok vpřed ve své kariéře - Chatbot s NLTK & Keras.

14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

Chatboti jsou nedílnou součástí podnikání. Mnoho podniků musí svým zákazníkům nabízet služby a obsluhovat je vyžaduje spoustu pracovních sil, času a úsilí. Chatboti dokážou zautomatizovat velkou část interakce se zákazníky tím, že odpoví na některé běžné otázky, které zákazníci pokládají. V zásadě existují dva typy chatbotů: Domain-specific a Open-domain. K řešení konkrétního problému se často používá chatbot pro konkrétní doménu. Proto jej musíte přizpůsobit, aby efektivně fungoval ve vašem oboru. Chatbotům v otevřené doméně lze klást jakékoli otázky, takže jejich školení vyžaduje obrovské množství dat.

Soubor dat: Soubor Intents json

Jazyk: PYTHON

Pokročilé projekty datové vědy

9. Generátor popisků obrázků

Podívejte se na kompletní realizaci projektu se zdrojovým kódem − Image Caption Generator s CNN a LSTM.

14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

Popis toho, co je na obrázku, je pro lidi snadný úkol, ale pro počítače je obrázek pouze sbírkou čísel, která představují barevnou hodnotu každého pixelu. To je pro počítače obtížný úkol. Dalším obtížným úkolem je porozumět tomu, co je na obrázku, a následně vytvořit popis přirozeného jazyka (např. angličtina). Tento projekt využívá techniky hlubokého učení, ve kterých implementujeme konvoluční neuronovou síť (CNN) s rekurentní neuronovou sítí (LSTM), abychom vytvořili generátor popisu obrázků.

Soubor dat: Flickr 8K

Jazyk: PYTHON

Rámec: Keras

10. Detekce podvodů s kreditní kartou

Udělejte to nejlepší tím, že budete pracovat na nápadu projektu Data Science − detekce podvodů s kreditními kartami pomocí strojového učení.

14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

Nyní jste začali chápat metody a koncepty. Pojďme k některým pokročilým projektům datové vědy. V tomto projektu budeme používat jazyk R s algoritmy jako např rozhodovací stromy, logistická regrese, umělé neuronové sítě a klasifikátor zvyšující gradient. Soubor údajů o kartových transakcích použijeme ke klasifikaci transakcí kreditními kartami jako podvodných a pravých. Vybereme pro ně různé modely a postavíme výkonové křivky.

Jazyk: R

Datová sada/balíček: Datová sada karetních transakcí

11. Systém doporučování filmů

Prozkoumejte implementaci nejlepšího projektu Data Science se zdrojovým kódem - Systém doporučení filmů v R

14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

V tomto projektu Data Science použijeme R k provedení doporučení filmu prostřednictvím strojového učení. Systém doporučení odesílá návrhy uživatelům prostřednictvím procesu filtrování na základě preferencí ostatních uživatelů a historie procházení. Pokud A a B mají rádi Sám doma a B má rádi Mean Girls, pak můžete navrhnout A – mohlo by se jim to líbit také. To umožňuje klientům interakci s platformou.

Jazyk: R

Datová sada/balíček: Datová sada MovieLens

12. Segmentace zákazníků

Zapůsobte na zaměstnavatele projektem Data Science (včetně zdrojového kódu) - Segmentace zákazníků pomocí strojového učení.

14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

Segmentace kupujících je oblíbená aplikace učení bez dozoru. Pomocí clusteringu společnosti definují segmenty zákazníků, aby mohly pracovat s potenciální uživatelskou základnou. Rozdělují zákazníky do skupin podle společných charakteristik, jako je pohlaví, věk, zájmy a výdajové návyky, aby mohli efektivně prodávat své produkty každé skupině. budeme používat K znamená shlukování, stejně jako vizualizovat rozdělení podle pohlaví a věku. Poté analyzujeme jejich roční příjmy a výdaje.

Jazyk: R

Datová sada/balíček: Datový soubor Mall_Customers

13. Klasifikace rakoviny prsu

Podívejte se na kompletní implementaci projektu Data Science v Pythonu − Klasifikace rakoviny prsu pomocí hlubokého učení.

14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

Vrátíme-li se k lékařskému přínosu datové vědy, pojďme se naučit, jak detekovat rakovinu prsu pomocí Pythonu. Dataset IDC_regular použijeme k detekci invazivního duktálního karcinomu, nejběžnější formy rakoviny prsu. Vyvíjí se v mléčných kanálcích, proniká do vazivové nebo tukové tkáně mléčné žlázy mimo kanál. V tomto nápadu vědeckého projektu sběru dat použijeme Hluboké učení a knihovna Keras pro klasifikaci.

Jazyk: PYTHON

Datová sada/balíček: IDC_regular

14. Rozpoznávání dopravních značek

Dosažení přesnosti v technologii samořiditelných automobilů se zapnutým projektem Data Science rozpoznávání dopravních značek pomocí CNN open source.

14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké)

Dopravní značky a dopravní pravidla jsou pro každého řidiče velmi důležité, aby se vyhnul nehodám. Abyste toto pravidlo dodrželi, musíte nejprve pochopit, jak dopravní značka vypadá. Osoba se musí naučit všechny dopravní značky, než mu bude uděleno právo řídit jakékoli vozidlo. Nyní ale počet autonomních vozidel roste a v blízké budoucnosti už člověk sám auto řídit nebude. V projektu Rozpoznávání dopravních značek se dozvíte, jak program dokáže rozpoznat typ dopravní značky tím, že jako vstup vezme obrázek. Německý referenční datový soubor pro rozpoznávání dopravních značek (GTSRB) se používá k vybudování hluboké neuronové sítě k rozpoznání třídy, do které dopravní značka patří. Vytváříme také jednoduché GUI pro interakci s aplikací.

Jazyk: PYTHON

Soubor dat: GTRB (německý benchmark pro rozpoznávání dopravních značek)

Přečtěte si více

Zdroj: www.habr.com

Přidat komentář