14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

Dátová veda pre začiatočníkov

1. Analýza sentimentu (analýza sentimentu prostredníctvom textu)

14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

Pozrite si kompletnú implementáciu projektu Data Science pomocou zdrojového kódu − Projekt analýzy sentimentu v R.

Analýza sentimentu je analýza slov na určenie pocitov a názorov, ktoré môžu byť pozitívne alebo negatívne. Ide o typ klasifikácie, v ktorom môžu byť triedy binárne (kladné a záporné) alebo množné číslo (veselé, nahnevané, smutné, škaredé...). Tento projekt Data Science implementujeme v R a použijeme súbor údajov v balíku „janeaustenR“. Použijeme všeobecné slovníky ako AFINN, bing a loughran, vykonáme vnútorné spojenie a na konci vytvoríme slovný oblak na zobrazenie výsledku.

Jazyk: R
Súbor údajov/balík: janeaustenR

14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

Článok bol preložený s podporou EDISON Software, ktorá vytvára virtuálne montážne priestory pre obchody viacerých značieka testuje softvér.

2. Detekcia falošných správ

Posuňte svoje zručnosti na ďalšiu úroveň prácou na projekte Data Science pre začiatočníkov - odhaľovanie falošných správ pomocou Pythonu.

14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

Falošné správy sú nepravdivé informácie šírené prostredníctvom sociálnych médií a iných online médií na dosiahnutie politických cieľov. V tejto myšlienke projektu Data Science použijeme Python na vytvorenie modelu, ktorý dokáže presne určiť, či je spravodajský príbeh skutočný alebo falošný. Vytvoríme TfidfVectorizer a použijeme PassiveAggressiveClassifier na klasifikáciu správ na „skutočné“ a „falošné“. Použijeme dataset v tvare 7796×4 a všetko spustíme v Jupyter Lab.

Jazyk: Pytón

Súbor údajov/balík: news.csv

3. Detekcia Parkinsonovej choroby

Posuňte sa vpred s nápadom projektu Data Science Project - detekciu Parkinsonovej choroby pomocou XGBoost.

14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

Začali sme využívať Data Science na zlepšenie zdravotnej starostlivosti a služieb – ak dokážeme predpovedať ochorenie v počiatočnom štádiu, budeme mať veľa výhod. Takže v tejto myšlienke projektu Data Science sa naučíme, ako odhaliť Parkinsonovu chorobu pomocou Pythonu. Ide o neurodegeneratívne, progresívne ochorenie centrálneho nervového systému, ktoré ovplyvňuje pohyb a spôsobuje tras a stuhnutosť. Ovplyvňuje neuróny v mozgu produkujúce dopamín a každý rok postihuje viac ako 1 milión ľudí v Indii.

Jazyk: Pytón

Súbor údajov/balík: Dátový súbor UCI ML Parkinsonovcov

Projekty dátovej vedy strednej zložitosti

4. Rozpoznávanie emócií reči

Pozrite si kompletnú implementáciu vzorového projektu Data Science − rozpoznávanie reči pomocou Librosa.

14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

Poďme sa teraz naučiť, ako používať rôzne knižnice. Tento projekt Data Science využíva knižnicu librosa na rozpoznávanie reči. SER je proces identifikácie ľudských emócií a afektívnych stavov z reči. Keďže používame tón a výšku na vyjadrenie emócií našimi hlasmi, SER je relevantný. Ale keďže emócie sú subjektívne, zvuková anotácia je náročná úloha. Využijeme funkcie mfcc, chroma a mel a na rozpoznávanie emócií použijeme dataset RAVDESS. Pre tento model vytvoríme klasifikátor MLPC.

Jazyk: Pytón

Súbor údajov/balík: Súbor údajov RAVDESS

5. Detekcia pohlavia a veku

Zapôsobte na zamestnávateľov najnovším projektom Data Science – určenie pohlavia a veku pomocou OpenCV.

14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

Toto je zaujímavá veda o údajoch s Pythonom. Pomocou jediného obrázka sa naučíte predpovedať pohlavie a vek osoby. V tomto vám predstavíme počítačové videnie a jeho princípy. Budeme stavať konvolučná neurónová sieť a bude používať modely vyškolené Talom Hassnerom a Gilom Levym na súbore údajov Adience. Počas cesty použijeme niektoré súbory .pb, .pbtxt, .prototxt a .caffemodel.

Jazyk: Pytón

Súbor údajov/balík: Adience

6. Analýza údajov Uber

Pozrite si kompletnú implementáciu projektu Data Science so zdrojovým kódom − Projekt analýzy údajov Uber v R.

14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

Toto je projekt vizualizácie dát s ggplot2, v ktorom budeme používať R a jeho knižnice a analyzovať rôzne parametre. Použijeme dátový súbor Uber Pickups New York City a vytvoríme vizualizácie pre rôzne časové rámce roka. To nám hovorí, ako čas ovplyvňuje cestovanie zákazníkov.

Jazyk: R

Súbor údajov/balík: Súbor údajov Uber Pickups v New Yorku

7. Detekcia ospalosti vodiča

Zlepšite svoje zručnosti prácou na projekte Top Data Science Project - systém detekcie ospalosti s OpenCV & Keras.

14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

Ospalá jazda je mimoriadne nebezpečná a každý rok sa stane takmer tisíc nehôd v dôsledku zaspávania vodičov počas jazdy. V tomto projekte Python vytvoríme systém, ktorý dokáže rozpoznať ospalé ovládače a tiež ich upozorniť zvukovým signálom.

Tento projekt je implementovaný pomocou Keras a OpenCV. Použijeme OpenCV na detekciu tváre a očí a pomocou Keras klasifikujeme stav oka (otvorené alebo zatvorené) pomocou techník hlbokých neurónových sietí.

8. Chatbot

Vytvorte si chatbota s Pythonom a urobte krok vpred vo svojej kariére - Chatbot s NLTK & Keras.

14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

Chatboty sú neoddeliteľnou súčasťou podnikania. Mnohé podniky musia svojim zákazníkom ponúkať služby a obsluhovať ich si vyžaduje veľa pracovných síl, času a úsilia. Chatboty dokážu zautomatizovať veľkú časť vašej interakcie so zákazníkmi zodpovedaním niektorých bežných otázok, ktoré zákazníci kladú. V zásade existujú dva typy chatbotov: špecifická pre doménu a otvorená doména. Na vyriešenie konkrétneho problému sa často používa chatbot špecifický pre doménu. Musíte si ho teda prispôsobiť, aby efektívne fungoval vo vašom odbore. Chatbotom v otvorenej doméne možno klásť akékoľvek otázky, takže ich školenie si vyžaduje obrovské množstvo údajov.

Množina údajov: Intents json súbor

Jazyk: Pytón

Projekty Advanced Data Science

9. Generátor popisov obrázkov

Pozrite si kompletnú implementáciu projektu so zdrojovým kódom − Image Caption Generator s CNN a LSTM.

14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

Opísať, čo je na obrázku, je pre ľudí jednoduchá úloha, ale pre počítače je obrázok jednoducho sériou čísel, ktoré predstavujú farebnú hodnotu každého pixelu. Pre počítače je to náročná úloha. Porozumieť tomu, čo je na obrázku, a potom vytvoriť popis v prirodzenom jazyku (napríklad v angličtine) je ďalšia náročná úloha. Tento projekt využíva techniky hlbokého učenia, v ktorých implementujeme konvolučnú neurónovú sieť (CNN) s rekurentnou neurónovou sieťou (LSTM) na vytvorenie generátora popisu obrázkov.

Množina údajov: Flickr 8K

Jazyk: Pytón

Rámec: KERAS

10. Detekcia podvodov s kreditnou kartou

Pri práci na nápade projektu Data Science robte maximum − odhaliť podvody s kreditnými kartami pomocou strojového učenia.

14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

Teraz ste začali chápať techniky a koncepty. Prejdime k niektorým pokročilým projektom v oblasti dátovej vedy. V tomto projekte budeme používať jazyk R s podobnými algoritmami rozhodovacie stromy, logistická regresia, umelé neurónové siete a klasifikátor zvyšujúci gradient. Na klasifikáciu transakcií kreditnou kartou ako podvodných alebo pravých použijeme súbor údajov o kartových transakciách. Vyberieme im rôzne modely a zostavíme výkonnostné krivky.

Jazyk: R

Súbor údajov/balík: Dátový súbor kartových transakcií

11. Systém odporúčaní filmov

Preštudujte si implementáciu najlepšieho projektu Data Science so zdrojovým kódom - Systém odporúčaní filmov v jazyku R

14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

V tomto projekte Data Science použijeme R na implementáciu odporúčaní filmu prostredníctvom strojového učenia. Systém odporúčaní odosiela návrhy používateľom prostredníctvom procesu filtrovania na základe preferencií iných používateľov a histórie prehliadania. Ak sa A a B páči Sám doma a B má rada Mean Girls, potom môžete navrhnúť A – mohlo by sa im to páčiť. To umožňuje zákazníkom interakciu s platformou.

Jazyk: R

Súbor údajov/balík: Súbor údajov MovieLens

12. Segmentácia zákazníkov

Zapôsobte na zamestnávateľov projektom Data Science (vrátane zdrojového kódu) - Segmentácia zákazníkov pomocou strojového učenia.

14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

Segmentácia kupujúcich je populárna aplikácia učenie bez dozoru. Pomocou klastrovania spoločnosti identifikujú segmenty zákazníkov, aby sa zamerali na potenciálnu používateľskú základňu. Rozdeľujú zákazníkov do skupín podľa spoločných charakteristík, ako je pohlavie, vek, záujmy a míňacie návyky, aby mohli efektívne predávať svoje produkty každej skupine. Budeme používať K-znamená zhlukovanie, ako aj vizualizovať rozdelenie podľa pohlavia a veku. Potom analyzujeme ich ročné príjmy a výdavky.

Jazyk: R

Súbor údajov/balík: Súbor údajov Mall_Customers

13. Klasifikácia rakoviny prsníka

Pozrite si kompletnú implementáciu projektu Data Science v Pythone − Klasifikácia rakoviny prsníka pomocou hlbokého učenia.

14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

Vráťme sa k medicínskemu prínosu dátovej vedy, naučme sa, ako odhaliť rakovinu prsníka pomocou Pythonu. Na identifikáciu invazívneho duktálneho karcinómu, najbežnejšej formy rakoviny prsníka, použijeme súbor údajov IDC_regular. Vyvíja sa v mliekovodoch, zavŕtava sa do vláknitého alebo tukového tkaniva prsníka mimo kanálika. V tomto nápade vedeckého projektu zberu údajov použijeme Deep Learning a knižnicu Keras na klasifikáciu.

Jazyk: Pytón

Súbor údajov/balík: IDC_regular

14. Rozpoznávanie dopravných značiek

Dosiahnutie presnosti v technológii autonómneho riadenia pomocou projektu Data Science rozpoznávanie dopravných značiek pomocou CNN open source.

14 open source projektov na zlepšenie vašich zručností Data Science (jednoduché, normálne, ťažké)

Dopravné značky a pravidlá cestnej premávky sú pre každého vodiča veľmi dôležité, aby sa vyhli nehodám. Aby ste sa riadili pravidlom, musíte najprv pochopiť, ako vyzerá dopravná značka. Osoba sa musí naučiť všetky dopravné značky predtým, ako dostane oprávnenie na vedenie akéhokoľvek vozidla. Teraz však počet autonómnych vozidiel rastie a v blízkej budúcnosti už človek nebude riadiť auto samostatne. V projekte Rozpoznávanie dopravných značiek sa naučíte, ako program dokáže rozpoznať typ dopravných značiek tak, že zadá obrázok. Dátový súbor German Traffic Sign Recognition Benchmark (GTSRB) sa používa na vybudovanie hlbokej neurónovej siete na rozpoznanie triedy, do ktorej patrí dopravná značka. Vytvárame tiež jednoduché GUI na interakciu s aplikáciou.

Jazyk: Pytón

Množina údajov: GTSRB (nemecký benchmark na rozpoznávanie dopravných značiek)

Čítaj viac

Zdroj: hab.com

Pridať komentár