14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

Adattudomány kezdőknek

1. Hangulatelemzés (hangulatelemzés szövegen keresztül)

14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

Tekintse meg a Data Science projekt teljes megvalósítását forráskód segítségével − Hangulatelemző projekt R.-ben.

A hangulatelemzés szavak elemzése, hogy azonosítsa az érzelmeket és véleményeket, amelyek lehetnek pozitívak vagy negatívak. Ez egy olyan osztályozási típus, ahol az osztályok lehetnek binárisak (pozitív és negatív) vagy többes számok (boldog, dühös, szomorú, csúnya...). Ezt a Data Science projektet R nyelven fogjuk megvalósítani, és a "janeaustenR" csomagban lévő adatkészletet fogjuk használni. Olyan általános célú szótárakat fogunk használni, mint az AFINN, bing és loughran, belső összekapcsolást végzünk, és a végén szófelhőt hozunk létre az eredmény megjelenítéséhez.

Nyelv: R
Adatkészlet/csomag: janeoustenR

14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

A cikk az EDISON Software támogatásával készült, amely virtuális próbafülkéket készít többmárkás üzletek számáraÉs teszteli a szoftvert.

2. Álhírek észlelése

Emelje tudását a következő szintre a kezdőknek szóló adattudományi projekten – álhírek észlelése Python segítségével.

14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

Az álhírek a közösségi médián és más online médián keresztül politikai célok elérése érdekében terjesztett hamis információk. Ebben a Data Science projektötletben a Python segítségével olyan modellt építünk, amely pontosan meghatározza, hogy a hírek valódiak vagy hamisak. Létrehozunk egy TfidfVectorizert, és a PassiveAggressiveClassifier segítségével osztályozzuk a híreket "valódi" és "hamis" kategóriába. 7796 × 4-es alakzat adatkészletet fogunk használni, és mindent a Jupyter Labban fogunk elvégezni.

Nyelv: Piton

Adatkészlet/csomag: hírek.csv

3. Parkinson-kór kimutatása

Haladjon előre az adattudományi projektötlet kidolgozásával − Parkinson-kór kimutatása XGBoost segítségével.

14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

Elkezdtük használni a Data Science-t az egészségügy és a szolgáltatások javítására – ha már korai stádiumban meg tudjuk jósolni a betegséget, akkor számos előnnyel járunk. Tehát ebben a Data Science projektötletben megtanuljuk, hogyan lehet Python segítségével kimutatni a Parkinson-kórt. Ez a központi idegrendszer neurodegeneratív, progresszív betegsége, amely befolyásolja a mozgást, remegést és merevséget okoz. Az agy dopamintermelő neuronjait érinti, és évente több mint 1 millió embert érint Indiában.

Nyelv: Piton

Adatkészlet/csomag: UCI ML Parkinsons adatkészlet

Közepes bonyolultságú adattudományi projektek

4. Beszéd Érzelem felismerés

Tekintse meg a Data Science mintaprojekt teljes megvalósítását − beszédfelismerés a Librosa segítségével.

14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

Most tanuljuk meg a különböző könyvtárak használatát. Ez a Data Science projekt a librosa-t használja a beszédfelismeréshez. A SER az emberi érzelmek és érzelmi állapotok beszédből történő azonosításának folyamata. Mivel hangszínt és hangmagasságot használunk az érzelmek hangunkkal való kifejezésére, a SER releváns. De mivel az érzelmek szubjektívek, a hangjegyzetek elkészítése nehéz feladat. Az mfcc, chroma és mel függvényeket, valamint a RAVDESS adatkészletet fogjuk használni az érzelmek felismerésére. Ehhez a modellhez létrehozunk egy MLPC osztályozót.

Nyelv: Piton

Adatkészlet/csomag: RAVDESS adatkészlet

5. Nem és életkor kimutatása

Nyűgözze le a munkáltatókat a legújabb Data Science projekttel - nem és életkor kimutatása OpenCV-vel.

14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

Ez egy érdekes adattudomány Pythonnal. Egyetlen kép felhasználásával megtanulhatja, hogyan lehet megjósolni egy személy nemét és korát. Ebben bemutatjuk a Computer Vision-t és annak elveit. Mi fogunk építeni konvolúciós neurális hálózat és Tal Hassner és Gil Levy által kiképzett modelleket fog használni az Adience adatkészleten. Használunk néhány .pb, .pbtxt, .prototxt és .caffemodel fájlt.

Nyelv: Piton

Adatkészlet/csomag: Adience

6. Uber adatelemzés

Tekintse meg a Data Science projekt teljes megvalósítását forráskóddal − Uber adatelemzési projekt R.-ben.

14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

Ez egy adatvizualizációs projekt a ggplot2-vel, amelyben R-t és annak könyvtárait fogjuk használni, és különféle paramétereket elemezünk. Az Uber Pickups New York-i adatkészletet fogjuk használni, és vizualizációkat készítünk az év különböző időszakaihoz. Ez elmondja nekünk, hogy az idő hogyan befolyásolja az ügyfelek utazásait.

Nyelv: R

Adatkészlet/csomag: Uber Pickup in New York City adatkészlet

7. Vezetői álmosság észlelése

Fejleszd képességeidet a Top Data Science Projecten való munkával – álmosságérzékelő rendszer OpenCV-vel és Keras-szal.

14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

Az álmos vezetés rendkívül veszélyes, évente mintegy ezer balesetet szenvednek el a sofőrök vezetés közbeni elalvása miatt. Ebben a Python projektben egy olyan rendszert hozunk létre, amely képes észlelni az álmos illesztőprogramokat, és hangjelzéssel is figyelmeztetni őket.

Ez a projekt Keras és OpenCV használatával valósult meg. Az arc és a szem detektálására OpenCV-t fogunk használni, a Keras segítségével pedig mély neurális hálózati módszerekkel osztályozzuk a szem állapotát (nyitott vagy zárt).

8.Chatbot

Építsen chatbotot a Python segítségével, és tegyen egy lépést előre karrierjében - Chatbot az NLTK-val és a Keras-szal.

14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

A chatbotok az üzlet szerves részét képezik. Sok vállalkozásnak szolgáltatásokat kell kínálnia ügyfelei számára, és sok munkaerőt, időt és erőfeszítést igényel a kiszolgálásuk. A chatbotok automatizálhatják az ügyfelek interakciójának nagy részét azáltal, hogy megválaszolják az ügyfelek által feltett gyakori kérdéseket. Alapvetően kétféle chatbot létezik: Domain-specifikus és Open-domain. Egy tartományspecifikus chatbotot gyakran használnak egy adott probléma megoldására. Ezért testre kell szabnia, hogy hatékonyan működjön az Ön területén. A nyílt tartományú chatbotoknak bármilyen kérdést fel lehet tenni, így a betanításuk hatalmas adatmennyiséget igényel.

Adatkészlet: Intents json fájl

Nyelv: Piton

Haladó adattudományi projektek

9. Képfelirat-generátor

Tekintse meg a projekt teljes megvalósítását forráskóddal − Képfelirat-generátor a CNN-nel és az LSTM-mel.

14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

A kép leírása egyszerű feladat az ember számára, de a számítógépek számára a kép csak számok gyűjteménye, amelyek az egyes pixelek színértékét jelzik. Ez nehéz feladat a számítógépek számára. Egy másik nehéz feladat megérteni, hogy mi van egy képen, majd természetes nyelvű leírást készíteni (pl. angol). Ez a projekt mély tanulási technikákat használ, amelyekben konvolúciós neurális hálózatot (CNN) valósítunk meg ismétlődő neurális hálózattal (LSTM) a képleíró generátor létrehozásához.

Adatkészlet: Flickr 8K

Nyelv: Piton

Keretrendszer: Keras

10. Hitelkártya-csalás észlelése

Tegye meg a legjobbat a Data Science projektötlet kidolgozásával − hitelkártya-csalás észlelése gépi tanulással.

14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

Mostanra elkezdted megérteni a módszereket és a fogalmakat. Térjünk át néhány fejlett adattudományi projektre. Ebben a projektben az R nyelvet olyan algoritmusokkal fogjuk használni, mint pl döntési fák, logisztikus regresszió, mesterséges neurális hálózatok és gradiensnövelő osztályozó. A kártyatranzakciók adatkészletét használjuk a hitelkártya-tranzakciók csalárdnak és valódinak minősítésére. Különböző modelleket választunk ki számukra, és teljesítménygörbéket készítünk.

Nyelv: R

Adatkészlet/csomag: Kártya tranzakciók adatkészlet

11. Filmajánló rendszer

Fedezze fel a legjobb adattudományi projekt megvalósítását a forráskóddal - Filmajánló rendszer R.-ben

14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

Ebben a Data Science projektben az R-t használjuk a film ajánlásainak gépi tanuláson keresztüli végrehajtására. Az ajánlórendszer a többi felhasználó preferenciái és böngészési előzményei alapján szűrési folyamaton keresztül javaslatokat küld a felhasználóknak. Ha A és B szereti az Egyedül otthon, B pedig a Mean Girls-t, akkor ajánlhatja A-t – lehet, hogy nekik is tetszeni fog. Ez lehetővé teszi az ügyfelek számára, hogy kapcsolatba lépjenek a platformmal.

Nyelv: R

Adatkészlet/csomag: MovieLens adatkészlet

12. Ügyfélszegmentáció

Nyűgözze le a munkáltatókat egy Data Science projekttel (beleértve a forráskódot is) - Ügyfélszegmentálás gépi tanulással.

14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

A vásárlói szegmentálás népszerű alkalmazás felügyelet nélküli tanulás. A klaszterezés segítségével a vállalatok ügyfélszegmenseket határoznak meg, hogy együttműködjenek a potenciális felhasználói bázissal. Csoportokba osztják a vásárlókat olyan közös jellemzők szerint, mint a nem, az életkor, az érdeklődési körök és a költési szokások, hogy hatékonyan tudják értékesíteni termékeiket az egyes csoportok számára. Használni fogjuk A K-csoportosítást jelent, valamint vizualizálja a nemek és életkor szerinti megoszlást. Ezután elemezzük éves bevételi és kiadási szintjüket.

Nyelv: R

Adatkészlet/csomag: Mall_Customers adatkészlet

13. A mellrák osztályozása

Tekintse meg a Data Science projekt teljes megvalósítását Pythonban − A mellrák osztályozása a Deep Learning segítségével.

14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

Visszatérve az adattudomány orvosi hozzájárulására, tanuljuk meg, hogyan lehet kimutatni a mellrákot Python segítségével. Az IDC_regular adatkészletet használjuk az invazív ductalis karcinóma kimutatására, amely a mellrák leggyakoribb formája. A tejcsatornákban fejlődik, behatol a vezetéken kívüli emlőmirigy rostos vagy zsírszövetébe. Ebben az adatgyűjtési tudományos projektötletben használni fogjuk Deep Learning és a Keras könyvtár az osztályozáshoz.

Nyelv: Piton

Adatkészlet/csomag: IDC_regular

14. Közlekedési táblák felismerése

Pontosság elérése az önvezető autótechnológiában a Data Science projekttel közlekedési tábla felismerés a CNN segítségével nyílt forráskód.

14 nyílt forráskódú projekt az adattudományi készségek fejlesztésére (könnyű, normál, nehéz)

A balesetek elkerülése érdekében minden járművezető számára nagyon fontosak az útjelző táblák és a közlekedési szabályok. A szabály követéséhez először meg kell értenie, hogyan néz ki az útjelző tábla. A személynek meg kell tanulnia minden közúti jelzést, mielőtt bármilyen jármű vezetésére jogosítaná. De most növekszik az autonóm járművek száma, és a közeljövőben az ember már nem fog önállóan autót vezetni. Az útjelzőtábla-felismerés projektben megtudhatja, hogyan tud egy program felismerni egyfajta útjelző táblát úgy, hogy bemenetként képet vesz fel. A német útjelzőtábla-felismerési referenciaadatkészlet (GTSRB) egy mély neurális hálózat felépítésére szolgál, amely felismeri azt az osztályt, amelyhez a közlekedési tábla tartozik. Egy egyszerű grafikus felhasználói felületet is készítünk az alkalmazással való interakcióhoz.

Nyelv: Piton

Adatkészlet: GTRB (német közlekedési tábla felismerési referenciaérték)

Olvass tovább

Forrás: will.com

Hozzászólás