A hangulatelemzés szavak elemzése, hogy azonosítsa az érzelmeket és véleményeket, amelyek lehetnek pozitívak vagy negatívak. Ez egy olyan osztályozási típus, ahol az osztályok lehetnek binárisak (pozitív és negatív) vagy többes számok (boldog, dühös, szomorú, csúnya...). Ezt a Data Science projektet R nyelven fogjuk megvalósítani, és a "janeaustenR" csomagban lévő adatkészletet fogjuk használni. Olyan általános célú szótárakat fogunk használni, mint az AFINN, bing és loughran, belső összekapcsolást végzünk, és a végén szófelhőt hozunk létre az eredmény megjelenítéséhez.
Az álhírek a közösségi médián és más online médián keresztül politikai célok elérése érdekében terjesztett hamis információk. Ebben a Data Science projektötletben a Python segítségével olyan modellt építünk, amely pontosan meghatározza, hogy a hírek valódiak vagy hamisak. Létrehozunk egy TfidfVectorizert, és a PassiveAggressiveClassifier segítségével osztályozzuk a híreket "valódi" és "hamis" kategóriába. 7796 × 4-es alakzat adatkészletet fogunk használni, és mindent a Jupyter Labban fogunk elvégezni.
Elkezdtük használni a Data Science-t az egészségügy és a szolgáltatások javítására – ha már korai stádiumban meg tudjuk jósolni a betegséget, akkor számos előnnyel járunk. Tehát ebben a Data Science projektötletben megtanuljuk, hogyan lehet Python segítségével kimutatni a Parkinson-kórt. Ez a központi idegrendszer neurodegeneratív, progresszív betegsége, amely befolyásolja a mozgást, remegést és merevséget okoz. Az agy dopamintermelő neuronjait érinti, és évente több mint 1 millió embert érint Indiában.
Most tanuljuk meg a különböző könyvtárak használatát. Ez a Data Science projekt a librosa-t használja a beszédfelismeréshez. A SER az emberi érzelmek és érzelmi állapotok beszédből történő azonosításának folyamata. Mivel hangszínt és hangmagasságot használunk az érzelmek hangunkkal való kifejezésére, a SER releváns. De mivel az érzelmek szubjektívek, a hangjegyzetek elkészítése nehéz feladat. Az mfcc, chroma és mel függvényeket, valamint a RAVDESS adatkészletet fogjuk használni az érzelmek felismerésére. Ehhez a modellhez létrehozunk egy MLPC osztályozót.
Ez egy érdekes adattudomány Pythonnal. Egyetlen kép felhasználásával megtanulhatja, hogyan lehet megjósolni egy személy nemét és korát. Ebben bemutatjuk a Computer Vision-t és annak elveit. Mi fogunk építeni konvolúciós neurális hálózat és Tal Hassner és Gil Levy által kiképzett modelleket fog használni az Adience adatkészleten. Használunk néhány .pb, .pbtxt, .prototxt és .caffemodel fájlt.
Ez egy adatvizualizációs projekt a ggplot2-vel, amelyben R-t és annak könyvtárait fogjuk használni, és különféle paramétereket elemezünk. Az Uber Pickups New York-i adatkészletet fogjuk használni, és vizualizációkat készítünk az év különböző időszakaihoz. Ez elmondja nekünk, hogy az idő hogyan befolyásolja az ügyfelek utazásait.
Nyelv: R
Adatkészlet/csomag: Uber Pickup in New York City adatkészlet
Az álmos vezetés rendkívül veszélyes, évente mintegy ezer balesetet szenvednek el a sofőrök vezetés közbeni elalvása miatt. Ebben a Python projektben egy olyan rendszert hozunk létre, amely képes észlelni az álmos illesztőprogramokat, és hangjelzéssel is figyelmeztetni őket.
Ez a projekt Keras és OpenCV használatával valósult meg. Az arc és a szem detektálására OpenCV-t fogunk használni, a Keras segítségével pedig mély neurális hálózati módszerekkel osztályozzuk a szem állapotát (nyitott vagy zárt).
A chatbotok az üzlet szerves részét képezik. Sok vállalkozásnak szolgáltatásokat kell kínálnia ügyfelei számára, és sok munkaerőt, időt és erőfeszítést igényel a kiszolgálásuk. A chatbotok automatizálhatják az ügyfelek interakciójának nagy részét azáltal, hogy megválaszolják az ügyfelek által feltett gyakori kérdéseket. Alapvetően kétféle chatbot létezik: Domain-specifikus és Open-domain. Egy tartományspecifikus chatbotot gyakran használnak egy adott probléma megoldására. Ezért testre kell szabnia, hogy hatékonyan működjön az Ön területén. A nyílt tartományú chatbotoknak bármilyen kérdést fel lehet tenni, így a betanításuk hatalmas adatmennyiséget igényel.
A kép leírása egyszerű feladat az ember számára, de a számítógépek számára a kép csak számok gyűjteménye, amelyek az egyes pixelek színértékét jelzik. Ez nehéz feladat a számítógépek számára. Egy másik nehéz feladat megérteni, hogy mi van egy képen, majd természetes nyelvű leírást készíteni (pl. angol). Ez a projekt mély tanulási technikákat használ, amelyekben konvolúciós neurális hálózatot (CNN) valósítunk meg ismétlődő neurális hálózattal (LSTM) a képleíró generátor létrehozásához.
Mostanra elkezdted megérteni a módszereket és a fogalmakat. Térjünk át néhány fejlett adattudományi projektre. Ebben a projektben az R nyelvet olyan algoritmusokkal fogjuk használni, mint pl döntési fák, logisztikus regresszió, mesterséges neurális hálózatok és gradiensnövelő osztályozó. A kártyatranzakciók adatkészletét használjuk a hitelkártya-tranzakciók csalárdnak és valódinak minősítésére. Különböző modelleket választunk ki számukra, és teljesítménygörbéket készítünk.
Ebben a Data Science projektben az R-t használjuk a film ajánlásainak gépi tanuláson keresztüli végrehajtására. Az ajánlórendszer a többi felhasználó preferenciái és böngészési előzményei alapján szűrési folyamaton keresztül javaslatokat küld a felhasználóknak. Ha A és B szereti az Egyedül otthon, B pedig a Mean Girls-t, akkor ajánlhatja A-t – lehet, hogy nekik is tetszeni fog. Ez lehetővé teszi az ügyfelek számára, hogy kapcsolatba lépjenek a platformmal.
A vásárlói szegmentálás népszerű alkalmazás felügyelet nélküli tanulás. A klaszterezés segítségével a vállalatok ügyfélszegmenseket határoznak meg, hogy együttműködjenek a potenciális felhasználói bázissal. Csoportokba osztják a vásárlókat olyan közös jellemzők szerint, mint a nem, az életkor, az érdeklődési körök és a költési szokások, hogy hatékonyan tudják értékesíteni termékeiket az egyes csoportok számára. Használni fogjuk A K-csoportosítást jelent, valamint vizualizálja a nemek és életkor szerinti megoszlást. Ezután elemezzük éves bevételi és kiadási szintjüket.
Visszatérve az adattudomány orvosi hozzájárulására, tanuljuk meg, hogyan lehet kimutatni a mellrákot Python segítségével. Az IDC_regular adatkészletet használjuk az invazív ductalis karcinóma kimutatására, amely a mellrák leggyakoribb formája. A tejcsatornákban fejlődik, behatol a vezetéken kívüli emlőmirigy rostos vagy zsírszövetébe. Ebben az adatgyűjtési tudományos projektötletben használni fogjuk Deep Learning és a Keras könyvtár az osztályozáshoz.
A balesetek elkerülése érdekében minden járművezető számára nagyon fontosak az útjelző táblák és a közlekedési szabályok. A szabály követéséhez először meg kell értenie, hogyan néz ki az útjelző tábla. A személynek meg kell tanulnia minden közúti jelzést, mielőtt bármilyen jármű vezetésére jogosítaná. De most növekszik az autonóm járművek száma, és a közeljövőben az ember már nem fog önállóan autót vezetni. Az útjelzőtábla-felismerés projektben megtudhatja, hogyan tud egy program felismerni egyfajta útjelző táblát úgy, hogy bemenetként képet vesz fel. A német útjelzőtábla-felismerési referenciaadatkészlet (GTSRB) egy mély neurális hálózat felépítésére szolgál, amely felismeri azt az osztályt, amelyhez a közlekedési tábla tartozik. Egy egyszerű grafikus felhasználói felületet is készítünk az alkalmazással való interakcióhoz.
Nyelv: Piton
Adatkészlet: GTRB (német közlekedési tábla felismerési referenciaérték)