Analiza osjećaja je analiza riječi za prepoznavanje osjećaja i mišljenja, koji mogu biti pozitivni ili negativni. Ovo je vrsta klasifikacije gdje klase mogu biti binarne (pozitivne i negativne) ili množine (sretan, ljut, tužan, zloban...). Implementirat ćemo ovaj projekt Data Science u R-u i koristit ćemo skup podataka u paketu "janeaustenR". Koristit ćemo rječnike opće namjene kao što su AFINN, bing i loughran, napraviti unutarnje spajanje i na kraju ćemo stvoriti oblak riječi za prikaz rezultata.
Lažne vijesti su lažne informacije koje se šire društvenim mrežama i drugim internetskim medijima u svrhu postizanja političkih ciljeva. U ovoj projektnoj ideji Data Science koristit ćemo Python za izradu modela koji može točno odrediti jesu li vijesti stvarne ili lažne. Napravit ćemo TfidfVectorizer i koristiti PassiveAggressiveClassifier za klasificiranje vijesti na "prave" i "lažne". Koristit ćemo skup podataka oblika 7796×4 i sve ćemo raditi u Jupyter Labu.
Počeli smo koristiti Data Science za poboljšanje zdravstvene zaštite i usluga - ako možemo predvidjeti bolest u ranoj fazi, tada ćemo imati mnoge prednosti. Dakle, u ovoj ideji projekta Data Science, naučit ćemo kako otkriti Parkinsonovu bolest pomoću Pythona. To je neurodegenerativna, progresivna bolest središnjeg živčanog sustava koja utječe na kretanje i uzrokuje drhtanje i ukočenost. Utječe na neurone koji proizvode dopamin u mozgu, a svake godine zahvati više od milijun ljudi u Indiji.
Jezik: Piton
Skup podataka/paket: Skup podataka UCI ML Parkinsona
Naučimo sada kako koristiti različite biblioteke. Ovaj projekt Data Science koristi librosa za prepoznavanje govora. SER je proces identificiranja ljudskih emocija i afektivnih stanja iz govora. Budući da koristimo ton i visinu kako bismo izrazili emocije svojim glasom, SER je relevantan. No budući da su emocije subjektivne, zvučna napomena je težak zadatak. Koristit ćemo funkcije mfcc, chroma i mel te koristiti skup podataka RAVDESS za prepoznavanje emocija. Napravit ćemo MLPC klasifikator za ovaj model.
Ovo je zanimljiva Data Science s Pythonom. Koristeći samo jednu sliku, naučit ćete kako predvidjeti spol i dob osobe. U ovom ćemo vas upoznati s računalnim vidom i njegovim principima. Gradit ćemo konvolucijska neuronska mreža i koristit će modele koje su obučili Tal Hassner i Gil Levy na skupu podataka Adience. Usput ćemo koristiti neke .pb, .pbtxt, .prototxt i .caffemodel datoteke.
Ovo je projekt vizualizacije podataka s ggplot2 u kojem ćemo koristiti R i njegove biblioteke te analizirati razne parametre. Koristit ćemo skup podataka Uber Pickups New York i izraditi vizualizacije za različite vremenske okvire u godini. To nam govori kako vrijeme utječe na putovanja korisnika.
Jezik: R
Skup podataka/paket: Skup podataka Uber preuzimanja u New Yorku
Vožnja u snu iznimno je opasna, s oko tisuću nesreća svake godine zbog toga što vozači zaspu tijekom vožnje. U ovom Python projektu stvorit ćemo sustav koji može otkriti pospane vozače i također ih upozoriti zvučnim signalom.
Ovaj projekt implementiran je pomoću Kerasa i OpenCV-a. Koristit ćemo OpenCV za detekciju lica i očiju, a uz pomoć Kerasa ćemo klasificirati stanje oka (otvoreno ili zatvoreno) koristeći metode duboke neuronske mreže.
8.Chatbot
Izgradite chatbot s Pythonom i napravite korak naprijed u svojoj karijeri - Chatbot s NLTK i Kerasom.
Chatbotovi su sastavni dio poslovanja. Mnoga poduzeća moraju ponuditi usluge svojim klijentima i potrebno je puno radne snage, vremena i truda da im se pruži usluga. Chatbotovi mogu automatizirati velik dio interakcije s korisnicima odgovarajući na neka uobičajena pitanja koja korisnici postavljaju. U osnovi postoje dvije vrste chatbota: specifične za domenu i otvorene domene. Chatbot specifičan za domenu često se koristi za rješavanje određenog problema. Dakle, morate ga prilagoditi da učinkovito radi u vašem području. Chatbotovima otvorene domene mogu se postavljati sva pitanja, tako da je za njihovu obuku potrebna ogromna količina podataka.
Opisivanje onoga što je na slici lak je zadatak za ljude, ali za računala, slika je samo skup brojeva koji predstavljaju vrijednost boje svakog piksela. Ovo je težak zadatak za računala. Razumijevanje onoga što je na slici i zatim stvaranje opisa na prirodnom jeziku (npr. engleski) još je jedan težak zadatak. Ovaj projekt koristi tehnike dubokog učenja u kojima implementiramo konvolucionarnu neuronsku mrežu (CNN) s rekurentnom neuronskom mrežom (LSTM) za stvaranje generatora opisa slike.
Do sada ste već počeli razumijevati metode i koncepte. Prijeđimo na neke napredne projekte znanosti o podacima. U ovom projektu koristit ćemo jezik R s algoritmima kao što su stabla odlučivanja, logistička regresija, umjetne neuronske mreže i klasifikator za povećanje gradijenta. Koristit ćemo skup podataka o kartičnim transakcijama kako bismo klasificirali transakcije kreditnim karticama kao lažne i prave. Za njih ćemo odabrati različite modele i izgraditi krivulje performansi.
Jezik: R
Skup podataka/paket: Skup podataka o kartičnim transakcijama
U ovom projektu Data Science koristit ćemo R za izvršavanje preporuka filma putem strojnog učenja. Sustav preporuka šalje prijedloge korisnicima kroz proces filtriranja na temelju preferencija drugih korisnika i povijesti pregledavanja. Ako A i B vole Sam u kući, a B voli Zle djevojke, onda možete predložiti A - moglo bi se i njima svidjeti. To omogućuje klijentima interakciju s platformom.
Segmentacija kupaca je popularna aplikacija učenje bez nadzora. Koristeći klasteriranje, tvrtke definiraju korisničke segmente za rad s potencijalnom korisničkom bazom. Kupce dijele u skupine prema zajedničkim karakteristikama kao što su spol, dob, interesi i navike potrošnje, tako da mogu učinkovito plasirati svoje proizvode svakoj skupini. Koristit ćemo se K-znači grupiranje, kao i vizualizirati distribuciju prema spolu i dobi. Zatim analiziramo njihove godišnje prihode i razine rashoda.
Vraćajući se na medicinski doprinos znanosti o podacima, naučimo kako otkriti rak dojke pomoću Pythona. Koristit ćemo skup podataka IDC_regular za otkrivanje invazivnog duktalnog karcinoma, najčešćeg oblika raka dojke. Razvija se u mliječnim kanalima, prodirući u fibrozno ili masno tkivo mliječne žlijezde izvan kanala. U ovoj ideji znanstvenog projekta prikupljanja podataka koristit ćemo se Duboko učenje i biblioteka Keras za klasifikaciju.
Prometni znakovi i prometna pravila vrlo su važni za svakog vozača kako bi izbjegao nesreće. Da biste slijedili pravilo, prvo morate razumjeti kako izgleda prometni znak. Osoba mora naučiti sve prometne znakove prije nego što dobije pravo upravljanja bilo kojim vozilom. Ali sada broj autonomnih vozila raste, au bliskoj budućnosti osoba više neće sama voziti automobil. U projektu Prepoznavanje prometnih znakova naučit ćete kako program može prepoznati vrstu prometnog znaka uzimajući sliku kao ulaz. Njemački referentni skup podataka za prepoznavanje prometnih znakova (GTSRB) koristi se za izgradnju duboke neuronske mreže za prepoznavanje klase kojoj prometni znak pripada. Također stvaramo jednostavno GUI za interakciju s aplikacijom.
Jezik: Piton
Skup podataka: GTRB (njemačka referentna vrijednost za prepoznavanje prometnih znakova)