Analiza čustev je analiza besed za določanje čustev in mnenj, ki so lahko pozitivni ali negativni. To je vrsta klasifikacije, v kateri so razredi lahko binarni (pozitivni in negativni) ali množinski (vesel, jezen, žalosten, grd ...). Ta projekt Data Science bomo izvajali v R in uporabili nabor podatkov v paketu "janeaustenR". Uporabili bomo splošne namenske slovarje, kot so AFINN, bing in loughran, izvedli notranje združevanje in na koncu ustvarili besedni oblak za prikaz rezultata.
Lažne novice so lažne informacije, ki se širijo prek družbenih in drugih spletnih medijev za doseganje političnih ciljev. V tej ideji projekta Data Science bomo uporabili Python za izdelavo modela, ki lahko natančno določi, ali je novica resnična ali lažna. Ustvarili bomo TfidfVectorizer in uporabili PassiveAggressiveClassifier za razvrščanje novic na »prave« in »lažne«. Uporabili bomo nabor podatkov oblike 7796×4 in vse zagnali v Jupyter Labu.
Začeli smo uporabljati Data Science za izboljšanje zdravstvene oskrbe in storitev – če lahko predvidimo bolezen v zgodnji fazi, bomo imeli veliko prednosti. Torej, v tej ideji projekta Data Science se bomo naučili, kako odkriti Parkinsonovo bolezen s pomočjo Pythona. To je nevrodegenerativna, napredujoča bolezen osrednjega živčnega sistema, ki prizadene gibanje in povzroča tresenje in okorelost. Vpliva na nevrone, ki proizvajajo dopamin v možganih, in vsako leto prizadene več kot 1 milijon ljudi v Indiji.
Jezik: Python
Nabor podatkov/paket: Nabor podatkov UCI ML Parkinsons
Naučimo se zdaj uporabljati različne knjižnice. Ta projekt Data Science uporablja libroso za prepoznavanje govora. SER je proces prepoznavanja človeških čustev in čustvenih stanj iz govora. Ker uporabljamo ton in višino za izražanje čustev z našimi glasovi, je SER pomemben. Ker pa so čustva subjektivna, je zvočna opomba zahtevna naloga. Uporabili bomo funkcije mfcc, chroma in mel ter uporabili nabor podatkov RAVDESS za prepoznavanje čustev. Za ta model bomo ustvarili klasifikator MLPC.
To je zanimiva podatkovna znanost s Pythonom. S samo eno sliko se boste naučili napovedati spol in starost osebe. V tem vam bomo predstavili računalniški vid in njegova načela. Gradili bomo konvolucijska nevronska mreža in bo uporabil modele, ki sta jih usposobila Tal Hassner in Gil Levy na naboru podatkov Adience. Na poti bomo uporabili nekaj datotek .pb, .pbtxt, .prototxt in .caffemodel.
To je projekt vizualizacije podatkov z ggplot2, v katerem bomo uporabili R in njegove knjižnice ter analizirali različne parametre. Uporabili bomo nabor podatkov Uber Pickups New York City in ustvarili vizualizacije za različna časovna obdobja v letu. To nam pove, kako čas vpliva na potovanje strank.
Jezik: R
Nabor podatkov/paket: Nabor podatkov Uber Pickups in New York City
Zaspana vožnja je izjemno nevarna in vsako leto se zgodi skoraj tisoč nesreč, ker vozniki med vožnjo zaspijo. V tem projektu Python bomo ustvarili sistem, ki bo lahko zaznal zaspane voznike in jih tudi opozoril z zvočnim signalom.
Ta projekt je implementiran z uporabo Keras in OpenCV. Uporabili bomo OpenCV za zaznavanje obraza in oči, s Kerasom pa bomo razvrstili stanje oči (odprto ali zaprto) z uporabo tehnik globokih nevronskih mrež.
Klepetalni roboti so sestavni del poslovanja. Številna podjetja morajo ponuditi storitve svojim strankam in potrebujejo veliko delovne sile, časa in truda, da jim služijo. Klepetalni roboti lahko avtomatizirajo velik del vaše interakcije s strankami, tako da odgovorijo na nekatera pogosta vprašanja, ki jih stranke zastavijo. V bistvu obstajata dve vrsti chatbotov: domensko specifični in odprtodomenski. Klepetalni robot, specifičen za domeno, se pogosto uporablja za rešitev določene težave. Zato ga morate prilagoditi, da bo učinkovito deloval na vašem področju. Klepetalnim robotom z odprto domeno je mogoče zastaviti kakršna koli vprašanja, zato njihovo usposabljanje zahteva ogromno podatkov.
Opisati, kaj je na sliki, je za ljudi lahka naloga, za računalnike pa je slika preprosto niz številk, ki predstavljajo barvno vrednost vsake slikovne pike. To je za računalnike težka naloga. Razumevanje, kaj je na sliki, in nato ustvarjanje opisa v naravnem jeziku (kot je angleščina) je še ena težka naloga. Ta projekt uporablja tehnike globokega učenja, pri katerih implementiramo konvolucijsko nevronsko mrežo (CNN) s ponavljajočo se nevronsko mrežo (LSTM), da ustvarimo generator opisa slike.
Do zdaj ste začeli razumeti tehnike in koncepte. Pojdimo k nekaterim naprednim projektom podatkovne znanosti. V tem projektu bomo uporabljali jezik R z algoritmi, kot je odločitvena drevesa, logistična regresija, umetne nevronske mreže in klasifikator za povečanje gradienta. Za razvrstitev transakcij s kreditnimi karticami kot lažnih ali pristnih bomo uporabili nabor podatkov o kartičnih transakcijah. Zanje bomo izbrali različne modele in zgradili krivulje zmogljivosti.
Jezik: R
Nabor podatkov/paket: Nabor podatkov o kartičnih transakcijah
V tem projektu Data Science bomo uporabili R za izvajanje priporočil iz filma s pomočjo strojnega učenja. Sistem priporočil pošilja predloge uporabnikom prek postopka filtriranja na podlagi preferenc in zgodovine brskanja drugih uporabnikov. Če sta A in B všeč Sam doma, B pa ima rad Mean Girls, potem lahko predlagate A – morda bo všeč tudi njim. To strankam omogoča interakcijo s platformo.
Segmentacija kupcev je priljubljena aplikacija nenadzorovano učenje. Z združevanjem v gruče podjetja identificirajo segmente strank, da ciljajo na potencialno bazo uporabnikov. Kupce razdelijo v skupine glede na skupne značilnosti, kot so spol, starost, interesi in potrošniške navade, tako da lahko učinkovito tržijo svoje izdelke vsaki skupini. Bomo uporabili K-pomeni združevanje, kot tudi vizualizirati porazdelitev po spolu in starosti. Nato bomo analizirali njihove letne ravni prihodkov in odhodkov.
Jezik: R
Nabor podatkov/paket: Nabor podatkov Mall_Customers
Če se vrnemo k medicinskemu prispevku znanosti o podatkih, se naučimo, kako s Pythonom odkriti raka dojke. Nabor podatkov IDC_regular bomo uporabili za identifikacijo invazivnega duktalnega karcinoma, najpogostejše oblike raka dojke. Razvije se v mlečnih vodih in se zarije v vlaknasto ali maščobno tkivo dojke zunaj voda. V tej ideji znanstvenega projekta zbiranja podatkov, ki jo bomo uporabili Globoko učenje in knjižnico Keras za klasifikacijo.
Prometni znaki in prometna pravila so zelo pomembni za vsakega voznika, da se izogne nesrečam. Če želite upoštevati pravilo, morate najprej razumeti, kako je videti prometni znak. Oseba se mora naučiti vseh prometnih znakov, preden dobi dovoljenje za vožnjo katerega koli vozila. Toda zdaj število avtonomnih vozil narašča in v bližnji prihodnosti človek ne bo več vozil avtomobila samostojno. V projektu Prepoznavanje prometnih znakov se boste naučili, kako lahko program prepozna vrsto prometnih znakov tako, da kot vhod vzame sliko. Nabor podatkov German Traffic Sign Recognition Benchmark (GTSRB) se uporablja za izgradnjo globoke nevronske mreže za prepoznavanje razreda, ki mu pripada prometni znak. Ustvarimo tudi preprost GUI za interakcijo z aplikacijo.
Jezik: Python
Nabor podatkov: GTSRB (nemško merilo za prepoznavanje prometnih znakov)