Analiza osjećaja je analiza riječi za identifikaciju osjećaja i mišljenja, koja mogu biti pozitivna ili negativna. Ovo je vrsta klasifikacije gdje klase mogu biti binarne (pozitivne i negativne) ili pluralne (sretan, ljut, tužan, gadan...). Ovaj projekat nauke o podacima implementiraćemo u R i koristićemo skup podataka u paketu "janeaustenR". Koristićemo rečnike opšte namene kao što su AFINN, bing i loughran, uradićemo unutrašnje spajanje i na kraju ćemo kreirati oblak reči da prikažemo rezultat.
Lažne vijesti su lažne informacije koje se šire putem društvenih mreža i drugih internetskih medija u cilju postizanja političkih ciljeva. U ovoj ideji projekta Data Science, koristit ćemo Python da izgradimo model koji može precizno odrediti jesu li vijesti stvarne ili lažne. Napravit ćemo TfidfVectorizer i koristiti PassiveAggressiveClassifier da klasifikujemo vijesti u "prave" i "lažne". Koristit ćemo skup podataka oblika 7796×4 i sve raditi u Jupyter Lab-u.
Počeli smo koristiti Data Science da poboljšamo zdravstvenu zaštitu i usluge – ako možemo predvidjeti bolest u ranoj fazi, onda ćemo imati mnoge prednosti. Dakle, u ovoj ideji projekta Data Science naučit ćemo kako otkriti Parkinsonovu bolest koristeći Python. To je neurodegenerativna, progresivna bolest centralnog nervnog sistema koja utiče na kretanje i izaziva drhtanje i ukočenost. Utječe na neurone u mozgu koji proizvode dopamin, a svake godine pogađa više od milion ljudi u Indiji.
Jezik: piton
Skup podataka/paket: UCI ML Parkinsonov skup podataka
Naučimo sada kako koristiti različite biblioteke. Ovaj projekat nauke o podacima koristi librosu za prepoznavanje govora. SER je proces identifikacije ljudskih emocija i afektivnih stanja iz govora. Budući da koristimo ton i visinu tona da izrazimo emocije svojim glasom, SER je relevantan. Ali budući da su emocije subjektivne, audio napomena je težak zadatak. Koristit ćemo funkcije mfcc, chroma i mel i koristiti RAVDESS skup podataka za prepoznavanje emocija. Za ovaj model ćemo kreirati MLPC klasifikator.
Ovo je zanimljiva nauka o podacima sa Pythonom. Koristeći samo jednu sliku, naučićete kako da predvidite pol i godine osobe. U ovom ćemo vas upoznati sa Computer Visionom i njegovim principima. Mi ćemo graditi konvoluciona neuronska mreža i koristiće modele koje su obučili Tal Hassner i Gil Levy na skupu podataka Adience. Usput ćemo koristiti neke .pb, .pbtxt, .prototxt i .caffemodel fajlove.
Ovo je projekat vizualizacije podataka sa ggplot2 u kojem ćemo koristiti R i njegove biblioteke i analizirati različite parametre. Koristit ćemo skup podataka Uber Pickups New York i kreirati vizualizacije za različite vremenske okvire u godini. Ovo nam govori kako vrijeme utiče na putovanja kupaca.
Jezik: R
Skup podataka/paket: Uber preuzimanja u skupu podataka New York City
Vožnja u snu je izuzetno opasna, sa oko hiljadu nesreća svake godine zbog toga što vozači zaspu tokom vožnje. U ovom Python projektu napravićemo sistem koji može detektovati uspavane drajvere i takođe ih upozoriti zvučnim signalom.
Ovaj projekat je implementiran pomoću Kerasa i OpenCV-a. Koristićemo OpenCV za detekciju lica i očiju, a uz pomoć Kerasa ćemo klasifikovati stanje oka (Otvoreno ili Zatvoreno) koristeći metode dubokih neuronskih mreža.
8.Chatbot
Napravite chat bota s Pythonom i napravite korak naprijed u svojoj karijeri - Chatbot sa NLTK & Keras.
Chatbotovi su sastavni dio poslovanja. Mnoga preduzeća moraju ponuditi usluge svojim klijentima i potrebno im je puno radne snage, vremena i truda da ih opslužuju. Chatbotovi mogu automatizirati veći dio interakcije s klijentima odgovarajući na neka od uobičajenih pitanja koja klijenti postavljaju. U osnovi postoje dvije vrste chatbotova: specifični za domenu i otvoreni domen. Chatbot specifičan za domenu često se koristi za rješavanje određenog problema. Stoga ga morate prilagoditi da bi efikasno radio u vašem polju. Chatbotovima otvorenog domena može se postaviti bilo kakva pitanja, tako da njihova obuka zahtijeva ogromnu količinu podataka.
Opisivanje onoga što je na slici je lak zadatak za ljude, ali za kompjutere, slika je samo kolekcija brojeva koji predstavljaju vrijednost boje svakog piksela. Ovo je težak zadatak za računare. Razumevanje onoga što je na slici i zatim kreiranje opisa na prirodnom jeziku (npr. engleski) je još jedan težak zadatak. Ovaj projekat koristi tehnike dubokog učenja u kojima implementiramo konvolucionu neuronsku mrežu (CNN) sa rekurentnom neuronskom mrežom (LSTM) za kreiranje generatora opisa slike.
Do sada ste počeli da razumete metode i koncepte. Pređimo na neke napredne projekte nauke o podacima. U ovom projektu ćemo koristiti R jezik sa algoritmima kao što su stabla odluka, logistička regresija, umjetne neuronske mreže i klasifikator za povećanje gradijenta. Koristit ćemo skup podataka o transakcijama karticama da klasifikujemo transakcije kreditnim karticama kao lažne i originalne. Za njih ćemo odabrati različite modele i napraviti krivulje performansi.
Jezik: R
Skup podataka/paket: Skup podataka o transakcijama karticama
U ovom projektu nauke o podacima, koristićemo R da izvršimo preporuke filma putem mašinskog učenja. Sistem preporuka šalje prijedloge korisnicima kroz proces filtriranja na osnovu preferencija drugih korisnika i historije pretraživanja. Ako A i B vole Sama u kući, a B vole Zle devojke, onda možete predložiti A - i njima bi se moglo svideti. Ovo omogućava klijentima interakciju sa platformom.
Segmentacija kupaca je popularna aplikacija učenje bez nadzora. Koristeći klasterizaciju, kompanije definiraju segmente kupaca za rad s potencijalnom bazom korisnika. Oni dijele kupce u grupe prema zajedničkim karakteristikama kao što su spol, godine, interesovanja i navike potrošnje, tako da mogu efikasno plasirati svoje proizvode svakoj grupi. Koristićemo K-znači grupisanje, kao i vizualizirati distribuciju prema spolu i starosti. Zatim analiziramo njihove godišnje prihode i nivoe rashoda.
Vraćajući se medicinskom doprinosu nauke o podacima, naučimo kako otkriti rak dojke pomoću Pythona. Koristit ćemo IDC_regular set podataka za otkrivanje invazivnog duktalnog karcinoma, najčešćeg oblika raka dojke. Razvija se u mliječnim kanalima, prodirući u vlaknasto ili masno tkivo mliječne žlijezde izvan kanala. U ovom naučnom projektu prikupljanja podataka koristit ćemo se Deep Learning i Keras biblioteku za klasifikaciju.
Putokazi i saobraćajna pravila su veoma važni za svakog vozača kako bi izbegao nezgode. Da biste slijedili pravilo, prvo morate razumjeti kako izgleda putokaz. Osoba mora naučiti sve znakove na putu prije nego što dobije pravo da upravlja bilo kojim vozilom. Ali sada broj autonomnih vozila raste, a u bliskoj budućnosti osoba više neće samostalno voziti automobil. U projektu Prepoznavanje putnih znakova naučit ćete kako program može prepoznati tip putnog znaka uzimajući sliku kao ulaz. Njemački referentni skup podataka za prepoznavanje putnih znakova (GTSRB) koristi se za izgradnju duboke neuronske mreže za prepoznavanje klase kojoj pripada saobraćajni znak. Također kreiramo jednostavan GUI za interakciju s aplikacijom.
Jezik: piton
Skup podataka: GTRB (Njemački standard za prepoznavanje saobraćajnih znakova)