Sentimenduen analisia hitzen azterketa da sentimenduak eta iritziak zehazteko, positiboak edo negatiboak izan daitezkeenak. Klaseak bitarrak (positiboak eta negatiboak) edo pluralak (pozik, haserre, triste, gaizto...) izan daitezkeen sailkapen mota bat da. Data Science proiektu hau R-n inplementatuko dugu eta datu-multzoa "janeaustenR" paketean erabiliko dugu. Helburu orokorreko hiztegiak erabiliko ditugu, hala nola AFINN, bing eta loughran, barne-juntura bat egingo dugu eta amaieran, emaitza bistaratzeko hitz-hodeia sortuko dugu.
Albiste faltsuak helburu politikoak lortzeko sare sozialen eta sareko beste komunikabide batzuen bidez zabaltzen diren informazio faltsuak dira. Data Science proiektuaren ideia honetan, Python erabiliko dugu albiste bat benetakoa edo faltsua den zehaztasunez zehaztu dezakeen eredu bat eraikitzeko. TfidfVectorizer bat sortuko dugu eta PassiveAggressiveClassifier bat erabiliko dugu albisteak "erreal" eta "faltsu" gisa sailkatzeko. 7796Γ4 formako datu-multzo bat erabiliko dugu eta Jupyter Lab-en dena exekutatuko dugu.
Datu-zientzia erabiltzen hasi gara osasun-laguntza eta zerbitzuak hobetzeko; gaixotasun bat hasiera batean aurreikusten badugu, abantaila asko izango ditugu. Beraz, Data Science proiektuaren ideia honetan, Python erabiliz Parkinson gaixotasuna nola detektatzen ikasiko dugu. Nerbio-sistema zentralaren gaixotasun neuroendekapenezko eta progresiboa da, mugimenduari eragiten diona eta dardarak eta zurruntasuna eragiten dituena. Garuneko dopamina ekoizten duten neuronei eragiten die, eta urtero Indiako milioi bat pertsona baino gehiagori eragiten die.
Hizkuntza: Python
Datu multzoa/Paketea: UCI ML Parkinsons datu multzoa
Ikas dezagun orain liburutegi desberdinak nola erabiltzen. Data Science proiektu honek liburua erabiltzen du hizketa ezagutzeko. SER hizkeratik giza emozioak eta egoera afektiboak identifikatzeko prozesua da. Gure ahotsekin emozioa adierazteko tonua eta tonua erabiltzen ditugunez, SER garrantzitsua da. Baina emozioak subjektiboak direnez, audio-anotapena zeregin zaila da. Mfcc, chroma eta mel funtzioak erabiliko ditugu eta RAVDESS datu multzoa erabiliko dugu emozioak ezagutzeko. Eredu honetarako MLPC sailkatzailea sortuko dugu.
Hau datu-zientzia interesgarria da Python-ekin. Irudi bakarra erabiliz, pertsona baten sexua eta adina iragartzen ikasiko duzu. Honetan Computer Vision eta bere printzipioak aurkeztuko dizkizugu. Eraikiko dugu sare neuronal konboluzionala eta Tal Hassnerrek eta Gil Levyk Adience datu multzoan trebatutako ereduak erabiliko ditu. Bidean .pb, .pbtxt, .prototxt eta .caffemodel fitxategi batzuk erabiliko ditugu.
ggplot2-rekin datuak bistaratzeko proiektu bat da eta bertan R eta bere liburutegiak erabiliko ditugu eta hainbat parametro aztertuko ditugu. Uber Pickups New York City datu-multzoa erabiliko dugu eta urteko denbora-tarte desberdinetarako bistaratzeak sortuko ditugu. Honek denborak bezeroen bidaian nola eragiten duen adierazten digu.
Hizkuntza: R
Datu multzoa/Paketea: Uber bilketak New York hiriko datu multzoa
Logura gidatzea oso arriskutsua da, eta urtero ia mila istripu gertatzen dira gidatzen ari diren bitartean loak hartzen dutelako. Python proiektu honetan, logura duten gidariak antzeman ditzakeen sistema bat sortuko dugu eta audio-seinale batekin ere abisatu ahal izango ditu.
Proiektu hau Keras eta OpenCV erabiliz gauzatzen da. Aurpegia eta begiak detektatzeko OpenCV erabiliko dugu eta Kerasekin begien egoera (Irekia edo Itxita) sailkatuko dugu neurona sare sakoneko teknikak erabiliz.
Chatbot-ak negozioaren osagai dira. Negozio askok bezeroei zerbitzuak eskaini behar dizkiete eta eskulan, denbora eta esfortzu asko behar dituzte haiek zerbitzatzeko. Chatbot-ek zure bezeroen interakzioaren zati handi bat automatiza dezakete bezeroek egiten dituzten ohiko galdera batzuei erantzunez. Funtsean, bi chatbot mota daude: domeinu espezifikoak eta domeinu irekia. Arazo zehatz bat konpontzeko domeinu espezifikoko chatbot bat erabiltzen da askotan. Beraz, pertsonalizatu behar duzu zure eremuan eraginkortasunez lan egiteko. Domeinu irekiko txat-botei edozein galdera egin diezaiekete, beraz, haiek entrenatzeak datu kopuru handia eskatzen du.
Irudi batean zer dagoen deskribatzea lan erraza da gizakientzat, baina ordenagailuentzat, irudi bat pixel bakoitzaren kolore-balioa adierazten duten zenbaki sorta bat besterik ez da. Ordenagailuentzat lan zaila da. Irudi batean zer dagoen ulertzea eta gero deskribapen bat sortzea hizkuntza naturalean (ingelesez adibidez) beste lan zaila da. Proiektu honek ikaskuntza sakoneko teknikak erabiltzen ditu, zeinetan Sare Neuronal Konboluzional bat (CNN) inplementatzen dugun Sare Neural Recurrente (LSTM) batekin, irudien deskribapen-sorgailu bat sortzeko.
Honezkero teknikak eta kontzeptuak ulertzen hasi zara. Goazen datu zientzien proiektu aurreratu batzuetara. Proiektu honetan R hizkuntza erabiliko dugu antzeko algoritmoekin erabakien zuhaitzak, erregresio logistikoa, neurona-sare artifizialak eta gradientea sustatzeko sailkatzailea. Txartelaren transakzioen datu-multzo bat erabiliko dugu kreditu-txartelen transakzioak iruzurrezko edo benetako gisa sailkatzeko. Horientzako eredu desberdinak hautatuko ditugu eta errendimendu-kurbak eraikiko ditugu.
Hizkuntza: R
Datu multzoa/Paketea: Txartel Transakzioen datu multzoa
Data Science proiektu honetan, R erabiliko dugu filmaren gomendioak ikasketa automatikoaren bidez ezartzeko. Gomendio-sistemak iradokizunak bidaltzen dizkie erabiltzaileei beste erabiltzaileen hobespenetan eta nabigazio-historian oinarritutako iragazketa-prozesu baten bidez. A eta B-k Home Alone gustatzen bazaizkio eta B-k Mean Girls gustatzen bazaizkio, A iradoki diezaiekezu, baliteke beraiei ere gustatzea. Horrek bezeroei plataformarekin elkarreragiteko aukera ematen die.
Erosleen segmentazioa aplikazio ezaguna da gainbegiratu gabeko ikaskuntza. Clustering-a erabiliz, enpresek bezero-segmentuak identifikatzen dituzte, erabiltzaile potentzial bati bideratzeko. Bezeroak taldeetan banatzen dituzte ezaugarri komunen arabera, hala nola, generoa, adina, interesak eta gastu ohituren arabera, euren produktuak talde bakoitzari eraginkortasunez merkaturatu ditzaten. Erabiliko dugu K-k multzokatzea esan nahi du, baita generoaren eta adinaren araberako banaketa ikustarazi ere. Ondoren, urteko diru-sarreren eta gastuen maila aztertuko dugu.
Datuen zientziaren ekarpen medikora itzuliz, ikas dezagun Python erabiliz bularreko minbizia detektatzen. IDC_regular datu multzoa erabiliko dugu ductal kartzinoma inbaditzailea identifikatzeko, bularreko minbiziaren forma ohikoena. Esne-hodietan garatzen da, hoditik kanpoko bularreko zuntz edo gantz-ehunean sartuz. Datuak biltzeko zientzia proiektuaren ideia honetan erabiliko dugu Deep Learning eta Keras liburutegia sailkapenerako.
Bide seinaleak eta zirkulazio arauak oso garrantzitsuak dira gidari guztientzat istripuak saihesteko. Araua betetzeko, lehenik eta behin bide seinale bat nolakoa den ulertu behar duzu. Pertsona batek errepideko seinale guztiak ikasi behar ditu edozein ibilgailu gidatzeko baimena eman aurretik. Baina gaur egun ibilgailu autonomoen kopurua hazten ari da, eta etorkizun hurbilean pertsona batek ez du autoa modu independentean gidatuko. Road Sign Recognition proiektuan, programa batek errepide-seinale motak nola antzeman ditzakeen ikasiko duzu sarrera gisa irudi bat hartuz. Alemaniako Traffic Sign Recognition Benchmark (GTSRB) datu-multzoa sare neuronal sakon bat eraikitzeko erabiltzen da trafiko-seinaleak zein klaseri dagokion ezagutzeko. GUI sinple bat ere sortzen dugu aplikazioarekin elkarreragiteko.
Hizkuntza: Python
Datu multzoa: GTSRB (Alemaniako Trafiko Seinaleen Erreferentziazko Erreferentzia)