Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

Data Science hasiberrientzako

1. Sentimenduen analisia (Sentimenduen azterketa testuaren bidez)

Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

Begiratu Data Science proiektuaren inplementazio osoa iturburu kodea erabiliz - Sentimenduen Analisi Proiektua R-n.

Sentimenduen analisia hitzen azterketa da sentimenduak eta iritziak zehazteko, positiboak edo negatiboak izan daitezkeenak. Klaseak bitarrak (positiboak eta negatiboak) edo pluralak (pozik, haserre, triste, gaizto...) izan daitezkeen sailkapen mota bat da. Data Science proiektu hau R-n inplementatuko dugu eta datu-multzoa "janeaustenR" paketean erabiliko dugu. Helburu orokorreko hiztegiak erabiliko ditugu, hala nola AFINN, bing eta loughran, barne-juntura bat egingo dugu eta amaieran, emaitza bistaratzeko hitz-hodeia sortuko dugu.

Hizkuntza: R
Datu multzoa/Paketea: janeaustenR

Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

Artikulua EDISON Software-ren laguntzarekin itzuli da Marka anitzeko dendetarako probaleku birtualak egiten dituEta probak softwarea.

2. Albiste faltsuen detekzioa

Eraman zure gaitasunak hurrengo mailara hasiberrientzako Data Science proiektu batean lan eginez - Python-ekin albiste faltsuak hautematea.

Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

Albiste faltsuak helburu politikoak lortzeko sare sozialen eta sareko beste komunikabide batzuen bidez zabaltzen diren informazio faltsuak dira. Data Science proiektuaren ideia honetan, Python erabiliko dugu albiste bat benetakoa edo faltsua den zehaztasunez zehaztu dezakeen eredu bat eraikitzeko. TfidfVectorizer bat sortuko dugu eta PassiveAggressiveClassifier bat erabiliko dugu albisteak "erreal" eta "faltsu" gisa sailkatzeko. 7796Γ—4 formako datu-multzo bat erabiliko dugu eta Jupyter Lab-en dena exekutatuko dugu.

Hizkuntza: Python

Datu multzoa/Paketea: albisteak.csv

3. Parkinson gaixotasuna detektatzea

Aurrera egin zure Data Science Project Ideia - Parkinson gaixotasuna detektatzeko XGBoost erabiliz.

Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

Datu-zientzia erabiltzen hasi gara osasun-laguntza eta zerbitzuak hobetzeko; gaixotasun bat hasiera batean aurreikusten badugu, abantaila asko izango ditugu. Beraz, Data Science proiektuaren ideia honetan, Python erabiliz Parkinson gaixotasuna nola detektatzen ikasiko dugu. Nerbio-sistema zentralaren gaixotasun neuroendekapenezko eta progresiboa da, mugimenduari eragiten diona eta dardarak eta zurruntasuna eragiten dituena. Garuneko dopamina ekoizten duten neuronei eragiten die, eta urtero Indiako milioi bat pertsona baino gehiagori eragiten die.

Hizkuntza: Python

Datu multzoa/Paketea: UCI ML Parkinsons datu multzoa

Konplexutasun ertaineko Data Science proiektuak

4. Hizketa Emozioen Aitorpena

Begiratu Data Science adibide proiektuaren inplementazio osoa βˆ’ Ahots-ezagutza Librosa erabiliz.

Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

Ikas dezagun orain liburutegi desberdinak nola erabiltzen. Data Science proiektu honek liburua erabiltzen du hizketa ezagutzeko. SER hizkeratik giza emozioak eta egoera afektiboak identifikatzeko prozesua da. Gure ahotsekin emozioa adierazteko tonua eta tonua erabiltzen ditugunez, SER garrantzitsua da. Baina emozioak subjektiboak direnez, audio-anotapena zeregin zaila da. Mfcc, chroma eta mel funtzioak erabiliko ditugu eta RAVDESS datu multzoa erabiliko dugu emozioak ezagutzeko. Eredu honetarako MLPC sailkatzailea sortuko dugu.

Hizkuntza: Python

Datu multzoa/Paketea: RAVDESS datu multzoa

5. Generoa eta adina detektatzea

Harritu enpresariak azken Data Science proiektuarekin - OpenCV erabiliz generoa eta adina zehaztea.

Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

Hau datu-zientzia interesgarria da Python-ekin. Irudi bakarra erabiliz, pertsona baten sexua eta adina iragartzen ikasiko duzu. Honetan Computer Vision eta bere printzipioak aurkeztuko dizkizugu. Eraikiko dugu sare neuronal konboluzionala eta Tal Hassnerrek eta Gil Levyk Adience datu multzoan trebatutako ereduak erabiliko ditu. Bidean .pb, .pbtxt, .prototxt eta .caffemodel fitxategi batzuk erabiliko ditugu.

Hizkuntza: Python

Datu multzoa/Paketea: Adientzia

6. Uber Datuen Analisia

Begiratu Data Science proiektuaren inplementazio osoa iturburu-kodearekin βˆ’ Uber Datuen Analisi Proiektua R-n.

Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

ggplot2-rekin datuak bistaratzeko proiektu bat da eta bertan R eta bere liburutegiak erabiliko ditugu eta hainbat parametro aztertuko ditugu. Uber Pickups New York City datu-multzoa erabiliko dugu eta urteko denbora-tarte desberdinetarako bistaratzeak sortuko ditugu. Honek denborak bezeroen bidaian nola eragiten duen adierazten digu.

Hizkuntza: R

Datu multzoa/Paketea: Uber bilketak New York hiriko datu multzoa

7. Gidariaren logura detektatzea

Hobetu zure gaitasunak Top Data Science proiektuan lan eginez - logura detektatzeko sistema OpenCV eta Keras-ekin.

Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

Logura gidatzea oso arriskutsua da, eta urtero ia mila istripu gertatzen dira gidatzen ari diren bitartean loak hartzen dutelako. Python proiektu honetan, logura duten gidariak antzeman ditzakeen sistema bat sortuko dugu eta audio-seinale batekin ere abisatu ahal izango ditu.

Proiektu hau Keras eta OpenCV erabiliz gauzatzen da. Aurpegia eta begiak detektatzeko OpenCV erabiliko dugu eta Kerasekin begien egoera (Irekia edo Itxita) sailkatuko dugu neurona sare sakoneko teknikak erabiliz.

8. Txatbot

Sortu Chatbot bat Python-ekin eta eman urrats bat zure karreran - Chatbot NLTK eta Keras-ekin.

Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

Chatbot-ak negozioaren osagai dira. Negozio askok bezeroei zerbitzuak eskaini behar dizkiete eta eskulan, denbora eta esfortzu asko behar dituzte haiek zerbitzatzeko. Chatbot-ek zure bezeroen interakzioaren zati handi bat automatiza dezakete bezeroek egiten dituzten ohiko galdera batzuei erantzunez. Funtsean, bi chatbot mota daude: domeinu espezifikoak eta domeinu irekia. Arazo zehatz bat konpontzeko domeinu espezifikoko chatbot bat erabiltzen da askotan. Beraz, pertsonalizatu behar duzu zure eremuan eraginkortasunez lan egiteko. Domeinu irekiko txat-botei edozein galdera egin diezaiekete, beraz, haiek entrenatzeak datu kopuru handia eskatzen du.

Datu multzoa: Intents json fitxategia

Hizkuntza: Python

Datuen Zientzia Aurreratuko proiektuak

9. Irudi-oinen sortzailea

Begiratu proiektuaren inplementazio osoa iturburu-kodearekin βˆ’ Irudi-oinen sortzailea CNN eta LSTM-ekin.

Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

Irudi batean zer dagoen deskribatzea lan erraza da gizakientzat, baina ordenagailuentzat, irudi bat pixel bakoitzaren kolore-balioa adierazten duten zenbaki sorta bat besterik ez da. Ordenagailuentzat lan zaila da. Irudi batean zer dagoen ulertzea eta gero deskribapen bat sortzea hizkuntza naturalean (ingelesez adibidez) beste lan zaila da. Proiektu honek ikaskuntza sakoneko teknikak erabiltzen ditu, zeinetan Sare Neuronal Konboluzional bat (CNN) inplementatzen dugun Sare Neural Recurrente (LSTM) batekin, irudien deskribapen-sorgailu bat sortzeko.

Datu multzoa: Flickr 8K

Hizkuntza: Python

Esparrua: Keras

10. Kreditu Txartelaren iruzurra hautematea

Egin zure onena zure Data Science proiektuaren ideian lan egiten duzun bitartean βˆ’ detektatu kreditu-txartelen iruzurra ikasketa automatikoa erabiliz.

Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

Honezkero teknikak eta kontzeptuak ulertzen hasi zara. Goazen datu zientzien proiektu aurreratu batzuetara. Proiektu honetan R hizkuntza erabiliko dugu antzeko algoritmoekin erabakien zuhaitzak, erregresio logistikoa, neurona-sare artifizialak eta gradientea sustatzeko sailkatzailea. Txartelaren transakzioen datu-multzo bat erabiliko dugu kreditu-txartelen transakzioak iruzurrezko edo benetako gisa sailkatzeko. Horientzako eredu desberdinak hautatuko ditugu eta errendimendu-kurbak eraikiko ditugu.

Hizkuntza: R

Datu multzoa/Paketea: Txartel Transakzioen datu multzoa

11. Filmak gomendatzeko sistema

Aztertu Datu Zientzia proiektu onenaren ezarpena Iturburu kodearekin - Filmak gomendatzeko sistema R hizkuntzan

Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

Data Science proiektu honetan, R erabiliko dugu filmaren gomendioak ikasketa automatikoaren bidez ezartzeko. Gomendio-sistemak iradokizunak bidaltzen dizkie erabiltzaileei beste erabiltzaileen hobespenetan eta nabigazio-historian oinarritutako iragazketa-prozesu baten bidez. A eta B-k Home Alone gustatzen bazaizkio eta B-k Mean Girls gustatzen bazaizkio, A iradoki diezaiekezu, baliteke beraiei ere gustatzea. Horrek bezeroei plataformarekin elkarreragiteko aukera ematen die.

Hizkuntza: R

Datu multzoa/Paketea: MovieLens datu multzoa

12. Bezeroen segmentazioa

Harritu enpresariak Data Science proiektu batekin (iturburu-kodea barne) - Bezeroen segmentazioa ikaskuntza automatikoa erabiliz.

Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

Erosleen segmentazioa aplikazio ezaguna da gainbegiratu gabeko ikaskuntza. Clustering-a erabiliz, enpresek bezero-segmentuak identifikatzen dituzte, erabiltzaile potentzial bati bideratzeko. Bezeroak taldeetan banatzen dituzte ezaugarri komunen arabera, hala nola, generoa, adina, interesak eta gastu ohituren arabera, euren produktuak talde bakoitzari eraginkortasunez merkaturatu ditzaten. Erabiliko dugu K-k multzokatzea esan nahi du, baita generoaren eta adinaren araberako banaketa ikustarazi ere. Ondoren, urteko diru-sarreren eta gastuen maila aztertuko dugu.

Hizkuntza: R

Datu multzoa/Paketea: Mall_Customers datu multzoa

13. Bularreko Minbiziaren Sailkapena

Begiratu Python-en Data Science proiektu baten inplementazio osoa βˆ’ Bularreko minbiziaren sailkapena ikaskuntza sakona erabiliz.

Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

Datuen zientziaren ekarpen medikora itzuliz, ikas dezagun Python erabiliz bularreko minbizia detektatzen. IDC_regular datu multzoa erabiliko dugu ductal kartzinoma inbaditzailea identifikatzeko, bularreko minbiziaren forma ohikoena. Esne-hodietan garatzen da, hoditik kanpoko bularreko zuntz edo gantz-ehunean sartuz. Datuak biltzeko zientzia proiektuaren ideia honetan erabiliko dugu Deep Learning eta Keras liburutegia sailkapenerako.

Hizkuntza: Python

Datu multzoa/Paketea: IDC_regular

14. Trafiko seinaleen aitorpena

Auto-gidatze teknologian zehaztasuna lortzea Data Science proiektuarekin trafiko seinaleen ezagupena CNN erabiliz kode irekia.

Datuen Zientziarako gaitasunak hobetzeko kode irekiko 14 proiektu (erraza, normala, gogorra)

Bide seinaleak eta zirkulazio arauak oso garrantzitsuak dira gidari guztientzat istripuak saihesteko. Araua betetzeko, lehenik eta behin bide seinale bat nolakoa den ulertu behar duzu. Pertsona batek errepideko seinale guztiak ikasi behar ditu edozein ibilgailu gidatzeko baimena eman aurretik. Baina gaur egun ibilgailu autonomoen kopurua hazten ari da, eta etorkizun hurbilean pertsona batek ez du autoa modu independentean gidatuko. Road Sign Recognition proiektuan, programa batek errepide-seinale motak nola antzeman ditzakeen ikasiko duzu sarrera gisa irudi bat hartuz. Alemaniako Traffic Sign Recognition Benchmark (GTSRB) datu-multzoa sare neuronal sakon bat eraikitzeko erabiltzen da trafiko-seinaleak zein klaseri dagokion ezagutzeko. GUI sinple bat ere sortzen dugu aplikazioarekin elkarreragiteko.

Hizkuntza: Python

Datu multzoa: GTSRB (Alemaniako Trafiko Seinaleen Erreferentziazko Erreferentzia)

Irakurri gehiago

Iturria: www.habr.com

Gehitu iruzkin berria