14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

Nauka o podacima za početnike

1. Analiza osjećaja (analiza raspoloženja kroz tekst)

14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

Pogledajte kompletnu implementaciju projekta Data Science koristeći izvorni kod − Projekat analize sentimenta u R.

Analiza osjećaja je analiza riječi za identifikaciju osjećaja i mišljenja, koja mogu biti pozitivna ili negativna. Ovo je vrsta klasifikacije gdje klase mogu biti binarne (pozitivne i negativne) ili pluralne (sretan, ljut, tužan, gadan...). Ovaj projekat nauke o podacima implementiraćemo u R i koristićemo skup podataka u paketu "janeaustenR". Koristićemo rečnike opšte namene kao što su AFINN, bing i loughran, uradićemo unutrašnje spajanje i na kraju ćemo kreirati oblak reči da prikažemo rezultat.

Jezik: R
Skup podataka/paket: janeoustenR

14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

Članak je preveden uz podršku EDISON softvera, koji pravi virtuelne garderobe za multi-brend prodavniceI testira softver.

2. Detekcija lažnih vijesti

Podignite svoje vještine na sljedeći nivo radeći na projektu nauke o podacima za početnike − otkrivanje lažnih vijesti pomoću Pythona.

14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

Lažne vijesti su lažne informacije koje se šire putem društvenih mreža i drugih internetskih medija u cilju postizanja političkih ciljeva. U ovoj ideji projekta Data Science, koristit ćemo Python da izgradimo model koji može precizno odrediti jesu li vijesti stvarne ili lažne. Napravit ćemo TfidfVectorizer i koristiti PassiveAggressiveClassifier da klasifikujemo vijesti u "prave" i "lažne". Koristit ćemo skup podataka oblika 7796×4 i sve raditi u Jupyter Lab-u.

Jezik: piton

Skup podataka/paket: news.csv

3. Otkrivanje Parkinsonove bolesti

Krenite naprijed radeći na ideji projekta Data Science − otkrivanje Parkinsonove bolesti sa XGBoostom.

14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

Počeli smo koristiti Data Science da poboljšamo zdravstvenu zaštitu i usluge – ako možemo predvidjeti bolest u ranoj fazi, onda ćemo imati mnoge prednosti. Dakle, u ovoj ideji projekta Data Science naučit ćemo kako otkriti Parkinsonovu bolest koristeći Python. To je neurodegenerativna, progresivna bolest centralnog nervnog sistema koja utiče na kretanje i izaziva drhtanje i ukočenost. Utječe na neurone u mozgu koji proizvode dopamin, a svake godine pogađa više od milion ljudi u Indiji.

Jezik: piton

Skup podataka/paket: UCI ML Parkinsonov skup podataka

Data Science projekti srednje složenosti

4. Govorno prepoznavanje emocija

Pogledajte potpunu implementaciju uzorka projekta Data Science − prepoznavanje govora sa Librosa.

14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

Naučimo sada kako koristiti različite biblioteke. Ovaj projekat nauke o podacima koristi librosu za prepoznavanje govora. SER je proces identifikacije ljudskih emocija i afektivnih stanja iz govora. Budući da koristimo ton i visinu tona da izrazimo emocije svojim glasom, SER je relevantan. Ali budući da su emocije subjektivne, audio napomena je težak zadatak. Koristit ćemo funkcije mfcc, chroma i mel i koristiti RAVDESS skup podataka za prepoznavanje emocija. Za ovaj model ćemo kreirati MLPC klasifikator.

Jezik: piton

Skup podataka/paket: RAVDESS skup podataka

5. Detekcija pola i starosti

Impresionirajte poslodavce najnovijim projektom Data Science - otkrivanje spola i starosti pomoću OpenCV-a.

14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

Ovo je zanimljiva nauka o podacima sa Pythonom. Koristeći samo jednu sliku, naučićete kako da predvidite pol i godine osobe. U ovom ćemo vas upoznati sa Computer Visionom i njegovim principima. Mi ćemo graditi konvoluciona neuronska mreža i koristiće modele koje su obučili Tal Hassner i Gil Levy na skupu podataka Adience. Usput ćemo koristiti neke .pb, .pbtxt, .prototxt i .caffemodel fajlove.

Jezik: piton

Skup podataka/paket: Adience

6. Uber analiza podataka

Pogledajte kompletnu implementaciju projekta Data Science sa izvornim kodom − Uberov projekat analize podataka u R.

14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

Ovo je projekat vizualizacije podataka sa ggplot2 u kojem ćemo koristiti R i njegove biblioteke i analizirati različite parametre. Koristit ćemo skup podataka Uber Pickups New York i kreirati vizualizacije za različite vremenske okvire u godini. Ovo nam govori kako vrijeme utiče na putovanja kupaca.

Jezik: R

Skup podataka/paket: Uber preuzimanja u skupu podataka New York City

7. Detekcija pospanosti vozača

Nadogradite svoje vještine radeći na projektu Top Data Science - Sistem za detekciju pospanosti sa OpenCV & Keras.

14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

Vožnja u snu je izuzetno opasna, sa oko hiljadu nesreća svake godine zbog toga što vozači zaspu tokom vožnje. U ovom Python projektu napravićemo sistem koji može detektovati uspavane drajvere i takođe ih upozoriti zvučnim signalom.

Ovaj projekat je implementiran pomoću Kerasa i OpenCV-a. Koristićemo OpenCV za detekciju lica i očiju, a uz pomoć Kerasa ćemo klasifikovati stanje oka (Otvoreno ili Zatvoreno) koristeći metode dubokih neuronskih mreža.

8.Chatbot

Napravite chat bota s Pythonom i napravite korak naprijed u svojoj karijeri - Chatbot sa NLTK & Keras.

14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

Chatbotovi su sastavni dio poslovanja. Mnoga preduzeća moraju ponuditi usluge svojim klijentima i potrebno im je puno radne snage, vremena i truda da ih opslužuju. Chatbotovi mogu automatizirati veći dio interakcije s klijentima odgovarajući na neka od uobičajenih pitanja koja klijenti postavljaju. U osnovi postoje dvije vrste chatbotova: specifični za domenu i otvoreni domen. Chatbot specifičan za domenu često se koristi za rješavanje određenog problema. Stoga ga morate prilagoditi da bi efikasno radio u vašem polju. Chatbotovima otvorenog domena može se postaviti bilo kakva pitanja, tako da njihova obuka zahtijeva ogromnu količinu podataka.

Skup podataka: Namjere json fajl

Jezik: piton

Napredni projekti nauke o podacima

9. Image Caption Generator

Pogledajte kompletnu implementaciju projekta s izvornim kodom − Image Caption Generator sa CNN & LSTM.

14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

Opisivanje onoga što je na slici je lak zadatak za ljude, ali za kompjutere, slika je samo kolekcija brojeva koji predstavljaju vrijednost boje svakog piksela. Ovo je težak zadatak za računare. Razumevanje onoga što je na slici i zatim kreiranje opisa na prirodnom jeziku (npr. engleski) je još jedan težak zadatak. Ovaj projekat koristi tehnike dubokog učenja u kojima implementiramo konvolucionu neuronsku mrežu (CNN) sa rekurentnom neuronskom mrežom (LSTM) za kreiranje generatora opisa slike.

Skup podataka: Flickr 8K

Jezik: piton

okvir: Keras

10. Otkrivanje prijevara s kreditnim karticama

Dajte sve od sebe radeći na ideji projekta Data Science − otkrivanje prevare sa kreditnim karticama uz mašinsko učenje.

14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

Do sada ste počeli da razumete metode i koncepte. Pređimo na neke napredne projekte nauke o podacima. U ovom projektu ćemo koristiti R jezik sa algoritmima kao što su stabla odluka, logistička regresija, umjetne neuronske mreže i klasifikator za povećanje gradijenta. Koristit ćemo skup podataka o transakcijama karticama da klasifikujemo transakcije kreditnim karticama kao lažne i originalne. Za njih ćemo odabrati različite modele i napraviti krivulje performansi.

Jezik: R

Skup podataka/paket: Skup podataka o transakcijama karticama

11. Sistem preporuka filmova

Istražite implementaciju najboljeg projekta nauke o podacima sa izvornim kodom - Sistem filmskih preporuka u R

14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

U ovom projektu nauke o podacima, koristićemo R da izvršimo preporuke filma putem mašinskog učenja. Sistem preporuka šalje prijedloge korisnicima kroz proces filtriranja na osnovu preferencija drugih korisnika i historije pretraživanja. Ako A i B vole Sama u kući, a B vole Zle devojke, onda možete predložiti A - i njima bi se moglo svideti. Ovo omogućava klijentima interakciju sa platformom.

Jezik: R

Skup podataka/paket: MovieLens skup podataka

12. Segmentacija kupaca

Impresionirajte poslodavce projektom Data Science (uključujući izvorni kod) - Segmentacija kupaca uz mašinsko učenje.

14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

Segmentacija kupaca je popularna aplikacija učenje bez nadzora. Koristeći klasterizaciju, kompanije definiraju segmente kupaca za rad s potencijalnom bazom korisnika. Oni dijele kupce u grupe prema zajedničkim karakteristikama kao što su spol, godine, interesovanja i navike potrošnje, tako da mogu efikasno plasirati svoje proizvode svakoj grupi. Koristićemo K-znači grupisanje, kao i vizualizirati distribuciju prema spolu i starosti. Zatim analiziramo njihove godišnje prihode i nivoe rashoda.

Jezik: R

Skup podataka/paket: Skup podataka Mall_Customers

13. Klasifikacija raka dojke

Pogledajte kompletnu implementaciju projekta Data Science u Pythonu − Klasifikacija raka dojke pomoću dubokog učenja.

14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

Vraćajući se medicinskom doprinosu nauke o podacima, naučimo kako otkriti rak dojke pomoću Pythona. Koristit ćemo IDC_regular set podataka za otkrivanje invazivnog duktalnog karcinoma, najčešćeg oblika raka dojke. Razvija se u mliječnim kanalima, prodirući u vlaknasto ili masno tkivo mliječne žlijezde izvan kanala. U ovom naučnom projektu prikupljanja podataka koristit ćemo se Deep Learning i Keras biblioteku za klasifikaciju.

Jezik: piton

Skup podataka/paket: IDC_regular

14. Prepoznavanje saobraćajnih znakova

Postizanje preciznosti u tehnologiji samovozećih automobila s uključenim projektom Data Science prepoznavanje saobraćajnih znakova pomoću CNN-a open source.

14 projekata otvorenog koda za poboljšanje vještina nauke o podacima (lako, normalno, teško)

Putokazi i saobraćajna pravila su veoma važni za svakog vozača kako bi izbegao nezgode. Da biste slijedili pravilo, prvo morate razumjeti kako izgleda putokaz. Osoba mora naučiti sve znakove na putu prije nego što dobije pravo da upravlja bilo kojim vozilom. Ali sada broj autonomnih vozila raste, a u bliskoj budućnosti osoba više neće samostalno voziti automobil. U projektu Prepoznavanje putnih znakova naučit ćete kako program može prepoznati tip putnog znaka uzimajući sliku kao ulaz. Njemački referentni skup podataka za prepoznavanje putnih znakova (GTSRB) koristi se za izgradnju duboke neuronske mreže za prepoznavanje klase kojoj pripada saobraćajni znak. Također kreiramo jednostavan GUI za interakciju s aplikacijom.

Jezik: piton

Skup podataka: GTRB (Njemački standard za prepoznavanje saobraćajnih znakova)

Čitaj više

izvor: www.habr.com

Dodajte komentar