14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

Znanost o podacima za početnike

1. Analiza raspoloženja (analiza raspoloženja kroz tekst)

14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

Pogledajte kompletnu implementaciju projekta Data Science pomoću izvornog koda − Projekt analize raspoloženja u R.

Analiza osjećaja je analiza riječi za prepoznavanje osjećaja i mišljenja, koji mogu biti pozitivni ili negativni. Ovo je vrsta klasifikacije gdje klase mogu biti binarne (pozitivne i negativne) ili množine (sretan, ljut, tužan, zloban...). Implementirat ćemo ovaj projekt Data Science u R-u i koristit ćemo skup podataka u paketu "janeaustenR". Koristit ćemo rječnike opće namjene kao što su AFINN, bing i loughran, napraviti unutarnje spajanje i na kraju ćemo stvoriti oblak riječi za prikaz rezultata.

Jezik: R
Skup podataka/paket: janeoustenR

14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

Članak je preveden uz potporu EDISON Softwarea, koji izrađuje virtualne probne sobe za multibrand trgovineI testira softver.

2. Detekcija lažnih vijesti

Podignite svoje vještine na višu razinu radeći na Data Science Project for Beginners − otkrivanje lažnih vijesti s Pythonom.

14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

Lažne vijesti su lažne informacije koje se šire društvenim mrežama i drugim internetskim medijima u svrhu postizanja političkih ciljeva. U ovoj projektnoj ideji Data Science koristit ćemo Python za izradu modela koji može točno odrediti jesu li vijesti stvarne ili lažne. Napravit ćemo TfidfVectorizer i koristiti PassiveAggressiveClassifier za klasificiranje vijesti na "prave" i "lažne". Koristit ćemo skup podataka oblika 7796×4 i sve ćemo raditi u Jupyter Labu.

Jezik: Piton

Skup podataka/paket: vijesti.csv

3. Otkrivanje Parkinsonove bolesti

Krenite naprijed radeći na ideji projekta Data Science − otkrivanje Parkinsonove bolesti s XGBoostom.

14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

Počeli smo koristiti Data Science za poboljšanje zdravstvene zaštite i usluga - ako možemo predvidjeti bolest u ranoj fazi, tada ćemo imati mnoge prednosti. Dakle, u ovoj ideji projekta Data Science, naučit ćemo kako otkriti Parkinsonovu bolest pomoću Pythona. To je neurodegenerativna, progresivna bolest središnjeg živčanog sustava koja utječe na kretanje i uzrokuje drhtanje i ukočenost. Utječe na neurone koji proizvode dopamin u mozgu, a svake godine zahvati više od milijun ljudi u Indiji.

Jezik: Piton

Skup podataka/paket: Skup podataka UCI ML Parkinsona

Data Science projekti srednje složenosti

4. Prepoznavanje govornih emocija

Pogledajte potpunu implementaciju oglednog projekta Data Science − prepoznavanje govora s Librosom.

14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

Naučimo sada kako koristiti različite biblioteke. Ovaj projekt Data Science koristi librosa za prepoznavanje govora. SER je proces identificiranja ljudskih emocija i afektivnih stanja iz govora. Budući da koristimo ton i visinu kako bismo izrazili emocije svojim glasom, SER je relevantan. No budući da su emocije subjektivne, zvučna napomena je težak zadatak. Koristit ćemo funkcije mfcc, chroma i mel te koristiti skup podataka RAVDESS za prepoznavanje emocija. Napravit ćemo MLPC klasifikator za ovaj model.

Jezik: Piton

Skup podataka/paket: Skup podataka RAVDESS

5. Detekcija spola i dobi

Impresionirajte poslodavce najnovijim projektom Data Science - otkrivanje spola i dobi s OpenCV-om.

14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

Ovo je zanimljiva Data Science s Pythonom. Koristeći samo jednu sliku, naučit ćete kako predvidjeti spol i dob osobe. U ovom ćemo vas upoznati s računalnim vidom i njegovim principima. Gradit ćemo konvolucijska neuronska mreža i koristit će modele koje su obučili Tal Hassner i Gil Levy na skupu podataka Adience. Usput ćemo koristiti neke .pb, .pbtxt, .prototxt i .caffemodel datoteke.

Jezik: Piton

Skup podataka/paket: Adience

6. Uberova analiza podataka

Pogledajte kompletnu implementaciju projekta Data Science s izvornim kodom − Uberov projekt analize podataka u R.

14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

Ovo je projekt vizualizacije podataka s ggplot2 u kojem ćemo koristiti R i njegove biblioteke te analizirati razne parametre. Koristit ćemo skup podataka Uber Pickups New York i izraditi vizualizacije za različite vremenske okvire u godini. To nam govori kako vrijeme utječe na putovanja korisnika.

Jezik: R

Skup podataka/paket: Skup podataka Uber preuzimanja u New Yorku

7. Detekcija pospanosti vozača

Nadogradite svoje vještine radeći na projektu Top Data Science - sustav za otkrivanje pospanosti s OpenCV & Keras.

14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

Vožnja u snu iznimno je opasna, s oko tisuću nesreća svake godine zbog toga što vozači zaspu tijekom vožnje. U ovom Python projektu stvorit ćemo sustav koji može otkriti pospane vozače i također ih upozoriti zvučnim signalom.

Ovaj projekt implementiran je pomoću Kerasa i OpenCV-a. Koristit ćemo OpenCV za detekciju lica i očiju, a uz pomoć Kerasa ćemo klasificirati stanje oka (otvoreno ili zatvoreno) koristeći metode duboke neuronske mreže.

8.Chatbot

Izgradite chatbot s Pythonom i napravite korak naprijed u svojoj karijeri - Chatbot s NLTK i Kerasom.

14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

Chatbotovi su sastavni dio poslovanja. Mnoga poduzeća moraju ponuditi usluge svojim klijentima i potrebno je puno radne snage, vremena i truda da im se pruži usluga. Chatbotovi mogu automatizirati velik dio interakcije s korisnicima odgovarajući na neka uobičajena pitanja koja korisnici postavljaju. U osnovi postoje dvije vrste chatbota: specifične za domenu i otvorene domene. Chatbot specifičan za domenu često se koristi za rješavanje određenog problema. Dakle, morate ga prilagoditi da učinkovito radi u vašem području. Chatbotovima otvorene domene mogu se postavljati sva pitanja, tako da je za njihovu obuku potrebna ogromna količina podataka.

Skup podataka: Intents json datoteka

Jezik: Piton

Napredni projekti znanosti o podacima

9. Generator naslova slike

Provjerite kompletnu implementaciju projekta s izvornim kodom − Generator opisa slika s CNN-om i LSTM-om.

14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

Opisivanje onoga što je na slici lak je zadatak za ljude, ali za računala, slika je samo skup brojeva koji predstavljaju vrijednost boje svakog piksela. Ovo je težak zadatak za računala. Razumijevanje onoga što je na slici i zatim stvaranje opisa na prirodnom jeziku (npr. engleski) još je jedan težak zadatak. Ovaj projekt koristi tehnike dubokog učenja u kojima implementiramo konvolucionarnu neuronsku mrežu (CNN) s rekurentnom neuronskom mrežom (LSTM) za stvaranje generatora opisa slike.

Skup podataka: Flickr 8K

Jezik: Piton

Okvir: Keras

10. Otkrivanje prijevare s kreditnom karticom

Dajte sve od sebe radeći na projektnoj ideji Data Science − otkrivanje prijevare s kreditnom karticom pomoću strojnog učenja.

14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

Do sada ste već počeli razumijevati metode i koncepte. Prijeđimo na neke napredne projekte znanosti o podacima. U ovom projektu koristit ćemo jezik R s algoritmima kao što su stabla odlučivanja, logistička regresija, umjetne neuronske mreže i klasifikator za povećanje gradijenta. Koristit ćemo skup podataka o kartičnim transakcijama kako bismo klasificirali transakcije kreditnim karticama kao lažne i prave. Za njih ćemo odabrati različite modele i izgraditi krivulje performansi.

Jezik: R

Skup podataka/paket: Skup podataka o kartičnim transakcijama

11. Sustav za preporuku filmova

Istražite implementaciju najboljeg projekta Data Science s izvornim kodom - Sustav filmskih preporuka u R

14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

U ovom projektu Data Science koristit ćemo R za izvršavanje preporuka filma putem strojnog učenja. Sustav preporuka šalje prijedloge korisnicima kroz proces filtriranja na temelju preferencija drugih korisnika i povijesti pregledavanja. Ako A i B vole Sam u kući, a B voli Zle djevojke, onda možete predložiti A - moglo bi se i njima svidjeti. To omogućuje klijentima interakciju s platformom.

Jezik: R

Skup podataka/paket: Skup podataka MovieLens

12. Segmentacija kupaca

Impresionirajte poslodavce projektom Data Science (uključujući izvorni kod) - Segmentacija kupaca pomoću strojnog učenja.

14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

Segmentacija kupaca je popularna aplikacija učenje bez nadzora. Koristeći klasteriranje, tvrtke definiraju korisničke segmente za rad s potencijalnom korisničkom bazom. Kupce dijele u skupine prema zajedničkim karakteristikama kao što su spol, dob, interesi i navike potrošnje, tako da mogu učinkovito plasirati svoje proizvode svakoj skupini. Koristit ćemo se K-znači grupiranje, kao i vizualizirati distribuciju prema spolu i dobi. Zatim analiziramo njihove godišnje prihode i razine rashoda.

Jezik: R

Skup podataka/paket: Skup podataka Mall_Customers

13. Klasifikacija raka dojke

Pogledajte kompletnu implementaciju projekta Data Science u Pythonu − Klasifikacija raka dojke pomoću dubokog učenja.

14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

Vraćajući se na medicinski doprinos znanosti o podacima, naučimo kako otkriti rak dojke pomoću Pythona. Koristit ćemo skup podataka IDC_regular za otkrivanje invazivnog duktalnog karcinoma, najčešćeg oblika raka dojke. Razvija se u mliječnim kanalima, prodirući u fibrozno ili masno tkivo mliječne žlijezde izvan kanala. U ovoj ideji znanstvenog projekta prikupljanja podataka koristit ćemo se Duboko učenje i biblioteka Keras za klasifikaciju.

Jezik: Piton

Skup podataka/paket: IDC_regularno

14. Prepoznavanje prometnih znakova

Postizanje preciznosti u tehnologiji samovozećih automobila uz projekt Data Science prepoznavanje prometnih znakova pomoću CNN-a otvoreni izvor.

14 projekata otvorenog koda za poboljšanje vještina Data Science (lako, normalno, teško)

Prometni znakovi i prometna pravila vrlo su važni za svakog vozača kako bi izbjegao nesreće. Da biste slijedili pravilo, prvo morate razumjeti kako izgleda prometni znak. Osoba mora naučiti sve prometne znakove prije nego što dobije pravo upravljanja bilo kojim vozilom. Ali sada broj autonomnih vozila raste, au bliskoj budućnosti osoba više neće sama voziti automobil. U projektu Prepoznavanje prometnih znakova naučit ćete kako program može prepoznati vrstu prometnog znaka uzimajući sliku kao ulaz. Njemački referentni skup podataka za prepoznavanje prometnih znakova (GTSRB) koristi se za izgradnju duboke neuronske mreže za prepoznavanje klase kojoj prometni znak pripada. Također stvaramo jednostavno GUI za interakciju s aplikacijom.

Jezik: Piton

Skup podataka: GTRB (njemačka referentna vrijednost za prepoznavanje prometnih znakova)

Čitaj više

Izvor: www.habr.com

Dodajte komentar