14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

Podatkovna znanost za začetnike

1. Analiza razpoloženja (analiza razpoloženja prek besedila)

14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

Oglejte si celotno izvedbo projekta Data Science z uporabo izvorne kode − Projekt analize razpoloženja v R.

Analiza čustev je analiza besed za določanje čustev in mnenj, ki so lahko pozitivni ali negativni. To je vrsta klasifikacije, v kateri so razredi lahko binarni (pozitivni in negativni) ali množinski (vesel, jezen, žalosten, grd ...). Ta projekt Data Science bomo izvajali v R in uporabili nabor podatkov v paketu "janeaustenR". Uporabili bomo splošne namenske slovarje, kot so AFINN, bing in loughran, izvedli notranje združevanje in na koncu ustvarili besedni oblak za prikaz rezultata.

Jezik: R
Nabor podatkov/paket: janeaustenR

14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

Članek je bil preveden s podporo EDISON Software, ki izdeluje virtualne pomerjalnice za trgovine z več blagovnimi znamkamiin testira programsko opremo.

2. Odkrivanje lažnih novic

Dvignite svoje spretnosti na višjo raven z delom na projektu Data Science za začetnike – odkrivanje lažnih novic s Pythonom.

14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

Lažne novice so lažne informacije, ki se širijo prek družbenih in drugih spletnih medijev za doseganje političnih ciljev. V tej ideji projekta Data Science bomo uporabili Python za izdelavo modela, ki lahko natančno določi, ali je novica resnična ali lažna. Ustvarili bomo TfidfVectorizer in uporabili PassiveAggressiveClassifier za razvrščanje novic na »prave« in »lažne«. Uporabili bomo nabor podatkov oblike 7796×4 in vse zagnali v Jupyter Labu.

Jezik: Python

Nabor podatkov/paket: novice.csv

3. Odkrivanje Parkinsonove bolezni

Nadaljujte s svojo zamislijo o projektu Data Science - odkrivanje Parkinsonove bolezni s pomočjo XGBoost.

14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

Začeli smo uporabljati Data Science za izboljšanje zdravstvene oskrbe in storitev – če lahko predvidimo bolezen v zgodnji fazi, bomo imeli veliko prednosti. Torej, v tej ideji projekta Data Science se bomo naučili, kako odkriti Parkinsonovo bolezen s pomočjo Pythona. To je nevrodegenerativna, napredujoča bolezen osrednjega živčnega sistema, ki prizadene gibanje in povzroča tresenje in okorelost. Vpliva na nevrone, ki proizvajajo dopamin v možganih, in vsako leto prizadene več kot 1 milijon ljudi v Indiji.

Jezik: Python

Nabor podatkov/paket: Nabor podatkov UCI ML Parkinsons

Data Science projekti srednje zahtevnosti

4. Govorno prepoznavanje čustev

Oglejte si celotno izvedbo primera projekta Data Science − prepoznavanje govora s programom Librosa.

14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

Naučimo se zdaj uporabljati različne knjižnice. Ta projekt Data Science uporablja libroso za prepoznavanje govora. SER je proces prepoznavanja človeških čustev in čustvenih stanj iz govora. Ker uporabljamo ton in višino za izražanje čustev z našimi glasovi, je SER pomemben. Ker pa so čustva subjektivna, je zvočna opomba zahtevna naloga. Uporabili bomo funkcije mfcc, chroma in mel ter uporabili nabor podatkov RAVDESS za prepoznavanje čustev. Za ta model bomo ustvarili klasifikator MLPC.

Jezik: Python

Nabor podatkov/paket: Nabor podatkov RAVDESS

5. Zaznavanje spola in starosti

Navdušite delodajalce z najnovejšim projektom Data Science - določanje spola in starosti z uporabo OpenCV.

14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

To je zanimiva podatkovna znanost s Pythonom. S samo eno sliko se boste naučili napovedati spol in starost osebe. V tem vam bomo predstavili računalniški vid in njegova načela. Gradili bomo konvolucijska nevronska mreža in bo uporabil modele, ki sta jih usposobila Tal Hassner in Gil Levy na naboru podatkov Adience. Na poti bomo uporabili nekaj datotek .pb, .pbtxt, .prototxt in .caffemodel.

Jezik: Python

Nabor podatkov/paket: Adience

6. Analiza podatkov Uber

Oglejte si celotno izvedbo projekta Data Science z izvorno kodo − Uberjev projekt analize podatkov v R.

14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

To je projekt vizualizacije podatkov z ggplot2, v katerem bomo uporabili R in njegove knjižnice ter analizirali različne parametre. Uporabili bomo nabor podatkov Uber Pickups New York City in ustvarili vizualizacije za različna časovna obdobja v letu. To nam pove, kako čas vpliva na potovanje strank.

Jezik: R

Nabor podatkov/paket: Nabor podatkov Uber Pickups in New York City

7. Zaznavanje zaspanosti voznika

Izboljšajte svoje sposobnosti z delom na projektu Top Data Science – sistem za zaznavanje zaspanosti z OpenCV & Keras.

14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

Zaspana vožnja je izjemno nevarna in vsako leto se zgodi skoraj tisoč nesreč, ker vozniki med vožnjo zaspijo. V tem projektu Python bomo ustvarili sistem, ki bo lahko zaznal zaspane voznike in jih tudi opozoril z zvočnim signalom.

Ta projekt je implementiran z uporabo Keras in OpenCV. Uporabili bomo OpenCV za zaznavanje obraza in oči, s Kerasom pa bomo razvrstili stanje oči (odprto ali zaprto) z uporabo tehnik globokih nevronskih mrež.

8. Klepet

Ustvarite Chatbota s Pythonom in naredite korak naprej v svoji karieri - Klepetalni robot z NLTK in Keras.

14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

Klepetalni roboti so sestavni del poslovanja. Številna podjetja morajo ponuditi storitve svojim strankam in potrebujejo veliko delovne sile, časa in truda, da jim služijo. Klepetalni roboti lahko avtomatizirajo velik del vaše interakcije s strankami, tako da odgovorijo na nekatera pogosta vprašanja, ki jih stranke zastavijo. V bistvu obstajata dve vrsti chatbotov: domensko specifični in odprtodomenski. Klepetalni robot, specifičen za domeno, se pogosto uporablja za rešitev določene težave. Zato ga morate prilagoditi, da bo učinkovito deloval na vašem področju. Klepetalnim robotom z odprto domeno je mogoče zastaviti kakršna koli vprašanja, zato njihovo usposabljanje zahteva ogromno podatkov.

Nabor podatkov: Intents datoteka json

Jezik: Python

Napredni projekti podatkovne znanosti

9. Generator podnapisov slik

Oglejte si celotno izvedbo projekta z izvorno kodo − Generator podnapisov s CNN in LSTM.

14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

Opisati, kaj je na sliki, je za ljudi lahka naloga, za računalnike pa je slika preprosto niz številk, ki predstavljajo barvno vrednost vsake slikovne pike. To je za računalnike težka naloga. Razumevanje, kaj je na sliki, in nato ustvarjanje opisa v naravnem jeziku (kot je angleščina) je še ena težka naloga. Ta projekt uporablja tehnike globokega učenja, pri katerih implementiramo konvolucijsko nevronsko mrežo (CNN) s ponavljajočo se nevronsko mrežo (LSTM), da ustvarimo generator opisa slike.

Nabor podatkov: Flickr 8K

Jezik: Python

Ogrodje: Keras

10. Odkrivanje goljufij s kreditnimi karticami

Potrudite se, ko delate na ideji projekta Data Science − odkrivanje goljufij s kreditnimi karticami s pomočjo strojnega učenja.

14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

Do zdaj ste začeli razumeti tehnike in koncepte. Pojdimo k nekaterim naprednim projektom podatkovne znanosti. V tem projektu bomo uporabljali jezik R z algoritmi, kot je odločitvena drevesa, logistična regresija, umetne nevronske mreže in klasifikator za povečanje gradienta. Za razvrstitev transakcij s kreditnimi karticami kot lažnih ali pristnih bomo uporabili nabor podatkov o kartičnih transakcijah. Zanje bomo izbrali različne modele in zgradili krivulje zmogljivosti.

Jezik: R

Nabor podatkov/paket: Nabor podatkov o kartičnih transakcijah

11. Sistem za priporočanje filmov

Preučite izvedbo najboljšega projekta Data Science z izvorno kodo - Sistem za priporočanje filmov v jeziku R

14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

V tem projektu Data Science bomo uporabili R za izvajanje priporočil iz filma s pomočjo strojnega učenja. Sistem priporočil pošilja predloge uporabnikom prek postopka filtriranja na podlagi preferenc in zgodovine brskanja drugih uporabnikov. Če sta A in B všeč Sam doma, B pa ima rad Mean Girls, potem lahko predlagate A – morda bo všeč tudi njim. To strankam omogoča interakcijo s platformo.

Jezik: R

Nabor podatkov/paket: Nabor podatkov MovieLens

12. Segmentacija strank

Navdušite delodajalce s projektom Data Science (vključno z izvorno kodo) - Segmentacija strank z uporabo strojnega učenja.

14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

Segmentacija kupcev je priljubljena aplikacija nenadzorovano učenje. Z združevanjem v gruče podjetja identificirajo segmente strank, da ciljajo na potencialno bazo uporabnikov. Kupce razdelijo v skupine glede na skupne značilnosti, kot so spol, starost, interesi in potrošniške navade, tako da lahko učinkovito tržijo svoje izdelke vsaki skupini. Bomo uporabili K-pomeni združevanje, kot tudi vizualizirati porazdelitev po spolu in starosti. Nato bomo analizirali njihove letne ravni prihodkov in odhodkov.

Jezik: R

Nabor podatkov/paket: Nabor podatkov Mall_Customers

13. Razvrstitev raka dojke

Oglejte si celotno izvedbo projekta Data Science v Pythonu − Klasifikacija raka dojke z uporabo globokega učenja.

14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

Če se vrnemo k medicinskemu prispevku znanosti o podatkih, se naučimo, kako s Pythonom odkriti raka dojke. Nabor podatkov IDC_regular bomo uporabili za identifikacijo invazivnega duktalnega karcinoma, najpogostejše oblike raka dojke. Razvije se v mlečnih vodih in se zarije v vlaknasto ali maščobno tkivo dojke zunaj voda. V tej ideji znanstvenega projekta zbiranja podatkov, ki jo bomo uporabili Globoko učenje in knjižnico Keras za klasifikacijo.

Jezik: Python

Nabor podatkov/paket: IDC_redno

14. Prepoznavanje prometnih znakov

Doseganje natančnosti v samovozeči tehnologiji s projektom Data Science prepoznavanje prometnih znakov s pomočjo CNN odprtokodno.

14 odprtokodnih projektov za izboljšanje veščin podatkovne znanosti (lahko, normalno, težko)

Prometni znaki in prometna pravila so zelo pomembni za vsakega voznika, da se izogne ​​nesrečam. Če želite upoštevati pravilo, morate najprej razumeti, kako je videti prometni znak. Oseba se mora naučiti vseh prometnih znakov, preden dobi dovoljenje za vožnjo katerega koli vozila. Toda zdaj število avtonomnih vozil narašča in v bližnji prihodnosti človek ne bo več vozil avtomobila samostojno. V projektu Prepoznavanje prometnih znakov se boste naučili, kako lahko program prepozna vrsto prometnih znakov tako, da kot vhod vzame sliko. Nabor podatkov German Traffic Sign Recognition Benchmark (GTSRB) se uporablja za izgradnjo globoke nevronske mreže za prepoznavanje razreda, ki mu pripada prometni znak. Ustvarimo tudi preprost GUI za interakcijo z aplikacijo.

Jezik: Python

Nabor podatkov: GTSRB (nemško merilo za prepoznavanje prometnih znakov)

Preberi več

Vir: www.habr.com

Dodaj komentar