14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Gagnafræði fyrir byrjendur

1. Viðhorfsgreining (stemningsgreining í gegnum texta)

14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Skoðaðu heildarútfærslu Data Science verkefnisins með því að nota frumkóða - Sentiment Analysis Project í R.

Viðhorfsgreining er greining á orðum til að bera kennsl á tilfinningar og skoðanir, sem geta verið jákvæðar eða neikvæðar. Þetta er tegund af flokkun þar sem flokkarnir geta verið tvöfaldir (jákvæðir og neikvæðir) eða fleirtölu (gleður, reiður, dapur, viðbjóðslegur...). Við munum innleiða þetta Data Science verkefni í R og munum nota gagnasafnið í "janeaustenR" pakkanum. Við munum nota almennar orðabækur eins og AFINN, bing og loughran, gera innri sameiningu og í lokin munum við búa til orðský til að sýna niðurstöðuna.

Tungumál: R
Gagnasett/pakki: janeoustenR

14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Greinin var þýdd með stuðningi EDISON Software, sem gerir sýndar mátunarklefa fyrir fjölvöruverslanirOg prófar hugbúnað.

2. Uppgötvun falsfrétta

Taktu færni þína á næsta stig með því að vinna að Gagnavísindaverkefninu fyrir byrjendur - uppgötvun falsfrétta með Python.

14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Falsfréttir eru rangar upplýsingar sem dreift er í gegnum samfélagsmiðla og aðra netmiðla til að ná pólitískum markmiðum. Í þessari hugmynd um gagnafræðiverkefni munum við nota Python til að búa til líkan sem getur nákvæmlega ákvarðað hvort fréttir séu raunverulegar eða falsaðar. Við munum búa til TfidfVectorizer og nota PassiveAggressiveClassifier til að flokka fréttir í „raunverulegar“ og „falskar“. Við munum nota 7796×4 lögun gagnasafn og gera allt í Jupyter Lab.

Tungumál: Python

Gagnasett/pakki: fréttir.csv

3. Að greina Parkinsonsveiki

Halda áfram með því að vinna að gagnafræðiverkefnishugmyndinni − uppgötvun Parkinsonsveiki með XGBoost.

14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Við höfum byrjað að nota Data Science til að bæta heilsugæslu og þjónustu - ef við getum spáð fyrir um sjúkdóminn á frumstigi, þá munum við hafa marga kosti. Svo, í þessari Data Science verkefnishugmynd, munum við læra hvernig á að greina Parkinsonsveiki með Python. Það er taugahrörnunarsjúkdómur í miðtaugakerfinu sem hefur áhrif á hreyfingar og veldur skjálfta og stirðleika. Það hefur áhrif á dópamín-framleiðandi taugafrumur í heilanum og á hverju ári hefur það áhrif á yfir 1 milljón manns á Indlandi.

Tungumál: Python

Gagnasett/pakki: UCI ML Parkinsons gagnasafn

Gagnafræðiverkefni af miðlungs flóknum hætti

4. Tal tilfinningaþekking

Skoðaðu heildarútfærsluna á Data Science sýnishornsverkefninu - talgreining með Librosa.

14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Við skulum nú læra hvernig á að nota mismunandi bókasöfn. Þetta Gagnavísindaverkefni notar bókasafn fyrir talgreiningu. SER er ferlið við að bera kennsl á mannlegar tilfinningar og tilfinningaástand út frá tali. Vegna þess að við notum tón og tónhæð til að tjá tilfinningar með röddinni okkar, er SER viðeigandi. En þar sem tilfinningar eru huglægar er hljóðskýring erfitt verkefni. Við munum nota mfcc, chroma og mel aðgerðirnar og nota RAVDESS gagnasafnið til að þekkja tilfinningar. Við munum búa til MLPC flokkara fyrir þetta líkan.

Tungumál: Python

Gagnasett/pakki: RAVDESS gagnasafn

5. Kyn og aldursgreining

Heilldu vinnuveitendur með nýjasta Data Science verkefninu - kyn- og aldursgreining með OpenCV.

14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Þetta er áhugaverð gagnavísindi með Python. Með því að nota aðeins eina mynd muntu læra hvernig á að spá fyrir um kyn og aldur einstaklings. Í þessu munum við kynna þér tölvusjón og meginreglur hennar. Við munum byggja snúnings tauganet og mun nota líkön sem Tal Hassner og Gil Levy þjálfuðu á Adience gagnapakkanum. Við munum nota nokkrar .pb, .pbtxt, .prototxt og .caffemodel skrár á leiðinni.

Tungumál: Python

Gagnasett/pakki: Adience

6. Uber Gagnagreining

Skoðaðu heildarútfærslu Data Science verkefnisins með frumkóða - Uber Data Analysis Project í R.

14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Þetta er gagnasjónunarverkefni með ggplot2 þar sem við munum nota R og söfn þess og greina ýmsar breytur. Við munum nota Uber Pickups New York gagnasafnið og búa til sjónmyndir fyrir mismunandi tímaramma ársins. Þetta segir okkur hvernig tími hefur áhrif á ferðir viðskiptavina.

Tungumál: R

Gagnasett/pakki: Uber Pickups í New York City gagnapakka

7. Syfjuskynjun ökumanns

Uppfærðu færni þína með því að vinna að Top Data Science Project - syfjuskynjunarkerfi með OpenCV og Keras.

14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Syfjaður akstur er stórhættulegur, um þúsund slys verða á hverju ári vegna þess að ökumenn sofna við akstur. Í þessu Python verkefni munum við smíða kerfi sem getur greint syfjaða ökumenn og einnig látið þá vita með hljóðmerki.

Þetta verkefni er útfært með því að nota Keras og OpenCV. Við munum nota OpenCV til að greina andlit og augu og með hjálp Keras munum við flokka ástand augans (Opið eða Lokað) með djúpum taugakerfisaðferðum.

8. Spjallboti

Byggðu spjallbot með Python og taktu skref fram á við á ferli þínum - Chatbot með NLTK og Keras.

14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Chatbots eru óaðskiljanlegur hluti af viðskiptum. Mörg fyrirtæki þurfa að bjóða viðskiptavinum sínum þjónustu og það tekur mikinn mannskap, tíma og fyrirhöfn að þjóna þeim. Spjallbotar geta gert mikið af samskiptum viðskiptavina sjálfvirkt með því að svara nokkrum algengum spurningum sem viðskiptavinir spyrja. Það eru í grundvallaratriðum tvær gerðir af spjallbotum: Lénssértæk og opið lén. Lénssértækt spjallbot er oft notað til að leysa ákveðið vandamál. Þannig þarftu að aðlaga það til að virka á áhrifaríkan hátt á þínu sviði. Spjallbotna með opnu léni er hægt að spyrja hvaða spurninga sem er, þannig að þjálfun þeirra krefst gríðarlegrar gagnamagns.

Gagnasett: Intents json skrá

Tungumál: Python

Ítarleg gagnafræðiverkefni

9. Myndatexti Generator

Skoðaðu heildarútfærslu verkefnisins með frumkóða - Myndatextagenerator með CNN og LSTM.

14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Það er auðvelt verkefni fyrir menn að lýsa því sem er á mynd, en fyrir tölvur er mynd bara safn af tölum sem tákna litagildi hvers pixla. Þetta er erfitt verkefni fyrir tölvur. Að skilja hvað er í mynd og búa síðan til náttúrulega mállýsingu (td ensku) er annað erfitt verkefni. Þetta verkefni notar djúpnámsaðferðir þar sem við innleiðum Convolutional Neural Network (CNN) með endurteknu tauganeti (LSTM) til að búa til myndlýsingu.

Gagnasett: Flickr 8K

Tungumál: Python

Rammi: Keras

10. Uppgötvun kreditkortasvika

Gerðu þitt besta með því að vinna að Data Science verkefnishugmynd - uppgötvun kreditkortasvika með vélanámi.

14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Núna ertu farinn að skilja aðferðirnar og hugtökin. Við skulum halda áfram í nokkur háþróuð gagnavísindaverkefni. Í þessu verkefni munum við nota R tungumálið með reikniritum eins og ákvörðunartré, Logistic regression, gervi taugakerfi og stigahækkandi flokkari. Við munum nota kortafærslugögnin til að flokka kreditkortafærslur sem sviksamlegar og ósviknar. Við munum velja mismunandi gerðir fyrir þá og byggja frammistöðuferla.

Tungumál: R

Gagnasett/pakki: Kortafærslur gagnasafn

11. Meðmælakerfi fyrir kvikmyndir

Kannaðu framkvæmd besta gagnavísindaverkefnisins með frumkóða - Meðmælakerfi fyrir kvikmyndir í R

14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Í þessu Data Science verkefni munum við nota R til að framkvæma ráðleggingar kvikmyndarinnar með vélanámi. Meðmælakerfið sendir tillögur til notenda í gegnum síunarferli sem byggir á óskum annarra notenda og vafraferli. Ef A og B líkar við Home Alone, og B líkar við Mean Girls, þá geturðu stungið upp á A - þeim gæti líkað það líka. Þetta gerir viðskiptavinum kleift að hafa samskipti við vettvanginn.

Tungumál: R

Gagnasett/pakki: MovieLens gagnasafn

12. Skipting viðskiptavina

Heilldu vinnuveitendur með Data Science verkefni (þar á meðal frumkóða) - Skipting viðskiptavina með vélanámi.

14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Skipting kaupenda er vinsælt forrit eftirlitslaust nám. Með því að nota klasa, skilgreina fyrirtæki viðskiptavinahluta til að vinna með hugsanlegum notendahópi. Þeir skipta viðskiptavinum í hópa eftir sameiginlegum einkennum eins og kyni, aldri, áhugamálum og eyðsluvenjum, þannig að þeir geti á áhrifaríkan hátt markaðssett vörur sínar fyrir hvern hóp. Við munum nota K-þýðir þyrping, auk þess að sjá fyrir sér dreifingu eftir kyni og aldri. Við greinum síðan árlega tekju- og útgjaldastig þeirra.

Tungumál: R

Gagnasett/pakki: Mall_Customers gagnasafn

13. Brjóstakrabbameinsflokkun

Sjá heildarútfærslu Data Science verkefnisins í Python - Brjóstakrabbameinsflokkun með djúpnámi.

14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Þegar við snúum aftur að læknisfræðilegu framlagi gagnavísinda, skulum við læra hvernig á að greina brjóstakrabbamein með Python. Við munum nota IDC_regular gagnasafnið til að greina ífarandi lungnakrabbamein, algengasta form brjóstakrabbameins. Það þróast í mjólkurgöngunum og kemst inn í trefja- eða fituvef mjólkurkirtlanna fyrir utan rásina. Í þessari hugmynd um gagnasöfnun vísindaverkefnis munum við nota Deep Learning og Keras bókasafnið til flokkunar.

Tungumál: Python

Gagnasett/pakki: IDC_venjulegur

14. Umferðarmerki viðurkenning

Ná nákvæmni í sjálfkeyrandi bílatækni með Data Science verkefninu á umferðarmerkjagreining með CNN opinn uppspretta.

14 opinn uppspretta verkefni til að bæta gagnafræðikunnáttu (auðvelt, eðlilegt, erfitt)

Vegamerki og umferðarreglur eru mjög mikilvægar fyrir alla ökumenn til að forðast slys. Til að fylgja reglunni þarftu fyrst að skilja hvernig vegskiltið lítur út. Maður verður að læra öll umferðarmerki áður en hann fær réttindi til að stjórna ökutæki. En nú fjölgar sjálfknúnum ökutækjum og í náinni framtíð mun maður ekki lengur keyra bíl á eigin vegum. Í verkefninu Vegamerkisþekking lærir þú hvernig forrit getur þekkt tegund vegamerkja með því að taka mynd sem inntak. Þýskt tilvísunargagnasett fyrir umferðarmerki (GTSRB) er notað til að byggja upp djúpt taugakerfi til að þekkja flokkinn sem umferðarskilti tilheyrir. Við erum líka að búa til einfalt GUI til að hafa samskipti við forritið.

Tungumál: Python

Gagnasett: GTRB (German Traffic Sign Recognition Benchmark)

Lestu meira

Heimild: www.habr.com

Bæta við athugasemd