Viðhorfsgreining er greining á orðum til að bera kennsl á tilfinningar og skoðanir, sem geta verið jákvæðar eða neikvæðar. Þetta er tegund af flokkun þar sem flokkarnir geta verið tvöfaldir (jákvæðir og neikvæðir) eða fleirtölu (gleður, reiður, dapur, viðbjóðslegur...). Við munum innleiða þetta Data Science verkefni í R og munum nota gagnasafnið í "janeaustenR" pakkanum. Við munum nota almennar orðabækur eins og AFINN, bing og loughran, gera innri sameiningu og í lokin munum við búa til orðský til að sýna niðurstöðuna.
Falsfréttir eru rangar upplýsingar sem dreift er í gegnum samfélagsmiðla og aðra netmiðla til að ná pólitískum markmiðum. Í þessari hugmynd um gagnafræðiverkefni munum við nota Python til að búa til líkan sem getur nákvæmlega ákvarðað hvort fréttir séu raunverulegar eða falsaðar. Við munum búa til TfidfVectorizer og nota PassiveAggressiveClassifier til að flokka fréttir í „raunverulegar“ og „falskar“. Við munum nota 7796×4 lögun gagnasafn og gera allt í Jupyter Lab.
Við höfum byrjað að nota Data Science til að bæta heilsugæslu og þjónustu - ef við getum spáð fyrir um sjúkdóminn á frumstigi, þá munum við hafa marga kosti. Svo, í þessari Data Science verkefnishugmynd, munum við læra hvernig á að greina Parkinsonsveiki með Python. Það er taugahrörnunarsjúkdómur í miðtaugakerfinu sem hefur áhrif á hreyfingar og veldur skjálfta og stirðleika. Það hefur áhrif á dópamín-framleiðandi taugafrumur í heilanum og á hverju ári hefur það áhrif á yfir 1 milljón manns á Indlandi.
Við skulum nú læra hvernig á að nota mismunandi bókasöfn. Þetta Gagnavísindaverkefni notar bókasafn fyrir talgreiningu. SER er ferlið við að bera kennsl á mannlegar tilfinningar og tilfinningaástand út frá tali. Vegna þess að við notum tón og tónhæð til að tjá tilfinningar með röddinni okkar, er SER viðeigandi. En þar sem tilfinningar eru huglægar er hljóðskýring erfitt verkefni. Við munum nota mfcc, chroma og mel aðgerðirnar og nota RAVDESS gagnasafnið til að þekkja tilfinningar. Við munum búa til MLPC flokkara fyrir þetta líkan.
Þetta er áhugaverð gagnavísindi með Python. Með því að nota aðeins eina mynd muntu læra hvernig á að spá fyrir um kyn og aldur einstaklings. Í þessu munum við kynna þér tölvusjón og meginreglur hennar. Við munum byggja snúnings tauganet og mun nota líkön sem Tal Hassner og Gil Levy þjálfuðu á Adience gagnapakkanum. Við munum nota nokkrar .pb, .pbtxt, .prototxt og .caffemodel skrár á leiðinni.
Þetta er gagnasjónunarverkefni með ggplot2 þar sem við munum nota R og söfn þess og greina ýmsar breytur. Við munum nota Uber Pickups New York gagnasafnið og búa til sjónmyndir fyrir mismunandi tímaramma ársins. Þetta segir okkur hvernig tími hefur áhrif á ferðir viðskiptavina.
Tungumál: R
Gagnasett/pakki: Uber Pickups í New York City gagnapakka
Syfjaður akstur er stórhættulegur, um þúsund slys verða á hverju ári vegna þess að ökumenn sofna við akstur. Í þessu Python verkefni munum við smíða kerfi sem getur greint syfjaða ökumenn og einnig látið þá vita með hljóðmerki.
Þetta verkefni er útfært með því að nota Keras og OpenCV. Við munum nota OpenCV til að greina andlit og augu og með hjálp Keras munum við flokka ástand augans (Opið eða Lokað) með djúpum taugakerfisaðferðum.
Chatbots eru óaðskiljanlegur hluti af viðskiptum. Mörg fyrirtæki þurfa að bjóða viðskiptavinum sínum þjónustu og það tekur mikinn mannskap, tíma og fyrirhöfn að þjóna þeim. Spjallbotar geta gert mikið af samskiptum viðskiptavina sjálfvirkt með því að svara nokkrum algengum spurningum sem viðskiptavinir spyrja. Það eru í grundvallaratriðum tvær gerðir af spjallbotum: Lénssértæk og opið lén. Lénssértækt spjallbot er oft notað til að leysa ákveðið vandamál. Þannig þarftu að aðlaga það til að virka á áhrifaríkan hátt á þínu sviði. Spjallbotna með opnu léni er hægt að spyrja hvaða spurninga sem er, þannig að þjálfun þeirra krefst gríðarlegrar gagnamagns.
Það er auðvelt verkefni fyrir menn að lýsa því sem er á mynd, en fyrir tölvur er mynd bara safn af tölum sem tákna litagildi hvers pixla. Þetta er erfitt verkefni fyrir tölvur. Að skilja hvað er í mynd og búa síðan til náttúrulega mállýsingu (td ensku) er annað erfitt verkefni. Þetta verkefni notar djúpnámsaðferðir þar sem við innleiðum Convolutional Neural Network (CNN) með endurteknu tauganeti (LSTM) til að búa til myndlýsingu.
Núna ertu farinn að skilja aðferðirnar og hugtökin. Við skulum halda áfram í nokkur háþróuð gagnavísindaverkefni. Í þessu verkefni munum við nota R tungumálið með reikniritum eins og ákvörðunartré, Logistic regression, gervi taugakerfi og stigahækkandi flokkari. Við munum nota kortafærslugögnin til að flokka kreditkortafærslur sem sviksamlegar og ósviknar. Við munum velja mismunandi gerðir fyrir þá og byggja frammistöðuferla.
Í þessu Data Science verkefni munum við nota R til að framkvæma ráðleggingar kvikmyndarinnar með vélanámi. Meðmælakerfið sendir tillögur til notenda í gegnum síunarferli sem byggir á óskum annarra notenda og vafraferli. Ef A og B líkar við Home Alone, og B líkar við Mean Girls, þá geturðu stungið upp á A - þeim gæti líkað það líka. Þetta gerir viðskiptavinum kleift að hafa samskipti við vettvanginn.
Skipting kaupenda er vinsælt forrit eftirlitslaust nám. Með því að nota klasa, skilgreina fyrirtæki viðskiptavinahluta til að vinna með hugsanlegum notendahópi. Þeir skipta viðskiptavinum í hópa eftir sameiginlegum einkennum eins og kyni, aldri, áhugamálum og eyðsluvenjum, þannig að þeir geti á áhrifaríkan hátt markaðssett vörur sínar fyrir hvern hóp. Við munum nota K-þýðir þyrping, auk þess að sjá fyrir sér dreifingu eftir kyni og aldri. Við greinum síðan árlega tekju- og útgjaldastig þeirra.
Þegar við snúum aftur að læknisfræðilegu framlagi gagnavísinda, skulum við læra hvernig á að greina brjóstakrabbamein með Python. Við munum nota IDC_regular gagnasafnið til að greina ífarandi lungnakrabbamein, algengasta form brjóstakrabbameins. Það þróast í mjólkurgöngunum og kemst inn í trefja- eða fituvef mjólkurkirtlanna fyrir utan rásina. Í þessari hugmynd um gagnasöfnun vísindaverkefnis munum við nota Deep Learning og Keras bókasafnið til flokkunar.
Vegamerki og umferðarreglur eru mjög mikilvægar fyrir alla ökumenn til að forðast slys. Til að fylgja reglunni þarftu fyrst að skilja hvernig vegskiltið lítur út. Maður verður að læra öll umferðarmerki áður en hann fær réttindi til að stjórna ökutæki. En nú fjölgar sjálfknúnum ökutækjum og í náinni framtíð mun maður ekki lengur keyra bíl á eigin vegum. Í verkefninu Vegamerkisþekking lærir þú hvernig forrit getur þekkt tegund vegamerkja með því að taka mynd sem inntak. Þýskt tilvísunargagnasett fyrir umferðarmerki (GTSRB) er notað til að byggja upp djúpt taugakerfi til að þekkja flokkinn sem umferðarskilti tilheyrir. Við erum líka að búa til einfalt GUI til að hafa samskipti við forritið.