Sentimintanalyze is de analyze fan wurden om gefoelens en mieningen te bepalen, dy't posityf of negatyf kinne wêze. Dit is in soarte fan klassifikaasje wêryn klassen binêr wêze kinne (posityf en negatyf) of meartal (lokkich, lilk, tryst, ferfelend ...). Wy sille dit Data Science-projekt yn R ymplementearje en sille de dataset brûke yn it pakket "janeaustenR". Wy sille wurdboeken foar algemiene doelen brûke lykas AFINN, bing en loughran, in ynderlike join útfiere, en oan 'e ein meitsje wy in wurdwolk om it resultaat wer te jaan.
Nim jo feardigens nei it folgjende nivo troch te wurkjen oan in Data Science-projekt foar begjinners - falsk nijs opspoaren mei Python.
Fake nijs is falske ynformaasje ferspraat fia sosjale media en oare online media om politike doelen te berikken. Yn dit Data Science-projektidee sille wy Python brûke om in model te bouwen dat sekuer kin bepale oft in nijsferhaal echt of nep is. Wy sille in TfidfVectorizer oanmeitsje en in PassiveAggressiveClassifier brûke om nijs te klassifisearjen yn "echt" en "nep". Wy sille in dataset brûke fan 'e foarm 7796 × 4 en alles útfiere yn Jupyter Lab.
Wy binne Data Science begon te brûken om sûnenssoarch en tsjinsten te ferbetterjen - as wy in sykte yn in ier stadium kinne foarsizze, dan sille wy in protte foardielen hawwe. Dat, yn dit Data Science-projektidee, sille wy leare hoe't wy de sykte fan Parkinson kinne opspoare mei Python. It is in neurodegenerative, progressive sykte fan it sintrale senuwstelsel dy't beweging beynfloedet en tremors en stivens feroarsaket. It beynfloedet dopamine-produsearjende neuronen yn it harsens, en elk jier hat it ynfloed op mear as 1 miljoen minsken yn Yndia.
Litte wy no leare hoe't jo ferskate bibleteken kinne brûke. Dit Data Science-projekt brûkt librosa foar spraakherkenning. SER is it proses fan it identifisearjen fan minsklike emoasjes en affektive steaten út spraak. Om't wy toan en toanhichte brûke om emoasjes út te drukken mei ús stimmen, is SER relevant. Mar om't emoasjes subjektyf binne, is audioannotaasje in útdaagjende taak. Wy sille mfcc, chroma en mel-funksjes brûke en de RAVDESS-dataset brûke foar emoasjeerkenning. Wy sille in MLPC-klasser meitsje foar dit model.
Dit is in nijsgjirrige Data Science mei Python. Mei mar ien ôfbylding sille jo leare om it geslacht en leeftyd fan in persoan te foarsizzen. Hjiryn sille wy jo yntrodusearje oan Computer Vision en har prinsipes. Wy sille bouwe convolutional neural netwurk en sil modellen brûke oplaat troch Tal Hassner en Gil Levy op de Adience dataset. Underweis sille wy wat .pb-, .pbtxt-, .prototxt- en .caffemodel-bestannen brûke.
Dit is in datafisualisaasjeprojekt mei ggplot2 wêryn wy R en syn bibleteken sille brûke en ferskate parameters analysearje. Wy sille de Uber Pickups New York City dataset brûke en fisualisaasjes meitsje foar ferskate tiidframes fan it jier. Dit fertelt ús hoe't tiid ynfloed hat op klantreizen.
Taal: R
Dataset/pakket: Uber Pickups yn New York City dataset
Drogerich riden is ekstreem gefaarlik, en elk jier barre der hast tûzen ûngelokken trochdat bestjoerders ûnder it riden yn sliep falle. Yn dit Python-projekt sille wy in systeem meitsje dat slaperige bestjoerders kin detectearje en se ek warskôgje mei in audiosinjaal.
Dit projekt wurdt ymplementearre mei Keras en OpenCV. Wy sille OpenCV brûke foar gesichts- en eachdeteksje en mei Keras sille wy de eachstatus (Iepen of sluten) klassifisearje mei techniken foar djippe neurale netwurken.
Chatbots binne in yntegraal diel fan bedriuw. In protte bedriuwen moatte tsjinsten oan har klanten oanbiede en it kostet in protte mankrêft, tiid en muoite om har te tsjinjen. Chatbots kinne in protte fan jo klantinteraksje automatisearje troch guon gewoane fragen te beantwurdzjen dy't klanten freegje. D'r binne yn prinsipe twa soarten chatbots: domeinspesifyk en iepen domein. In domein-spesifike chatbot wurdt faak brûkt om in spesifyk probleem op te lossen. Dat, jo moatte it oanpasse om effektyf te wurkjen yn jo fjild. Chatbots mei iepen domein kinne alle fragen steld wurde, dus it oplieden fan se freget in enoarme hoemannichte gegevens.
It beskriuwen fan wat der yn in ôfbylding is is in maklike taak foar minsken, mar foar kompjûters is in ôfbylding gewoan in searje sifers dy't de kleurwearde fan elke piksel fertsjintwurdigje. Dit is in drege taak foar kompjûters. Begripe wat der yn in byld stiet en dan in beskriuwing yn natuerlike taal (lykas Ingelsk) meitsje is in oare drege taak. Dit projekt brûkt djippe leartechniken wêryn wy in Convolutional Neural Network (CNN) ymplementearje mei in weromkommend neural netwurk (LSTM) om in ôfbyldingsbeskriuwingsgenerator te meitsjen.
No binne jo begon de techniken en begripen te begripen. Litte wy trochgean nei wat avansearre projekten foar gegevenswittenskip. Yn dit projekt sille wy R-taal brûke mei algoritmen lykas beslút beammen, logistyske regression, keunstmjittige neurale netwurken en klassifikaasje foar gradientferbettering. Wy sille in dataset fan kaarttransaksjes brûke om kredytkaarttransaksjes te klassifisearjen as frauduleus of echt. Wy sille ferskate modellen foar har selektearje en prestaasjeskurven bouwe.
Yn dit Data Science-projekt sille wy R brûke om de oanbefellings fan 'e film te ymplementearjen fia masine learen. It oanbefellingssysteem stjoert suggestjes nei brûkers fia in filterproses basearre op de foarkarren en blêdzjenskiednis fan oare brûkers. As A en B like Home Alone, en B fan Mean Girls, dan kinne jo A foarstelle - se kinne it ek leuk fine. Hjirmei kinne klanten ynteraksje mei it platfoarm.
Keapersegmentaasje is in populêre applikaasje sûnder tafersjoch learen. Mei help fan klustering identifisearje bedriuwen klantsegminten om in potinsjele brûkersbasis te rjochtsjen. Se ferdiele klanten yn groepen neffens mienskiplike skaaimerken lykas geslacht, leeftyd, ynteresses en bestegingsgewoanten, sadat se har produkten effektyf kinne ferkeapje oan elke groep. Wy sille brûke K-betsjut klustering, en ek fisualisearje de ferdieling troch geslacht en leeftyd. Wy sille dan har jierlikse ynkomsten en útjeftennivo's analysearje.
Werom nei de medyske bydrage fan gegevenswittenskip, litte wy leare hoe't jo boarstkanker kinne opspoare mei Python. Wy sille de IDC_regular dataset brûke om invasive ductal carcinoma te identifisearjen, de meast foarkommende foarm fan boarstkanker. It ûntwikkelt yn 'e molke kanalen, burrowing yn' e fibrous of fatty boarst weefsel bûten it kanaal. Yn dit wittenskiplike projektidee foar gegevenssammeling sille wy brûke Djippe learen en de Keras-bibleteek foar klassifikaasje.
Ferkearsbuorden en ferkearsregels binne heul wichtich foar elke bestjoerder om ûngelokken te foarkommen. Om de regel te folgjen, moatte jo earst begripe hoe't in ferkearsboerd derút sjocht. In persoan moat alle ferkearsbuorden leare foardat hy de lisinsje krijt om in auto te riden. Mar no groeit it oantal autonome auto's, en yn 'e heine takomst sil in persoan net langer in auto selsstannich ride. Yn it projekt Road Sign Recognition sille jo leare hoe't in programma it type ferkearsbuorden kin werkenne troch in ôfbylding as ynfier te nimmen. De dataset fan 'e German Traffic Sign Recognition Benchmark (GTSRB) wurdt brûkt om in djip neuraal netwurk te bouwen om de klasse te werkennen wêr't in ferkearsteken heart. Wy meitsje ek in ienfâldige GUI om te ynteraksje mei de applikaasje.