L'anàlisi de sentiments és l'anàlisi de paraules per identificar sentiments i opinions, que poden ser positives o negatives. Aquest és un tipus de classificació on les classes poden ser binàries (positives i negatives) o plurals (alegre, enfadada, trista, desagradable...). Implementarem aquest projecte de Data Science en R i utilitzarem el conjunt de dades del paquet "janeaustenR". Utilitzarem diccionaris de propòsit general com AFINN, bing i loughran, farem una unió interna i al final crearem un núvol de paraules per mostrar el resultat.
Les notícies falses són informació falsa difosa a través de les xarxes socials i altres mitjans en línia per tal d'assolir objectius polítics. En aquesta idea del projecte Data Science, utilitzarem Python per construir un model que pugui determinar amb precisió si les notícies són reals o falses. Crearem un TfidfVectorizer i utilitzarem el PassiveAggressiveClassifier per classificar les notícies en "reals" i "falses". Utilitzarem un conjunt de dades de forma de 7796 × 4 i farem tot a Jupyter Lab.
Hem començat a utilitzar Data Science per millorar l'assistència sanitària i els serveis; si podem predir la malaltia en una fase inicial, tindrem molts avantatges. Així, en aquesta idea del projecte Data Science, aprendrem a detectar la malaltia de Parkinson mitjançant Python. És una malaltia neurodegenerativa i progressiva del sistema nerviós central que afecta el moviment i provoca tremolors i rigidesa. Afecta les neurones productores de dopamina del cervell i cada any afecta més d'1 milió de persones a l'Índia.
Idioma: Pitó
Conjunt de dades/paquet: Conjunt de dades UCI ML Parkinsons
Aprenem ara a utilitzar diferents biblioteques. Aquest projecte de Data Science utilitza librosa per al reconeixement de veu. SER és el procés d'identificació de les emocions humanes i dels estats afectius a partir de la parla. Com que utilitzem el to i el to per expressar emocions amb la nostra veu, SER és rellevant. Però com que les emocions són subjectives, l'anotació d'àudio és una tasca difícil. Utilitzarem les funcions mfcc, chroma i mel i utilitzarem el conjunt de dades RAVDESS per al reconeixement d'emocions. Crearem un classificador MLPC per a aquest model.
Aquesta és una ciència de dades interessant amb Python. Amb només una imatge, aprendràs a predir el gènere i l'edat d'una persona. En això, us presentarem la visió per ordinador i els seus principis. Construirem xarxa neuronal convolucional i utilitzarà models entrenats per Tal Hassner i Gil Levy al conjunt de dades Adience. Al llarg del camí farem servir alguns fitxers .pb, .pbtxt, .prototxt i .caffemodel.
Es tracta d'un projecte de visualització de dades amb ggplot2 en el qual utilitzarem R i les seves biblioteques i analitzarem diversos paràmetres. Utilitzarem el conjunt de dades d'Uber Pickups Nova York i crearem visualitzacions per a diferents períodes de temps de l'any. Això ens indica com el temps afecta els viatges dels clients.
Idioma: R
Conjunt de dades/paquet: Conjunt de dades Uber Pickups a la ciutat de Nova York
Conduir amb somnolència és extremadament perillós, amb uns mil accidents cada any a causa dels conductors que s'adormen mentre condueixen. En aquest projecte Python, crearem un sistema que pugui detectar conductors adormits i també avisar-los amb un bip.
Aquest projecte s'implementa amb Keras i OpenCV. Utilitzarem OpenCV per detectar la cara i els ulls i amb l'ajuda de Keras classificarem l'estat de l'ull (Obert o Tancat) mitjançant mètodes de xarxes neuronals profundes.
8.Chatbot
Construeix un chatbot amb Python i fes un pas endavant en la teva carrera: Chatbot amb NLTK i Keras.
Els chatbots són una part integral del negoci. Moltes empreses han d'oferir serveis als seus clients i es necessita molta mà d'obra, temps i esforç per atendre'ls. Els chatbots poden automatitzar gran part de la interacció amb el client responent algunes de les preguntes habituals que fan els clients. Bàsicament hi ha dos tipus de chatbots: específics de domini i de domini obert. Sovint s'utilitza un chatbot de domini específic per resoldre un problema específic. Per tant, cal personalitzar-lo per treballar amb eficàcia en el vostre camp. Es poden fer qualsevol pregunta als chatbots de domini obert, de manera que entrenar-los requereix una gran quantitat de dades.
Descriure el que hi ha en una imatge és una tasca fàcil per als humans, però per als ordinadors, una imatge és només una col·lecció de números que representen el valor del color de cada píxel. Aquesta és una tasca difícil per als ordinadors. Entendre què hi ha en una imatge i després crear una descripció en llenguatge natural (per exemple, anglès) és una altra tasca difícil. Aquest projecte utilitza tècniques d'aprenentatge profund en què implementem una Xarxa Neural Convolucional (CNN) amb una Xarxa Neural Recurrent (LSTM) per crear un generador de descripcions d'imatges.
A hores d'ara ja heu començat a entendre els mètodes i els conceptes. Passem a alguns projectes avançats de ciència de dades. En aquest projecte, utilitzarem el llenguatge R amb algorismes com ara arbres de decisió, regressió logística, xarxes neuronals artificials i classificador de gradient boosting. Utilitzarem el conjunt de dades de transaccions amb targeta per classificar les transaccions amb targeta de crèdit com a fraudulentes i genuïnes. Seleccionarem diferents models per a ells i construirem corbes de rendiment.
Idioma: R
Conjunt de dades/paquet: Conjunt de dades de transaccions amb targeta
En aquest projecte de Data Science, utilitzarem R per executar les recomanacions de la pel·lícula mitjançant l'aprenentatge automàtic. El sistema de recomanacions envia suggeriments als usuaris mitjançant un procés de filtrat basat en les preferències d'altres usuaris i l'historial de navegació. Si a A i a B els agraden Sols a casa i a B li agraden les noies males, podeu suggerir-los a A: també els pot agradar. Això permet als clients interactuar amb la plataforma.
Idioma: R
Conjunt de dades/paquet: Conjunt de dades de MovieLens
La segmentació del comprador és una aplicació popular aprenentatge no supervisat. Mitjançant el clustering, les empreses defineixen segments de clients per treballar amb una base d'usuaris potencials. Divideixen els clients en grups segons característiques comunes com el gènere, l'edat, els interessos i els hàbits de despesa, de manera que puguin comercialitzar de manera efectiva els seus productes a cada grup. Farem servir K-significa agrupació, així com visualitzar la distribució per sexe i edat. A continuació, analitzem els seus nivells d'ingressos i despeses anuals.
Idioma: R
Conjunt de dades/paquet: Conjunt de dades del centre comercial_clients
Tornant a l'aportació mèdica de la ciència de dades, aprenem a detectar el càncer de mama amb Python. Utilitzarem el conjunt de dades IDC_regular per detectar el carcinoma ductal invasiu, la forma més comuna de càncer de mama. Es desenvolupa als conductes de la llet, penetrant en el teixit fibrós o gras de la glàndula mamària fora del conducte. En aquesta idea de projecte científic de recollida de dades, utilitzarem Aprenentatge profund i la biblioteca Keras per a la classificació.
Els senyals de trànsit i les normes de trànsit són molt importants per a cada conductor per evitar accidents. Per seguir la regla, primer cal entendre com és el senyal de trànsit. Una persona ha d'aprendre tots els senyals de trànsit abans de tenir el dret de conduir qualsevol vehicle. Però ara el nombre de vehicles autònoms està creixent i, en un futur proper, una persona ja no conduirà un cotxe pel seu compte. Al projecte de reconeixement de senyals de trànsit, aprendràs com un programa pot reconèixer un tipus de senyal de trànsit prenent una imatge com a entrada. El conjunt de dades de referència de reconeixement de senyals de trànsit alemany (GTSRB) s'utilitza per construir una xarxa neuronal profunda per reconèixer la classe a la qual pertany un senyal de trànsit. També estem creant una GUI senzilla per interactuar amb l'aplicació.
Idioma: Pitó
Conjunt de dades: GTRB (punt de referència alemany de reconeixement de senyals de trànsit)