A análise de sentimentos é a análise de palabras para identificar sentimentos e opinións, que poden ser positivas ou negativas. Trátase dun tipo de clasificación onde as clases poden ser binarias (positivas e negativas) ou plurais (alegre, enfadada, triste, desagradable...). Implementaremos este proxecto de Data Science en R e usaremos o conxunto de datos no paquete "janeaustenR". Usaremos dicionarios de propósito xeral como AFINN, bing e loughran, faremos unha unión interna e ao final crearemos unha nube de palabras para mostrar o resultado.
As noticias falsas son información falsa difundida a través das redes sociais e outros medios en liña co fin de acadar obxectivos políticos. Nesta idea de proxecto Data Science, usaremos Python para construír un modelo que poida determinar con precisión se as noticias son reais ou falsas. Crearemos un TfidfVectorizer e usaremos o PassiveAggressiveClassifier para clasificar as noticias en "reais" e "falsas". Usaremos un conxunto de datos de forma 7796×4 e faremos todo en Jupyter Lab.
Comezamos a usar Data Science para mellorar a asistencia sanitaria e os servizos; se podemos predecir a enfermidade nunha fase inicial, teremos moitas vantaxes. Así, nesta idea de proxecto Data Science, aprenderemos a detectar a enfermidade de Parkinson usando Python. É unha enfermidade neurodexenerativa e progresiva do sistema nervioso central que afecta ao movemento e provoca tremor e rixidez. Afecta ás neuronas que producen dopamina no cerebro e cada ano afecta a máis de 1 millón de persoas na India.
Idioma: Pitão
Conjunto de datos/Paquete: Conjunto de datos UCI ML Parkinsons
Imos agora aprender a usar diferentes bibliotecas. Este proxecto de Data Science utiliza librosa para o recoñecemento de voz. SER é o proceso de identificación das emocións e estados afectivos humanos a partir da fala. Porque usamos o ton e o ton para expresar emocións coa nosa voz, a SER é relevante. Pero como as emocións son subxectivas, a anotación de audio é unha tarefa difícil. Usaremos as funcións mfcc, chroma e mel e utilizaremos o conxunto de datos RAVDESS para o recoñecemento de emocións. Crearemos un clasificador MLPC para este modelo.
Idioma: Pitão
Conjunto de datos/Paquete: conxunto de datos RAVDESS
Esta é unha ciencia de datos interesante con Python. Usando só unha imaxe, aprenderás a predicir o sexo e a idade dunha persoa. Neste, presentarémosche a Visión por Computador e os seus principios. Construiremos rede neuronal convolucional e utilizará modelos adestrados por Tal Hassner e Gil Levy no conxunto de datos Adience. Durante o camiño empregaremos algúns ficheiros .pb, .pbtxt, .prototxt e .caffemodel.
Trátase dun proxecto de visualización de datos con ggplot2 no que utilizaremos R e as súas bibliotecas e analizaremos varios parámetros. Usaremos o conxunto de datos de Uber Pickups New York e crearemos visualizacións para diferentes períodos de tempo do ano. Isto indícanos como afecta o tempo as viaxes dos clientes.
Idioma: R
Conjunto de datos/Paquete: Conjunto de datos de Uber Pickups na cidade de Nova York
A condución con sono é extremadamente perigosa, con preto de mil accidentes cada ano debido a que os condutores quedan durmidos mentres conducen. Neste proxecto de Python, imos crear un sistema que pode detectar condutores durmidos e tamén avisalos cun pitido.
Este proxecto está implementado usando Keras e OpenCV. Utilizaremos OpenCV para detectar a cara e os ollos e coa axuda de Keras clasificaremos o estado do ollo (Aberto ou Pechado) mediante métodos de redes neuronais profundas.
Os chatbots son unha parte integral dos negocios. Moitas empresas teñen que ofrecer servizos aos seus clientes e necesitan moita man de obra, tempo e esforzo para atenderlles. Os chatbots poden automatizar gran parte da interacción do cliente respondendo a algunhas das preguntas comúns que fan os clientes. Hai basicamente dous tipos de chatbots: específicos de dominio e de dominio aberto. A miúdo úsase un chatbot específico de dominio para resolver un problema específico. Polo tanto, cómpre personalizalo para que funcione eficazmente no seu campo. Aos chatbots de dominio aberto pódense facer calquera pregunta, polo que adestralos require unha gran cantidade de datos.
Describir o que hai nunha imaxe é unha tarefa sinxela para os humanos, pero para os ordenadores, unha imaxe é só unha colección de números que representan o valor da cor de cada píxel. Esta é unha tarefa difícil para os ordenadores. Entender o que hai nunha imaxe e despois crear unha descrición en linguaxe natural (por exemplo, inglés) é outra tarefa difícil. Este proxecto utiliza técnicas de aprendizaxe profunda nas que implementamos unha Rede Neural Convolucional (CNN) cunha Rede Neuronal Recorrente (LSTM) para crear un xerador de descricións de imaxes.
A estas alturas xa comezaches a comprender os métodos e conceptos. Pasemos a algúns proxectos avanzados de ciencia de datos. Neste proxecto, utilizaremos a linguaxe R con algoritmos como árbores de decisión, regresión loxística, redes neuronais artificiais e clasificador de impulso de gradientes. Usaremos o conxunto de datos de transaccións con tarxeta para clasificar as transaccións con tarxeta de crédito como fraudulentas e xenuínas. Seleccionaremos diferentes modelos para eles e construiremos curvas de rendemento.
Idioma: R
Conjunto de datos/Paquete: Conxunto de datos de transaccións con tarxeta
Neste proxecto de Data Science, usaremos R para executar as recomendacións da película mediante a aprendizaxe automática. O sistema de recomendacións envía suxestións aos usuarios mediante un proceso de filtrado baseado nas preferencias e o historial de navegación doutros usuarios. Se a A e B gústalles Home Alone e B gústanlle Mean Girls, podes suxerir a A, que tamén lles pode gustar. Isto permite aos clientes interactuar coa plataforma.
Idioma: R
Conjunto de datos/Paquete: Conxunto de datos MovieLens
A segmentación do comprador é unha aplicación popular aprendizaxe non supervisada. Usando a agrupación, as empresas definen segmentos de clientes para traballar cunha base de usuarios potencial. Dividen os clientes en grupos segundo características comúns como sexo, idade, intereses e hábitos de gasto, para que poidan comercializar eficazmente os seus produtos a cada grupo. Usaremos K significa agrupación, así como visualizar a distribución por sexo e idade. Despois analizamos os seus niveis de ingresos e gastos anuais.
Idioma: R
Conjunto de datos/Paquete: Conxunto de datos Mall_Customers
Volvendo á contribución médica da ciencia de datos, imos aprender a detectar o cancro de mama con Python. Usaremos o conxunto de datos IDC_regular para detectar o carcinoma ductal invasivo, a forma máis común de cancro de mama. Desenvólvese nos condutos lácteos, penetrando no tecido fibroso ou graxo da glándula mamaria fóra do conduto. Nesta idea de proxecto científico de recollida de datos, utilizaremos Aprendizaxe profunda e a biblioteca Keras para a súa clasificación.
Os sinais de tráfico e as normas de tráfico son moi importantes para todos os condutores para evitar accidentes. Para seguir a regra, primeiro cómpre comprender como é o sinal da estrada. Unha persoa debe aprender todos os sinais de tráfico antes de que se lle outorgue o dereito a conducir calquera vehículo. Pero agora o número de vehículos autónomos está a crecer e, nun futuro próximo, unha persoa xa non conducirá un coche pola súa conta. No proxecto Road Sign Recognition, aprenderás como un programa pode recoñecer un tipo de sinal de estrada tomando unha imaxe como entrada. O conxunto de datos de referencia de recoñecemento de sinais de tráfico alemán (GTSRB) úsase para construír unha rede neuronal profunda para recoñecer a clase á que pertence un sinal de tráfico. Tamén estamos a crear unha GUI sinxela para interactuar coa aplicación.
Idioma: Pitão
Conxunto de datos: GTRB (punto de referencia alemán de recoñecemento de sinais de tráfico)