El análisis de sentimientos es el análisis de palabras para determinar sentimientos y opiniones, que pueden ser positivos o negativos. Se trata de un tipo de clasificación en la que las clases pueden ser binarias (positivas y negativas) o plurales (feliz, enfadada, triste, desagradable...). Implementaremos este proyecto de ciencia de datos en R y utilizaremos el conjunto de datos del paquete "janeaustenR". Usaremos diccionarios de uso general como AFINN, bing y loughran, realizaremos una unión interna y al final crearemos una nube de palabras para mostrar el resultado.
Las noticias falsas son información falsa difundida a través de las redes sociales y otros medios en línea para lograr objetivos políticos. En esta idea de proyecto de ciencia de datos, usaremos Python para construir un modelo que pueda determinar con precisión si una noticia es real o falsa. Crearemos un TfidfVectorizer y usaremos un PassiveAggressiveClassifier para clasificar las noticias en "reales" y "falsas". Usaremos un conjunto de datos de la forma 7796 × 4 y ejecutaremos todo en Jupyter Lab.
Hemos comenzado a utilizar la ciencia de datos para mejorar la atención médica y los servicios: si podemos predecir una enfermedad en una etapa temprana, tendremos muchas ventajas. Entonces, en esta idea de proyecto de ciencia de datos, aprenderemos cómo detectar la enfermedad de Parkinson usando Python. Es una enfermedad neurodegenerativa y progresiva del sistema nervioso central que afecta el movimiento y provoca temblores y rigidez. Afecta a las neuronas productoras de dopamina en el cerebro y cada año afecta a más de 1 millón de personas en la India.
Idioma: Python
Conjunto de datos/paquete: Conjunto de datos de Parkinson de UCI ML
Proyectos de Ciencia de Datos de complejidad media
Aprendamos ahora a utilizar diferentes bibliotecas. Este proyecto de ciencia de datos utiliza librosa para el reconocimiento de voz. SER es el proceso de identificación de emociones humanas y estados afectivos a partir del habla. Dado que utilizamos el tono y la altura para expresar emociones con nuestras voces, SER es relevante. Pero como las emociones son subjetivas, la anotación de audio es una tarea desafiante. Usaremos las funciones mfcc, chroma y mel y usaremos el conjunto de datos RAVDESS para el reconocimiento de emociones. Crearemos un clasificador MLPC para este modelo.
Idioma: Python
Conjunto de datos/paquete: Conjunto de datos RAVDESS
Esta es una ciencia de datos interesante con Python. Usando solo una imagen, aprenderá a predecir el sexo y la edad de una persona. En esto le presentaremos la visión por computadora y sus principios. construiremos red neuronal convolucional y utilizará modelos entrenados por Tal Hassner y Gil Levy en el conjunto de datos Adience. En el camino usaremos algunos archivos .pb, .pbtxt, .prototxt y .caffemodel.
Este es un proyecto de visualización de datos con ggplot2 en el que usaremos R y sus bibliotecas y analizaremos varios parámetros. Usaremos el conjunto de datos de Uber Pickups New York City y crearemos visualizaciones para diferentes períodos de tiempo del año. Esto nos dice cómo el tiempo afecta los viajes de los clientes.
Idioma: R
Conjunto de datos/paquete: Conjunto de datos de Uber Pickups en la ciudad de Nueva York
Conducir con sueño es extremadamente peligroso y cada año se producen casi mil accidentes debido a que los conductores se quedan dormidos mientras conducen. En este proyecto de Python, crearemos un sistema que pueda detectar conductores somnolientos y también alertarlos con una señal de audio.
Este proyecto se implementa utilizando Keras y OpenCV. Usaremos OpenCV para la detección de rostros y ojos y con Keras clasificaremos el estado de los ojos (Abierto o Cerrado) usando técnicas de redes neuronales profundas.
Los chatbots son una parte integral de los negocios. Muchas empresas tienen que ofrecer servicios a sus clientes y se necesita mucha mano de obra, tiempo y esfuerzo para atenderlos. Los chatbots pueden automatizar gran parte de la interacción con sus clientes respondiendo algunas preguntas comunes que hacen los clientes. Básicamente existen dos tipos de chatbots: de dominio específico y de dominio abierto. A menudo se utiliza un chatbot de dominio específico para resolver un problema específico. Por lo tanto, debe personalizarlo para que funcione eficazmente en su campo. A los chatbots de dominio abierto se les puede hacer cualquier pregunta, por lo que entrenarlos requiere una gran cantidad de datos.
Describir lo que hay en una imagen es una tarea fácil para los humanos, pero para las computadoras, una imagen es simplemente una serie de números que representan el valor del color de cada píxel. Esta es una tarea difícil para las computadoras. Comprender lo que hay en una imagen y luego crear una descripción en lenguaje natural (como el inglés) es otra tarea difícil. Este proyecto utiliza técnicas de aprendizaje profundo en las que implementamos una red neuronal convolucional (CNN) con una red neuronal recurrente (LSTM) para crear un generador de descripción de imágenes.
A estas alturas ya habrá comenzado a comprender las técnicas y conceptos. Pasemos a algunos proyectos avanzados de ciencia de datos. En este proyecto usaremos lenguaje R con algoritmos como árboles de decisión, regresión logística, redes neuronales artificiales y clasificador de aumento de gradiente. Utilizaremos un conjunto de datos de transacciones con tarjeta para clasificar las transacciones con tarjeta de crédito como fraudulentas o genuinas. Seleccionaremos diferentes modelos para ellos y construiremos curvas de rendimiento.
Idioma: R
Conjunto de datos/paquete: Conjunto de datos de transacciones con tarjeta
En este proyecto de ciencia de datos, usaremos R para implementar las recomendaciones de la película a través del aprendizaje automático. El sistema de recomendaciones envía sugerencias a los usuarios a través de un proceso de filtrado basado en las preferencias de otros usuarios y el historial de navegación. Si a A y B les gusta Solo en casa, y a B le gustan Mean Girls, entonces puedes sugerirle a A; es posible que a ellos también les guste. Esto permite a los clientes interactuar con la plataforma.
Idioma: R
Conjunto de datos/paquete: Conjunto de datos MovieLens
La segmentación de compradores es una aplicación popular aprendizaje sin supervisión. Mediante la agrupación, las empresas identifican segmentos de clientes para dirigirse a una base de usuarios potencial. Dividen a los clientes en grupos según características comunes como género, edad, intereses y hábitos de gasto para que puedan comercializar eficazmente sus productos en cada grupo. Usaremos Agrupación de K-medias, así como visualizar la distribución por género y edad. Luego analizaremos sus niveles anuales de ingresos y gastos.
Idioma: R
Conjunto de datos/paquete: Conjunto de datos Mall_Customers
Volviendo al aporte médico de la ciencia de datos, aprendamos cómo detectar el cáncer de mama usando Python. Usaremos el conjunto de datos IDC_regular para identificar el carcinoma ductal invasivo, la forma más común de cáncer de mama. Se desarrolla en los conductos galactóforos, excavando en el tejido mamario fibroso o graso fuera del conducto. En esta idea de proyecto científico de recopilación de datos usaremos Aprendizaje profundo y la biblioteca Keras para clasificación.
Las señales de tráfico y las normas de tráfico son muy importantes para que todo conductor evite accidentes. Para seguir la regla, primero debe comprender cómo se ve una señal de tráfico. Una persona debe aprender todas las señales de tráfico antes de obtener la licencia para conducir cualquier vehículo. Pero ahora el número de vehículos autónomos está creciendo y, en un futuro próximo, una persona ya no podrá conducir un coche de forma independiente. En el proyecto Reconocimiento de señales de tráfico, aprenderá cómo un programa puede reconocer el tipo de señales de tráfico tomando una imagen como entrada. El conjunto de datos del German Traffic Sign Recognition Benchmark (GTSRB) se utiliza para construir una red neuronal profunda para reconocer la clase a la que pertenece una señal de tráfico. También creamos una GUI simple para interactuar con la aplicación.
Idioma: Python
Conjunto de datos: GTSRB (Parámetro de referencia alemán para el reconocimiento de señales de tráfico)