14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

Ciencia de datos para principiantes

1. Análisis de sentimiento (análisis de sentimiento a través de texto)

14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

Consulte la implementación completa del proyecto de ciencia de datos utilizando el código fuente: Proyecto de análisis de sentimiento en R.

El análisis de sentimientos es el análisis de palabras para determinar sentimientos y opiniones, que pueden ser positivos o negativos. Se trata de un tipo de clasificación en la que las clases pueden ser binarias (positivas y negativas) o plurales (feliz, enfadada, triste, desagradable...). Implementaremos este proyecto de ciencia de datos en R y utilizaremos el conjunto de datos del paquete "janeaustenR". Usaremos diccionarios de uso general como AFINN, bing y loughran, realizaremos una unión interna y al final crearemos una nube de palabras para mostrar el resultado.

Idioma: R
Conjunto de datos/paquete: janeaustenR

14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

El artículo fue traducido con el apoyo de EDISON Software, que fabrica probadores virtuales para tiendas multimarcay software de pruebas.

2. Detección de noticias falsas

Lleve sus habilidades al siguiente nivel trabajando en un proyecto de ciencia de datos para principiantes: detectando noticias falsas con Python.

14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

Las noticias falsas son información falsa difundida a través de las redes sociales y otros medios en línea para lograr objetivos políticos. En esta idea de proyecto de ciencia de datos, usaremos Python para construir un modelo que pueda determinar con precisión si una noticia es real o falsa. Crearemos un TfidfVectorizer y usaremos un PassiveAggressiveClassifier para clasificar las noticias en "reales" y "falsas". Usaremos un conjunto de datos de la forma 7796 × 4 y ejecutaremos todo en Jupyter Lab.

Idioma: Python

Conjunto de datos/paquete: noticias.csv

3. Detección de la enfermedad de Parkinson

Siga adelante con su idea de proyecto de ciencia de datos: Detección de la enfermedad de Parkinson mediante XGBoost.

14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

Hemos comenzado a utilizar la ciencia de datos para mejorar la atención médica y los servicios: si podemos predecir una enfermedad en una etapa temprana, tendremos muchas ventajas. Entonces, en esta idea de proyecto de ciencia de datos, aprenderemos cómo detectar la enfermedad de Parkinson usando Python. Es una enfermedad neurodegenerativa y progresiva del sistema nervioso central que afecta el movimiento y provoca temblores y rigidez. Afecta a las neuronas productoras de dopamina en el cerebro y cada año afecta a más de 1 millón de personas en la India.

Idioma: Python

Conjunto de datos/paquete: Conjunto de datos de Parkinson de UCI ML

Proyectos de Ciencia de Datos de complejidad media

4. Reconocimiento de emociones del habla

Consulte la implementación completa del proyecto de ejemplo de ciencia de datos: reconocimiento de voz usando Librosa.

14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

Aprendamos ahora a utilizar diferentes bibliotecas. Este proyecto de ciencia de datos utiliza librosa para el reconocimiento de voz. SER es el proceso de identificación de emociones humanas y estados afectivos a partir del habla. Dado que utilizamos el tono y la altura para expresar emociones con nuestras voces, SER es relevante. Pero como las emociones son subjetivas, la anotación de audio es una tarea desafiante. Usaremos las funciones mfcc, chroma y mel y usaremos el conjunto de datos RAVDESS para el reconocimiento de emociones. Crearemos un clasificador MLPC para este modelo.

Idioma: Python

Conjunto de datos/paquete: Conjunto de datos RAVDESS

5. Detección de género y edad

Impresione a los empleadores con el último proyecto de ciencia de datos: determinar el sexo y la edad usando OpenCV.

14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

Esta es una ciencia de datos interesante con Python. Usando solo una imagen, aprenderá a predecir el sexo y la edad de una persona. En esto le presentaremos la visión por computadora y sus principios. construiremos red neuronal convolucional y utilizará modelos entrenados por Tal Hassner y Gil Levy en el conjunto de datos Adience. En el camino usaremos algunos archivos .pb, .pbtxt, .prototxt y .caffemodel.

Idioma: Python

Conjunto de datos/paquete: audiencia

6. Análisis de datos de Uber

Consulte la implementación completa del proyecto de ciencia de datos con el código fuente: Proyecto de análisis de datos de Uber en R.

14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

Este es un proyecto de visualización de datos con ggplot2 en el que usaremos R y sus bibliotecas y analizaremos varios parámetros. Usaremos el conjunto de datos de Uber Pickups New York City y crearemos visualizaciones para diferentes períodos de tiempo del año. Esto nos dice cómo el tiempo afecta los viajes de los clientes.

Idioma: R

Conjunto de datos/paquete: Conjunto de datos de Uber Pickups en la ciudad de Nueva York

7. Detección de somnolencia del conductor

Mejore sus habilidades trabajando en el Proyecto Top Data Science - Sistema de detección de somnolencia con OpenCV y Keras..

14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

Conducir con sueño es extremadamente peligroso y cada año se producen casi mil accidentes debido a que los conductores se quedan dormidos mientras conducen. En este proyecto de Python, crearemos un sistema que pueda detectar conductores somnolientos y también alertarlos con una señal de audio.

Este proyecto se implementa utilizando Keras y OpenCV. Usaremos OpenCV para la detección de rostros y ojos y con Keras clasificaremos el estado de los ojos (Abierto o Cerrado) usando técnicas de redes neuronales profundas.

8. bot conversacional

Crea un Chatbot con Python y da un paso adelante en tu carrera - Chatbot con NLTK y Keras.

14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

Los chatbots son una parte integral de los negocios. Muchas empresas tienen que ofrecer servicios a sus clientes y se necesita mucha mano de obra, tiempo y esfuerzo para atenderlos. Los chatbots pueden automatizar gran parte de la interacción con sus clientes respondiendo algunas preguntas comunes que hacen los clientes. Básicamente existen dos tipos de chatbots: de dominio específico y de dominio abierto. A menudo se utiliza un chatbot de dominio específico para resolver un problema específico. Por lo tanto, debe personalizarlo para que funcione eficazmente en su campo. A los chatbots de dominio abierto se les puede hacer cualquier pregunta, por lo que entrenarlos requiere una gran cantidad de datos.

Conjunto de datos: Archivo json de intenciones

Idioma: Python

Proyectos avanzados de ciencia de datos

9. Generador de títulos de imágenes

Consulte la implementación completa del proyecto con el código fuente: Generador de subtítulos de imágenes con CNN y LSTM.

14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

Describir lo que hay en una imagen es una tarea fácil para los humanos, pero para las computadoras, una imagen es simplemente una serie de números que representan el valor del color de cada píxel. Esta es una tarea difícil para las computadoras. Comprender lo que hay en una imagen y luego crear una descripción en lenguaje natural (como el inglés) es otra tarea difícil. Este proyecto utiliza técnicas de aprendizaje profundo en las que implementamos una red neuronal convolucional (CNN) con una red neuronal recurrente (LSTM) para crear un generador de descripción de imágenes.

Conjunto de datos: Flickr 8K

Idioma: Python

Estructura: Keras

10. Detección de fraude con tarjetas de crédito

Haz tu mejor esfuerzo mientras trabajas en la idea de tu proyecto de ciencia de datos: detectar fraudes con tarjetas de crédito mediante aprendizaje automático.

14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

A estas alturas ya habrá comenzado a comprender las técnicas y conceptos. Pasemos a algunos proyectos avanzados de ciencia de datos. En este proyecto usaremos lenguaje R con algoritmos como árboles de decisión, regresión logística, redes neuronales artificiales y clasificador de aumento de gradiente. Utilizaremos un conjunto de datos de transacciones con tarjeta para clasificar las transacciones con tarjeta de crédito como fraudulentas o genuinas. Seleccionaremos diferentes modelos para ellos y construiremos curvas de rendimiento.

Idioma: R

Conjunto de datos/paquete: Conjunto de datos de transacciones con tarjeta

11. Sistema de recomendación de películas

Estudiar la implementación del mejor proyecto de Ciencia de Datos con código fuente - Sistema de recomendación de películas en lenguaje R.

14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

En este proyecto de ciencia de datos, usaremos R para implementar las recomendaciones de la película a través del aprendizaje automático. El sistema de recomendaciones envía sugerencias a los usuarios a través de un proceso de filtrado basado en las preferencias de otros usuarios y el historial de navegación. Si a A y B les gusta Solo en casa, y a B le gustan Mean Girls, entonces puedes sugerirle a A; es posible que a ellos también les guste. Esto permite a los clientes interactuar con la plataforma.

Idioma: R

Conjunto de datos/paquete: Conjunto de datos MovieLens

12. Segmentación de clientes

Impresione a los empleadores con un proyecto de ciencia de datos (incluido el código fuente): Segmentación de clientes mediante aprendizaje automático.

14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

La segmentación de compradores es una aplicación popular aprendizaje sin supervisión. Mediante la agrupación, las empresas identifican segmentos de clientes para dirigirse a una base de usuarios potencial. Dividen a los clientes en grupos según características comunes como género, edad, intereses y hábitos de gasto para que puedan comercializar eficazmente sus productos en cada grupo. Usaremos Agrupación de K-medias, así como visualizar la distribución por género y edad. Luego analizaremos sus niveles anuales de ingresos y gastos.

Idioma: R

Conjunto de datos/paquete: Conjunto de datos Mall_Customers

13. Clasificación del cáncer de mama

Consulte la implementación completa de un proyecto de ciencia de datos en Python: Clasificación del cáncer de mama mediante aprendizaje profundo.

14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

Volviendo al aporte médico de la ciencia de datos, aprendamos cómo detectar el cáncer de mama usando Python. Usaremos el conjunto de datos IDC_regular para identificar el carcinoma ductal invasivo, la forma más común de cáncer de mama. Se desarrolla en los conductos galactóforos, excavando en el tejido mamario fibroso o graso fuera del conducto. En esta idea de proyecto científico de recopilación de datos usaremos Aprendizaje profundo y la biblioteca Keras para clasificación.

Idioma: Python

Conjunto de datos/paquete: IDC_regular

14. Reconocimiento de señales de tráfico

Lograr precisión en la tecnología de conducción autónoma con el proyecto Data Science reconocimiento de señales de tráfico mediante CNN fuente abierta.

14 proyectos de código abierto para mejorar las habilidades de Data Science (fácil, normal, difícil)

Las señales de tráfico y las normas de tráfico son muy importantes para que todo conductor evite accidentes. Para seguir la regla, primero debe comprender cómo se ve una señal de tráfico. Una persona debe aprender todas las señales de tráfico antes de obtener la licencia para conducir cualquier vehículo. Pero ahora el número de vehículos autónomos está creciendo y, en un futuro próximo, una persona ya no podrá conducir un coche de forma independiente. En el proyecto Reconocimiento de señales de tráfico, aprenderá cómo un programa puede reconocer el tipo de señales de tráfico tomando una imagen como entrada. El conjunto de datos del German Traffic Sign Recognition Benchmark (GTSRB) se utiliza para construir una red neuronal profunda para reconocer la clase a la que pertenece una señal de tráfico. También creamos una GUI simple para interactuar con la aplicación.

Idioma: Python

Conjunto de datos: GTSRB (Parámetro de referencia alemán para el reconocimiento de señales de tráfico)

Lee mas

Fuente: habr.com

Añadir un comentario