14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

Ciencia de datos para principiantes

1. Análise de sentimentos (análise do estado de ánimo a través do texto)

14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

Ver a implementación completa do proxecto Data Science usando o código fonte − Proxecto de análise de sentimentos en R.

A análise de sentimentos é a análise de palabras para identificar sentimentos e opinións, que poden ser positivas ou negativas. Trátase dun tipo de clasificación onde as clases poden ser binarias (positivas e negativas) ou plurais (alegre, enfadada, triste, desagradable...). Implementaremos este proxecto de Data Science en R e usaremos o conxunto de datos no paquete "janeaustenR". Usaremos dicionarios de propósito xeral como AFINN, bing e loughran, faremos unha unión interna e ao final crearemos unha nube de palabras para mostrar o resultado.

Idioma: R
Conjunto de datos/Paquete: janeousten R

14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

O artigo foi traducido co apoio de EDISON Software, que fai probatorios virtuais para tendas multimarcaE software de probas.

2. Detección de noticias falsas

Leva as túas habilidades ao seguinte nivel traballando no Data Science Project para principiantes − detección de noticias falsas con Python.

14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

As noticias falsas son información falsa difundida a través das redes sociais e outros medios en liña co fin de acadar obxectivos políticos. Nesta idea de proxecto Data Science, usaremos Python para construír un modelo que poida determinar con precisión se as noticias son reais ou falsas. Crearemos un TfidfVectorizer e usaremos o PassiveAggressiveClassifier para clasificar as noticias en "reais" e "falsas". Usaremos un conxunto de datos de forma 7796×4 e faremos todo en Jupyter Lab.

Idioma: Pitão

Conjunto de datos/Paquete: noticias.csv

3. Detección da enfermidade de Parkinson

Avanza traballando na Idea do proxecto Data Science − detección da enfermidade de Parkinson con XGBoost.

14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

Comezamos a usar Data Science para mellorar a asistencia sanitaria e os servizos; se podemos predecir a enfermidade nunha fase inicial, teremos moitas vantaxes. Así, nesta idea de proxecto Data Science, aprenderemos a detectar a enfermidade de Parkinson usando Python. É unha enfermidade neurodexenerativa e progresiva do sistema nervioso central que afecta ao movemento e provoca tremor e rixidez. Afecta ás neuronas que producen dopamina no cerebro e cada ano afecta a máis de 1 millón de persoas na India.

Idioma: Pitão

Conjunto de datos/Paquete: Conjunto de datos UCI ML Parkinsons

Proxectos de Data Science de complexidade media

4. Recoñecemento de emocións da fala

Consulte a implementación completa do proxecto de mostra Data Science − recoñecemento de fala con Librosa.

14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

Imos agora aprender a usar diferentes bibliotecas. Este proxecto de Data Science utiliza librosa para o recoñecemento de voz. SER é o proceso de identificación das emocións e estados afectivos humanos a partir da fala. Porque usamos o ton e o ton para expresar emocións coa nosa voz, a SER é relevante. Pero como as emocións son subxectivas, a anotación de audio é unha tarefa difícil. Usaremos as funcións mfcc, chroma e mel e utilizaremos o conxunto de datos RAVDESS para o recoñecemento de emocións. Crearemos un clasificador MLPC para este modelo.

Idioma: Pitão

Conjunto de datos/Paquete: conxunto de datos RAVDESS

5. Detección de xénero e idade

Impresiona aos empregados co último proxecto de Data Science - detección de sexo e idade con OpenCV.

14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

Esta é unha ciencia de datos interesante con Python. Usando só unha imaxe, aprenderás a predicir o sexo e a idade dunha persoa. Neste, presentarémosche a Visión por Computador e os seus principios. Construiremos rede neuronal convolucional e utilizará modelos adestrados por Tal Hassner e Gil Levy no conxunto de datos Adience. Durante o camiño empregaremos algúns ficheiros .pb, .pbtxt, .prototxt e .caffemodel.

Idioma: Pitão

Conjunto de datos/Paquete: Adiencia

6. Análise de datos de Uber

Ver a implementación completa do proxecto Data Science co código fonte − Proxecto de análise de datos de Uber en R.

14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

Trátase dun proxecto de visualización de datos con ggplot2 no que utilizaremos R e as súas bibliotecas e analizaremos varios parámetros. Usaremos o conxunto de datos de Uber Pickups New York e crearemos visualizacións para diferentes períodos de tempo do ano. Isto indícanos como afecta o tempo as viaxes dos clientes.

Idioma: R

Conjunto de datos/Paquete: Conjunto de datos de Uber Pickups na cidade de Nova York

7. Detección de somnolencia do condutor

Mellora as túas habilidades traballando no Top Data Science Project - sistema de detección de somnolencia con OpenCV e Keras.

14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

A condución con sono é extremadamente perigosa, con preto de mil accidentes cada ano debido a que os condutores quedan durmidos mentres conducen. Neste proxecto de Python, imos crear un sistema que pode detectar condutores durmidos e tamén avisalos cun pitido.

Este proxecto está implementado usando Keras e OpenCV. Utilizaremos OpenCV para detectar a cara e os ollos e coa axuda de Keras clasificaremos o estado do ollo (Aberto ou Pechado) mediante métodos de redes neuronais profundas.

8.Chatbot

Crea un chatbot con Python e dá un paso adiante na túa carreira: Chatbot con NLTK e Keras.

14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

Os chatbots son unha parte integral dos negocios. Moitas empresas teñen que ofrecer servizos aos seus clientes e necesitan moita man de obra, tempo e esforzo para atenderlles. Os chatbots poden automatizar gran parte da interacción do cliente respondendo a algunhas das preguntas comúns que fan os clientes. Hai basicamente dous tipos de chatbots: específicos de dominio e de dominio aberto. A miúdo úsase un chatbot específico de dominio para resolver un problema específico. Polo tanto, cómpre personalizalo para que funcione eficazmente no seu campo. Aos chatbots de dominio aberto pódense facer calquera pregunta, polo que adestralos require unha gran cantidade de datos.

Conxunto de datos: Ficheiro json de intents

Idioma: Pitão

Proxectos avanzados de ciencia de datos

9. Xerador de lendas de imaxe

Consulte a implementación completa do proxecto co código fonte − Xerador de subtítulos de imaxe con CNN e LSTM.

14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

Describir o que hai nunha imaxe é unha tarefa sinxela para os humanos, pero para os ordenadores, unha imaxe é só unha colección de números que representan o valor da cor de cada píxel. Esta é unha tarefa difícil para os ordenadores. Entender o que hai nunha imaxe e despois crear unha descrición en linguaxe natural (por exemplo, inglés) é outra tarefa difícil. Este proxecto utiliza técnicas de aprendizaxe profunda nas que implementamos unha Rede Neural Convolucional (CNN) cunha Rede Neuronal Recorrente (LSTM) para crear un xerador de descricións de imaxes.

Conxunto de datos: Flickr 8K

Idioma: Pitão

Marco: Keras

10. Detección de fraude de tarxeta de crédito

Fai o mellor posible traballando na idea do proxecto Data Science − detección de fraude de tarxeta de crédito con aprendizaxe automática.

14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

A estas alturas xa comezaches a comprender os métodos e conceptos. Pasemos a algúns proxectos avanzados de ciencia de datos. Neste proxecto, utilizaremos a linguaxe R con algoritmos como árbores de decisión, regresión loxística, redes neuronais artificiais e clasificador de impulso de gradientes. Usaremos o conxunto de datos de transaccións con tarxeta para clasificar as transaccións con tarxeta de crédito como fraudulentas e xenuínas. Seleccionaremos diferentes modelos para eles e construiremos curvas de rendemento.

Idioma: R

Conjunto de datos/Paquete: Conxunto de datos de transaccións con tarxeta

11. Sistema de recomendación de películas

Explore a implementación do mellor proxecto de Data Science con código fonte - Sistema de recomendación de películas en R

14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

Neste proxecto de Data Science, usaremos R para executar as recomendacións da película mediante a aprendizaxe automática. O sistema de recomendacións envía suxestións aos usuarios mediante un proceso de filtrado baseado nas preferencias e o historial de navegación doutros usuarios. Se a A e B gústalles Home Alone e B gústanlle Mean Girls, podes suxerir a A, que tamén lles pode gustar. Isto permite aos clientes interactuar coa plataforma.

Idioma: R

Conjunto de datos/Paquete: Conxunto de datos MovieLens

12. Segmentación de clientes

Impresiona aos empresarios cun proxecto de Data Science (incluído o código fonte) - Segmentación de clientes con machine learning.

14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

A segmentación do comprador é unha aplicación popular aprendizaxe non supervisada. Usando a agrupación, as empresas definen segmentos de clientes para traballar cunha base de usuarios potencial. Dividen os clientes en grupos segundo características comúns como sexo, idade, intereses e hábitos de gasto, para que poidan comercializar eficazmente os seus produtos a cada grupo. Usaremos K significa agrupación, así como visualizar a distribución por sexo e idade. Despois analizamos os seus niveis de ingresos e gastos anuais.

Idioma: R

Conjunto de datos/Paquete: Conxunto de datos Mall_Customers

13. Clasificación do cancro de mama

Vexa a implementación completa do proxecto Data Science en Python − Clasificación do cancro de mama mediante a aprendizaxe profunda.

14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

Volvendo á contribución médica da ciencia de datos, imos aprender a detectar o cancro de mama con Python. Usaremos o conxunto de datos IDC_regular para detectar o carcinoma ductal invasivo, a forma máis común de cancro de mama. Desenvólvese nos condutos lácteos, penetrando no tecido fibroso ou graxo da glándula mamaria fóra do conduto. Nesta idea de proxecto científico de recollida de datos, utilizaremos Aprendizaxe profunda e a biblioteca Keras para a súa clasificación.

Idioma: Pitão

Conjunto de datos/Paquete: IDC_regular

14. Recoñecemento de sinais de tráfico

Conseguir precisión na tecnoloxía de coches autónomos co proxecto Data Science activado Recoñecemento de sinais de tráfico mediante CNN código aberto.

14 proxectos de código aberto para mellorar as habilidades de ciencia de datos (fácil, normal, difícil)

Os sinais de tráfico e as normas de tráfico son moi importantes para todos os condutores para evitar accidentes. Para seguir a regra, primeiro cómpre comprender como é o sinal da estrada. Unha persoa debe aprender todos os sinais de tráfico antes de que se lle outorgue o dereito a conducir calquera vehículo. Pero agora o número de vehículos autónomos está a crecer e, nun futuro próximo, unha persoa xa non conducirá un coche pola súa conta. No proxecto Road Sign Recognition, aprenderás como un programa pode recoñecer un tipo de sinal de estrada tomando unha imaxe como entrada. O conxunto de datos de referencia de recoñecemento de sinais de tráfico alemán (GTSRB) úsase para construír unha rede neuronal profunda para recoñecer a clase á que pertence un sinal de tráfico. Tamén estamos a crear unha GUI sinxela para interactuar coa aplicación.

Idioma: Pitão

Conxunto de datos: GTRB (punto de referencia alemán de recoñecemento de sinais de tráfico)

Le máis

Fonte: www.habr.com

Engadir un comentario