14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

Ciência de dados para iniciantes

1. Análise de sentimento (análise de sentimento por meio de texto)

14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

Confira a implementação completa do projeto Data Science usando código-fonte - Projeto de análise de sentimento em R.

Análise de Sentimento é a análise de palavras para determinar sentimentos e opiniões, que podem ser positivas ou negativas. Este é um tipo de classificação em que as classes podem ser binárias (positivas e negativas) ou plurais (felizes, irritadas, tristes, desagradáveis...). Implementaremos este projeto de Data Science em R e usaremos o conjunto de dados do pacote "janeaustenR". Usaremos dicionários de uso geral como AFINN, bing e loughran, realizaremos uma junção interna e ao final criaremos uma nuvem de palavras para exibir o resultado.

idioma: R
Conjunto de dados/pacote: JaneaustenR

14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

O artigo foi traduzido com o apoio da EDISON Software, que faz provadores virtuais para lojas multimarcasE software de testes.

2. Detecção de notícias falsas

Leve suas habilidades para o próximo nível trabalhando em um projeto de ciência de dados para iniciantes - detectando notícias falsas com Python.

14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

Notícias falsas são informações falsas espalhadas pelas redes sociais e outros meios de comunicação online para atingir objetivos políticos. Nesta ideia de projeto de ciência de dados, usaremos Python para construir um modelo que possa determinar com precisão se uma notícia é real ou falsa. Criaremos um TfidfVectorizer e usaremos um PassiveAggressiveClassifier para classificar as notícias em “reais” e “falsas”. Usaremos um conjunto de dados no formato 7796×4 e executaremos tudo no Jupyter Lab.

idioma: Python

Conjunto de dados/pacote: notícias.csv

3. Detecção da doença de Parkinson

Avance com sua ideia de projeto de ciência de dados - detectando a doença de Parkinson usando XGBoost.

14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

Começámos a utilizar a Ciência de Dados para melhorar os cuidados de saúde e os serviços - se pudermos prever uma doença numa fase inicial, teremos muitas vantagens. Portanto, nesta ideia de projeto de Data Science, aprenderemos como detectar a doença de Parkinson usando Python. É uma doença neurodegenerativa e progressiva do sistema nervoso central que afeta os movimentos e causa tremores e rigidez. Afeta os neurônios produtores de dopamina no cérebro e, todos os anos, afeta mais de 1 milhão de pessoas na Índia.

idioma: Python

Conjunto de dados/pacote: Conjunto de dados UCI ML Parkinsons

Projetos de Ciência de Dados de média complexidade

4. Reconhecimento de emoções de fala

Confira a implementação completa do projeto exemplo de Data Science - reconhecimento de fala usando Librosa.

14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

Vamos agora aprender como usar diferentes bibliotecas. Este projeto de Data Science usa librosa para reconhecimento de fala. SER é o processo de identificação de emoções humanas e estados afetivos a partir da fala. Como usamos tom e altura para expressar emoções com nossas vozes, SER é relevante. Mas como as emoções são subjetivas, a anotação de áudio é uma tarefa desafiadora. Usaremos as funções mfcc, chroma e mel e usaremos o conjunto de dados RAVDESS para reconhecimento de emoções. Criaremos um classificador MLPC para este modelo.

idioma: Python

Conjunto de dados/pacote: Conjunto de dados RAVDESS

5. Detecção de gênero e idade

Impressione os empregadores com o mais recente projeto de ciência de dados - determinando sexo e idade usando OpenCV.

14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

Esta é uma interessante ciência de dados com Python. Usando apenas uma imagem, você aprenderá a prever o sexo e a idade de uma pessoa. Nisto apresentaremos a Visão Computacional e seus princípios. Nós vamos construir rede neural convolucional e usará modelos treinados por Tal Hassner e Gil Levy no conjunto de dados Adience. Ao longo do caminho usaremos alguns arquivos .pb, .pbtxt, .prototxt e .caffemodel.

idioma: Python

Conjunto de dados/pacote: Adiência

6. Análise de dados Uber

Confira a implementação completa do projeto Data Science com código-fonte - Projeto de análise de dados Uber em R.

14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

Este é um projeto de visualização de dados com ggplot2 no qual utilizaremos R e suas bibliotecas e analisaremos diversos parâmetros. Usaremos o conjunto de dados Uber Pickups da cidade de Nova York e criaremos visualizações para diferentes períodos do ano. Isso nos diz como o tempo afeta a viagem do cliente.

idioma: R

Conjunto de dados/pacote: Conjunto de dados de retiradas do Uber na cidade de Nova York

7. Detecção de sonolência do motorista

Melhore suas habilidades trabalhando no Top Data Science Project - sistema de detecção de sonolência com OpenCV e Keras.

14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

Dirigir com sono é extremamente perigoso e quase mil acidentes ocorrem todos os anos porque os motoristas adormecem enquanto dirigem. Neste projeto Python, criaremos um sistema que pode detectar motoristas sonolentos e também alertá-los com um sinal de áudio.

Este projeto é implementado usando Keras e OpenCV. Usaremos OpenCV para detecção de rosto e olhos e com Keras classificaremos o estado dos olhos (Aberto ou Fechado) usando técnicas de redes neurais profundas.

8. chatbot

Crie um Chatbot com Python e dê um passo à frente na sua carreira - Chatbot com NLTK e Keras.

14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

Os chatbots são parte integrante dos negócios. Muitas empresas precisam oferecer serviços aos seus clientes e é preciso muita mão de obra, tempo e esforço para atendê-los. Os chatbots podem automatizar grande parte da interação com o cliente, respondendo a algumas perguntas comuns que os clientes fazem. Existem basicamente dois tipos de chatbots: específicos de domínio e de domínio aberto. Um chatbot específico de domínio é frequentemente usado para resolver um problema específico. Portanto, você precisa personalizá-lo para funcionar de maneira eficaz em sua área. Os chatbots de domínio aberto podem responder a qualquer pergunta, portanto, treiná-los requer uma enorme quantidade de dados.

Conjunto de dados: Arquivo json de intenções

idioma: Python

Projetos avançados de ciência de dados

9. Gerador de legenda de imagem

Confira a implementação completa do projeto com código fonte - Gerador de legenda de imagem com CNN e LSTM.

14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

Descrever o que está em uma imagem é uma tarefa fácil para humanos, mas para computadores uma imagem é simplesmente uma série de números que representam o valor da cor de cada pixel. Esta é uma tarefa difícil para computadores. Compreender o que está numa imagem e depois criar uma descrição em linguagem natural (como o inglês) é outra tarefa difícil. Este projeto utiliza técnicas de aprendizagem profunda nas quais implementamos uma Rede Neural Convolucional (CNN) com uma Rede Neural Recorrente (LSTM) para criar um gerador de descrição de imagem.

Conjunto de dados: Flickr 8K

idioma: Python

Estrutura: Keras

10. Detecção de fraude de cartão de crédito

Faça o seu melhor enquanto trabalha na ideia do seu projeto de ciência de dados - detectar fraudes de cartão de crédito usando aprendizado de máquina.

14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

Até agora você começou a entender as técnicas e conceitos. Vamos passar para alguns projetos avançados de ciência de dados. Neste projeto usaremos a linguagem R com algoritmos como Árvores de decisão, regressão logística, redes neurais artificiais e classificador de aumento de gradiente. Usaremos um conjunto de dados de transações com cartão para classificar as transações com cartão de crédito como fraudulentas ou genuínas. Selecionaremos diferentes modelos para eles e construiremos curvas de desempenho.

idioma: R

Conjunto de dados/pacote: Conjunto de dados de transações com cartão

11. Sistema de recomendação de filmes

Estude a implementação do melhor projeto de Data Science com código fonte - Sistema de recomendação de filmes em linguagem R

14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

Neste projeto de Data Science, usaremos R para implementar as recomendações do filme por meio de aprendizado de máquina. O sistema de recomendação envia sugestões aos usuários por meio de um processo de filtragem baseado nas preferências e no histórico de navegação de outros usuários. Se A e B gostam de Sozinho em Casa e B gosta de Meninas Malvadas, então você pode sugerir A - eles também podem gostar. Isso permite que os clientes interajam com a plataforma.

idioma: R

Conjunto de dados/pacote: Conjunto de dados MovieLens

12. Segmentação de clientes

Impressione os empregadores com um projeto de ciência de dados (incluindo código-fonte) - Segmentação de clientes usando aprendizado de máquina.

14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

A segmentação de compradores é uma aplicação popular aprendizagem não supervisionada. Usando clustering, as empresas identificam segmentos de clientes para atingir uma base de usuários em potencial. Eles dividem os clientes em grupos de acordo com características comuns, como sexo, idade, interesses e hábitos de consumo, para que possam comercializar efetivamente seus produtos para cada grupo. Nós vamos usar Agrupamento K-means, bem como visualizar a distribuição por sexo e idade. Em seguida, analisaremos seus níveis anuais de receitas e despesas.

idioma: R

Conjunto de dados/pacote: Conjunto de dados Mall_Customers

13. Classificação do Câncer de Mama

Confira a implementação completa de um projeto de Ciência de Dados em Python - Classificação do câncer de mama usando aprendizagem profunda.

14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

Voltando à contribuição médica da ciência de dados, vamos aprender como detectar câncer de mama usando Python. Usaremos o conjunto de dados IDC_regular para identificar o carcinoma ductal invasivo, a forma mais comum de câncer de mama. Ela se desenvolve nos dutos de leite, penetrando no tecido mamário fibroso ou gorduroso fora do duto. Nesta ideia de projeto científico de coleta de dados, usaremos Aprendizagem profunda e a biblioteca Keras para classificação.

idioma: Python

Conjunto de dados/pacote: IDC_regular

14. Reconhecimento de sinais de trânsito

Alcançando precisão na tecnologia de direção autônoma com o projeto Data Science reconhecimento de sinais de trânsito usando CNN Código aberto.

14 projetos de código aberto para melhorar suas habilidades em ciência de dados (fácil, normal, difícil)

Os sinais de trânsito e as regras de trânsito são muito importantes para cada motorista evitar acidentes. Para seguir a regra, primeiro você precisa entender a aparência de uma placa de trânsito. Uma pessoa deve aprender todos os sinais de trânsito antes de receber a licença para dirigir qualquer veículo. Mas agora o número de veículos autônomos está crescendo e, num futuro próximo, uma pessoa não dirigirá mais um carro de forma independente. No projeto Road Sign Recognition, você aprenderá como um programa pode reconhecer o tipo de sinalização rodoviária usando uma imagem como entrada. O conjunto de dados German Traffic Sign Recognition Benchmark (GTSRB) é usado para construir uma rede neural profunda para reconhecer a classe à qual um sinal de trânsito pertence. Também criamos uma GUI simples para interagir com o aplicativo.

idioma: Python

Conjunto de dados: GTSRB (referência alemã de reconhecimento de sinais de trânsito)

Consulte Mais informação

Fonte: habr.com

Adicionar um comentário