14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

Ciència de dades per a principiants

1. Anàlisi de sentiments (anàlisi de l'estat d'ànim a través del text)

14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

Veure la implementació completa del projecte Data Science utilitzant el codi font − Projecte d'anàlisi de sentiments a R.

L'anàlisi de sentiments és l'anàlisi de paraules per identificar sentiments i opinions, que poden ser positives o negatives. Aquest és un tipus de classificació on les classes poden ser binàries (positives i negatives) o plurals (alegre, enfadada, trista, desagradable...). Implementarem aquest projecte de Data Science en R i utilitzarem el conjunt de dades del paquet "janeaustenR". Utilitzarem diccionaris de propòsit general com AFINN, bing i loughran, farem una unió interna i al final crearem un núvol de paraules per mostrar el resultat.

Idioma: R
Conjunt de dades/paquet: janeoustenR

14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

L'article va ser traduït amb el suport d'EDISON Software, que fa vestidors virtuals per a botigues multimarcaI programari de proves.

2. Detecció de notícies falses

Porta les teves habilitats al següent nivell treballant en el Projecte de ciència de dades per a principiants − detecció de notícies falses amb Python.

14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

Les notícies falses són informació falsa difosa a través de les xarxes socials i altres mitjans en línia per tal d'assolir objectius polítics. En aquesta idea del projecte Data Science, utilitzarem Python per construir un model que pugui determinar amb precisió si les notícies són reals o falses. Crearem un TfidfVectorizer i utilitzarem el PassiveAggressiveClassifier per classificar les notícies en "reals" i "falses". Utilitzarem un conjunt de dades de forma de 7796 × 4 i farem tot a Jupyter Lab.

Idioma: Pitó

Conjunt de dades/paquet: notícies.csv

3. Detecció de la malaltia de Parkinson

Avançar treballant en la idea del projecte Data Science − detecció de la malaltia de Parkinson amb XGBoost.

14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

Hem començat a utilitzar Data Science per millorar l'assistència sanitària i els serveis; si podem predir la malaltia en una fase inicial, tindrem molts avantatges. Així, en aquesta idea del projecte Data Science, aprendrem a detectar la malaltia de Parkinson mitjançant Python. És una malaltia neurodegenerativa i progressiva del sistema nerviós central que afecta el moviment i provoca tremolors i rigidesa. Afecta les neurones productores de dopamina del cervell i cada any afecta més d'1 milió de persones a l'Índia.

Idioma: Pitó

Conjunt de dades/paquet: Conjunt de dades UCI ML Parkinsons

Projectes de Data Science de complexitat mitjana

4. Reconeixement de les emocions de la parla

Consulteu la implementació completa del projecte de mostra Data Science − reconeixement de parla amb Librosa.

14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

Aprenem ara a utilitzar diferents biblioteques. Aquest projecte de Data Science utilitza librosa per al reconeixement de veu. SER és el procés d'identificació de les emocions humanes i dels estats afectius a partir de la parla. Com que utilitzem el to i el to per expressar emocions amb la nostra veu, SER és rellevant. Però com que les emocions són subjectives, l'anotació d'àudio és una tasca difícil. Utilitzarem les funcions mfcc, chroma i mel i utilitzarem el conjunt de dades RAVDESS per al reconeixement d'emocions. Crearem un classificador MLPC per a aquest model.

Idioma: Pitó

Conjunt de dades/paquet: Conjunt de dades RAVDESS

5. Detecció de gènere i edat

Impressioneu els empresaris amb l'últim projecte de Data Science: detecció de gènere i edat amb OpenCV.

14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

Aquesta és una ciència de dades interessant amb Python. Amb només una imatge, aprendràs a predir el gènere i l'edat d'una persona. En això, us presentarem la visió per ordinador i els seus principis. Construirem xarxa neuronal convolucional i utilitzarà models entrenats per Tal Hassner i Gil Levy al conjunt de dades Adience. Al llarg del camí farem servir alguns fitxers .pb, .pbtxt, .prototxt i .caffemodel.

Idioma: Pitó

Conjunt de dades/paquet: Adiència

6. Anàlisi de dades d'Uber

Veure la implementació completa del projecte Data Science amb codi font − Projecte d'anàlisi de dades d'Uber a R.

14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

Es tracta d'un projecte de visualització de dades amb ggplot2 en el qual utilitzarem R i les seves biblioteques i analitzarem diversos paràmetres. Utilitzarem el conjunt de dades d'Uber Pickups Nova York i crearem visualitzacions per a diferents períodes de temps de l'any. Això ens indica com el temps afecta els viatges dels clients.

Idioma: R

Conjunt de dades/paquet: Conjunt de dades Uber Pickups a la ciutat de Nova York

7. Detecció de somnolència del conductor

Millora les teves habilitats treballant en el Top Data Science Project - sistema de detecció de somnolència amb OpenCV i Keras.

14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

Conduir amb somnolència és extremadament perillós, amb uns mil accidents cada any a causa dels conductors que s'adormen mentre condueixen. En aquest projecte Python, crearem un sistema que pugui detectar conductors adormits i també avisar-los amb un bip.

Aquest projecte s'implementa amb Keras i OpenCV. Utilitzarem OpenCV per detectar la cara i els ulls i amb l'ajuda de Keras classificarem l'estat de l'ull (Obert o Tancat) mitjançant mètodes de xarxes neuronals profundes.

8.Chatbot

Construeix un chatbot amb Python i fes un pas endavant en la teva carrera: Chatbot amb NLTK i Keras.

14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

Els chatbots són una part integral del negoci. Moltes empreses han d'oferir serveis als seus clients i es necessita molta mà d'obra, temps i esforç per atendre'ls. Els chatbots poden automatitzar gran part de la interacció amb el client responent algunes de les preguntes habituals que fan els clients. Bàsicament hi ha dos tipus de chatbots: específics de domini i de domini obert. Sovint s'utilitza un chatbot de domini específic per resoldre un problema específic. Per tant, cal personalitzar-lo per treballar amb eficàcia en el vostre camp. Es poden fer qualsevol pregunta als chatbots de domini obert, de manera que entrenar-los requereix una gran quantitat de dades.

Conjunt de dades: Fitxer json d'intencions

Idioma: Pitó

Projectes avançats de ciència de dades

9. Generador de subtítols d'imatges

Consulteu la implementació completa del projecte amb el codi font − Generador de subtítols d'imatge amb CNN i LSTM.

14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

Descriure el que hi ha en una imatge és una tasca fàcil per als humans, però per als ordinadors, una imatge és només una col·lecció de números que representen el valor del color de cada píxel. Aquesta és una tasca difícil per als ordinadors. Entendre què hi ha en una imatge i després crear una descripció en llenguatge natural (per exemple, anglès) és una altra tasca difícil. Aquest projecte utilitza tècniques d'aprenentatge profund en què implementem una Xarxa Neural Convolucional (CNN) amb una Xarxa Neural Recurrent (LSTM) per crear un generador de descripcions d'imatges.

Conjunt de dades: Flickr 8K

Idioma: Pitó

Marc: Keras

10. Detecció de frau amb targeta de crèdit

Feu el possible treballant en la idea del projecte Data Science − detecció de frau amb targeta de crèdit amb aprenentatge automàtic.

14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

A hores d'ara ja heu començat a entendre els mètodes i els conceptes. Passem a alguns projectes avançats de ciència de dades. En aquest projecte, utilitzarem el llenguatge R amb algorismes com ara arbres de decisió, regressió logística, xarxes neuronals artificials i classificador de gradient boosting. Utilitzarem el conjunt de dades de transaccions amb targeta per classificar les transaccions amb targeta de crèdit com a fraudulentes i genuïnes. Seleccionarem diferents models per a ells i construirem corbes de rendiment.

Idioma: R

Conjunt de dades/paquet: Conjunt de dades de transaccions amb targeta

11. Sistema de recomanació de pel·lícules

Exploreu la implementació del millor projecte de ciència de dades amb codi font - Sistema de recomanació de pel·lícules a R

14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

En aquest projecte de Data Science, utilitzarem R per executar les recomanacions de la pel·lícula mitjançant l'aprenentatge automàtic. El sistema de recomanacions envia suggeriments als usuaris mitjançant un procés de filtrat basat en les preferències d'altres usuaris i l'historial de navegació. Si a A i a B els agraden Sols a casa i a B li agraden les noies males, podeu suggerir-los a A: també els pot agradar. Això permet als clients interactuar amb la plataforma.

Idioma: R

Conjunt de dades/paquet: Conjunt de dades de MovieLens

12. Segmentació de clients

Impressioneu els empresaris amb un projecte de ciència de dades (inclòs el codi font) - Segmentació de clients amb aprenentatge automàtic.

14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

La segmentació del comprador és una aplicació popular aprenentatge no supervisat. Mitjançant el clustering, les empreses defineixen segments de clients per treballar amb una base d'usuaris potencials. Divideixen els clients en grups segons característiques comunes com el gènere, l'edat, els interessos i els hàbits de despesa, de manera que puguin comercialitzar de manera efectiva els seus productes a cada grup. Farem servir K-significa agrupació, així com visualitzar la distribució per sexe i edat. A continuació, analitzem els seus nivells d'ingressos i despeses anuals.

Idioma: R

Conjunt de dades/paquet: Conjunt de dades del centre comercial_clients

13. Classificació del càncer de mama

Vegeu la implementació completa del projecte Data Science a Python − Classificació del càncer de mama mitjançant l'aprenentatge profund.

14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

Tornant a l'aportació mèdica de la ciència de dades, aprenem a detectar el càncer de mama amb Python. Utilitzarem el conjunt de dades IDC_regular per detectar el carcinoma ductal invasiu, la forma més comuna de càncer de mama. Es desenvolupa als conductes de la llet, penetrant en el teixit fibrós o gras de la glàndula mamària fora del conducte. En aquesta idea de projecte científic de recollida de dades, utilitzarem Aprenentatge profund i la biblioteca Keras per a la classificació.

Idioma: Pitó

Conjunt de dades/paquet: IDC_regular

14. Reconeixement de senyals de trànsit

Aconseguint precisió en la tecnologia de cotxes autònoms amb el projecte Data Science activat Reconeixement de senyals de trànsit mitjançant CNN codi obert.

14 projectes de codi obert per millorar les habilitats de ciència de dades (fàcil, normal, difícil)

Els senyals de trànsit i les normes de trànsit són molt importants per a cada conductor per evitar accidents. Per seguir la regla, primer cal entendre com és el senyal de trànsit. Una persona ha d'aprendre tots els senyals de trànsit abans de tenir el dret de conduir qualsevol vehicle. Però ara el nombre de vehicles autònoms està creixent i, en un futur proper, una persona ja no conduirà un cotxe pel seu compte. Al projecte de reconeixement de senyals de trànsit, aprendràs com un programa pot reconèixer un tipus de senyal de trànsit prenent una imatge com a entrada. El conjunt de dades de referència de reconeixement de senyals de trànsit alemany (GTSRB) s'utilitza per construir una xarxa neuronal profunda per reconèixer la classe a la qual pertany un senyal de trànsit. També estem creant una GUI senzilla per interactuar amb l'aplicació.

Idioma: Pitó

Conjunt de dades: GTRB (punt de referència alemany de reconeixement de senyals de trànsit)

Llegeix més

Font: www.habr.com

Afegeix comentari