14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

Datenwissenschaft für Anfänger

1. Stimmungsanalyse (Stimmungsanalyse durch Text)

14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

Sehen Sie sich die vollständige Implementierung des Data Science-Projekts mithilfe des Quellcodes an − Sentiment-Analyse-Projekt in R.

Unter Stimmungsanalyse versteht man die Analyse von Wörtern, um Stimmungen und Meinungen zu identifizieren, die positiv oder negativ sein können. Dies ist eine Art Klassifizierung, bei der die Klassen binär (positiv und negativ) oder im Plural (glücklich, wütend, traurig, böse ...) sein können. Wir werden dieses Data Science-Projekt in R implementieren und den Datensatz im Paket „janeaustenR“ verwenden. Wir werden Allzweckwörterbücher wie AFINN, Bing und Loughran verwenden, einen Inner Join durchführen und am Ende eine Wortwolke erstellen, um das Ergebnis anzuzeigen.

Sprache: R
Datensatz/Paket: janeoustenR

14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

Der Artikel wurde mit Unterstützung von EDISON Software übersetzt erstellt virtuelle Umkleidekabinen für Multimarkengeschäfte, und auch testet Software.

2. Erkennung gefälschter Nachrichten

Bringen Sie Ihre Fähigkeiten auf die nächste Stufe, indem Sie am Data Science Project for Beginners − arbeiten Fake-News-Erkennung mit Python.

14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

Fake News sind Falschinformationen, die über soziale Medien und andere Online-Medien verbreitet werden, um politische Ziele zu erreichen. In dieser Data-Science-Projektidee werden wir Python verwenden, um ein Modell zu erstellen, das genau bestimmen kann, ob Nachrichten echt oder gefälscht sind. Wir erstellen einen TfidfVectorizer und verwenden den PassiveAggressiveClassifier, um Nachrichten in „echt“ und „gefälscht“ zu klassifizieren. Wir werden einen 7796×4-Formdatensatz verwenden und alles im Jupyter Lab erledigen.

Sprache: Python

Datensatz/Paket: news.csv

3. Erkennung der Parkinson-Krankheit

Gehen Sie voran, indem Sie an der Data Science-Projektidee arbeiten − Erkennung der Parkinson-Krankheit mit XGBoost.

14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

Wir haben begonnen, Data Science zu nutzen, um die Gesundheitsversorgung und Dienstleistungen zu verbessern – wenn wir die Krankheit in einem frühen Stadium vorhersagen können, werden wir viele Vorteile haben. In dieser Data-Science-Projektidee werden wir also lernen, wie man die Parkinson-Krankheit mithilfe von Python erkennt. Es handelt sich um eine neurodegenerative, fortschreitende Erkrankung des Zentralnervensystems, die die Bewegung beeinträchtigt und Zittern und Steifheit verursacht. Es betrifft die Dopamin-produzierenden Neuronen im Gehirn und betrifft jedes Jahr über 1 Million Menschen in Indien.

Sprache: Python

Datensatz/Paket: UCI ML Parkinson-Datensatz

Data Science-Projekte mittlerer Komplexität

4. Sprachemotionserkennung

Sehen Sie sich die vollständige Implementierung des Data Science-Beispielprojekts an − Spracherkennung mit Librosa.

14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

Lassen Sie uns nun lernen, wie Sie verschiedene Bibliotheken verwenden. Dieses Data Science-Projekt verwendet librosa zur Spracherkennung. SER ist der Prozess der Identifizierung menschlicher Emotionen und affektiver Zustände anhand der Sprache. Da wir Ton und Tonhöhe verwenden, um Emotionen mit unserer Stimme auszudrücken, ist SER relevant. Da Emotionen jedoch subjektiv sind, ist die Audioanmerkung eine schwierige Aufgabe. Wir werden die Funktionen mfcc, chroma und mel verwenden und den RAVDESS-Datensatz zur Emotionserkennung verwenden. Wir werden einen MLPC-Klassifikator für dieses Modell erstellen.

Sprache: Python

Datensatz/Paket: RAVDESS-Datensatz

5. Geschlechts- und Alterserkennung

Beeindrucken Sie Arbeitgeber mit dem neuesten Data Science-Projekt – Geschlechts- und Alterserkennung mit OpenCV.

14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

Dies ist eine interessante Data Science mit Python. Anhand nur eines Bildes lernen Sie, das Geschlecht und Alter einer Person vorherzusagen. Darin stellen wir Ihnen Computer Vision und seine Prinzipien vor. Wir werden bauen Faltungs-Neuronales Netzwerk und wird Modelle verwenden, die von Tal Hassner und Gil Levy auf dem Adience-Datensatz trainiert wurden. Wir werden dabei einige .pb-, .pbtxt-, .prototxt- und .caffemodel-Dateien verwenden.

Sprache: Python

Datensatz/Paket: Adient

6. Uber-Datenanalyse

Sehen Sie sich die vollständige Implementierung des Data Science-Projekts mit Quellcode an − Uber-Datenanalyseprojekt in R.

14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

Dies ist ein Datenvisualisierungsprojekt mit ggplot2, in dem wir R und seine Bibliotheken verwenden und verschiedene Parameter analysieren. Wir werden den Datensatz von Uber Pickups New York verwenden und Visualisierungen für verschiedene Zeiträume des Jahres erstellen. Dies verrät uns, wie sich die Zeit auf die Kundenreise auswirkt.

Sprache: R

Datensatz/Paket: Datensatz „Uber Pickups in New York City“.

7. Erkennung der Müdigkeit des Fahrers

Verbessern Sie Ihre Fähigkeiten, indem Sie am Top Data Science-Projekt arbeiten – Schläfrigkeitserkennungssystem mit OpenCV & Keras.

14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

Schläfriges Fahren ist äußerst gefährlich. Jedes Jahr kommt es zu etwa tausend Unfällen, weil Fahrer während der Fahrt einschlafen. In diesem Python-Projekt werden wir ein System erstellen, das schläfrige Fahrer erkennen und sie auch mit einem Piepton warnen kann.

Dieses Projekt wird mit Keras und OpenCV implementiert. Wir werden OpenCV verwenden, um Gesicht und Augen zu erkennen, und mit Hilfe von Keras werden wir den Zustand des Auges (offen oder geschlossen) mithilfe von Methoden des tiefen neuronalen Netzwerks klassifizieren.

8.Chatbot

Erstellen Sie einen Chatbot mit Python und machen Sie in Ihrer Karriere einen Schritt nach vorne – Chatbot mit NLTK & Keras.

14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

Chatbots sind ein integraler Bestandteil des Geschäftslebens. Viele Unternehmen müssen ihren Kunden Dienstleistungen anbieten und es erfordert viel Personal, Zeit und Mühe, sie zu bedienen. Chatbots können einen Großteil der Kundeninteraktion automatisieren, indem sie einige der häufigsten Fragen der Kunden beantworten. Grundsätzlich gibt es zwei Arten von Chatbots: domänenspezifische und offene Domänen. Ein domänenspezifischer Chatbot wird häufig zur Lösung eines bestimmten Problems eingesetzt. Daher müssen Sie es anpassen, damit es in Ihrem Bereich effektiv funktioniert. Open-Domain-Chatbots können beliebige Fragen gestellt werden, daher sind für deren Schulung große Datenmengen erforderlich.

Datensatz: Intents-JSON-Datei

Sprache: Python

Fortgeschrittene Data Science-Projekte

9. Bildunterschriftengenerator

Schauen Sie sich die komplette Projektumsetzung mit Quellcode an − Bildunterschriftengenerator mit CNN und LSTM.

14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

Für Menschen ist es eine einfache Aufgabe, zu beschreiben, was in einem Bild enthalten ist. Für Computer ist ein Bild jedoch nur eine Ansammlung von Zahlen, die den Farbwert jedes Pixels darstellen. Für Computer ist das eine schwierige Aufgabe. Eine weitere schwierige Aufgabe ist es, zu verstehen, was in einem Bild enthalten ist, und dann eine Beschreibung in natürlicher Sprache (z. B. Englisch) zu erstellen. Dieses Projekt verwendet Deep-Learning-Techniken, bei denen wir ein Convolutional Neural Network (CNN) mit einem Recurrent Neural Network (LSTM) implementieren, um einen Bildbeschreibungsgenerator zu erstellen.

Datensatz: Flickr 8K

Sprache: Python

Rahmen: Keras

10. Erkennung von Kreditkartenbetrug

Geben Sie Ihr Bestes, indem Sie an der Idee eines Data Science-Projekts arbeiten − Erkennung von Kreditkartenbetrug mit maschinellem Lernen.

14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

Mittlerweile haben Sie begonnen, die Methoden und Konzepte zu verstehen. Kommen wir zu einigen fortgeschrittenen Data-Science-Projekten. In diesem Projekt verwenden wir die R-Sprache mit Algorithmen wie Entscheidungsbäume, logistische Regression, künstliche neuronale Netze und Gradientenverstärkungsklassifikator. Wir werden den Kartentransaktionsdatensatz verwenden, um Kreditkartentransaktionen als betrügerisch und echt zu klassifizieren. Wir werden für sie verschiedene Modelle auswählen und Leistungskurven erstellen.

Sprache: R

Datensatz/Paket: Datensatz zu Kartentransaktionen

11. Filmempfehlungssystem

Entdecken Sie die Implementierung des besten Data Science-Projekts mit Quellcode – Filmempfehlungssystem in R

14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

In diesem Data Science-Projekt werden wir R verwenden, um die Empfehlungen des Films durch maschinelles Lernen umzusetzen. Das Empfehlungssystem sendet den Benutzern Vorschläge über einen Filterprozess, der auf den Präferenzen und dem Browserverlauf anderer Benutzer basiert. Wenn A und B „Kevin – Allein zu Haus“ mögen und B „Mean Girls“ mag, dann kannst du A vorschlagen – vielleicht gefällt es ihnen auch. Dadurch können Kunden mit der Plattform interagieren.

Sprache: R

Datensatz/Paket: MovieLens-Datensatz

12. Kundensegmentierung

Beeindrucken Sie Arbeitgeber mit einem Data Science-Projekt (einschließlich Quellcode) – Kundensegmentierung mit maschinellem Lernen.

14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

Käufersegmentierung ist eine beliebte Anwendung unbeaufsichtigtes Lernen. Mithilfe von Clustering definieren Unternehmen Kundensegmente, um mit einer potenziellen Benutzerbasis zusammenzuarbeiten. Sie teilen Kunden nach gemeinsamen Merkmalen wie Geschlecht, Alter, Interessen und Kaufgewohnheiten in Gruppen ein, um ihre Produkte effektiv an jede Gruppe vermarkten zu können. Wir werden verwenden K-bedeutet Clusteringsowie die Verteilung nach Geschlecht und Alter visualisieren. Anschließend analysieren wir die Höhe ihrer jährlichen Einnahmen und Ausgaben.

Sprache: R

Datensatz/Paket: Mall_Customers-Datensatz

13. Brustkrebsklassifikation

Sehen Sie sich die vollständige Implementierung des Data Science-Projekts in Python an Brustkrebsklassifizierung mithilfe von Deep Learning.

14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

Zurück zum medizinischen Beitrag der Datenwissenschaft: Lassen Sie uns lernen, wie man mit Python Brustkrebs erkennt. Wir werden den IDC_regular-Datensatz verwenden, um invasives Duktalkarzinom, die häufigste Form von Brustkrebs, zu erkennen. Es entwickelt sich in den Milchgängen und dringt in das Faser- oder Fettgewebe der Milchdrüse außerhalb des Milchgangs ein. In diesem wissenschaftlichen Datenerfassungsprojekt werden wir die Idee verwenden Tiefes Lernen und die Keras-Bibliothek zur Klassifizierung.

Sprache: Python

Datensatz/Paket: IDC_regular

14. Verkehrszeichenerkennung

Mit dem Data Science-Projekt Präzision in der selbstfahrenden Autotechnologie erreichen Verkehrszeichenerkennung mit CNN Open Source.

14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)

Verkehrszeichen und Verkehrsregeln sind für jeden Autofahrer sehr wichtig, um Unfälle zu vermeiden. Um die Regel zu befolgen, müssen Sie zunächst verstehen, wie das Verkehrsschild aussieht. Eine Person muss alle Verkehrszeichen kennen, bevor sie das Recht erhält, ein Fahrzeug zu führen. Doch mittlerweile wächst die Zahl der autonomen Fahrzeuge und in naher Zukunft wird der Mensch nicht mehr alleine ein Auto fahren. Im Projekt „Verkehrszeichenerkennung“ erfahren Sie, wie ein Programm eine Art Verkehrsschild erkennen kann, indem es ein Bild als Eingabe verwendet. Der German Road Sign Recognition Reference Dataset (GTSRB) wird zum Aufbau eines tiefen neuronalen Netzwerks verwendet, um die Klasse zu erkennen, zu der ein Verkehrszeichen gehört. Wir erstellen außerdem eine einfache GUI für die Interaktion mit der Anwendung.

Sprache: Python

Datensatz: GTRB (Deutscher Verkehrszeichenerkennungs-Benchmark)

Weiterlesen

Source: habr.com

Kommentar hinzufügen