ProHoster > Blog > Internetnachrichten > 14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)
14 Open-Source-Projekte zur Verbesserung der Data-Science-Fähigkeiten (einfach, normal, schwer)
Datenwissenschaft für Anfänger
1. Stimmungsanalyse (Stimmungsanalyse durch Text)
Sehen Sie sich die vollständige Implementierung des Data Science-Projekts mithilfe des Quellcodes an − Sentiment-Analyse-Projekt in R.
Unter Stimmungsanalyse versteht man die Analyse von Wörtern, um Stimmungen und Meinungen zu identifizieren, die positiv oder negativ sein können. Dies ist eine Art Klassifizierung, bei der die Klassen binär (positiv und negativ) oder im Plural (glücklich, wütend, traurig, böse ...) sein können. Wir werden dieses Data Science-Projekt in R implementieren und den Datensatz im Paket „janeaustenR“ verwenden. Wir werden Allzweckwörterbücher wie AFINN, Bing und Loughran verwenden, einen Inner Join durchführen und am Ende eine Wortwolke erstellen, um das Ergebnis anzuzeigen.
Bringen Sie Ihre Fähigkeiten auf die nächste Stufe, indem Sie am Data Science Project for Beginners − arbeiten Fake-News-Erkennung mit Python.
Fake News sind Falschinformationen, die über soziale Medien und andere Online-Medien verbreitet werden, um politische Ziele zu erreichen. In dieser Data-Science-Projektidee werden wir Python verwenden, um ein Modell zu erstellen, das genau bestimmen kann, ob Nachrichten echt oder gefälscht sind. Wir erstellen einen TfidfVectorizer und verwenden den PassiveAggressiveClassifier, um Nachrichten in „echt“ und „gefälscht“ zu klassifizieren. Wir werden einen 7796×4-Formdatensatz verwenden und alles im Jupyter Lab erledigen.
Wir haben begonnen, Data Science zu nutzen, um die Gesundheitsversorgung und Dienstleistungen zu verbessern – wenn wir die Krankheit in einem frühen Stadium vorhersagen können, werden wir viele Vorteile haben. In dieser Data-Science-Projektidee werden wir also lernen, wie man die Parkinson-Krankheit mithilfe von Python erkennt. Es handelt sich um eine neurodegenerative, fortschreitende Erkrankung des Zentralnervensystems, die die Bewegung beeinträchtigt und Zittern und Steifheit verursacht. Es betrifft die Dopamin-produzierenden Neuronen im Gehirn und betrifft jedes Jahr über 1 Million Menschen in Indien.
Sprache: Python
Datensatz/Paket: UCI ML Parkinson-Datensatz
Data Science-Projekte mittlerer Komplexität
4. Sprachemotionserkennung
Sehen Sie sich die vollständige Implementierung des Data Science-Beispielprojekts an − Spracherkennung mit Librosa.
Lassen Sie uns nun lernen, wie Sie verschiedene Bibliotheken verwenden. Dieses Data Science-Projekt verwendet librosa zur Spracherkennung. SER ist der Prozess der Identifizierung menschlicher Emotionen und affektiver Zustände anhand der Sprache. Da wir Ton und Tonhöhe verwenden, um Emotionen mit unserer Stimme auszudrücken, ist SER relevant. Da Emotionen jedoch subjektiv sind, ist die Audioanmerkung eine schwierige Aufgabe. Wir werden die Funktionen mfcc, chroma und mel verwenden und den RAVDESS-Datensatz zur Emotionserkennung verwenden. Wir werden einen MLPC-Klassifikator für dieses Modell erstellen.
Dies ist eine interessante Data Science mit Python. Anhand nur eines Bildes lernen Sie, das Geschlecht und Alter einer Person vorherzusagen. Darin stellen wir Ihnen Computer Vision und seine Prinzipien vor. Wir werden bauen Faltungs-Neuronales Netzwerk und wird Modelle verwenden, die von Tal Hassner und Gil Levy auf dem Adience-Datensatz trainiert wurden. Wir werden dabei einige .pb-, .pbtxt-, .prototxt- und .caffemodel-Dateien verwenden.
Sprache: Python
Datensatz/Paket: Adient
6. Uber-Datenanalyse
Sehen Sie sich die vollständige Implementierung des Data Science-Projekts mit Quellcode an − Uber-Datenanalyseprojekt in R.
Dies ist ein Datenvisualisierungsprojekt mit ggplot2, in dem wir R und seine Bibliotheken verwenden und verschiedene Parameter analysieren. Wir werden den Datensatz von Uber Pickups New York verwenden und Visualisierungen für verschiedene Zeiträume des Jahres erstellen. Dies verrät uns, wie sich die Zeit auf die Kundenreise auswirkt.
Sprache: R
Datensatz/Paket: Datensatz „Uber Pickups in New York City“.
Schläfriges Fahren ist äußerst gefährlich. Jedes Jahr kommt es zu etwa tausend Unfällen, weil Fahrer während der Fahrt einschlafen. In diesem Python-Projekt werden wir ein System erstellen, das schläfrige Fahrer erkennen und sie auch mit einem Piepton warnen kann.
Dieses Projekt wird mit Keras und OpenCV implementiert. Wir werden OpenCV verwenden, um Gesicht und Augen zu erkennen, und mit Hilfe von Keras werden wir den Zustand des Auges (offen oder geschlossen) mithilfe von Methoden des tiefen neuronalen Netzwerks klassifizieren.
8.Chatbot
Erstellen Sie einen Chatbot mit Python und machen Sie in Ihrer Karriere einen Schritt nach vorne – Chatbot mit NLTK & Keras.
Chatbots sind ein integraler Bestandteil des Geschäftslebens. Viele Unternehmen müssen ihren Kunden Dienstleistungen anbieten und es erfordert viel Personal, Zeit und Mühe, sie zu bedienen. Chatbots können einen Großteil der Kundeninteraktion automatisieren, indem sie einige der häufigsten Fragen der Kunden beantworten. Grundsätzlich gibt es zwei Arten von Chatbots: domänenspezifische und offene Domänen. Ein domänenspezifischer Chatbot wird häufig zur Lösung eines bestimmten Problems eingesetzt. Daher müssen Sie es anpassen, damit es in Ihrem Bereich effektiv funktioniert. Open-Domain-Chatbots können beliebige Fragen gestellt werden, daher sind für deren Schulung große Datenmengen erforderlich.
Für Menschen ist es eine einfache Aufgabe, zu beschreiben, was in einem Bild enthalten ist. Für Computer ist ein Bild jedoch nur eine Ansammlung von Zahlen, die den Farbwert jedes Pixels darstellen. Für Computer ist das eine schwierige Aufgabe. Eine weitere schwierige Aufgabe ist es, zu verstehen, was in einem Bild enthalten ist, und dann eine Beschreibung in natürlicher Sprache (z. B. Englisch) zu erstellen. Dieses Projekt verwendet Deep-Learning-Techniken, bei denen wir ein Convolutional Neural Network (CNN) mit einem Recurrent Neural Network (LSTM) implementieren, um einen Bildbeschreibungsgenerator zu erstellen.
Mittlerweile haben Sie begonnen, die Methoden und Konzepte zu verstehen. Kommen wir zu einigen fortgeschrittenen Data-Science-Projekten. In diesem Projekt verwenden wir die R-Sprache mit Algorithmen wie Entscheidungsbäume, logistische Regression, künstliche neuronale Netze und Gradientenverstärkungsklassifikator. Wir werden den Kartentransaktionsdatensatz verwenden, um Kreditkartentransaktionen als betrügerisch und echt zu klassifizieren. Wir werden für sie verschiedene Modelle auswählen und Leistungskurven erstellen.
Sprache: R
Datensatz/Paket: Datensatz zu Kartentransaktionen
11. Filmempfehlungssystem
Entdecken Sie die Implementierung des besten Data Science-Projekts mit Quellcode – Filmempfehlungssystem in R
In diesem Data Science-Projekt werden wir R verwenden, um die Empfehlungen des Films durch maschinelles Lernen umzusetzen. Das Empfehlungssystem sendet den Benutzern Vorschläge über einen Filterprozess, der auf den Präferenzen und dem Browserverlauf anderer Benutzer basiert. Wenn A und B „Kevin – Allein zu Haus“ mögen und B „Mean Girls“ mag, dann kannst du A vorschlagen – vielleicht gefällt es ihnen auch. Dadurch können Kunden mit der Plattform interagieren.
Käufersegmentierung ist eine beliebte Anwendung unbeaufsichtigtes Lernen. Mithilfe von Clustering definieren Unternehmen Kundensegmente, um mit einer potenziellen Benutzerbasis zusammenzuarbeiten. Sie teilen Kunden nach gemeinsamen Merkmalen wie Geschlecht, Alter, Interessen und Kaufgewohnheiten in Gruppen ein, um ihre Produkte effektiv an jede Gruppe vermarkten zu können. Wir werden verwenden K-bedeutet Clusteringsowie die Verteilung nach Geschlecht und Alter visualisieren. Anschließend analysieren wir die Höhe ihrer jährlichen Einnahmen und Ausgaben.
Zurück zum medizinischen Beitrag der Datenwissenschaft: Lassen Sie uns lernen, wie man mit Python Brustkrebs erkennt. Wir werden den IDC_regular-Datensatz verwenden, um invasives Duktalkarzinom, die häufigste Form von Brustkrebs, zu erkennen. Es entwickelt sich in den Milchgängen und dringt in das Faser- oder Fettgewebe der Milchdrüse außerhalb des Milchgangs ein. In diesem wissenschaftlichen Datenerfassungsprojekt werden wir die Idee verwenden Tiefes Lernen und die Keras-Bibliothek zur Klassifizierung.
Sprache: Python
Datensatz/Paket: IDC_regular
14. Verkehrszeichenerkennung
Mit dem Data Science-Projekt Präzision in der selbstfahrenden Autotechnologie erreichen Verkehrszeichenerkennung mit CNN Open Source.
Verkehrszeichen und Verkehrsregeln sind für jeden Autofahrer sehr wichtig, um Unfälle zu vermeiden. Um die Regel zu befolgen, müssen Sie zunächst verstehen, wie das Verkehrsschild aussieht. Eine Person muss alle Verkehrszeichen kennen, bevor sie das Recht erhält, ein Fahrzeug zu führen. Doch mittlerweile wächst die Zahl der autonomen Fahrzeuge und in naher Zukunft wird der Mensch nicht mehr alleine ein Auto fahren. Im Projekt „Verkehrszeichenerkennung“ erfahren Sie, wie ein Programm eine Art Verkehrsschild erkennen kann, indem es ein Bild als Eingabe verwendet. Der German Road Sign Recognition Reference Dataset (GTSRB) wird zum Aufbau eines tiefen neuronalen Netzwerks verwendet, um die Klasse zu erkennen, zu der ein Verkehrszeichen gehört. Wir erstellen außerdem eine einfache GUI für die Interaktion mit der Anwendung.