Datenwissenschaft für Anfänger
1. Stimmungsanalyse (Stimmungsanalyse durch Text)

Sehen Sie sich die vollständige Implementierung des Data Science-Projekts mithilfe des Quellcodes an − .
Unter Stimmungsanalyse versteht man die Analyse von Wörtern, um Stimmungen und Meinungen zu identifizieren, die positiv oder negativ sein können. Dies ist eine Art Klassifizierung, bei der die Klassen binär (positiv und negativ) oder im Plural (glücklich, wütend, traurig, böse ...) sein können. Wir werden dieses Data Science-Projekt in R implementieren und den Datensatz im Paket „janeaustenR“ verwenden. Wir werden Allzweckwörterbücher wie AFINN, Bing und Loughran verwenden, einen Inner Join durchführen und am Ende eine Wortwolke erstellen, um das Ergebnis anzuzeigen.
Sprache: R
Datensatz/Paket: janeoustenR
Der Artikel wurde mit Unterstützung von EDISON Software übersetzt , und auch .
2. Erkennung gefälschter Nachrichten
Bringen Sie Ihre Fähigkeiten auf die nächste Stufe, indem Sie am Data Science Project for Beginners − arbeiten .

Fake News sind Falschinformationen, die über soziale Medien und andere Online-Medien verbreitet werden, um politische Ziele zu erreichen. In dieser Data-Science-Projektidee werden wir Python verwenden, um ein Modell zu erstellen, das genau bestimmen kann, ob Nachrichten echt oder gefälscht sind. Wir erstellen einen TfidfVectorizer und verwenden den PassiveAggressiveClassifier, um Nachrichten in „echt“ und „gefälscht“ zu klassifizieren. Wir werden einen 7796×4-Formdatensatz verwenden und alles im Jupyter Lab erledigen.
Sprache: Python
Datensatz/Paket: news.csv
3. Erkennung der Parkinson-Krankheit
Gehen Sie voran, indem Sie an der Data Science-Projektidee arbeiten − .

Wir haben begonnen, Data Science zu nutzen, um die Gesundheitsversorgung und Dienstleistungen zu verbessern – wenn wir die Krankheit in einem frühen Stadium vorhersagen können, werden wir viele Vorteile haben. In dieser Data-Science-Projektidee werden wir also lernen, wie man die Parkinson-Krankheit mithilfe von Python erkennt. Es handelt sich um eine neurodegenerative, fortschreitende Erkrankung des Zentralnervensystems, die die Bewegung beeinträchtigt und Zittern und Steifheit verursacht. Es betrifft die Dopamin-produzierenden Neuronen im Gehirn und betrifft jedes Jahr über 1 Million Menschen in Indien.
Sprache: Python
Datensatz/Paket: UCI ML Parkinson-Datensatz
Data Science-Projekte mittlerer Komplexität
4. Sprachemotionserkennung
Sehen Sie sich die vollständige Implementierung des Data Science-Beispielprojekts an − .

Lassen Sie uns nun lernen, wie Sie verschiedene Bibliotheken verwenden. Dieses Data Science-Projekt verwendet librosa zur Spracherkennung. SER ist der Prozess der Identifizierung menschlicher Emotionen und affektiver Zustände anhand der Sprache. Da wir Ton und Tonhöhe verwenden, um Emotionen mit unserer Stimme auszudrücken, ist SER relevant. Da Emotionen jedoch subjektiv sind, ist die Audioanmerkung eine schwierige Aufgabe. Wir werden die Funktionen mfcc, chroma und mel verwenden und den RAVDESS-Datensatz zur Emotionserkennung verwenden. Wir werden einen MLPC-Klassifikator für dieses Modell erstellen.
Sprache: Python
Datensatz/Paket: RAVDESS-Datensatz
5. Geschlechts- und Alterserkennung
Beeindrucken Sie Arbeitgeber mit dem neuesten Data Science-Projekt – .

Dies ist eine interessante Data Science mit Python. Anhand nur eines Bildes lernen Sie, das Geschlecht und Alter einer Person vorherzusagen. Darin stellen wir Ihnen Computer Vision und seine Prinzipien vor. Wir werden bauen und wird Modelle verwenden, die von Tal Hassner und Gil Levy auf dem Adience-Datensatz trainiert wurden. Wir werden dabei einige .pb-, .pbtxt-, .prototxt- und .caffemodel-Dateien verwenden.
Sprache: Python
Datensatz/Paket: Adient
6. Uber-Datenanalyse
Sehen Sie sich die vollständige Implementierung des Data Science-Projekts mit Quellcode an − .

Dies ist ein Datenvisualisierungsprojekt mit ggplot2, in dem wir R und seine Bibliotheken verwenden und verschiedene Parameter analysieren. Wir werden den Datensatz von Uber Pickups New York verwenden und Visualisierungen für verschiedene Zeiträume des Jahres erstellen. Dies verrät uns, wie sich die Zeit auf die Kundenreise auswirkt.
Sprache: R
Datensatz/Paket: Datensatz „Uber Pickups in New York City“.
7. Erkennung der Müdigkeit des Fahrers
Verbessern Sie Ihre Fähigkeiten, indem Sie am Top Data Science-Projekt arbeiten – .

Schläfriges Fahren ist äußerst gefährlich. Jedes Jahr kommt es zu etwa tausend Unfällen, weil Fahrer während der Fahrt einschlafen. In diesem Python-Projekt werden wir ein System erstellen, das schläfrige Fahrer erkennen und sie auch mit einem Piepton warnen kann.
Dieses Projekt wird mit Keras und OpenCV implementiert. Wir werden OpenCV verwenden, um Gesicht und Augen zu erkennen, und mit Hilfe von Keras werden wir den Zustand des Auges (offen oder geschlossen) mithilfe von Methoden des tiefen neuronalen Netzwerks klassifizieren.
8.Chatbot
Erstellen Sie einen Chatbot mit Python und machen Sie in Ihrer Karriere einen Schritt nach vorne – .

Chatbots sind ein integraler Bestandteil des Geschäftslebens. Viele Unternehmen müssen ihren Kunden Dienstleistungen anbieten und es erfordert viel Personal, Zeit und Mühe, sie zu bedienen. Chatbots können einen Großteil der Kundeninteraktion automatisieren, indem sie einige der häufigsten Fragen der Kunden beantworten. Grundsätzlich gibt es zwei Arten von Chatbots: domänenspezifische und offene Domänen. Ein domänenspezifischer Chatbot wird häufig zur Lösung eines bestimmten Problems eingesetzt. Daher müssen Sie es anpassen, damit es in Ihrem Bereich effektiv funktioniert. Open-Domain-Chatbots können beliebige Fragen gestellt werden, daher sind für deren Schulung große Datenmengen erforderlich.
Datensatz: Intents-JSON-Datei
Sprache: Python
Fortgeschrittene Data Science-Projekte
9. Bildunterschriftengenerator
Schauen Sie sich die komplette Projektumsetzung mit Quellcode an − .

Für Menschen ist es eine einfache Aufgabe, zu beschreiben, was in einem Bild enthalten ist. Für Computer ist ein Bild jedoch nur eine Ansammlung von Zahlen, die den Farbwert jedes Pixels darstellen. Für Computer ist das eine schwierige Aufgabe. Eine weitere schwierige Aufgabe ist es, zu verstehen, was in einem Bild enthalten ist, und dann eine Beschreibung in natürlicher Sprache (z. B. Englisch) zu erstellen. Dieses Projekt verwendet Deep-Learning-Techniken, bei denen wir ein Convolutional Neural Network (CNN) mit einem Recurrent Neural Network (LSTM) implementieren, um einen Bildbeschreibungsgenerator zu erstellen.
Datensatz: Flickr 8K
Sprache: Python
Rahmen: Keras
10. Erkennung von Kreditkartenbetrug
Geben Sie Ihr Bestes, indem Sie an der Idee eines Data Science-Projekts arbeiten − .

Mittlerweile haben Sie begonnen, die Methoden und Konzepte zu verstehen. Kommen wir zu einigen fortgeschrittenen Data-Science-Projekten. In diesem Projekt verwenden wir die R-Sprache mit Algorithmen wie , logistische Regression, künstliche neuronale Netze und Gradientenverstärkungsklassifikator. Wir werden den Kartentransaktionsdatensatz verwenden, um Kreditkartentransaktionen als betrügerisch und echt zu klassifizieren. Wir werden für sie verschiedene Modelle auswählen und Leistungskurven erstellen.
Sprache: R
Datensatz/Paket: Datensatz zu Kartentransaktionen
11. Filmempfehlungssystem
Entdecken Sie die Implementierung des besten Data Science-Projekts mit Quellcode –

In diesem Data Science-Projekt werden wir R verwenden, um die Empfehlungen des Films durch maschinelles Lernen umzusetzen. Das Empfehlungssystem sendet den Benutzern Vorschläge über einen Filterprozess, der auf den Präferenzen und dem Browserverlauf anderer Benutzer basiert. Wenn A und B „Kevin – Allein zu Haus“ mögen und B „Mean Girls“ mag, dann kannst du A vorschlagen – vielleicht gefällt es ihnen auch. Dadurch können Kunden mit der Plattform interagieren.
Sprache: R
Datensatz/Paket: MovieLens-Datensatz
12. Kundensegmentierung
Beeindrucken Sie Arbeitgeber mit einem Data Science-Projekt (einschließlich Quellcode) – .

Käufersegmentierung ist eine beliebte Anwendung . Mithilfe von Clustering definieren Unternehmen Kundensegmente, um mit einer potenziellen Benutzerbasis zusammenzuarbeiten. Sie teilen Kunden nach gemeinsamen Merkmalen wie Geschlecht, Alter, Interessen und Kaufgewohnheiten in Gruppen ein, um ihre Produkte effektiv an jede Gruppe vermarkten zu können. Wir werden verwenden sowie die Verteilung nach Geschlecht und Alter visualisieren. Anschließend analysieren wir die Höhe ihrer jährlichen Einnahmen und Ausgaben.
Sprache: R
Datensatz/Paket: Mall_Customers-Datensatz
13. Brustkrebsklassifikation
Sehen Sie sich die vollständige Implementierung des Data Science-Projekts in Python an .

Zurück zum medizinischen Beitrag der Datenwissenschaft: Lassen Sie uns lernen, wie man mit Python Brustkrebs erkennt. Wir werden den IDC_regular-Datensatz verwenden, um invasives Duktalkarzinom, die häufigste Form von Brustkrebs, zu erkennen. Es entwickelt sich in den Milchgängen und dringt in das Faser- oder Fettgewebe der Milchdrüse außerhalb des Milchgangs ein. In diesem wissenschaftlichen Datenerfassungsprojekt werden wir die Idee verwenden und die Keras-Bibliothek zur Klassifizierung.
Sprache: Python
Datensatz/Paket: IDC_regular
14. Verkehrszeichenerkennung
Mit dem Data Science-Projekt Präzision in der selbstfahrenden Autotechnologie erreichen Open Source.

Verkehrszeichen und Verkehrsregeln sind für jeden Autofahrer sehr wichtig, um Unfälle zu vermeiden. Um die Regel zu befolgen, müssen Sie zunächst verstehen, wie das Verkehrsschild aussieht. Eine Person muss alle Verkehrszeichen kennen, bevor sie das Recht erhält, ein Fahrzeug zu führen. Doch mittlerweile wächst die Zahl der autonomen Fahrzeuge und in naher Zukunft wird der Mensch nicht mehr alleine ein Auto fahren. Im Projekt „Verkehrszeichenerkennung“ erfahren Sie, wie ein Programm eine Art Verkehrsschild erkennen kann, indem es ein Bild als Eingabe verwendet. Der German Road Sign Recognition Reference Dataset (GTSRB) wird zum Aufbau eines tiefen neuronalen Netzwerks verwendet, um die Klasse zu erkennen, zu der ein Verkehrszeichen gehört. Wir erstellen außerdem eine einfache GUI für die Interaktion mit der Anwendung.
Sprache: Python
Datensatz: GTRB (Deutscher Verkehrszeichenerkennungs-Benchmark)
Weiterlesen
Source: habr.com
