Η Ανάλυση Συναισθήματος είναι η ανάλυση λέξεων για τον εντοπισμό συναισθημάτων και απόψεων, οι οποίες μπορεί να είναι θετικές ή αρνητικές. Αυτός είναι ένας τύπος ταξινόμησης όπου οι τάξεις μπορεί να είναι δυαδικές (θετικές και αρνητικές) ή πληθυντικές (χαρούμενες, θυμωμένες, λυπημένες, άσχημες...). Θα εφαρμόσουμε αυτό το έργο Data Science στο R και θα χρησιμοποιήσουμε το σύνολο δεδομένων στο πακέτο "janeaustenR". Θα χρησιμοποιήσουμε λεξικά γενικής χρήσης όπως AFINN, bing και loughran, θα κάνουμε μια εσωτερική ένωση και στο τέλος θα δημιουργήσουμε ένα σύννεφο λέξεων για να εμφανίσουμε το αποτέλεσμα.
Οι ψεύτικες ειδήσεις είναι ψευδείς πληροφορίες που διαδίδονται μέσω των μέσων κοινωνικής δικτύωσης και άλλων διαδικτυακών μέσων για την επίτευξη πολιτικών στόχων. Σε αυτήν την ιδέα του έργου Data Science, θα χρησιμοποιήσουμε την Python για να δημιουργήσουμε ένα μοντέλο που θα μπορεί να προσδιορίσει με ακρίβεια εάν οι ειδήσεις είναι αληθινές ή ψεύτικες. Θα δημιουργήσουμε έναν TfidfVetorizer και θα χρησιμοποιήσουμε τον PassiveAggressiveClassifier για να ταξινομήσουμε τις ειδήσεις σε "πραγματικές" και "ψευδείς". Θα χρησιμοποιήσουμε ένα σύνολο δεδομένων σχήματος 7796×4 και θα κάνουμε τα πάντα στο Jupyter Lab.
Ξεκινήσαμε να χρησιμοποιούμε την Επιστήμη των Δεδομένων για να βελτιώσουμε την υγειονομική περίθαλψη και τις υπηρεσίες - εάν μπορούμε να προβλέψουμε την ασθένεια σε πρώιμο στάδιο, τότε θα έχουμε πολλά πλεονεκτήματα. Έτσι, σε αυτήν την ιδέα έργου Data Science, θα μάθουμε πώς να ανιχνεύουμε τη νόσο του Πάρκινσον χρησιμοποιώντας Python. Είναι μια νευροεκφυλιστική, προοδευτική νόσος του κεντρικού νευρικού συστήματος που επηρεάζει την κίνηση και προκαλεί τρόμο και δυσκαμψία. Επηρεάζει τους νευρώνες που παράγουν ντοπαμίνη στον εγκέφαλο και κάθε χρόνο επηρεάζει πάνω από 1 εκατομμύριο ανθρώπους στην Ινδία.
Γλώσσα: Python
Σύνολο δεδομένων/Πακέτο: Δεδομένα UCI ML Parkinsons
Ας μάθουμε τώρα πώς να χρησιμοποιούμε διαφορετικές βιβλιοθήκες. Αυτό το έργο Επιστήμης Δεδομένων χρησιμοποιεί τη librosa για την αναγνώριση ομιλίας. Το SER είναι η διαδικασία αναγνώρισης των ανθρώπινων συναισθημάτων και των συναισθηματικών καταστάσεων από την ομιλία. Επειδή χρησιμοποιούμε τόνο και τόνο για να εκφράσουμε συναισθήματα με τη φωνή μας, το SER είναι σχετικό. Αλλά επειδή τα συναισθήματα είναι υποκειμενικά, ο ηχητικός σχολιασμός είναι μια δύσκολη υπόθεση. Θα χρησιμοποιήσουμε τις συναρτήσεις mfcc, chroma και mel και θα χρησιμοποιήσουμε το σύνολο δεδομένων RAVDESS για την αναγνώριση συναισθημάτων. Θα δημιουργήσουμε έναν ταξινομητή MLPC για αυτό το μοντέλο.
Αυτή είναι μια ενδιαφέρουσα Επιστήμη Δεδομένων με την Python. Χρησιμοποιώντας μόνο μία εικόνα, θα μάθετε πώς να προβλέψετε το φύλο και την ηλικία ενός ατόμου. Σε αυτό, θα σας παρουσιάσουμε το Computer Vision και τις αρχές του. θα χτίσουμε συνελικτικό νευρωνικό δίκτυο και θα χρησιμοποιήσει μοντέλα που έχουν εκπαιδευτεί από τους Tal Hassner και Gil Levy στο σύνολο δεδομένων Adience. Στην πορεία θα χρησιμοποιήσουμε ορισμένα αρχεία .pb, .pbtxt, .prototxt και .caffemodel.
Αυτό είναι ένα έργο οπτικοποίησης δεδομένων με ggplot2 στο οποίο θα χρησιμοποιήσουμε το R και τις βιβλιοθήκες του και θα αναλύσουμε διάφορες παραμέτρους. Θα χρησιμοποιήσουμε το σύνολο δεδομένων Uber Pickups New York και θα δημιουργήσουμε απεικονίσεις για διαφορετικά χρονικά πλαίσια του έτους. Αυτό μας λέει πώς ο χρόνος επηρεάζει τα ταξίδια των πελατών.
Γλώσσα: R
Σύνολο δεδομένων/Πακέτο: Uber Pickups στο σύνολο δεδομένων της πόλης της Νέας Υόρκης
Η οδήγηση με υπνηλία είναι εξαιρετικά επικίνδυνη, με περίπου χίλια ατυχήματα κάθε χρόνο λόγω των οδηγών που αποκοιμούνται ενώ οδηγούν. Σε αυτό το έργο Python, θα δημιουργήσουμε ένα σύστημα που μπορεί να ανιχνεύει υπνηλία οδηγούς και επίσης να τους ειδοποιεί με ένα ηχητικό σήμα.
Αυτό το έργο υλοποιείται χρησιμοποιώντας Keras και OpenCV. Θα χρησιμοποιήσουμε το OpenCV για να ανιχνεύσουμε το πρόσωπο και τα μάτια και με τη βοήθεια του Keras θα ταξινομήσουμε την κατάσταση του ματιού (ανοιχτό ή κλειστό) χρησιμοποιώντας μεθόδους βαθιάς νευρωνικού δικτύου.
8.Chatbot
Δημιουργήστε ένα chatbot με την Python και κάντε ένα βήμα μπροστά στην καριέρα σας - Chatbot με NLTK & Keras.
Τα chatbots αποτελούν αναπόσπαστο μέρος της επιχείρησης. Πολλές επιχειρήσεις πρέπει να προσφέρουν υπηρεσίες στους πελάτες τους και χρειάζεται πολύ ανθρώπινο δυναμικό, χρόνος και προσπάθεια για την εξυπηρέτησή τους. Τα chatbots μπορούν να αυτοματοποιήσουν μεγάλο μέρος της αλληλεπίδρασης με τους πελάτες απαντώντας σε ορισμένες από τις συνήθεις ερωτήσεις που κάνουν οι πελάτες. Υπάρχουν βασικά δύο τύποι chatbots: Ειδικά για τον τομέα και Ανοιχτός τομέας. Ένα chatbot για συγκεκριμένο τομέα χρησιμοποιείται συχνά για την επίλυση ενός συγκεκριμένου προβλήματος. Επομένως, πρέπει να το προσαρμόσετε για να λειτουργεί αποτελεσματικά στον τομέα σας. Τα chatbot ανοιχτού τομέα μπορούν να υποβληθούν σε οποιαδήποτε ερώτηση, επομένως η εκπαίδευσή τους απαιτεί τεράστιο όγκο δεδομένων.
Η περιγραφή του τι υπάρχει σε μια εικόνα είναι μια εύκολη δουλειά για τους ανθρώπους, αλλά για τους υπολογιστές, μια εικόνα είναι απλώς μια συλλογή αριθμών που αντιπροσωπεύουν την τιμή χρώματος κάθε pixel. Αυτό είναι ένα δύσκολο έργο για τους υπολογιστές. Η κατανόηση του τι υπάρχει σε μια εικόνα και στη συνέχεια η δημιουργία μιας περιγραφής φυσικής γλώσσας (π.χ. αγγλικά) είναι ένα άλλο δύσκολο έργο. Αυτό το έργο χρησιμοποιεί τεχνικές βαθιάς μάθησης στις οποίες υλοποιούμε ένα Συνελικτικό Νευρωνικό Δίκτυο (CNN) με ένα επαναλαμβανόμενο νευρωνικό δίκτυο (LSTM) για τη δημιουργία μιας γεννήτριας περιγραφής εικόνας.
Μέχρι τώρα έχετε αρχίσει να κατανοείτε τις μεθόδους και τις έννοιες. Ας προχωρήσουμε σε μερικά προηγμένα έργα επιστήμης δεδομένων. Σε αυτό το έργο, θα χρησιμοποιήσουμε τη γλώσσα R με αλγόριθμους όπως π.χ δέντρα απόφασης, λογιστική παλινδρόμηση, τεχνητά νευρωνικά δίκτυα και ταξινομητής ενίσχυσης κλίσης. Θα χρησιμοποιήσουμε το σύνολο δεδομένων συναλλαγών με κάρτα για να ταξινομήσουμε τις συναλλαγές με πιστωτικές κάρτες ως δόλιες και γνήσιες. Θα επιλέξουμε διαφορετικά μοντέλα για αυτά και θα δημιουργήσουμε καμπύλες απόδοσης.
Σε αυτό το έργο Data Science, θα χρησιμοποιήσουμε το R για να εκτελέσουμε τις προτάσεις της ταινίας μέσω μηχανικής εκμάθησης. Το σύστημα προτάσεων στέλνει προτάσεις στους χρήστες μέσω μιας διαδικασίας φιλτραρίσματος με βάση τις προτιμήσεις άλλων χρηστών και το ιστορικό περιήγησης. Αν ο Α και ο Β αρέσουν στο Home Alone και στον Β αρέσουν τα Mean Girls, τότε μπορείτε να προτείνετε τον Α - μπορεί να αρέσει και σε αυτούς. Αυτό επιτρέπει στους πελάτες να αλληλεπιδρούν με την πλατφόρμα.
Γλώσσα: R
Σύνολο δεδομένων/Πακέτο: Σύνολο δεδομένων MovieLens
Η τμηματοποίηση αγοραστών είναι μια δημοφιλής εφαρμογή μάθηση χωρίς επίβλεψη. Χρησιμοποιώντας ομαδοποίηση, οι εταιρείες ορίζουν τμήματα πελατών για να συνεργαστούν με μια πιθανή βάση χρηστών. Χωρίζουν τους πελάτες σε ομάδες σύμφωνα με κοινά χαρακτηριστικά όπως το φύλο, την ηλικία, τα ενδιαφέροντα και τις συνήθειες δαπανών, έτσι ώστε να μπορούν να εμπορεύονται αποτελεσματικά τα προϊόντα τους σε κάθε ομάδα. Θα το χρησιμοποιησουμε Κ-σημαίνει ομαδοποίηση, καθώς και οπτικοποιήστε την κατανομή ανά φύλο και ηλικία. Στη συνέχεια αναλύουμε τα ετήσια επίπεδα εσόδων και δαπανών τους.
Επιστρέφοντας στην ιατρική συνεισφορά της επιστήμης δεδομένων, ας μάθουμε πώς να ανιχνεύουμε τον καρκίνο του μαστού με την Python. Θα χρησιμοποιήσουμε το σύνολο δεδομένων IDC_regular για να ανιχνεύσουμε το διηθητικό καρκίνωμα του πόρου, την πιο κοινή μορφή καρκίνου του μαστού. Αναπτύσσεται στους γαλακτοφόρους πόρους, διεισδύοντας στον ινώδη ή λιπώδη ιστό του μαστικού αδένα έξω από τον πόρο. Σε αυτήν την ιδέα επιστημονικού έργου συλλογής δεδομένων, θα χρησιμοποιήσουμε Βαθιά μάθηση και η βιβλιοθήκη Κεράς για ταξινόμηση.
Η οδική σήμανση και οι κανόνες κυκλοφορίας είναι πολύ σημαντικά για κάθε οδηγό για την αποφυγή ατυχημάτων. Για να ακολουθήσετε τον κανόνα, πρέπει πρώτα να καταλάβετε πώς φαίνεται η πινακίδα. Ένα άτομο πρέπει να μάθει όλα τα οδικά σήματα προτού του δοθεί το δικαίωμα να οδηγεί οποιοδήποτε όχημα. Αλλά τώρα ο αριθμός των αυτόνομων οχημάτων αυξάνεται και στο εγγύς μέλλον, ένα άτομο δεν θα οδηγεί πλέον αυτοκίνητο μόνο του. Στο έργο Road Sign Recognition, θα μάθετε πώς ένα πρόγραμμα μπορεί να αναγνωρίσει έναν τύπο οδικής πινακίδας λαμβάνοντας μια εικόνα ως είσοδο. Το γερμανικό σύνολο δεδομένων αναφοράς αναγνώρισης οδικής σήμανσης (GTSRB) χρησιμοποιείται για τη δημιουργία ενός βαθιού νευρωνικού δικτύου για την αναγνώριση της κλάσης στην οποία ανήκει ένα σήμα κυκλοφορίας. Δημιουργούμε επίσης ένα απλό GUI για αλληλεπίδραση με την εφαρμογή.
Γλώσσα: Python
Σύνολο δεδομένων: GTRB (Γερμανικό σημείο αναφοράς αναγνώρισης σημάτων κυκλοφορίας)