14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Επιστήμη δεδομένων για αρχάριους

1. Ανάλυση συναισθήματος (Ανάλυση διάθεσης μέσω κειμένου)

14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Δείτε την πλήρη υλοποίηση του έργου Data Science χρησιμοποιώντας τον πηγαίο κώδικα − Έργο Ανάλυσης Συναισθήματος στο R.

Η Ανάλυση Συναισθήματος είναι η ανάλυση λέξεων για τον εντοπισμό συναισθημάτων και απόψεων, οι οποίες μπορεί να είναι θετικές ή αρνητικές. Αυτός είναι ένας τύπος ταξινόμησης όπου οι τάξεις μπορεί να είναι δυαδικές (θετικές και αρνητικές) ή πληθυντικές (χαρούμενες, θυμωμένες, λυπημένες, άσχημες...). Θα εφαρμόσουμε αυτό το έργο Data Science στο R και θα χρησιμοποιήσουμε το σύνολο δεδομένων στο πακέτο "janeaustenR". Θα χρησιμοποιήσουμε λεξικά γενικής χρήσης όπως AFINN, bing και loughran, θα κάνουμε μια εσωτερική ένωση και στο τέλος θα δημιουργήσουμε ένα σύννεφο λέξεων για να εμφανίσουμε το αποτέλεσμα.

Γλώσσα: R
Σύνολο δεδομένων/Πακέτο: janeoustenR

14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Το άρθρο μεταφράστηκε με την υποστήριξη της EDISON Software, η οποία φτιάχνει εικονικούς χώρους εξοπλισμού για καταστήματα πολλαπλών εμπορικών σημάτωνΚαι λογισμικό δοκιμών.

2. Ανίχνευση ψευδών ειδήσεων

Ανεβάστε τις δεξιότητές σας στο επόμενο επίπεδο δουλεύοντας στο Data Science Project for Beginners − Ανίχνευση ψεύτικων ειδήσεων με Python.

14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Οι ψεύτικες ειδήσεις είναι ψευδείς πληροφορίες που διαδίδονται μέσω των μέσων κοινωνικής δικτύωσης και άλλων διαδικτυακών μέσων για την επίτευξη πολιτικών στόχων. Σε αυτήν την ιδέα του έργου Data Science, θα χρησιμοποιήσουμε την Python για να δημιουργήσουμε ένα μοντέλο που θα μπορεί να προσδιορίσει με ακρίβεια εάν οι ειδήσεις είναι αληθινές ή ψεύτικες. Θα δημιουργήσουμε έναν TfidfVetorizer και θα χρησιμοποιήσουμε τον PassiveAggressiveClassifier για να ταξινομήσουμε τις ειδήσεις σε "πραγματικές" και "ψευδείς". Θα χρησιμοποιήσουμε ένα σύνολο δεδομένων σχήματος 7796×4 και θα κάνουμε τα πάντα στο Jupyter Lab.

Γλώσσα: Python

Σύνολο δεδομένων/Πακέτο: news.csv

3. Ανίχνευση της νόσου του Πάρκινσον

Προχωρήστε μπροστά δουλεύοντας στην Ιδέα του Έργου Επιστήμης Δεδομένων − ανίχνευση της νόσου του Πάρκινσον με XGBoost.

14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Ξεκινήσαμε να χρησιμοποιούμε την Επιστήμη των Δεδομένων για να βελτιώσουμε την υγειονομική περίθαλψη και τις υπηρεσίες - εάν μπορούμε να προβλέψουμε την ασθένεια σε πρώιμο στάδιο, τότε θα έχουμε πολλά πλεονεκτήματα. Έτσι, σε αυτήν την ιδέα έργου Data Science, θα μάθουμε πώς να ανιχνεύουμε τη νόσο του Πάρκινσον χρησιμοποιώντας Python. Είναι μια νευροεκφυλιστική, προοδευτική νόσος του κεντρικού νευρικού συστήματος που επηρεάζει την κίνηση και προκαλεί τρόμο και δυσκαμψία. Επηρεάζει τους νευρώνες που παράγουν ντοπαμίνη στον εγκέφαλο και κάθε χρόνο επηρεάζει πάνω από 1 εκατομμύριο ανθρώπους στην Ινδία.

Γλώσσα: Python

Σύνολο δεδομένων/Πακέτο: Δεδομένα UCI ML Parkinsons

Έργα Data Science μεσαίας πολυπλοκότητας

4. Αναγνώριση συναισθημάτων ομιλίας

Δείτε την πλήρη εφαρμογή του δείγματος έργου Data Science − αναγνώριση ομιλίας με Librosa.

14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Ας μάθουμε τώρα πώς να χρησιμοποιούμε διαφορετικές βιβλιοθήκες. Αυτό το έργο Επιστήμης Δεδομένων χρησιμοποιεί τη librosa για την αναγνώριση ομιλίας. Το SER είναι η διαδικασία αναγνώρισης των ανθρώπινων συναισθημάτων και των συναισθηματικών καταστάσεων από την ομιλία. Επειδή χρησιμοποιούμε τόνο και τόνο για να εκφράσουμε συναισθήματα με τη φωνή μας, το SER είναι σχετικό. Αλλά επειδή τα συναισθήματα είναι υποκειμενικά, ο ηχητικός σχολιασμός είναι μια δύσκολη υπόθεση. Θα χρησιμοποιήσουμε τις συναρτήσεις mfcc, chroma και mel και θα χρησιμοποιήσουμε το σύνολο δεδομένων RAVDESS για την αναγνώριση συναισθημάτων. Θα δημιουργήσουμε έναν ταξινομητή MLPC για αυτό το μοντέλο.

Γλώσσα: Python

Σύνολο δεδομένων/Πακέτο: Δεδομένα RAVDESS

5. Ανίχνευση φύλου και ηλικίας

Εντυπωσιάστε τους εργοδότες με το πιο πρόσφατο έργο Data Science - Ανίχνευση φύλου και ηλικίας με το OpenCV.

14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Αυτή είναι μια ενδιαφέρουσα Επιστήμη Δεδομένων με την Python. Χρησιμοποιώντας μόνο μία εικόνα, θα μάθετε πώς να προβλέψετε το φύλο και την ηλικία ενός ατόμου. Σε αυτό, θα σας παρουσιάσουμε το Computer Vision και τις αρχές του. θα χτίσουμε συνελικτικό νευρωνικό δίκτυο και θα χρησιμοποιήσει μοντέλα που έχουν εκπαιδευτεί από τους Tal Hassner και Gil Levy στο σύνολο δεδομένων Adience. Στην πορεία θα χρησιμοποιήσουμε ορισμένα αρχεία .pb, .pbtxt, .prototxt και .caffemodel.

Γλώσσα: Python

Σύνολο δεδομένων/Πακέτο: Κοινή

6. Ανάλυση δεδομένων Uber

Δείτε την πλήρη υλοποίηση του έργου Data Science με πηγαίο κώδικα − Έργο ανάλυσης δεδομένων Uber στο R.

14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Αυτό είναι ένα έργο οπτικοποίησης δεδομένων με ggplot2 στο οποίο θα χρησιμοποιήσουμε το R και τις βιβλιοθήκες του και θα αναλύσουμε διάφορες παραμέτρους. Θα χρησιμοποιήσουμε το σύνολο δεδομένων Uber Pickups New York και θα δημιουργήσουμε απεικονίσεις για διαφορετικά χρονικά πλαίσια του έτους. Αυτό μας λέει πώς ο χρόνος επηρεάζει τα ταξίδια των πελατών.

Γλώσσα: R

Σύνολο δεδομένων/Πακέτο: Uber Pickups στο σύνολο δεδομένων της πόλης της Νέας Υόρκης

7. Ανίχνευση υπνηλίας οδηγού

Αναβαθμίστε τις δεξιότητές σας δουλεύοντας στο Top Data Science Project - σύστημα ανίχνευσης υπνηλίας με OpenCV & Keras.

14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Η οδήγηση με υπνηλία είναι εξαιρετικά επικίνδυνη, με περίπου χίλια ατυχήματα κάθε χρόνο λόγω των οδηγών που αποκοιμούνται ενώ οδηγούν. Σε αυτό το έργο Python, θα δημιουργήσουμε ένα σύστημα που μπορεί να ανιχνεύει υπνηλία οδηγούς και επίσης να τους ειδοποιεί με ένα ηχητικό σήμα.

Αυτό το έργο υλοποιείται χρησιμοποιώντας Keras και OpenCV. Θα χρησιμοποιήσουμε το OpenCV για να ανιχνεύσουμε το πρόσωπο και τα μάτια και με τη βοήθεια του Keras θα ταξινομήσουμε την κατάσταση του ματιού (ανοιχτό ή κλειστό) χρησιμοποιώντας μεθόδους βαθιάς νευρωνικού δικτύου.

8.Chatbot

Δημιουργήστε ένα chatbot με την Python και κάντε ένα βήμα μπροστά στην καριέρα σας - Chatbot με NLTK & Keras.

14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Τα chatbots αποτελούν αναπόσπαστο μέρος της επιχείρησης. Πολλές επιχειρήσεις πρέπει να προσφέρουν υπηρεσίες στους πελάτες τους και χρειάζεται πολύ ανθρώπινο δυναμικό, χρόνος και προσπάθεια για την εξυπηρέτησή τους. Τα chatbots μπορούν να αυτοματοποιήσουν μεγάλο μέρος της αλληλεπίδρασης με τους πελάτες απαντώντας σε ορισμένες από τις συνήθεις ερωτήσεις που κάνουν οι πελάτες. Υπάρχουν βασικά δύο τύποι chatbots: Ειδικά για τον τομέα και Ανοιχτός τομέας. Ένα chatbot για συγκεκριμένο τομέα χρησιμοποιείται συχνά για την επίλυση ενός συγκεκριμένου προβλήματος. Επομένως, πρέπει να το προσαρμόσετε για να λειτουργεί αποτελεσματικά στον τομέα σας. Τα chatbot ανοιχτού τομέα μπορούν να υποβληθούν σε οποιαδήποτε ερώτηση, επομένως η εκπαίδευσή τους απαιτεί τεράστιο όγκο δεδομένων.

Σύνολο δεδομένων: Intents αρχείο json

Γλώσσα: Python

Προηγμένα έργα Επιστήμης Δεδομένων

9. Image Caption Generator

Δείτε την πλήρη υλοποίηση του έργου με τον πηγαίο κώδικα − Γεννήτρια λεζάντας εικόνας με CNN & LSTM.

14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Η περιγραφή του τι υπάρχει σε μια εικόνα είναι μια εύκολη δουλειά για τους ανθρώπους, αλλά για τους υπολογιστές, μια εικόνα είναι απλώς μια συλλογή αριθμών που αντιπροσωπεύουν την τιμή χρώματος κάθε pixel. Αυτό είναι ένα δύσκολο έργο για τους υπολογιστές. Η κατανόηση του τι υπάρχει σε μια εικόνα και στη συνέχεια η δημιουργία μιας περιγραφής φυσικής γλώσσας (π.χ. αγγλικά) είναι ένα άλλο δύσκολο έργο. Αυτό το έργο χρησιμοποιεί τεχνικές βαθιάς μάθησης στις οποίες υλοποιούμε ένα Συνελικτικό Νευρωνικό Δίκτυο (CNN) με ένα επαναλαμβανόμενο νευρωνικό δίκτυο (LSTM) για τη δημιουργία μιας γεννήτριας περιγραφής εικόνας.

Σύνολο δεδομένων: Flickr 8K

Γλώσσα: Python

Δομή: Keras

10. Ανίχνευση απάτης πιστωτικών καρτών

Κάντε το καλύτερο δυνατό δουλεύοντας πάνω στην ιδέα έργου Data Science − εντοπισμός απάτης πιστωτικών καρτών με μηχανική εκμάθηση.

14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Μέχρι τώρα έχετε αρχίσει να κατανοείτε τις μεθόδους και τις έννοιες. Ας προχωρήσουμε σε μερικά προηγμένα έργα επιστήμης δεδομένων. Σε αυτό το έργο, θα χρησιμοποιήσουμε τη γλώσσα R με αλγόριθμους όπως π.χ δέντρα απόφασης, λογιστική παλινδρόμηση, τεχνητά νευρωνικά δίκτυα και ταξινομητής ενίσχυσης κλίσης. Θα χρησιμοποιήσουμε το σύνολο δεδομένων συναλλαγών με κάρτα για να ταξινομήσουμε τις συναλλαγές με πιστωτικές κάρτες ως δόλιες και γνήσιες. Θα επιλέξουμε διαφορετικά μοντέλα για αυτά και θα δημιουργήσουμε καμπύλες απόδοσης.

Γλώσσα: R

Σύνολο δεδομένων/Πακέτο: Σύνολο συναλλαγών καρτών

11. Σύστημα Σύστασης Ταινιών

Εξερευνήστε την υλοποίηση του καλύτερου έργου Data Science με Πηγαίο Κώδικα - Σύστημα σύστασης ταινιών στο R

14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Σε αυτό το έργο Data Science, θα χρησιμοποιήσουμε το R για να εκτελέσουμε τις προτάσεις της ταινίας μέσω μηχανικής εκμάθησης. Το σύστημα προτάσεων στέλνει προτάσεις στους χρήστες μέσω μιας διαδικασίας φιλτραρίσματος με βάση τις προτιμήσεις άλλων χρηστών και το ιστορικό περιήγησης. Αν ο Α και ο Β αρέσουν στο Home Alone και στον Β αρέσουν τα Mean Girls, τότε μπορείτε να προτείνετε τον Α - μπορεί να αρέσει και σε αυτούς. Αυτό επιτρέπει στους πελάτες να αλληλεπιδρούν με την πλατφόρμα.

Γλώσσα: R

Σύνολο δεδομένων/Πακέτο: Σύνολο δεδομένων MovieLens

12. Τμηματοποίηση πελατών

Εντυπωσιάστε τους εργοδότες με ένα έργο Data Science (συμπεριλαμβανομένου του πηγαίου κώδικα) - Τμηματοποίηση πελατών με μηχανική εκμάθηση.

14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Η τμηματοποίηση αγοραστών είναι μια δημοφιλής εφαρμογή μάθηση χωρίς επίβλεψη. Χρησιμοποιώντας ομαδοποίηση, οι εταιρείες ορίζουν τμήματα πελατών για να συνεργαστούν με μια πιθανή βάση χρηστών. Χωρίζουν τους πελάτες σε ομάδες σύμφωνα με κοινά χαρακτηριστικά όπως το φύλο, την ηλικία, τα ενδιαφέροντα και τις συνήθειες δαπανών, έτσι ώστε να μπορούν να εμπορεύονται αποτελεσματικά τα προϊόντα τους σε κάθε ομάδα. Θα το χρησιμοποιησουμε Κ-σημαίνει ομαδοποίηση, καθώς και οπτικοποιήστε την κατανομή ανά φύλο και ηλικία. Στη συνέχεια αναλύουμε τα ετήσια επίπεδα εσόδων και δαπανών τους.

Γλώσσα: R

Σύνολο δεδομένων/Πακέτο: Δεδομένα Mall_Customers

13. Ταξινόμηση του καρκίνου του μαστού

Δείτε την πλήρη υλοποίηση του έργου Data Science στην Python − Ταξινόμηση του καρκίνου του μαστού με χρήση της βαθιάς μάθησης.

14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Επιστρέφοντας στην ιατρική συνεισφορά της επιστήμης δεδομένων, ας μάθουμε πώς να ανιχνεύουμε τον καρκίνο του μαστού με την Python. Θα χρησιμοποιήσουμε το σύνολο δεδομένων IDC_regular για να ανιχνεύσουμε το διηθητικό καρκίνωμα του πόρου, την πιο κοινή μορφή καρκίνου του μαστού. Αναπτύσσεται στους γαλακτοφόρους πόρους, διεισδύοντας στον ινώδη ή λιπώδη ιστό του μαστικού αδένα έξω από τον πόρο. Σε αυτήν την ιδέα επιστημονικού έργου συλλογής δεδομένων, θα χρησιμοποιήσουμε Βαθιά μάθηση και η βιβλιοθήκη Κεράς για ταξινόμηση.

Γλώσσα: Python

Σύνολο δεδομένων/Πακέτο: IDC_κανονικό

14. Αναγνώριση Σημάτων Οδικής Κυκλοφορίας

Επίτευξη ακρίβειας στην τεχνολογία αυτοοδηγούμενων αυτοκινήτων με το έργο Data Science on αναγνώριση πινακίδων κυκλοφορίας με χρήση CNN ανοιχτή πηγή.

14 έργα ανοιχτού κώδικα για τη βελτίωση των δεξιοτήτων της Επιστήμης Δεδομένων (εύκολο, κανονικό, δύσκολο)

Η οδική σήμανση και οι κανόνες κυκλοφορίας είναι πολύ σημαντικά για κάθε οδηγό για την αποφυγή ατυχημάτων. Για να ακολουθήσετε τον κανόνα, πρέπει πρώτα να καταλάβετε πώς φαίνεται η πινακίδα. Ένα άτομο πρέπει να μάθει όλα τα οδικά σήματα προτού του δοθεί το δικαίωμα να οδηγεί οποιοδήποτε όχημα. Αλλά τώρα ο αριθμός των αυτόνομων οχημάτων αυξάνεται και στο εγγύς μέλλον, ένα άτομο δεν θα οδηγεί πλέον αυτοκίνητο μόνο του. Στο έργο Road Sign Recognition, θα μάθετε πώς ένα πρόγραμμα μπορεί να αναγνωρίσει έναν τύπο οδικής πινακίδας λαμβάνοντας μια εικόνα ως είσοδο. Το γερμανικό σύνολο δεδομένων αναφοράς αναγνώρισης οδικής σήμανσης (GTSRB) χρησιμοποιείται για τη δημιουργία ενός βαθιού νευρωνικού δικτύου για την αναγνώριση της κλάσης στην οποία ανήκει ένα σήμα κυκλοφορίας. Δημιουργούμε επίσης ένα απλό GUI για αλληλεπίδραση με την εφαρμογή.

Γλώσσα: Python

Σύνολο δεδομένων: GTRB (Γερμανικό σημείο αναφοράς αναγνώρισης σημάτων κυκλοφορίας)

Διαβάστε περισσότερα

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο