52 σύνολα δεδομένων για έργα κατάρτισης

  1. Σύνολο δεδομένων πελατών Mall — δεδομένα επισκεπτών καταστήματος: ταυτότητα, φύλο, ηλικία, εισόδημα, βαθμολογία δαπανών. (Επιλογή εφαρμογής: Έργο Τμηματοποίησης Πελατών με Μηχανική Μάθηση)
  2. Σύνολο δεδομένων Iris — ένα σύνολο δεδομένων για αρχάριους, που περιέχει τα μεγέθη σέπαλων και πετάλων για διάφορα λουλούδια.
  3. Σύνολο δεδομένων MNIST — ένα σύνολο δεδομένων χειρόγραφων αριθμών. 60 εικόνες προπόνησης και 000 δοκιμαστικές εικόνες.
  4. The Boston Housing Dataset είναι ένα δημοφιλές σύνολο δεδομένων για την αναγνώριση προτύπων. Περιέχει πληροφορίες για σπίτια στη Βοστώνη: αριθμός διαμερισμάτων, τιμές ενοικίασης, δείκτης εγκληματικότητας.
  5. Σύνολο δεδομένων ανίχνευσης ψευδών ειδήσεων — περιέχει 7796 καταχωρήσεις με επισημάνσεις ειδήσεων: αληθές ή ψευδές. (Επιλογή εφαρμογής με πηγαίο κώδικα στην Python: Fake News Detection Python Project )
  6. Δεδομένα ποιότητας κρασιού — περιέχει πληροφορίες για το κρασί: 4898 εγγραφές με 14 παραμέτρους.
  7. Δεδομένα SOCR – Σύνολο δεδομένων υψών και βαρών - μια καλή επιλογή για αρχή. Περιέχει 25 αρχεία ύψους και βάρους 000χρονων ατόμων.

    52 σύνολα δεδομένων για έργα κατάρτισης

    Το άρθρο μεταφράστηκε με την υποστήριξη της EDISON Software, η οποία εκπληρώνει «άριστα» παραγγελίες από τη Νότια ΚίναΚαι αναπτύσσει διαδικτυακές εφαρμογές και ιστοσελίδες.

  8. Σύνολο δεδομένων Parkinson — 195 αρχεία ασθενών με νόσο του Πάρκινσον, με 25 παραμέτρους ανάλυσης. Μπορεί να χρησιμοποιηθεί για προκαταρκτική αξιολόγηση της διαφοράς μεταξύ ασθενών και υγιών ατόμων. (Επιλογή εφαρμογής με πηγαίο κώδικα στην Python: Έργο Μηχανικής Μάθησης για την Ανίχνευση της Νόσου Πάρκινσον)
  9. Σύνολο δεδομένων Titanic — περιέχει πληροφορίες για τους επιβάτες (ηλικία, φύλο, συγγενείς επί του πλοίου, κ.λπ.) 891 στο σετ εκπαίδευσης και 418 στο σετ δοκιμών.
  10. Σύνολο δεδομένων Uber Pickups — πληροφορίες για 4.5 εκατομμύρια ταξίδια στην Uber το 2014 και 14 εκατομμύρια το 2015. (Επιλογή εφαρμογής με πηγαίο κώδικα σε R: Έργο ανάλυσης δεδομένων Uber στο R)
  11. Σύνολο δεδομένων Chars74k — περιέχει εικόνες βρετανικών και καναδικών συμβόλων 64 τάξεων: 0-9, AZ, az. 7700 7.7k φυσικές εικόνες, 3400k χειρόγραφες, 62000 συνθετικές γραμματοσειρές από υπολογιστή.
  12. Σύνολο δεδομένων ανίχνευσης απάτης πιστωτικών καρτών — περιέχει πληροφορίες για συναλλαγές πιστωτικών καρτών που έχουν παραβιαστεί. (Επιλογή εφαρμογής με πηγή: Έργο μηχανικής μάθησης για τον εντοπισμό απάτης πιστωτικών καρτών)
  13. Σύνολο δεδομένων προθέσεων Chatbot — ένα αρχείο JSON που περιέχει διάφορες ετικέτες: χαιρετισμούς, αντίο, αναζήτηση νοσοκομείου, αναζήτηση φαρμακείου κ.λπ. Περιέχει ένα σύνολο προτύπων ερωτήσεων-απαντήσεων. (Επιλογή εφαρμογής με πηγαίο κώδικα στην Python: Έργο Chatbot σε Python)
  14. Σύνολο δεδομένων ηλεκτρονικού ταχυδρομείου Enron — περιέχει μισό εκατομμύριο επιστολές από 150 διευθυντές της Enron.
  15. Το σύνολο δεδομένων Yelp — περιέχει 1,2 εκατομμύρια συστάσεις από 1,6 εκατομμύρια χρήστες περίπου 1,2 εκατομμύρια οργανισμούς.
  16. Σύνολο δεδομένων κινδύνου — περισσότερες από 200 ηχογραφήσεις με ερωτήσεις και απαντήσεις από το δημοφιλές τηλεοπτικό παιχνίδι.
  17. Σύνολο δεδομένων Συστημάτων Προτάσεων — μια πύλη με μια συλλογή συνόλων δεδομένων από το Πανεπιστήμιο UCSD. Περιέχει αρχεία κριτικών σε δημοφιλείς ιστότοπους (Goodreads, Amazon). Εξαιρετικό για τη δημιουργία συστημάτων συστάσεων. (Επιλογή εφαρμογής με πηγαίο κώδικα σε R: Έργο συστήματος σύστασης ταινιών στο R )
  18. Σύνολο δεδομένων UCI Spambase — ένα εκπαιδευτικό σύνολο δεδομένων για τον εντοπισμό ανεπιθύμητων μηνυμάτων. Περιέχει 4601 γράμματα με 57 παραμέτρους μεταδεδομένων.
  19. Σύνολο δεδομένων Flickr 30k — περισσότερες από 30 εικόνες και λεζάντες. (Σύνολο δεδομένων Flickr 8k — 8000 εικόνες. Έργο πηγής Python: Έργο Python Generator Image Caption)
  20. Κριτικές στο IMDB — 25 κριτικές ταινιών στο σετ εκπαίδευσης και 000 στο σετ δοκιμών. (Επιλογή εφαρμογής με πηγαίο κώδικα σε R: Έργο Επιστήμης Δεδομένων Ανάλυσης Συναισθήματος)
  21. Δεδομένα MS COCO — 1,5 εκατομμύρια εικόνες με ετικέτα.
  22. Δεδομένα CIFAR-10 και CIFAR-100 — Το CIFAR-10 περιέχει 60,000 μικρές εικόνες 32*32 pixel με αριθμούς 0-9. CIFAR-100 - αντίστοιχα, 0-100.
  23. Σύνολο δεδομένων GTSRB (Γερμανικό σημείο αναφοράς αναγνώρισης σημάτων κυκλοφορίας). — 50 εικόνες 000 οδικών πινακίδων. (Επιλογή εφαρμογής με πηγαίο κώδικα στην Python: Έργο Python για την αναγνώριση σημάτων κυκλοφορίας)
  24. Σύνολο δεδομένων ImageNet — περιέχει περισσότερες από 100 φράσεις και περίπου 000 εικόνες ανά φράση.
  25. Σύνολο δεδομένων ιστοπαθολογικών εικόνων μαστού — το σύνολο δεδομένων περιέχει εικόνες δειγμάτων καρκίνου του μαστού. (Επιλογή εφαρμογής με ενεργοποιημένο τον πηγαίο κώδικα Breast Cancer Classification Python Project)
  26. Σύνολο δεδομένων Cityscapes — περιέχει σχολιασμούς υψηλής ποιότητας για ακολουθίες βίντεο δρόμων σε διαφορετικές πόλεις.
  27. Κινητικό σύνολο δεδομένων - περιέχει έναν σύνδεσμο URL για περίπου 6,5 εκατομμύρια βίντεο υψηλής ποιότητας.
  28. Σύνολο δεδομένων ανθρώπινης πόζας MPII — το σύνολο δεδομένων περιέχει 25 εικόνες ανθρώπινων στάσεων με κοινούς σχολιασμούς.
  29. Σύνολο δεδομένων 20BN-something-something v2 - ένα σύνολο βίντεο υψηλής ποιότητας που δείχνουν πώς ένα άτομο εκτελεί κάποια ενέργεια.
  30. Σύνολο δεδομένων αντικειμένου 365 — ένα σύνολο δεδομένων εικόνων υψηλής ποιότητας με πλαίσια οριοθέτησης αντικειμένων.
  31. Σύνολο δεδομένων σχεδίασης φωτογραφιών — περιέχει περισσότερες από 1000 εικόνες με τα περίγραμμα σχέδια τους.
  32. Σύνολο δεδομένων CQ500 — το σύνολο δεδομένων περιέχει 491 αξονικές τομογραφίες της κεφαλής με 193 φέτες.
  33. Σύνολο δεδομένων IMDB-Wiki — ένα σύνολο δεδομένων με περισσότερες από 5 εκατομμύρια εικόνες προσώπων που επισημαίνονται κατά φύλο και ηλικία. (Επιλογή εφαρμογής με ενεργοποιημένο τον πηγαίο κώδικα Έργο Python για ανίχνευση φύλου και ηλικίας)
  34. Σύνολο δεδομένων Youtube 8M - Ένα σύνολο δεδομένων βίντεο με ετικέτα που περιέχει 6,1 εκατομμύρια αναγνωριστικά βίντεο YouTube
  35. Δεδομένα Urban Sound 8K — ένα σύνολο δεδομένων αστικού ήχου (περιέχει 8732 αστικούς ήχους από 10 κατηγορίες).
  36. Σύνολο δεδομένων LSUN - ένα σύνολο δεδομένων από εκατομμύρια έγχρωμες εικόνες σκηνών και αντικειμένων (περίπου 59 εκατομμύρια εικόνες, 10 διαφορετικές κατηγορίες σκηνών και 20 διαφορετικές κατηγορίες αντικειμένων).
  37. Σύνολο δεδομένων RAVDESS — οπτικοακουστική βάση δεδομένων συναισθηματικού λόγου. (Επιλογή εφαρμογής με ενεργοποιημένο τον πηγαίο κώδικα Έργο Python για την αναγνώριση συναισθημάτων ομιλίας)
  38. Σύνολο δεδομένων Librispeech — το σύνολο δεδομένων περιέχει 1000 ώρες αγγλικής ομιλίας με διαφορετικές προφορές.
  39. Σύνολο δεδομένων Baidu Apolloscape — ένα σύνολο δεδομένων για την ανάπτυξη τεχνολογιών αυτόνομης οδήγησης.
  40. Quandl Data Portal — αποθήκη οικονομικών και χρηματοοικονομικών δεδομένων (υπάρχει δωρεάν και επί πληρωμή περιεχόμενο).
  41. Η Πύλη Ανοικτών Δεδομένων της Παγκόσμιας Τράπεζας — πληροφορίες για δάνεια που χορηγεί η Παγκόσμια Τράπεζα σε αναπτυσσόμενες χώρες.
  42. Πύλη δεδομένων του ΔΝΤ είναι μια διεθνής πύλη νομισματικών ταμείων που δημοσιεύει δεδομένα για διεθνή χρηματοοικονομικά, επιτόκια χρέους, επενδύσεις, συναλλαγματικά αποθέματα και εμπορεύματα.
  43. Πύλη δεδομένων της Αμερικανικής Οικονομικής Ένωσης (AEA). - Ένας πόρος για την αναζήτηση μακροοικονομικών δεδομένων των ΗΠΑ.
  44. Πύλη δεδομένων Google Trends - Τα δεδομένα τάσεων της Google μπορούν να χρησιμοποιηθούν για οπτική εξερεύνηση και ανάλυση δεδομένων.
  45. Πύλη δεδομένων Financial Times Market είναι μια πηγή για ενημερωμένες πληροφορίες για τις χρηματοπιστωτικές αγορές από όλο τον κόσμο.
  46. Πύλη Data.gov - Πύλη ανοιχτών δεδομένων της κυβέρνησης των ΗΠΑ (γεωργία, υγεία, κλίμα, εκπαίδευση, ενέργεια, οικονομικά, επιστήμη και έρευνα, κ.λπ.).
  47. Πύλη δεδομένων: Ανοιχτά κρατικά δεδομένα (Ινδία) είναι η ανοιχτή πλατφόρμα δεδομένων κυβέρνησης της Ινδίας.
  48. Περιβάλλον τροφίμων Atlas Data Portal — περιέχει ερευνητικά δεδομένα για τη διατροφή στις Ηνωμένες Πολιτείες.
  49. Πύλη Δεδομένων Υγείας είναι μια πύλη του Υπουργείου Υγείας και Ανθρωπίνων Υπηρεσιών των ΗΠΑ.
  50. Πύλη δεδομένων Κέντρων Ελέγχου και Πρόληψης Νοσημάτων - περιέχει ένα ευρύ φάσμα δεδομένων που σχετίζονται με την υγεία.
  51. Πύλη London Datastore - δεδομένα για τη ζωή των ανθρώπων στο Λονδίνο.
  52. Πύλη ανοιχτών δεδομένων της κυβέρνησης του Καναδά - μια πύλη ανοιχτών δεδομένων για τους Καναδούς (γεωργία, τέχνη, μουσική, εκπαίδευση, κυβέρνηση, υγειονομική περίθαλψη κ.λπ.)

Διαβάστε περισσότερα

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο