52 Datensätze für Trainingsprojekte

  1. Datensatz für Mall-Kunden — Daten der Ladenbesucher: ID, Geschlecht, Alter, Einkommen, Ausgabebewertung. (Bewerbungsmöglichkeit: Kundensegmentierungsprojekt mit maschinellem Lernen)
  2. Iris-Datensatz – ein Datensatz für Anfänger, der die Größen der Kelch- und Blütenblätter verschiedener Blumen enthält.
  3. MNIST-Datensatz – ein Datensatz handgeschriebener Zahlen. 60 Trainingsbilder und 000 Testbilder.
  4. Der Boston Housing-Datensatz ist ein beliebter Datensatz zur Mustererkennung. Enthält Informationen über Häuser in Boston: Anzahl der Wohnungen, Mietpreise, Kriminalitätsindex.
  5. Datensatz zur Erkennung gefälschter Nachrichten – enthält 7796 Einträge mit Nachrichtenmarkierungen: wahr oder falsch. (Anwendungsmöglichkeit mit Quellcode in Python: Python-Projekt zur Erkennung gefälschter Nachrichten )
  6. Datensatz zur Weinqualität — enthält Informationen über Wein: 4898 Datensätze mit 14 Parametern.
  7. SOCR-Daten – Datensatz zu Höhen und Gewichten - eine gute Option für den Anfang. Enthält 25 Datensätze zu Größe und Gewicht von 000-Jährigen.

    52 Datensätze für Trainingsprojekte

    Der Artikel wurde mit Unterstützung von EDISON Software übersetzt Erfüllt Aufträge aus Südchina „exzellent“, und auch entwickelt Webanwendungen und Websites.

  8. Parkinson-Datensatz — 195 Datensätze von Patienten mit Parkinson-Krankheit, mit 25 Analyseparametern. Kann zur vorläufigen Beurteilung des Unterschieds zwischen kranken und gesunden Menschen verwendet werden. (Anwendungsmöglichkeit mit Quellcode in Python: Maschinelles Lernprojekt zur Erkennung der Parkinson-Krankheit)
  9. Titanic-Datensatz – enthält Informationen über Passagiere (Alter, Geschlecht, Verwandte an Bord usw.) 891 im Trainingssatz und 418 im Testsatz.
  10. Uber Pickups-Datensatz — Informationen über 4.5 Millionen Fahrten mit Uber im Jahr 2014 und 14 Millionen im Jahr 2015. (Anwendungsmöglichkeit mit Quellcode in R: Uber-Datenanalyseprojekt in R)
  11. Chars74k-Datensatz – enthält Bilder britischer und kanadischer Symbole aus 64 Klassen: 0-9, AZ, az. 7700 7.7 natürliche Bilder, 3400 handschriftliche Bilder, 62000 computersynthetisierte Schriftarten.
  12. Datensatz zur Erkennung von Kreditkartenbetrug – enthält Informationen über Transaktionen kompromittierter Kreditkarten. (Bewerbungsmöglichkeit mit Quellenangabe: Maschinelles Lernprojekt zur Erkennung von Kreditkartenbetrug)
  13. Chatbot-Intents-Datensatz – eine JSON-Datei, die verschiedene Tags enthält: Greetings, Goodbye, Hospital_search, Pharmacy_search usw. Enthält eine Reihe von Frage-Antwort-Vorlagen. (Anwendungsmöglichkeit mit Quellcode in Python: Chatbot-Projekt in Python)
  14. Enron-E-Mail-Datensatz – enthält eine halbe Million Briefe von 150 Enron-Managern.
  15. Der Yelp-Datensatz – enthält 1,2 Millionen Empfehlungen von 1,6 Millionen Benutzern und 1,2 Millionen Organisationen.
  16. Gefährdungsdatensatz — mehr als 200 Frage-und-Antwort-Aufzeichnungen des beliebten Fernsehspiels.
  17. Empfehlungssystem-Datensatz – ein Portal mit einer Sammlung von Datensätzen der UCSD University. Enthält Aufzeichnungen von Rezensionen auf beliebten Websites (Goodreads, Amazon). Ideal zum Erstellen von Empfehlungssystemen. (Anwendungsmöglichkeit mit Quellcode in R: Filmempfehlungssystemprojekt in R )
  18. UCI-Spambase-Datensatz – ein Trainingsdatensatz zur Spam-Erkennung. Enthält 4601 Briefe mit 57 Metadatenparametern.
  19. Flickr 30k-Datensatz – mehr als 30 Bilder und Bildunterschriften. (Flickr 8k-Datensatz — 8000 Bilder. Python-Quellprojekt: Python-Projekt zum Generator von Bildunterschriften)
  20. IMDB-Bewertungen – 25 Filmrezensionen im Trainingsset und 000 im Testset. (Anwendungsmöglichkeit mit Quellcode in R: Sentiment Analysis Data Science-Projekt)
  21. MS COCO-Datensatz – 1,5 Millionen getaggte Bilder.
  22. CIFAR-10- und CIFAR-100-Datensatz — CIFAR-10 enthält 60,000 kleine Bilder mit 32*32 Pixeln und den Nummern 0-9. CIFAR-100 - bzw. 0-100.
  23. GTSRB-Datensatz (deutscher Benchmark zur Verkehrszeichenerkennung). — 50 Bilder von 000 Verkehrszeichen. (Anwendungsmöglichkeit mit Quellcode in Python: Python-Projekt zur Verkehrszeichenerkennung)
  24. ImageNet-Datensatz – enthält mehr als 100 Phrasen und etwa 000 Bilder pro Phrase.
  25. Datensatz mit Bildern zur Brusthistopathologie — Der Datensatz enthält Bilder von Brustkrebsproben. (Anwendungsoption mit aktiviertem Quellcode Python-Projekt zur Brustkrebsklassifizierung)
  26. Cityscapes-Datensatz — enthält hochwertige Anmerkungen zu Videosequenzen von Straßen in verschiedenen Städten.
  27. Kinetik-Datensatz - enthält einen URL-Link zu etwa 6,5 ​​Millionen hochwertigen Videos.
  28. MPII-Datensatz zur menschlichen Pose — Der Datensatz enthält 25 Bilder menschlicher Posen mit Gelenkanmerkungen.
  29. 20BN-etwas-etwas-Datensatz v2 - eine Reihe hochwertiger Videos, die zeigen, wie eine Person eine Aktion ausführt.
  30. Objekt 365-Datensatz – ein Datensatz hochwertiger Bilder mit Objektbegrenzungsrahmen.
  31. Foto-Skizzen-Datensatz — enthält mehr als 1000 Bilder mit ihren Umrisszeichnungen.
  32. CQ500-Datensatz — Der Datensatz enthält 491 CT-Scans des Kopfes mit 193 Schichten.
  33. IMDB-Wiki-Datensatz – ein Datensatz mit mehr als 5 Millionen Bildern von Gesichtern, gekennzeichnet nach Geschlecht und Alter. (Anwendungsoption mit aktiviertem Quellcode Python-Projekt zur Geschlechts- und Alterserkennung)
  34. Youtube 8M-Datensatz – Ein gekennzeichneter Videodatensatz, der 6,1 Millionen YouTube-Video-IDs enthält
  35. Urban Sound 8K-Datensatz — ein Satz städtischer Geräuschdaten (enthält 8732 städtische Geräusche aus 10 Klassen).
  36. LSUN-Datensatz - ein Datensatz mit Millionen Farbbildern von Szenen und Objekten (ca. 59 Millionen Bilder, 10 verschiedene Szenenkategorien und 20 verschiedene Objektkategorien).
  37. RAVDESS-Datensatz — audiovisuelle Datenbank emotionaler Sprache. (Anwendungsoption mit aktiviertem Quellcode Python-Projekt zur Erkennung von Sprachemotionen)
  38. Librispeech-Datensatz — Der Datensatz enthält 1000 Stunden englische Sprache mit unterschiedlichen Akzenten.
  39. Baidu Apolloscape-Datensatz — ein Datensatz für die Entwicklung selbstfahrender Technologien.
  40. Quandl-Datenportal — Repository für Wirtschafts- und Finanzdaten (es gibt kostenlose und kostenpflichtige Inhalte).
  41. Das offene Datenportal der Weltbank — Informationen über Kredite, die die Weltbank an Entwicklungsländer vergibt.
  42. IWF-Datenportal ist ein internationales Währungsfondsportal, das Daten zu internationalen Finanzen, Schuldensätzen, Investitionen, Devisenreserven und Rohstoffen veröffentlicht.
  43. Datenportal der American Economic Association (AEA). – Eine Ressource für die Suche nach makroökonomischen Daten aus den USA.
  44. Google Trends-Datenportal - Google-Trenddaten können zur visuellen Erkundung und Analyse von Daten verwendet werden.
  45. Marktdatenportal der Financial Times ist eine Quelle für aktuelle Informationen zu Finanzmärkten aus der ganzen Welt.
  46. Data.gov-Portal - Offenes Datenportal der US-Regierung (Landwirtschaft, Gesundheit, Klima, Bildung, Energie, Finanzen, Wissenschaft und Forschung usw.).
  47. Datenportal: Offene Regierungsdaten (Indien) ist Indiens offene Regierungsdatenplattform.
  48. Atlas-Datenportal zur Lebensmittelumwelt – enthält Forschungsdaten zur Ernährung in den Vereinigten Staaten.
  49. Gesundheitsdatenportal ist ein Portal des US-Gesundheitsministeriums.
  50. Datenportal der Zentren für die Kontrolle und Prävention von Krankheiten - enthält eine Vielzahl gesundheitsbezogener Daten.
  51. Londoner Datastore-Portal - Daten über das Leben der Menschen in London.
  52. Offenes Datenportal der kanadischen Regierung - ein Portal mit offenen Daten über Kanadier (Landwirtschaft, Kunst, Musik, Bildung, Regierung, Gesundheitswesen usw.)

Weiterlesen

Source: habr.com

Kommentar hinzufügen