52 zbiory danych do projektów szkoleniowych

  1. Zbiór danych klientów centrum handlowego — dane osób odwiedzających sklep: identyfikator, płeć, wiek, dochód, ocena wydatków. (Opcja aplikacji: Projekt segmentacji klientów z wykorzystaniem uczenia maszynowego)
  2. Zbiór danych tęczówki — zbiór danych dla początkujących, zawierający rozmiary działek i płatków różnych kwiatów.
  3. Zbiór danych MNIST — zbiór danych liczb pisanych ręcznie. 60 000 obrazów treningowych i 10 000 obrazów testowych.
  4. Zbiór danych dotyczących mieszkań w Bostonie to popularny zbiór danych do rozpoznawania wzorców. Zawiera informacje o domach w Bostonie: liczba mieszkań, ceny wynajmu, wskaźnik przestępczości.
  5. Zbiór danych dotyczących wykrywania fałszywych wiadomości — zawiera 7796 wpisów z oznaczeniami informacyjnymi: prawda lub fałsz. (Opcja aplikacji z kodem źródłowym w Pythonie: Projekt w języku Python dotyczący wykrywania fałszywych wiadomości )
  6. Zbiór danych o jakości wina — zawiera informacje o winie: 4898 rekordów z 14 parametrami.
  7. Dane SOCR – zbiór danych dotyczących wzrostu i masy ciała - dobra opcja na początek. Zawiera 25 000 zapisów wzrostu i masy ciała 18-latków.

    52 zbiory danych do projektów szkoleniowych

    Artykuł został przetłumaczony przy wsparciu firmy EDISON Software, która „doskonale” realizuje zamówienia z południowych China także tworzy aplikacje i strony internetowe.

  8. Zbiór danych Parkinsona — 195 rekordów pacjentów z chorobą Parkinsona, z 25 parametrami analizy. Można go wykorzystać do wstępnej oceny różnicy między osobami chorymi i zdrowymi. (Opcja aplikacji z kodem źródłowym w Pythonie: Projekt uczenia maszynowego dotyczący wykrywania choroby Parkinsona)
  9. Zbiór danych Titanica — zawiera informacje o pasażerach (wiek, płeć, krewni na pokładzie itp.) 891 w zbiorze szkoleniowym i 418 w zbiorze testowym.
  10. Zbiór danych dotyczących odbioru Ubera — informacja o 4.5 mln przejazdów Uberem w 2014 r. i 14 mln w 2015 r. (Opcja aplikacji z kodem źródłowym w R: Projekt analizy danych Ubera w R)
  11. Zbiór danych Chars74k — zawiera obrazy symboli brytyjskich i kanadyjskich 64 klas: 0-9, AZ, az. 7700 naturalnych obrazów o rozdzielczości 7.7 tys., 3400 tys. napisów odręcznych, 62000 XNUMX czcionek syntetyzowanych komputerowo.
  12. Zbiór danych dotyczących wykrywania oszustw związanych z kartami kredytowymi — zawiera informacje o transakcjach dokonanych za pomocą skompromitowanych kart kredytowych. (Opcja aplikacji ze źródłem: Projekt uczenia maszynowego wykrywania oszustw związanych z kartami kredytowymi)
  13. Zbiór danych dotyczących zamiarów Chatbota — plik JSON zawierający różne tagi: pozdrowienia, do widzenia, wyszukiwanie_szpitala, wyszukiwanie_apteki itp. Zawiera zestaw szablonów pytań i odpowiedzi. (Opcja aplikacji z kodem źródłowym w Pythonie: Projekt Chatbota w Pythonie)
  14. Zestaw danych e-mail firmy Enron — zawiera pół miliona listów od 150 menedżerów Enronu.
  15. Zbiór danych Yelp — zawiera 1,2 miliona rekomendacji od 1,6 miliona użytkowników z około 1,2 miliona organizacji.
  16. Zbiór danych o zagrożeniu — ponad 200 000 nagrań pytań i odpowiedzi z popularnej gry telewizyjnej.
  17. Zbiór danych systemów rekomendujących — portal ze zbiorem zbiorów danych z Uniwersytetu UCSD. Zawiera zapisy recenzji w popularnych serwisach (Goodreads, Amazon). Świetnie nadaje się do tworzenia systemów rekomendacyjnych. (Opcja aplikacji z kodem źródłowym w R: Projekt Systemu Rekomendacji Filmów w R )
  18. Zbiór danych bazy spamu UCI — zbiór danych szkoleniowych do wykrywania spamu. Zawiera 4601 liter z 57 parametrami metadanych.
  19. Zbiór danych Flickr 30k — ponad 30 000 zdjęć i podpisów. (Zbiór danych Flickr 8k — 8000 obrazów. Projekt źródłowy Pythona: Projekt generatora podpisów obrazów w języku Python)
  20. Recenzje IMDB — 25 000 recenzji filmów w zbiorze treningowym i 25 000 w zbiorze testowym. (Opcja aplikacji z kodem źródłowym w R: Projekt analizy danych dotyczących analizy nastrojów)
  21. Zbiór danych MS COCO — 1,5 miliona oznaczonych zdjęć.
  22. Zbiór danych CIFAR-10 i CIFAR-100 — CIFAR-10 zawiera 60,000 32 małych obrazów o wymiarach 32*0 pikseli i numerach 9-100. CIFAR-0 - odpowiednio 100-XNUMX.
  23. Zbiór danych GTSRB (niemiecki punkt odniesienia w zakresie rozpoznawania znaków drogowych). — 50 000 obrazów 43 znaków drogowych. (Opcja aplikacji z kodem źródłowym w Pythonie: Projekt w języku Python dotyczący rozpoznawania znaków drogowych)
  24. Zbiór danych ImageNet — zawiera ponad 100 000 fraz i około 1000 obrazów na frazę.
  25. Zbiór danych obrazów histopatologicznych piersi — zbiór danych zawiera obrazy próbek raka piersi. (Opcja aplikacji z włączonym kodem źródłowym Projekt Python dotyczący klasyfikacji raka piersi)
  26. Zestaw danych Cityscapes — zawiera wysokiej jakości adnotacje sekwencji wideo ulic w różnych miastach.
  27. Zbiór danych kinetycznych - zawiera link URL do około 6,5 miliona filmów wysokiej jakości.
  28. Zbiór danych o pozycjach ludzkich MPII — zbiór danych zawiera 25 000 zdjęć póz ludzkich ze wspólnymi adnotacjami.
  29. Zestaw danych 20BN-coś-coś v2 - zestaw wysokiej jakości filmów pokazujących, jak dana osoba wykonuje jakąś czynność.
  30. Zbiór danych obiektu 365 — zbiór danych wysokiej jakości obrazów z ramkami ograniczającymi obiekty.
  31. Zbiór danych szkicowania zdjęć — zawiera ponad 1000 zdjęć wraz z rysunkami konspektu.
  32. Zbiór danych CQ500 — zbiór danych zawiera 491 tomografii komputerowej głowy obejmujących 193 317 przekrojów.
  33. Zbiór danych IMDB-Wiki — zbiór danych zawierający ponad 5 milionów zdjęć twarzy oznaczonych płcią i wiekiem. (Opcja aplikacji z włączonym kodem źródłowym Projekt w języku Python dotyczący wykrywania płci i wieku)
  34. Zbiór danych YouTube 8M - Oznaczony zbiór danych wideo zawierający 6,1 miliona identyfikatorów filmów w serwisie YouTube
  35. Zbiór danych Urban Sound 8K — zbiór danych dźwiękowych miast (zawiera 8732 dźwięków miejskich z 10 klas).
  36. Zbiór danych LSUN - zbiór danych milionów kolorowych obrazów scen i obiektów (około 59 milionów obrazów, 10 różnych kategorii scen i 20 różnych kategorii obiektów).
  37. Zbiór danych RAVDESS — audiowizualna baza danych mowy emocjonalnej. (Opcja aplikacji z włączonym kodem źródłowym Projekt w języku Python dotyczący rozpoznawania emocji mowy)
  38. Zbiór danych Librispeech — zbiór danych zawiera 1000 godzin mowy angielskiej z różnymi akcentami.
  39. Zbiór danych Baidu Apolloscape — zbiór danych na potrzeby rozwoju technologii pojazdów autonomicznych.
  40. Portal danych Quandl — repozytorium danych ekonomiczno-finansowych (dostępne są treści bezpłatne i płatne).
  41. Portal Otwartych Danych Banku Światowego — informacje o pożyczkach udzielonych przez Bank Światowy krajom rozwijającym się.
  42. Portal danych MFW to międzynarodowy portal funduszy walutowych, który publikuje dane dotyczące finansów międzynarodowych, stóp zadłużenia, inwestycji, rezerw walutowych i towarów.
  43. Portal danych Amerykańskiego Stowarzyszenia Ekonomicznego (AEA). - Źródło do wyszukiwania danych makroekonomicznych z USA.
  44. Portal danych o trendach Google - Dane trendów Google można wykorzystać do wizualnego eksplorowania i analizowania danych.
  45. Portal danych rynkowych Financial Times to źródło aktualnych informacji o rynkach finansowych z całego świata.
  46. portalu Data.gov - Portal otwartych danych rządu USA (rolnictwo, zdrowie, klimat, edukacja, energia, finanse, nauka i badania itp.).
  47. Portal danych: otwarte dane rządowe (Indie) to otwarta platforma danych rządowych w Indiach.
  48. Środowisko żywnościowe Portal danych Atlas — zawiera dane badawcze dotyczące żywienia w Stanach Zjednoczonych.
  49. Portal danych zdrowotnych to portal Departamentu Zdrowia i Opieki Społecznej Stanów Zjednoczonych.
  50. Portal danych Centrów Kontroli i Zapobiegania Chorobom - zawiera szeroki zakres danych związanych ze zdrowiem.
  51. Portal magazynu danych w Londynie - dane o życiu ludzi w Londynie.
  52. Portal otwartych danych rządu Kanady - portal otwartych danych o Kanadyjczykach (rolnictwo, sztuka, muzyka, edukacja, rząd, służba zdrowia itp.)

Czytaj więcej

Źródło: www.habr.com

Dodaj komentarz