Zbiór danych klientów centrum handlowego — dane osób odwiedzających sklep: identyfikator, płeć, wiek, dochód, ocena wydatków. (Opcja aplikacji:Projekt segmentacji klientów z wykorzystaniem uczenia maszynowego )Zbiór danych tęczówki — zbiór danych dla początkujących, zawierający rozmiary działek i płatków różnych kwiatów.Zbiór danych MNIST — zbiór danych liczb pisanych ręcznie. 60 000 obrazów treningowych i 10 000 obrazów testowych.Zbiór danych dotyczących mieszkań w Bostonie to popularny zbiór danych do rozpoznawania wzorców. Zawiera informacje o domach w Bostonie: liczba mieszkań, ceny wynajmu, wskaźnik przestępczości.Zbiór danych dotyczących wykrywania fałszywych wiadomości — zawiera 7796 wpisów z oznaczeniami informacyjnymi: prawda lub fałsz. (Opcja aplikacji z kodem źródłowym w Pythonie:Projekt w języku Python dotyczący wykrywania fałszywych wiadomości )Zbiór danych o jakości wina — zawiera informacje o winie: 4898 rekordów z 14 parametrami.Dane SOCR – zbiór danych dotyczących wzrostu i masy ciała - dobra opcja na początek. Zawiera 25 000 zapisów wzrostu i masy ciała 18-latków.
Artykuł został przetłumaczony przy wsparciu firmy EDISON Software, która„doskonale” realizuje zamówienia z południowych Chin a takżetworzy aplikacje i strony internetowe .Zbiór danych Parkinsona — 195 rekordów pacjentów z chorobą Parkinsona, z 25 parametrami analizy. Można go wykorzystać do wstępnej oceny różnicy między osobami chorymi i zdrowymi. (Opcja aplikacji z kodem źródłowym w Pythonie:Projekt uczenia maszynowego dotyczący wykrywania choroby Parkinsona )Zbiór danych Titanica — zawiera informacje o pasażerach (wiek, płeć, krewni na pokładzie itp.) 891 w zbiorze szkoleniowym i 418 w zbiorze testowym.Zbiór danych dotyczących odbioru Ubera — informacja o 4.5 mln przejazdów Uberem w 2014 r. i 14 mln w 2015 r. (Opcja aplikacji z kodem źródłowym w R:Projekt analizy danych Ubera w R )Zbiór danych Chars74k — zawiera obrazy symboli brytyjskich i kanadyjskich 64 klas: 0-9, AZ, az. 7700 naturalnych obrazów o rozdzielczości 7.7 tys., 3400 tys. napisów odręcznych, 62000 XNUMX czcionek syntetyzowanych komputerowo.Zbiór danych dotyczących wykrywania oszustw związanych z kartami kredytowymi — zawiera informacje o transakcjach dokonanych za pomocą skompromitowanych kart kredytowych. (Opcja aplikacji ze źródłem:Projekt uczenia maszynowego wykrywania oszustw związanych z kartami kredytowymi )Zbiór danych dotyczących zamiarów Chatbota — plik JSON zawierający różne tagi: pozdrowienia, do widzenia, wyszukiwanie_szpitala, wyszukiwanie_apteki itp. Zawiera zestaw szablonów pytań i odpowiedzi. (Opcja aplikacji z kodem źródłowym w Pythonie:Projekt Chatbota w Pythonie )Zestaw danych e-mail firmy Enron — zawiera pół miliona listów od 150 menedżerów Enronu.Zbiór danych Yelp — zawiera 1,2 miliona rekomendacji od 1,6 miliona użytkowników z około 1,2 miliona organizacji.Zbiór danych o zagrożeniu — ponad 200 000 nagrań pytań i odpowiedzi z popularnej gry telewizyjnej.Zbiór danych systemów rekomendujących — portal ze zbiorem zbiorów danych z Uniwersytetu UCSD. Zawiera zapisy recenzji w popularnych serwisach (Goodreads, Amazon). Świetnie nadaje się do tworzenia systemów rekomendacyjnych. (Opcja aplikacji z kodem źródłowym w R:Projekt Systemu Rekomendacji Filmów w R )Zbiór danych bazy spamu UCI — zbiór danych szkoleniowych do wykrywania spamu. Zawiera 4601 liter z 57 parametrami metadanych.Zbiór danych Flickr 30k — ponad 30 000 zdjęć i podpisów. (Zbiór danych Flickr 8k — 8000 obrazów. Projekt źródłowy Pythona:Projekt generatora podpisów obrazów w języku Python )Recenzje IMDB — 25 000 recenzji filmów w zbiorze treningowym i 25 000 w zbiorze testowym. (Opcja aplikacji z kodem źródłowym w R:Projekt analizy danych dotyczących analizy nastrojów )Zbiór danych MS COCO — 1,5 miliona oznaczonych zdjęć.Zbiór danych CIFAR-10 i CIFAR-100 — CIFAR-10 zawiera 60,000 32 małych obrazów o wymiarach 32*0 pikseli i numerach 9-100. CIFAR-0 - odpowiednio 100-XNUMX.Zbiór danych GTSRB (niemiecki punkt odniesienia w zakresie rozpoznawania znaków drogowych). — 50 000 obrazów 43 znaków drogowych. (Opcja aplikacji z kodem źródłowym w Pythonie:Projekt w języku Python dotyczący rozpoznawania znaków drogowych )Zbiór danych ImageNet — zawiera ponad 100 000 fraz i około 1000 obrazów na frazę.Zbiór danych obrazów histopatologicznych piersi — zbiór danych zawiera obrazy próbek raka piersi. (Opcja aplikacji z włączonym kodem źródłowymProjekt Python dotyczący klasyfikacji raka piersi )Zestaw danych Cityscapes — zawiera wysokiej jakości adnotacje sekwencji wideo ulic w różnych miastach.Zbiór danych kinetycznych - zawiera link URL do około 6,5 miliona filmów wysokiej jakości.Zbiór danych o pozycjach ludzkich MPII — zbiór danych zawiera 25 000 zdjęć póz ludzkich ze wspólnymi adnotacjami.Zestaw danych 20BN-coś-coś v2 - zestaw wysokiej jakości filmów pokazujących, jak dana osoba wykonuje jakąś czynność.Zbiór danych obiektu 365 — zbiór danych wysokiej jakości obrazów z ramkami ograniczającymi obiekty.Zbiór danych szkicowania zdjęć — zawiera ponad 1000 zdjęć wraz z rysunkami konspektu.Zbiór danych CQ500 — zbiór danych zawiera 491 tomografii komputerowej głowy obejmujących 193 317 przekrojów.Zbiór danych IMDB-Wiki — zbiór danych zawierający ponad 5 milionów zdjęć twarzy oznaczonych płcią i wiekiem. (Opcja aplikacji z włączonym kodem źródłowymProjekt w języku Python dotyczący wykrywania płci i wieku )Zbiór danych YouTube 8M - Oznaczony zbiór danych wideo zawierający 6,1 miliona identyfikatorów filmów w serwisie YouTubeZbiór danych Urban Sound 8K — zbiór danych dźwiękowych miast (zawiera 8732 dźwięków miejskich z 10 klas).Zbiór danych LSUN - zbiór danych milionów kolorowych obrazów scen i obiektów (około 59 milionów obrazów, 10 różnych kategorii scen i 20 różnych kategorii obiektów).Zbiór danych RAVDESS — audiowizualna baza danych mowy emocjonalnej. (Opcja aplikacji z włączonym kodem źródłowymProjekt w języku Python dotyczący rozpoznawania emocji mowy )Zbiór danych Librispeech — zbiór danych zawiera 1000 godzin mowy angielskiej z różnymi akcentami.Zbiór danych Baidu Apolloscape — zbiór danych na potrzeby rozwoju technologii pojazdów autonomicznych.Portal danych Quandl — repozytorium danych ekonomiczno-finansowych (dostępne są treści bezpłatne i płatne).Portal Otwartych Danych Banku Światowego — informacje o pożyczkach udzielonych przez Bank Światowy krajom rozwijającym się.Portal danych MFW to międzynarodowy portal funduszy walutowych, który publikuje dane dotyczące finansów międzynarodowych, stóp zadłużenia, inwestycji, rezerw walutowych i towarów.Portal danych Amerykańskiego Stowarzyszenia Ekonomicznego (AEA). - Źródło do wyszukiwania danych makroekonomicznych z USA.Portal danych o trendach Google - Dane trendów Google można wykorzystać do wizualnego eksplorowania i analizowania danych.Portal danych rynkowych Financial Times to źródło aktualnych informacji o rynkach finansowych z całego świata.portalu Data.gov - Portal otwartych danych rządu USA (rolnictwo, zdrowie, klimat, edukacja, energia, finanse, nauka i badania itp.).Portal danych: otwarte dane rządowe (Indie) to otwarta platforma danych rządowych w Indiach.Środowisko żywnościowe Portal danych Atlas — zawiera dane badawcze dotyczące żywienia w Stanach Zjednoczonych.Portal danych zdrowotnych to portal Departamentu Zdrowia i Opieki Społecznej Stanów Zjednoczonych.Portal danych Centrów Kontroli i Zapobiegania Chorobom - zawiera szeroki zakres danych związanych ze zdrowiem.Portal magazynu danych w Londynie - dane o życiu ludzi w Londynie.Portal otwartych danych rządu Kanady - portal otwartych danych o Kanadyjczykach (rolnictwo, sztuka, muzyka, edukacja, rząd, służba zdrowia itp.)
Czytaj więcej
14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne) Dojo front-endowe: projekty rozwijające umiejętności programistów (5 nowych + 43 stare) Top 12 najciekawszych infografik dynamicznych IT
Źródło: www.habr.com