Datový soubor zákazníků Mall — údaje o návštěvnících obchodu: id, pohlaví, věk, příjem, hodnocení útraty. (Možnost aplikace:Projekt segmentace zákazníků se strojovým učením )Datový soubor Iris — soubor dat pro začátečníky, obsahující velikosti sepalů a okvětních lístků pro různé květiny.Datová sada MNIST — datový soubor ručně psaných čísel. 60 000 tréninkových snímků a 10 000 testovacích snímků.Boston Housing Dataset je populární datová sada pro rozpoznávání vzorů. Obsahuje informace o domech v Bostonu: počet bytů, ceny pronájmu, index kriminality.Datová sada detekce falešných zpráv — obsahuje 7796 záznamů s označením zpráv: true nebo false. (Možnost aplikace se zdrojovým kódem v Pythonu:Projekt Python pro detekci falešných zpráv )Soubor údajů o kvalitě vína — obsahuje informace o víně: 4898 záznamů se 14 parametry.SOCR data – datový soubor výšek a vah - dobrá volba pro začátek. Obsahuje 25 000 záznamů o výšce a váze 18letých lidí.
Článek byl přeložen s podporou EDISON Software, kteráplní objednávky z jižní Číny „výborně“ avyvíjí webové aplikace a webové stránky .Parkinsonova datová sada — 195 záznamů pacientů s Parkinsonovou nemocí s 25 parametry analýzy. Může být použit pro předběžné posouzení rozdílu mezi nemocnými a zdravými lidmi. (Možnost aplikace se zdrojovým kódem v Pythonu:Projekt strojového učení o detekci Parkinsonovy choroby )Datový soubor Titanic — obsahuje informace o cestujících (věk, pohlaví, příbuzní na palubě atd.) 891 ve výcvikové sadě a 418 v testovací sadě.Datová sada Uber Pickups — informace o 4.5 milionu cest na Uber v roce 2014 a 14 milionech v roce 2015. (Možnost aplikace se zdrojovým kódem v R:Projekt analýzy dat Uber v R )Dataset Chars74k — obsahuje obrázky britských a kanadských symbolů 64 tříd: 0-9, AZ, az. 7700 7.7k přirozených obrázků, 3400k ručně psaných, 62000 počítačově syntetizovaných písem.Datový soubor detekce podvodů s kreditní kartou — obsahuje informace o transakcích kompromitovaných kreditních karet. (Možnost aplikace se zdrojem:Projekt strojového učení na zjišťování podvodů s kreditními kartami )Chatbot Intents Dataset — soubor JSON, který obsahuje různé značky: pozdravy, sbohem, hospital_search, pharmaceutical_search atd. Obsahuje sadu šablon otázek a odpovědí. (Možnost aplikace se zdrojovým kódem v Pythonu:Projekt Chatbot v Pythonu )Enron Email Dataset — obsahuje půl milionu dopisů od 150 manažerů Enronu.Datová sada Yelp — obsahuje 1,2 milionu doporučení od 1,6 milionu uživatelů asi 1,2 milionu organizací.Datová sada ohrožení — více než 200 000 nahrávek otázek a odpovědí z populární televizní hry.Dataset doporučených systémů — portál se sbírkou datových souborů z UCSD University. Obsahuje záznamy recenzí na oblíbených stránkách (Goodreads, Amazon). Skvělé pro vytváření doporučovacích systémů. (Možnost aplikace se zdrojovým kódem v R:Projekt systému filmového doporučení v R )Dataset UCI Spambase — trénovací datový soubor pro detekci spamu. Obsahuje 4601 písmen s 57 parametry metadat.Dataset Flickr 30k — více než 30 000 obrázků a popisků. (Dataset Flickr 8k — 8000 snímků. Zdrojový projekt Pythonu:Projekt Python generátoru popisků obrázků )Recenze IMDB — 25 000 filmových recenzí v tréninkové sadě a 25 000 v testovací sadě. (Možnost aplikace se zdrojovým kódem v R:Sentiment Analysis Data Science Project )MS COCO datový soubor — 1,5 milionu označených obrázků.Soubor dat CIFAR-10 a CIFAR-100 — CIFAR-10 obsahuje 60,000 32 malých obrázků 32*0 pixelů s čísly 9-100. CIFAR-0 - respektive 100-XNUMX.GTSRB (německý benchmark rozpoznávání dopravních značek) Dataset — 50 000 obrázků 43 dopravních značek. (Možnost aplikace se zdrojovým kódem v Pythonu:Projekt Python pro rozpoznávání dopravních značek )Dataset ImageNet — obsahuje více než 100 000 frází a asi 1000 obrázků na frázi.Datový soubor histopatologických snímků prsu — datový soubor obsahuje obrázky vzorků rakoviny prsu. (Možnost aplikace se zapnutým zdrojovým kódemProjekt Python klasifikace rakoviny prsu )Datová sada měst — obsahuje vysoce kvalitní anotace videosekvencí ulic v různých městech.Kinetická datová sada - obsahuje URL odkaz na asi 6,5 milionu vysoce kvalitních videí.Datový soubor MPII lidské pózy — datový soubor obsahuje 25 000 snímků lidských pozic se společnými anotacemi.Datová sada 20BN-něco-něco v2 - soubor vysoce kvalitních videí, která ukazují, jak člověk provádí nějakou akci.Dataset objektu 365 — datová sada vysoce kvalitních obrázků s rámečky ohraničujícími objekty.Datový soubor pro skicování fotografií — obsahuje více než 1000 obrázků s jejich obrysovými kresbami.Dataset CQ500 — datový soubor obsahuje 491 CT skenů hlavy se 193 317 řezy.Datová sada IMDB-Wiki — soubor dat s více než 5 miliony snímků tváří označených pohlavím a věkem. (Možnost aplikace se zapnutým zdrojovým kódemProjekt Python pro zjišťování pohlaví a věku )Datový soubor Youtube 8M - Označená datová sada videa, která obsahuje 6,1 milionu ID videí YouTubeDataset Urban Sound 8K — soubor městských zvukových dat (obsahuje 8732 městských zvuků z 10 tříd).Dataset LSUN - datový soubor milionů barevných obrázků scén a objektů (asi 59 milionů obrázků, 10 různých kategorií scén a 20 různých kategorií objektů).Dataset RAVDESS — audiovizuální databáze emocionální řeči. (Možnost aplikace se zapnutým zdrojovým kódemProjekt Python pro rozpoznávání emocí řeči )Dataset Librispeech — datová sada obsahuje 1000 hodin anglické řeči s různými přízvuky.Datová sada Baidu Apolloscape — soubor dat pro vývoj technologií pro autonomní řízení.Datový portál Quandl — úložiště ekonomických a finančních dat (existuje bezplatný i placený obsah).Portál otevřených dat Světové banky — informace o půjčkách poskytnutých Světovou bankou rozvojovým zemím.Datový portál MMF je portál mezinárodního měnového fondu, který publikuje údaje o mezinárodních financích, míře zadlužení, investicích, devizových rezervách a komoditách.Datový portál Americké ekonomické asociace (AEA). - Zdroj pro vyhledávání amerických makroekonomických dat.Datový portál Google Trends - Data trendů Google lze použít k vizuálnímu zkoumání a analýze dat.Financial Times Market Data Portal je zdrojem aktuálních informací o finančních trzích z celého světa.Portál Data.gov - Portál otevřených dat vlády USA (zemědělství, zdravotnictví, klima, vzdělávání, energetika, finance, věda a výzkum atd.).Datový portál: Otevřená vládní data (Indie) je indická otevřená vládní datová platforma.Potravinový portál Atlas Data Portal — obsahuje výzkumná data o výživě ve Spojených státech.Portál zdravotních údajů je portál amerického ministerstva zdravotnictví a sociálních služeb.Datový portál Centra pro kontrolu a prevenci nemocí - obsahuje širokou škálu údajů týkajících se zdraví.London Datastore Portal - údaje o životě lidí v Londýně.Kanadský vládní portál otevřených dat - portál otevřených dat o Kanaďanech (zemědělství, umění, hudba, vzdělávání, vláda, zdravotnictví atd.)
Přečtěte si více
14 open-source projektů pro zlepšení dovedností Data Science (snadné, normální, těžké) Front-end dojo: projekty pro výcvik vývojářských dovedností (5 nových + 43 starých) Top 12 nejzajímavějších IT dynamických infografik
Zdroj: www.habr.com