Kaubanduskeskuse klientide andmestik — poekülastajate andmed: id, sugu, vanus, sissetulek, kuluhinnang. (Rakenduse valik:Masinõppega klientide segmenteerimise projekt )Irise andmestik — andmekogum algajatele, mis sisaldab erinevate lillede tupp- ja kroonlehtede suurusi.MNIST-i andmestik — käsitsi kirjutatud numbrite andmekogum. 60 000 treeningpilti ja 10 000 testpilti.Bostoni elamumajanduse andmekogum on populaarne mustrituvastuse andmestik. Sisaldab teavet majade kohta Bostonis: korterite arv, üürihinnad, kuritegevuse indeks.Võltsuudiste tuvastamise andmestik — sisaldab 7796 kirjet uudismärgistusega: tõene või vale. (Rakenduse valik koos lähtekoodiga Pythonis:Fake News Detection Pythoni projekt )Veini kvaliteedi andmestik — sisaldab teavet veini kohta: 4898 kirjet 14 parameetriga.SOCR-andmed – kõrguste ja kaalude andmestik - hea võimalus alustuseks. Sisaldab 25 000 kirjet 18-aastaste inimeste pikkuse ja kaalu kohta.
Artikkel on tõlgitud EDISON Tarkvara toel, mistäidab Lõuna-Hiina tellimusi "suurepäraselt" ningarendab veebirakendusi ja veebisaite .Parkinsoni andmestik — 195 dokumenti Parkinsoni tõvega patsientide kohta koos 25 analüüsiparameetriga. Võib kasutada haigete ja tervete inimeste erinevuse esialgseks hindamiseks. (Rakenduse valik koos lähtekoodiga Pythonis:Parkinsoni tõve tuvastamise masinõppeprojekt )Titanicu andmestik — sisaldab teavet reisijate kohta (vanus, sugu, sugulased pardal jne) 891 koolituskomplektis ja 418 testikomplektis.Uber Pickups andmestik — teave 4.5 miljoni reisi kohta Uberis 2014. aastal ja 14 miljoni reisi kohta 2015. aastal. (Rakenduse valik lähtekoodiga R-is:Uberi andmeanalüüsi projekt R )Chars74k andmestik — sisaldab pilte Briti ja Kanada sümbolitest 64 klassist: 0-9, AZ, az. 7700 7.7k loomulikku pilti, 3400k käsitsi kirjutatud, 62000 arvutis sünteesitud fonti.Krediitkaardipettuste tuvastamise andmestik — sisaldab teavet ohustatud krediitkaartidega tehtud tehingute kohta. (Rakenduse valik koos allikaga:Krediitkaardipettuste tuvastamise masinõppeprojekt )Chatbot Intentsi andmestik — JSON-fail, mis sisaldab erinevaid silte: tervitused, hüvastijätt, haigla_otsing, pharmacy_search jne. Sisaldab küsimuste-vastuste mallide komplekti. (Rakenduse valik koos lähtekoodiga Pythonis:Chatboti projekt Pythonis )Enroni e-posti andmekogum — sisaldab pool miljonit kirja 150 Enroni juhilt.Yelpi andmestik — sisaldab 1,2 miljonit soovitust 1,6 miljonilt kasutajalt umbes 1,2 miljonilt organisatsioonilt.Ohuandmete kogum — enam kui 200 000 küsimuste-vastuste salvestist populaarsest telemängust.Recommender Systems Dataset — portaal UCSD ülikooli andmekogumite kogumiga. Sisaldab populaarsete saitide (Goodreads, Amazon) arvustuste kirjeid. Suurepärane soovitussüsteemide loomiseks. (Rakenduse valik lähtekoodiga R-is:Filmisoovitussüsteemi projekt R-is )UCI Spambase Dataset — rämpsposti tuvastamise koolitusandmekogum. Sisaldab 4601 tähte 57 metaandmete parameetriga.Flickr 30k andmestik - rohkem kui 30 000 pilti ja pealkirja. (Flickr 8k andmestik - 8000 pilti. Pythoni lähteprojekt:Pilditiitrite generaatori Pythoni projekt )IMDB ülevaated — 25 000 filmiarvustust treeningkomplektis ja 25 000 testikomplektis. (Rakenduse valik lähtekoodiga R-is:Sentiment Analysis Data Science Project )MS COCO andmestik — 1,5 miljonit märgistatud pilti.CIFAR-10 ja CIFAR-100 andmestik — CIFAR-10 sisaldab 60,000 32 väikest pilti 32*0 piksliga numbritega 9-100. CIFAR-0 - vastavalt 100-XNUMX.GTSRB (Saksa liiklusmärkide tuvastamise võrdlusalus) andmestik — 50 000 pilti 43 liiklusmärgist. (Rakenduse valik koos lähtekoodiga Pythonis:Liiklusmärkide tuvastamise Pythoni projekt )ImageNeti andmestik — sisaldab rohkem kui 100 000 fraasi ja umbes 1000 pilti fraasi kohta.Rindade histopatoloogia piltide andmestik — andmestik sisaldab rinnavähi proovide pilte. (Rakenduse valik koos lähtekoodigaRinnavähi klassifikatsiooni Pythoni projekt )Linnavaadete andmestik — sisaldab kvaliteetseid märkusi erinevate linnade tänavate videoseeriatest.Kineetika andmestik - sisaldab URL-i linki umbes 6,5 miljonile kvaliteetsele videole.MPII inimese pooside andmestik — andmestik sisaldab 25 000 pilti inimpoosidest koos ühiste märkustega.20BN-something-something andmestik v2 - kvaliteetsete videote komplekt, mis näitab, kuidas inimene mõnda toimingut sooritab.Objekti 365 andmestik — kvaliteetsete kujutiste andmekogum koos objektide piirdekastidega.Fotode visandamise andmestik - sisaldab rohkem kui 1000 pilti koos nende kontuurijoonistega.CQ500 andmestik — andmestik sisaldab 491 pea CT-skaneeringut 193 317 viiluga.IMDB-Wiki andmestik — andmekogum, mis sisaldab enam kui 5 miljonit näokujutist, mis on märgitud soo ja vanuse järgi. (Rakenduse valik koos lähtekoodigaSugu ja vanuse tuvastamise Pythoni projekt )Youtube 8M andmestik - märgistatud videoandmestik, mis sisaldab 6,1 miljonit Youtube'i video ID-dUrban Sound 8K andmestik — linnaheliandmete kogum (sisaldab 8732 linnaheli 10 klassist).LSUN-i andmestik - miljonite stseenide ja objektide värvipiltide andmekogum (umbes 59 miljonit pilti, 10 erinevat stseenikategooriat ja 20 erinevat objektikategooriat).RAVDESSi andmestik — emotsionaalse kõne audiovisuaalne andmebaas. (Rakenduse valik koos lähtekoodigaKõneemotsioonide tuvastamise Pythoni projekt )Librispeechi andmestik — andmestik sisaldab 1000 tundi ingliskeelset kõnet erinevate aktsentidega.Baidu Apolloscape'i andmestik — andmestik isejuhtivate tehnoloogiate arendamiseks.Quandli andmeportaal — majandus- ja finantsandmete hoidla (seal on tasuta ja tasuline sisu).Maailmapanga avaandmete portaal — teave Maailmapanga poolt arengumaadele antud laenude kohta.IMFi andmeportaal on rahvusvaheline rahafondide portaal, mis avaldab andmeid rahvusvahelise rahanduse, võlamäärade, investeeringute, välisvaluutareservide ja kaupade kohta.Ameerika Majandusliidu (AEA) andmeportaal - ressurss USA makromajanduslike andmete otsimiseks.Google Trendsi andmeportaal - Google'i trendiandmeid saab kasutada andmete visuaalseks uurimiseks ja analüüsimiseks.Financial Timesi turuandmete portaal on ressurss ajakohase teabe saamiseks finantsturgude kohta kogu maailmast.Data.gov portaal - USA valitsuse avaandmete portaal (põllumajandus, tervishoid, kliima, haridus, energeetika, rahandus, teadus ja teadusuuringud jne).Andmeportaal: avatud valitsuse andmed (India) on India avatud valitsuse andmeplatvorm.Toidukeskkonna Atlase andmeportaal — sisaldab uurimisandmeid toitumise kohta Ameerika Ühendriikides.Terviseandmete portaal on USA tervishoiu- ja inimteenuste ministeeriumi portaal.Haiguste tõrje ja ennetamise keskuste andmeportaal - sisaldab suurt hulka tervisega seotud andmeid.Londoni andmesalve portaal - andmed inimeste elude kohta Londonis.Kanada valitsuse avaandmete portaal - kanadalaste (põllumajandus, kunst, muusika, haridus, valitsus, tervishoid jne) avaandmete portaal
Loe rohkem
14 avatud lähtekoodiga projekti andmeteaduse oskuste parandamiseks (lihtne, tavaline, raske) Esiotsa dojo: projektid arendajaoskuste koolitamiseks (5 uut + 43 vana) Top 12 kõige huvitavamat IT-dünaamilist infograafikat
Allikas: www.habr.com