52 andmestikku koolitusprojektide jaoks

  1. Kaubanduskeskuse klientide andmestik — poekülastajate andmed: id, sugu, vanus, sissetulek, kuluhinnang. (Rakenduse valik: Masinõppega klientide segmenteerimise projekt)
  2. Irise andmestik — andmekogum algajatele, mis sisaldab erinevate lillede tupp- ja kroonlehtede suurusi.
  3. MNIST-i andmestik — käsitsi kirjutatud numbrite andmekogum. 60 000 treeningpilti ja 10 000 testpilti.
  4. Bostoni elamumajanduse andmekogum on populaarne mustrituvastuse andmestik. Sisaldab teavet majade kohta Bostonis: korterite arv, üürihinnad, kuritegevuse indeks.
  5. Võltsuudiste tuvastamise andmestik — sisaldab 7796 kirjet uudismärgistusega: tõene või vale. (Rakenduse valik koos lähtekoodiga Pythonis: Fake News Detection Pythoni projekt )
  6. Veini kvaliteedi andmestik — sisaldab teavet veini kohta: 4898 kirjet 14 parameetriga.
  7. SOCR-andmed – kõrguste ja kaalude andmestik - hea võimalus alustuseks. Sisaldab 25 000 kirjet 18-aastaste inimeste pikkuse ja kaalu kohta.

    52 andmestikku koolitusprojektide jaoks

    Artikkel on tõlgitud EDISON Tarkvara toel, mis täidab Lõuna-Hiina tellimusi "suurepäraselt" ning arendab veebirakendusi ja veebisaite.

  8. Parkinsoni andmestik — 195 dokumenti Parkinsoni tõvega patsientide kohta koos 25 analüüsiparameetriga. Võib kasutada haigete ja tervete inimeste erinevuse esialgseks hindamiseks. (Rakenduse valik koos lähtekoodiga Pythonis: Parkinsoni tõve tuvastamise masinõppeprojekt)
  9. Titanicu andmestik — sisaldab teavet reisijate kohta (vanus, sugu, sugulased pardal jne) 891 koolituskomplektis ja 418 testikomplektis.
  10. Uber Pickups andmestik — teave 4.5 miljoni reisi kohta Uberis 2014. aastal ja 14 miljoni reisi kohta 2015. aastal. (Rakenduse valik lähtekoodiga R-is: Uberi andmeanalüüsi projekt R)
  11. Chars74k andmestik — sisaldab pilte Briti ja Kanada sümbolitest 64 klassist: 0-9, AZ, az. 7700 7.7k loomulikku pilti, 3400k käsitsi kirjutatud, 62000 arvutis sünteesitud fonti.
  12. Krediitkaardipettuste tuvastamise andmestik — sisaldab teavet ohustatud krediitkaartidega tehtud tehingute kohta. (Rakenduse valik koos allikaga: Krediitkaardipettuste tuvastamise masinõppeprojekt)
  13. Chatbot Intentsi andmestik — JSON-fail, mis sisaldab erinevaid silte: tervitused, hüvastijätt, haigla_otsing, pharmacy_search jne. Sisaldab küsimuste-vastuste mallide komplekti. (Rakenduse valik koos lähtekoodiga Pythonis: Chatboti projekt Pythonis)
  14. Enroni e-posti andmekogum — sisaldab pool miljonit kirja 150 Enroni juhilt.
  15. Yelpi andmestik — sisaldab 1,2 miljonit soovitust 1,6 miljonilt kasutajalt umbes 1,2 miljonilt organisatsioonilt.
  16. Ohuandmete kogum — enam kui 200 000 küsimuste-vastuste salvestist populaarsest telemängust.
  17. Recommender Systems Dataset — portaal UCSD ülikooli andmekogumite kogumiga. Sisaldab populaarsete saitide (Goodreads, Amazon) arvustuste kirjeid. Suurepärane soovitussüsteemide loomiseks. (Rakenduse valik lähtekoodiga R-is: Filmisoovitussüsteemi projekt R-is )
  18. UCI Spambase Dataset — rämpsposti tuvastamise koolitusandmekogum. Sisaldab 4601 tähte 57 metaandmete parameetriga.
  19. Flickr 30k andmestik - rohkem kui 30 000 pilti ja pealkirja. (Flickr 8k andmestik - 8000 pilti. Pythoni lähteprojekt: Pilditiitrite generaatori Pythoni projekt)
  20. IMDB ülevaated — 25 000 filmiarvustust treeningkomplektis ja 25 000 testikomplektis. (Rakenduse valik lähtekoodiga R-is: Sentiment Analysis Data Science Project)
  21. MS COCO andmestik — 1,5 miljonit märgistatud pilti.
  22. CIFAR-10 ja CIFAR-100 andmestik — CIFAR-10 sisaldab 60,000 32 väikest pilti 32*0 piksliga numbritega 9-100. CIFAR-0 - vastavalt 100-XNUMX.
  23. GTSRB (Saksa liiklusmärkide tuvastamise võrdlusalus) andmestik — 50 000 pilti 43 liiklusmärgist. (Rakenduse valik koos lähtekoodiga Pythonis: Liiklusmärkide tuvastamise Pythoni projekt)
  24. ImageNeti andmestik — sisaldab rohkem kui 100 000 fraasi ja umbes 1000 pilti fraasi kohta.
  25. Rindade histopatoloogia piltide andmestik — andmestik sisaldab rinnavähi proovide pilte. (Rakenduse valik koos lähtekoodiga Rinnavähi klassifikatsiooni Pythoni projekt)
  26. Linnavaadete andmestik — sisaldab kvaliteetseid märkusi erinevate linnade tänavate videoseeriatest.
  27. Kineetika andmestik - sisaldab URL-i linki umbes 6,5 miljonile kvaliteetsele videole.
  28. MPII inimese pooside andmestik — andmestik sisaldab 25 000 pilti inimpoosidest koos ühiste märkustega.
  29. 20BN-something-something andmestik v2 - kvaliteetsete videote komplekt, mis näitab, kuidas inimene mõnda toimingut sooritab.
  30. Objekti 365 andmestik — kvaliteetsete kujutiste andmekogum koos objektide piirdekastidega.
  31. Fotode visandamise andmestik - sisaldab rohkem kui 1000 pilti koos nende kontuurijoonistega.
  32. CQ500 andmestik — andmestik sisaldab 491 pea CT-skaneeringut 193 317 viiluga.
  33. IMDB-Wiki andmestik — andmekogum, mis sisaldab enam kui 5 miljonit näokujutist, mis on märgitud soo ja vanuse järgi. (Rakenduse valik koos lähtekoodiga Sugu ja vanuse tuvastamise Pythoni projekt)
  34. Youtube 8M andmestik - märgistatud videoandmestik, mis sisaldab 6,1 miljonit Youtube'i video ID-d
  35. Urban Sound 8K andmestik — linnaheliandmete kogum (sisaldab 8732 linnaheli 10 klassist).
  36. LSUN-i andmestik - miljonite stseenide ja objektide värvipiltide andmekogum (umbes 59 miljonit pilti, 10 erinevat stseenikategooriat ja 20 erinevat objektikategooriat).
  37. RAVDESSi andmestik — emotsionaalse kõne audiovisuaalne andmebaas. (Rakenduse valik koos lähtekoodiga Kõneemotsioonide tuvastamise Pythoni projekt)
  38. Librispeechi andmestik — andmestik sisaldab 1000 tundi ingliskeelset kõnet erinevate aktsentidega.
  39. Baidu Apolloscape'i andmestik — andmestik isejuhtivate tehnoloogiate arendamiseks.
  40. Quandli andmeportaal — majandus- ja finantsandmete hoidla (seal on tasuta ja tasuline sisu).
  41. Maailmapanga avaandmete portaal — teave Maailmapanga poolt arengumaadele antud laenude kohta.
  42. IMFi andmeportaal on rahvusvaheline rahafondide portaal, mis avaldab andmeid rahvusvahelise rahanduse, võlamäärade, investeeringute, välisvaluutareservide ja kaupade kohta.
  43. Ameerika Majandusliidu (AEA) andmeportaal - ressurss USA makromajanduslike andmete otsimiseks.
  44. Google Trendsi andmeportaal - Google'i trendiandmeid saab kasutada andmete visuaalseks uurimiseks ja analüüsimiseks.
  45. Financial Timesi turuandmete portaal on ressurss ajakohase teabe saamiseks finantsturgude kohta kogu maailmast.
  46. Data.gov portaal - USA valitsuse avaandmete portaal (põllumajandus, tervishoid, kliima, haridus, energeetika, rahandus, teadus ja teadusuuringud jne).
  47. Andmeportaal: avatud valitsuse andmed (India) on India avatud valitsuse andmeplatvorm.
  48. Toidukeskkonna Atlase andmeportaal — sisaldab uurimisandmeid toitumise kohta Ameerika Ühendriikides.
  49. Terviseandmete portaal on USA tervishoiu- ja inimteenuste ministeeriumi portaal.
  50. Haiguste tõrje ja ennetamise keskuste andmeportaal - sisaldab suurt hulka tervisega seotud andmeid.
  51. Londoni andmesalve portaal - andmed inimeste elude kohta Londonis.
  52. Kanada valitsuse avaandmete portaal - kanadalaste (põllumajandus, kunst, muusika, haridus, valitsus, tervishoid jne) avaandmete portaal

Loe rohkem

Allikas: www.habr.com

Lisa kommentaar