52 adatkészlet képzési projektekhez

  1. Mall ügyfelek adatkészlete — az üzlet látogatóinak adatai: azonosító, nem, életkor, jövedelem, költési minősítés. (Alkalmazási lehetőség: Ügyfélszegmentációs projekt gépi tanulással)
  2. Iris adatkészlet — kezdőknek szóló adatkészlet, amely tartalmazza a csészelevelek és a szirmok méretét különböző virágokhoz.
  3. MNIST adatkészlet — kézzel írt számok adatkészlete. 60 000 edzéskép és 10 000 tesztkép.
  4. A Boston Housing Dataset egy népszerű adatkészlet a mintafelismeréshez. Információkat tartalmaz a bostoni házakról: lakások száma, bérleti díjak, bűnügyi index.
  5. Fake News Detection Dataset — 7796 bejegyzést tartalmaz hírjelzéssel: igaz vagy hamis. (Alkalmazás opció forráskóddal Pythonban: Fake News Detection Python Project )
  6. Borminőségi adatkészlet — információkat tartalmaz a borról: 4898 rekord 14 paraméterrel.
  7. SOCR adatok – Magasság és súly adatkészlet - Kezdésnek jó lehetőség. 25 000 rekordot tartalmaz 18 évesek magasságáról és súlyáról.

    52 adatkészlet képzési projektekhez

    A cikk az EDISON Software támogatásával készült, amely „kiválóan teljesíti a dél-kínai megrendeléseket”És webalkalmazásokat és weboldalakat fejleszt.

  8. Parkinson adatkészlet — 195 feljegyzés Parkinson-kórban szenvedő betegekről, 25 elemzési paraméterrel. Használható a betegek és az egészséges emberek közötti különbség előzetes felmérésére. (Alkalmazás opció forráskóddal Pythonban: Gépi tanulási projekt a Parkinson-kór kimutatásáról)
  9. Titanic adatkészlet — információkat tartalmaz az utasokról (életkor, nem, hozzátartozók a fedélzeten stb.) 891 az oktatókészletben és 418 a tesztkészletben.
  10. Uber Pickup Dataset — 4.5-ben 2014 millió, 14-ben 2015 millió utazásról szóló információk az Uberen. (Alkalmazási lehetőség forráskóddal R-ben: Uber adatelemzési projekt R.-ben)
  11. Chars74k adatkészlet — 64 osztály brit és kanadai szimbólumainak képeit tartalmazza: 0-9, AZ, az. 7700 7.7 ezer természetes kép, 3400 ezer kézzel írt, 62000 XNUMX számítógép által szintetizált betűtípus.
  12. Hitelkártyacsalás-észlelési adatkészlet — információkat tartalmaz a feltört hitelkártyákkal végzett tranzakciókról. (Alkalmazási lehetőség forrással: Hitelkártyacsalás-észlelési gépi tanulási projekt)
  13. Chatbot Intents adatkészlet — egy JSON-fájl, amely különféle címkéket tartalmaz: üdvözlet, viszlát, kórházi keresés, gyógyszertárkeresés stb. Egy sor kérdés-válasz sablont tartalmaz. (Alkalmazás opció forráskóddal Pythonban: Chatbot projekt Pythonban)
  14. Enron e-mail adatkészlet — félmillió levelet tartalmaz 150 Enron menedzsertől.
  15. A Yelp adatkészlet — 1,2 millió ajánlást tartalmaz 1,6 millió felhasználótól, körülbelül 1,2 millió szervezettől.
  16. Veszélyes adatkészlet — több mint 200 000 kérdés-felelet felvétel a népszerű televíziós játékból.
  17. Recommender Systems Dataset — az UCSD Egyetem adatkészleteit tartalmazó portál. Tartalmazza a népszerű webhelyeken (Goodreads, Amazon) írt értékeléseket. Kiváló ajánlórendszerek létrehozásához. (Alkalmazási lehetőség forráskóddal R-ben: Filmajánló rendszer projekt R.-ben )
  18. UCI Spambase adatkészlet — egy oktatási adatkészlet a spam észleléséhez. 4601 betűt tartalmaz 57 metaadat paraméterrel.
  19. Flickr 30k adatkészlet — több mint 30 000 kép és felirat. (Flickr 8k adatkészlet - 8000 kép. Python forrásprojekt: Képfelirat-generátor Python Project)
  20. IMDB vélemények — 25 000 filmkritika az edzőkészletben és 25 000 a tesztkészletben. (Alkalmazási lehetőség forráskóddal R-ben: Sentiment Analysis Data Science Project)
  21. MS COCO adatkészlet — 1,5 millió címkézett kép.
  22. CIFAR-10 és CIFAR-100 adatkészlet — A CIFAR-10 60,000 32 kisméretű, 32*0 pixeles képet tartalmaz 9-100. CIFAR-0 - 100-XNUMX.
  23. GTSRB (német közlekedési tábla felismerési referenciaérték) adatkészlet — 50 000 kép 43 útjelző tábláról. (Alkalmazás opció forráskóddal Pythonban: Közlekedési táblák felismerése Python projekt)
  24. ImageNet adatkészlet - több mint 100 000 kifejezést és körülbelül 1000 képet tartalmaz kifejezésenként.
  25. Breast Histopatology Images Dataset — az adatkészlet emlőrákminták képeit tartalmazza. (Alkalmazás opció bekapcsolt forráskóddal A mellrák osztályozása Python projekt)
  26. Városképek adatkészlet — kiváló minőségű kommentárokat tartalmaz a különböző városok utcáinak videósorozatairól.
  27. Kinetikai adatkészlet - körülbelül 6,5 millió jó minőségű videó URL-címét tartalmazza.
  28. MPII emberi póz adatkészlet — az adatkészlet 25 000 emberi póz képét tartalmazza közös megjegyzésekkel.
  29. 20BN-valami-valami adatkészlet v2 - kiváló minőségű videók készlete, amelyek bemutatják, hogyan hajt végre egy személy bizonyos műveleteket.
  30. Object 365 Dataset — kiváló minőségű képek adatkészlete objektumhatároló dobozokkal.
  31. Fényképvázlat-adatkészlet — több mint 1000 képet tartalmaz vázlatos rajzaikkal.
  32. CQ500 adatkészlet — az adatkészlet 491 CT-felvételt tartalmaz a fejről 193 317 szelettel.
  33. IMDB-Wiki adatkészlet — egy adatkészlet, amely több mint 5 millió arcképet tartalmaz nem és életkor szerint. (Alkalmazás opció bekapcsolt forráskóddal Nem és életkor észlelése Python projekt)
  34. Youtube 8M adatkészlet - Egy címkézett videó adatkészlet, amely 6,1 millió Youtube-videóazonosítót tartalmaz
  35. Urban Sound 8K adatkészlet — városi hangadatok halmaza (8732 városi hangot tartalmaz 10 osztályból).
  36. LSUN adatkészlet - több millió színes képből álló adatkészlet jelenetekről és tárgyakról (körülbelül 59 millió kép, 10 különböző jelenetkategória és 20 különböző objektumkategória).
  37. RAVDESS adatkészlet — az érzelmi beszéd audiovizuális adatbázisa. (Alkalmazás opció bekapcsolt forráskóddal Beszéd érzelemfelismerés Python projekt)
  38. Librisbeech Dataset — az adatkészlet 1000 órányi angol beszédet tartalmaz különböző ékezetekkel.
  39. Baidu Apolloscape Dataset — adatkészlet az önvezető technológiák fejlesztéséhez.
  40. Quandl adatportál — gazdasági és pénzügyi adatok tárháza (van ingyenes és fizetős tartalom).
  41. A Világbank nyílt adatportálja — információk a Világbank által a fejlődő országoknak nyújtott kölcsönökről.
  42. IMF adatportál egy nemzetközi pénzalap-portál, amely a nemzetközi pénzügyekről, adósságkamatokról, befektetésekről, devizatartalékokról és nyersanyagokról tesz közzé adatokat.
  43. Az Amerikai Gazdasági Szövetség (AEA) adatportálja - Erőforrás amerikai makrogazdasági adatok kereséséhez.
  44. Google Trends adatportál - A Google trendadatai az adatok vizuális felfedezésére és elemzésére használhatók.
  45. Financial Times piaci adatportál a világ minden tájáról származó pénzügyi piacokról szóló naprakész információk forrása.
  46. Data.gov portál - Amerikai kormány nyílt adatportálja (mezőgazdaság, egészségügy, éghajlat, oktatás, energia, pénzügy, tudomány és kutatás stb.).
  47. Adatportál: Nyílt kormányzati adatok (India) India nyílt kormányzati adatplatformja.
  48. Élelmiszer-környezet Atlas Data Portal — az Egyesült Államok táplálkozásával kapcsolatos kutatási adatokat tartalmaz.
  49. Egészségügyi adatportál az Egyesült Államok Egészségügyi és Humánszolgáltatási Minisztériumának portálja.
  50. Betegségellenőrzési és -megelőzési központok adatportálja - egészséggel kapcsolatos adatok széles skáláját tartalmazza.
  51. London Datastore portál - adatok londoni emberek életéről.
  52. Kanada kormányának nyílt adatportálja - a kanadaiakkal kapcsolatos nyílt adatok portálja (mezőgazdaság, művészet, zene, oktatás, kormányzat, egészségügy stb.)

Olvass tovább

Forrás: will.com

Hozzászólás