Сургалтын төслийн 52 мэдээллийн багц

  1. Худалдааны төвийн үйлчлүүлэгчдийн мэдээллийн багц - дэлгүүрийн зочдын мэдээлэл: ID, хүйс, нас, орлого, зарцуулалтын зэрэглэл. (Хэрэглээний сонголт: Machine Learning ашиглан хэрэглэгчийн сегментчиллийн төсөл)
  2. Iris мэдээллийн багц - төрөл бүрийн цэцэгсийн дэлбээ, навчны хэмжээг агуулсан эхлэгчдэд зориулсан мэдээллийн багц.
  3. MNIST мэдээллийн багц - гараар бичсэн тоонуудын өгөгдлийн багц. 60 сургалтын зураг, 000 туршилтын зураг.
  4. Бостоны орон сууцны мэдээллийн багц загвар таних түгээмэл өгөгдлийн багц юм. Бостон дахь байшингийн талаархи мэдээллийг агуулсан: орон сууцны тоо, түрээсийн үнэ, гэмт хэргийн индекс.
  5. Хуурамч мэдээ илрүүлэх мэдээллийн багц - мэдээний тэмдэглэгээ бүхий 7796 оруулга агуулсан: үнэн эсвэл худал. (Python дахь эх код бүхий програмын сонголт: Хуурамч мэдээ илрүүлэх Python төсөл )
  6. Дарсны чанарын мэдээллийн багц — дарсны тухай мэдээллийг агуулсан: 4898 параметр бүхий 14 бичлэг.
  7. SOCR өгөгдөл – Өндөр ба жингийн мэдээллийн багц - эхлэхэд тохиромжтой сонголт. 25 настай хүмүүсийн өндөр, жингийн 000 бичлэгийг агуулсан.

    Сургалтын төслийн 52 мэдээллийн багц

    Нийтлэлийг EDISON програм хангамжийн дэмжлэгтэйгээр орчуулсан Өмнөд Хятадаас ирсэн захиалгыг "онц" биелүүлдэгТэгээд вэб програмууд болон вэб сайтуудыг хөгжүүлдэг.

  8. Паркинсоны мэдээллийн багц - Паркинсоны өвчтэй өвчтөнүүдийн 195 бүртгэл, 25 шинжилгээний үзүүлэлттэй. Өвчтэй хүмүүс болон эрүүл хүмүүсийн хоорондын ялгааг урьдчилан үнэлэхэд ашиглаж болно. (Python дахь эх код бүхий програмын сонголт: Паркинсоны өвчнийг илрүүлэх машин сургалтын төсөл)
  9. Титаник мэдээллийн багц — зорчигчдын талаарх мэдээлэл (нас, хүйс, онгоцонд байгаа төрөл төрөгсөд гэх мэт) сургалтын багцад 891, туршилтын багцад 418 байна.
  10. Uber Pickups мэдээллийн багц — 4.5 онд Uber дээр 2014 сая, 14 онд 2015 сая аялсан тухай мэдээлэл. (R хэл дээрх эх код бүхий програмын сонголт: R дахь Uber Data Analysis Project)
  11. Chars74k мэдээллийн багц — 64-0, AZ, az гэсэн 9 ангийн Британи, Канадын бэлгэдлийн дүрсийг агуулсан. 7700 7.7к байгалийн зураг, 3400к гараар бичсэн, 62000 компьютерийн синтез фонт.
  12. Зээлийн картын залилан илрүүлэх мэдээллийн багц - алдагдсан зээлийн картуудын гүйлгээний талаарх мэдээллийг агуулсан. (Эх сурвалжтай програмын сонголт: Зээлийн картын луйврыг илрүүлэх машин сургалтын төсөл)
  13. Chatbot Intents Dataset — мэндчилгээ, баяртай, эмнэлэгийн_хайлт, эмийн сангийн_хайлт гэх мэт төрөл бүрийн шошго агуулсан JSON файл. Асуулт хариултын загваруудыг агуулсан. (Python дахь эх код бүхий програмын сонголт: Python хэл дээрх чатбот төсөл)
  14. Enron имэйл мэдээллийн багц — Энроны 150 менежерийн хагас сая захидал агуулсан.
  15. Yelp мэдээллийн багц — 1,2 сая орчим байгууллагын 1,6 сая хэрэглэгчийн 1,2 сая зөвлөмжийг агуулсан.
  16. Аюултай мэдээллийн багц - алдартай телевизийн тоглоомын 200 гаруй асуулт хариултын бичлэг.
  17. Зөвлөмж болгож буй системийн мэдээллийн багц — UCSD их сургуулийн мэдээллийн багц бүхий портал. Алдартай сайтууд (Goodreads, Amazon) дээрх тоймуудын бүртгэлийг агуулна. Зөвлөмжийн системийг бий болгоход тохиромжтой. (R хэл дээрх эх код бүхий програмын сонголт: Р дахь киноны зөвлөмжийн системийн төсөл )
  18. UCI Spambase мэдээллийн багц - спам илрүүлэх сургалтын мэдээллийн багц. 4601 мета өгөгдлийн параметр бүхий 57 үсэг агуулсан.
  19. Flickr 30k өгөгдлийн багц - 30 гаруй зураг, тайлбар. (Flickr 8k өгөгдлийн багц - 8000 зураг. Python эх төсөл: Зургийн тайлбар үүсгэгч Python төсөл)
  20. IMDB тойм — Сургалтын багцад 25, тестийн багцад 000 киноны тойм. (R хэл дээрх эх код бүхий програмын сонголт: Мэдрэмжийн шинжилгээ мэдээллийн шинжлэх ухааны төсөл)
  21. MS COCO мэдээллийн багц - 1,5 сая тэмдэглэгдсэн зураг.
  22. CIFAR-10 ба CIFAR-100 мэдээллийн багц — CIFAR-10 нь 60,000-32 хүртэлх тооны 32*0 пикселийн 9 жижиг зургийг агуулдаг. CIFAR-100 - тус тус 0-100.
  23. GTSRB (Германы замын тэмдэг таних жишиг) Өгөгдлийн багц - 50 замын тэмдгийн 000 зураг. (Python дахь эх код бүхий програмын сонголт: Замын хөдөлгөөний тэмдгийг таних Python төсөл)
  24. ImageNet мэдээллийн багц — нэг хэллэгт 100 гаруй хэллэг, 000 орчим зураг агуулсан.
  25. Хөхний гистологийн зургийн мэдээллийн багц - өгөгдлийн багц нь хөхний хорт хавдрын дээжийн зургийг агуулдаг. (Эх код асаалттай програмын сонголт Хөхний хорт хавдрын ангилал Python төсөл)
  26. Cityscapes мэдээллийн багц — өөр өөр хотуудын гудамжуудын видео дарааллын өндөр чанарын тайлбарыг агуулсан.
  27. Кинетик мэдээллийн багц - 6,5 сая орчим өндөр чанартай видеоны URL холбоосыг агуулсан.
  28. MPII хүний ​​позын мэдээллийн багц - өгөгдлийн багц нь хамтарсан тайлбар бүхий хүний ​​​​позын 25 зургийг агуулдаг.
  29. 20BN-ямар нэг зүйл-ямар нэг зүйл мэдээллийн багц v2 - хүн ямар нэгэн үйлдэл хийж байгааг харуулсан өндөр чанартай видеоны багц.
  30. Объект 365 мэдээллийн багц - объектыг хязгаарлах хайрцаг бүхий өндөр чанартай зургийн өгөгдлийн багц.
  31. Фото зургийн өгөгдлийн багц - 1000 гаруй зураг, тэдгээрийн тойм зурагтай.
  32. CQ500 мэдээллийн багц - өгөгдлийн багц нь 491 зүсмэл бүхий толгойн 193 CT сканыг агуулдаг.
  33. IMDB-Wiki мэдээллийн багц — хүйс, насаар нь тэмдэглэсэн 5 сая гаруй царайны зураг бүхий мэдээллийн багц. (Эх код асаалттай програмын сонголт Хүйс, нас илрүүлэх Python төсөл)
  34. Youtube 8M мэдээллийн багц - 6,1 сая Youtube видео ID агуулсан шошготой видео мэдээллийн багц
  35. Urban Sound 8K мэдээллийн багц — Хотын дууны мэдээллийн багц (8732 ангийн 10 хотын дуу чимээг агуулсан).
  36. LSUN мэдээллийн багц - үзэгдэл, объектын сая сая өнгөт зургийн мэдээллийн багц (59 сая орчим зураг, 10 өөр дүр зураг, 20 өөр объектын ангилал).
  37. RAVDESS мэдээллийн багц - сэтгэл хөдлөлийн ярианы аудиовизуал мэдээллийн сан. (Эх код асаалттай програмын сонголт Ярианы сэтгэл хөдлөлийг таних Python төсөл)
  38. Librispeech мэдээллийн багц - өгөгдлийн багц нь өөр өөр өргөлттэй 1000 цагийн англи хэлээр ярьдаг.
  39. Baidu Apolloscape мэдээллийн багц - өөрөө жолоодох технологийг хөгжүүлэх мэдээллийн багц.
  40. Quandl мэдээллийн портал — эдийн засаг, санхүүгийн мэдээллийн сан (үнэгүй, төлбөртэй контент байдаг).
  41. Дэлхийн банкны нээлттэй мэдээллийн портал — Дэлхийн банкнаас хөгжиж буй орнуудад олгосон зээлийн талаарх мэдээлэл.
  42. ОУВС-гийн мэдээллийн портал нь олон улсын санхүү, өрийн хувь хэмжээ, хөрөнгө оруулалт, валютын нөөц, түүхий эдийн талаарх мэдээллийг нийтэлдэг олон улсын валютын сангийн портал юм.
  43. Америкийн эдийн засгийн нийгэмлэг (AEA) мэдээллийн портал - АНУ-ын макро эдийн засгийн мэдээллийг хайх эх сурвалж.
  44. Google Trends Data Portal - Google-ийн чиг хандлагын өгөгдлийг нүдээр харах, дүн шинжилгээ хийхэд ашиглах боломжтой.
  45. Financial Times зах зээлийн мэдээллийн портал нь дэлхийн өнцөг булан бүрээс санхүүгийн зах зээлийн талаарх сүүлийн үеийн мэдээллийн эх сурвалж юм.
  46. Data.gov портал - АНУ-ын засгийн газрын нээлттэй мэдээллийн портал (хөдөө аж ахуй, эрүүл мэнд, уур амьсгал, боловсрол, эрчим хүч, санхүү, шинжлэх ухаан, судалгаа гэх мэт).
  47. Мэдээллийн портал: Засгийн газрын нээлттэй мэдээлэл (Энэтхэг) нь Энэтхэгийн нээлттэй засгийн газрын мэдээллийн платформ юм.
  48. Хүнсний орчин Атлас мэдээллийн портал - АНУ-ын хоол тэжээлийн талаархи судалгааны мэдээллийг агуулсан.
  49. Эрүүл мэндийн мэдээллийн портал нь АНУ-ын Эрүүл мэнд, хүний ​​үйлчилгээний яамны портал юм.
  50. Өвчний хяналт, урьдчилан сэргийлэх төвүүд мэдээллийн портал - эрүүл мэндтэй холбоотой өргөн хүрээний мэдээллийг агуулсан.
  51. Лондонгийн мэдээллийн сангийн портал - Лондон дахь хүмүүсийн амьдралын талаархи мэдээлэл.
  52. Канадын засгийн газрын нээлттэй мэдээллийн портал - Канадчуудын тухай нээлттэй мэдээллийн портал (хөдөө аж ахуй, урлаг, хөгжим, боловсрол, засгийн газар, эрүүл мэнд гэх мэт)

Цааш унших

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх