Təlim layihələri üçün 52 məlumat dəsti

  1. Mall Müştəriləri Data Seti — mağaza ziyarətçilərinin məlumatları: id, cins, yaş, gəlir, xərcləmə reytinqi. (Tətbiq seçimi: Machine Learning ilə Müştəri Seqmentasiyası Layihəsi)
  2. İris verilənlər toplusu — müxtəlif çiçəklər üçün sepals və ləçəklərin ölçülərini ehtiva edən yeni başlayanlar üçün verilənlər toplusu.
  3. MNIST verilənlər toplusu - əl ilə yazılmış nömrələrin verilənlər toplusu. 60 təlim şəkli və 000 sınaq şəkli.
  4. Boston Housing Dataset nümunənin tanınması üçün məşhur verilənlər toplusudur. Bostondakı evlər haqqında məlumatları ehtiva edir: mənzillərin sayı, kirayə qiymətləri, cinayət indeksi.
  5. Saxta xəbərlərin aşkarlanması verilənlər toplusu — xəbər işarəsi olan 7796 yazıdan ibarətdir: doğru və ya yalan. (Python-da mənbə kodu ilə tətbiq seçimi: Saxta xəbərlərin aşkarlanması Python Layihəsi )
  6. Şərab keyfiyyəti məlumat dəsti — şərab haqqında məlumat ehtiva edir: 4898 parametrli 14 qeyd.
  7. SOCR məlumatları - Hündürlüklər və Çəkilər Data Seti - başlamaq üçün yaxşı seçimdir. 25 yaşlı insanların boyu və çəkisi ilə bağlı 000 qeyddən ibarətdir.

    Təlim layihələri üçün 52 məlumat dəsti

    Məqalə EDISON Software şirkətinin dəstəyi ilə tərcümə edilmişdir Cənubi Çindən gələn sifarişləri “əla” yerinə yetirirveb proqramlar və vebsaytlar hazırlayır.

  8. Parkinson məlumat toplusu — 195 analiz parametri ilə Parkinson xəstəliyi olan xəstələrin 25 qeydi. Xəstə insanlarla sağlam insanlar arasındakı fərqin ilkin qiymətləndirilməsi üçün istifadə edilə bilər. (Python-da mənbə kodu ilə tətbiq seçimi: Parkinson Xəstəliyinin Aşkarlanması üzrə Maşın Öyrənmə Layihəsi)
  9. Titanik məlumat dəsti — sərnişinlər (yaş, cins, təyyarədə olan qohumlar və s.) haqqında məlumatları ehtiva edir 891 məşq komplektində, 418 test toplusunda.
  10. Uber Pickups Dataset — 4.5-cü ildə Uber-də 2014 milyon və 14-ci ildə 2015 milyon səfər haqqında məlumat. (R-də mənbə kodu ilə tətbiq seçimi: R-də Uber Data Analizi Layihəsi)
  11. Chars74k Məlumat dəsti — 64 sinifin Britaniya və Kanada simvollarının şəkillərini ehtiva edir: 0-9, A-Z, a-z. 7700 7.7k təbii şəkillər, 3400k əlyazma, 62000 kompüter sintezi şriftləri.
  12. Kredit Kartı Fırıldaqlarının Aşkarlanması Məlumat Seti — pozulmuş kredit kartlarının əməliyyatları haqqında məlumatları ehtiva edir. (Mənbə ilə tətbiq seçimi: Kredit Kartı Fraud Detection Machine Learning Project)
  13. Chatbot Intents Dataset — müxtəlif teqləri ehtiva edən JSON faylı: salamlar, vida, hospital_search, aptek_axtarı və s. Sual-cavab şablonları toplusunu ehtiva edir. (Python-da mənbə kodu ilə tətbiq seçimi: Python-da Chatbot Layihəsi)
  14. Enron E-poçt məlumat dəsti — 150 Enron menecerindən yarım milyon məktub ehtiva edir.
  15. Yelp Dataset — 1,2 milyona yaxın təşkilatdan 1,6 milyon istifadəçinin 1,2 milyon tövsiyəsi var.
  16. Təhlükə verilənlər toplusu — məşhur televiziya oyunundan 200-dən çox sual-cavab yazısı.
  17. Recommender Systems Dataset — UCSD Universitetindən verilənlər toplusunun toplandığı portal. Məşhur saytlarda (Goodreads, Amazon) rəylərin qeydlərini ehtiva edir. Tövsiyə sistemləri yaratmaq üçün əladır. (R-də mənbə kodu ilə tətbiq seçimi: R-də Film Tövsiyə Sistemi Layihəsi )
  18. UCI Spambase Dataset — spam aşkarlanması üçün təlim verilənlər toplusu. 4601 metadata parametri ilə 57 hərfdən ibarətdir.
  19. Flickr 30k verilənlər toplusu — 30-dən çox şəkil və başlıq. (Flickr 8k verilənlər toplusu — 8000 şəkil. Python mənbə layihəsi: Şəkil Başlığı Generator Python Layihəsi)
  20. IMDB rəyləri — Təlim dəstində 25 000 film baxışı və test dəstində 25 000 film rəyi. (R-də mənbə kodu ilə tətbiq seçimi: Sentiment Analysis Data Science Layihəsi)
  21. MS COCO verilənlər toplusu — 1,5 milyon etiketlənmiş şəkil.
  22. CIFAR-10 və CIFAR-100 verilənlər bazası — CIFAR-10 60,000*32 piksel 32-0 nömrəli 9 kiçik təsvirdən ibarətdir. CIFAR-100 - müvafiq olaraq 0-100.
  23. GTSRB (Alman yol nişanlarının tanınması benchmarkı) Dataset — 50 yol nişanının 000 təsviri. (Python-da mənbə kodu ilə tətbiq seçimi: Traffic Nişanlarının Tanınması Python Layihəsi)
  24. ImageNet verilənlər toplusu — hər bir ifadədə 100-dən çox ifadə və 000-ə yaxın şəkil var.
  25. Döş Histopatologiyası Şəkillər Data Seti — verilənlər bazası döş xərçəngi nümunələrinin şəkillərini ehtiva edir. (Mənbə kodu ilə tətbiq seçimi Döş Xərçənginin Təsnifatı Python Layihəsi)
  26. Cityscapes Dataset — müxtəlif şəhərlərdəki küçələrin video ardıcıllığının yüksək keyfiyyətli annotasiyalarını ehtiva edir.
  27. Kinetik məlumat toplusu - təxminən 6,5 milyon yüksək keyfiyyətli videoya URL linki ehtiva edir.
  28. MPII insan pozası verilənlər bazası — verilənlər bazasında birgə annotasiyalarla insan pozalarının 25 təsviri var.
  29. 20BN-bir şey-bir şey verilənlər bazası v2 - insanın hansısa hərəkəti necə yerinə yetirdiyini göstərən yüksək keyfiyyətli videolar toplusu.
  30. Obyekt 365 verilənlər toplusu — obyekti məhdudlaşdıran qutuları olan yüksək keyfiyyətli şəkillərin verilənlər toplusu.
  31. Foto eskiz məlumat dəsti — konturları olan 1000-dən çox təsvirdən ibarətdir.
  32. CQ500 Məlumat dəsti — verilənlər toplusunda 491 dilimlə başın 193 CT taraması var.
  33. IMDB-Wiki məlumat dəsti — cins və yaşa görə işarələnmiş 5 milyondan çox üz təsvirindən ibarət verilənlər toplusu. (Mənbə kodu ilə tətbiq seçimi Gender & Age Detection Python Project)
  34. Youtube 8M Dataset - 6,1 milyon Youtube video identifikatorunu ehtiva edən etiketli video verilənlər bazası
  35. Urban Sound 8K məlumat dəsti — şəhər səsi məlumatları toplusu (8732 sinifdən 10 şəhər səsini ehtiva edir).
  36. LSUN verilənlər toplusu - səhnələrin və obyektlərin milyonlarla rəngli təsvirlərindən ibarət verilənlər bazası (təxminən 59 milyon şəkil, 10 müxtəlif səhnə kateqoriyası və 20 müxtəlif obyekt kateqoriyası).
  37. RAVDESS verilənlər toplusu — emosional nitqin audiovizual bazası. (Mənbə kodu ilə tətbiq seçimi Nitq Emosiyasının Tanınması Python Layihəsi)
  38. Librispeech Dataset — verilənlər bazası müxtəlif aksentlərlə 1000 saat ingilis dilində nitq ehtiva edir.
  39. Baidu Apolloscape verilənlər toplusu — özünü idarə edən texnologiyaların inkişafı üçün verilənlər toplusu.
  40. Quandl Məlumat Portalı — iqtisadi və maliyyə məlumatlarının deposu (pulsuz və ödənişli məzmun var).
  41. Dünya Bankının Açıq Məlumat Portalı — Dünya Bankının inkişaf etməkdə olan ölkələrə verdiyi kreditlər haqqında məlumat.
  42. BVF Məlumat Portalı beynəlxalq maliyyə, borc dərəcələri, investisiyalar, valyuta ehtiyatları və əmtəələrə dair məlumatları dərc edən beynəlxalq valyuta fondu portalıdır.
  43. Amerika İqtisadi Assosiasiyası (AEA) Məlumat Portalı - ABŞ-ın makroiqtisadi məlumatlarını axtarmaq üçün resurs.
  44. Google Trendlər Məlumat Portalı - Google trend məlumatları vizual olaraq məlumatları araşdırmaq və təhlil etmək üçün istifadə edilə bilər.
  45. Financial Times Market Data Portalı dünyanın hər yerindən maliyyə bazarları haqqında ən son məlumat üçün resursdur.
  46. Data.gov Portalı - ABŞ hökumətinin açıq məlumat portalı (kənd təsərrüfatı, səhiyyə, iqlim, təhsil, enerji, maliyyə, elm və tədqiqat və s.).
  47. Məlumat Portalı: Açıq hökumət məlumatları (Hindistan) Hindistanın açıq hökumət məlumat platformasıdır.
  48. Qida mühiti Atlas Data Portalı — ABŞ-da qidalanma ilə bağlı tədqiqat məlumatlarını ehtiva edir.
  49. Sağlamlıq Məlumat Portalı ABŞ Səhiyyə və İnsan Xidmətləri Departamentinin portalıdır.
  50. Xəstəliklərə Nəzarət və Qarşısının Alınması Mərkəzləri Məlumat Portalı - sağlamlıqla bağlı məlumatların geniş spektrini ehtiva edir.
  51. London Datastore Portalı - Londonda insanların həyatı haqqında məlumatlar.
  52. Kanada Hökumətinin Açıq Məlumat Portalı - Kanadalılar haqqında açıq məlumat portalı (kənd təsərrüfatı, incəsənət, musiqi, təhsil, hökumət, səhiyyə və s.)

Daha çox oxu

Mənbə: www.habr.com

Добавить комментарий