52 kumpulan data untuk proyek pelatihan

  1. Kumpulan Data Pelanggan Mall — data pengunjung toko: id, jenis kelamin, umur, pendapatan, rating pengeluaran. (Opsi aplikasi: Proyek Segmentasi Pelanggan dengan Machine Learning)
  2. Set Data Iris — kumpulan data untuk pemula, berisi ukuran sepal dan kelopak untuk berbagai bunga.
  3. Kumpulan Data MNIST — kumpulan data angka tulisan tangan. 60 gambar pelatihan dan 000 gambar uji.
  4. Kumpulan Data Perumahan Boston adalah kumpulan data populer untuk pengenalan pola. Berisi informasi tentang rumah di Boston: jumlah apartemen, harga sewa, indeks kejahatan.
  5. Kumpulan Data Deteksi Berita Palsu — berisi 7796 entri dengan tanda berita: benar atau salah. (Opsi aplikasi dengan kode sumber dengan Python: Proyek Python Deteksi Berita Palsu )
  6. Kumpulan data kualitas anggur — berisi informasi tentang anggur: 4898 catatan dengan 14 parameter.
  7. Data SOCR – Kumpulan Data Tinggi dan Berat - pilihan yang bagus untuk memulai. Berisi 25 catatan tinggi dan berat badan orang berusia 000 tahun.

    52 kumpulan data untuk proyek pelatihan

    Artikel tersebut diterjemahkan dengan dukungan EDISON Software, yang memenuhi pesanan dari Tiongkok Selatan dengan “sangat baik”Dan mengembangkan aplikasi web dan situs web.

  8. Kumpulan Data Parkinson — 195 catatan pasien penyakit Parkinson, dengan 25 parameter analisis. Dapat digunakan untuk penilaian awal perbedaan antara orang sakit dan orang sehat. (Opsi aplikasi dengan kode sumber dengan Python: Proyek Pembelajaran Mesin untuk Mendeteksi Penyakit Parkinson)
  9. Kumpulan Data Titanic — berisi informasi tentang penumpang (usia, jenis kelamin, kerabat di pesawat, dll.) 891 di set pelatihan dan 418 di set tes.
  10. Kumpulan Data Penjemputan Uber — informasi tentang 4.5 juta perjalanan dengan Uber pada tahun 2014 dan 14 juta pada tahun 2015. (Opsi aplikasi dengan kode sumber di R: Proyek Analisis Data Uber di R)
  11. Kumpulan Data Chars74k — berisi gambar simbol Inggris dan Kanada dari 64 kelas: 0-9, AZ, az. 7700 7.7k gambar alami, 3400k tulisan tangan, 62000 font sintesis komputer.
  12. Kumpulan Data Deteksi Penipuan Kartu Kredit — berisi informasi tentang transaksi kartu kredit yang disusupi. (Opsi aplikasi dengan sumber: Proyek Pembelajaran Mesin Deteksi Penipuan Kartu Kredit)
  13. Kumpulan Data Maksud Chatbot — file JSON yang berisi berbagai tag: salam, selamat tinggal, pencarian_rumah sakit, pencarian_apotek, dll. Berisi satu set templat tanya jawab. (Opsi aplikasi dengan kode sumber dengan Python: Proyek Chatbot dengan Python)
  14. Kumpulan Data Email Enron — berisi setengah juta surat dari 150 manajer Enron.
  15. Kumpulan Data Yelp — berisi 1,2 juta rekomendasi dari 1,6 juta pengguna di sekitar 1,2 juta organisasi.
  16. Kumpulan Data Bahaya — lebih dari 200 rekaman tanya jawab dari permainan televisi populer.
  17. Kumpulan Data Sistem Rekomendasi — portal dengan kumpulan dataset dari UCSD University. Berisi catatan ulasan di situs populer (Goodreads, Amazon). Bagus untuk membuat sistem pemberi rekomendasi. (Opsi aplikasi dengan kode sumber di R: Proyek Sistem Rekomendasi Film di R )
  18. Kumpulan Data Basis Spam UCI — kumpulan data pelatihan untuk deteksi spam. Berisi 4601 huruf dengan 57 parameter metadata.
  19. Kumpulan Data Flickr 30k — lebih dari 30 gambar dan keterangan. (Kumpulan Data Flickr 8k — 8000 gambar. Proyek sumber Python: Proyek Python Pembuat Keterangan Gambar)
  20. Ulasan IMDB — 25 ulasan film di set pelatihan dan 000 di set pengujian. (Opsi aplikasi dengan kode sumber di R: Proyek Sains Data Analisis Sentimen)
  21. Kumpulan data MS COCO — 1,5 juta gambar yang diberi tag.
  22. Kumpulan data CIFAR-10 dan CIFAR-100 — CIFAR-10 berisi 60,000 gambar kecil berukuran 32*32 piksel nomor 0-9. CIFAR-100 - masing-masing, 0-100.
  23. Kumpulan Data GTSRB (patokan pengenalan rambu lalu lintas Jerman). — 50 gambar dari 000 rambu jalan. (Opsi aplikasi dengan kode sumber dengan Python: Proyek Python Pengenalan Rambu Lalu Lintas)
  24. Dataset ImageNet — berisi lebih dari 100 frasa dan sekitar 000 gambar per frasa.
  25. Kumpulan Data Gambar Histopatologi Payudara — kumpulan data berisi gambar sampel kanker payudara. (Opsi aplikasi dengan kode sumber aktif Proyek Python Klasifikasi Kanker Payudara)
  26. Kumpulan Data Pemandangan Kota — berisi anotasi berkualitas tinggi dari rangkaian video jalan-jalan di berbagai kota.
  27. Kumpulan Data Kinetik - berisi tautan URL ke sekitar 6,5 juta video berkualitas tinggi.
  28. Kumpulan data pose manusia MPII — kumpulan data berisi 25 gambar pose manusia dengan anotasi gabungan.
  29. Kumpulan data 20BN-sesuatu-sesuatu v2 - kumpulan video berkualitas tinggi yang menunjukkan bagaimana seseorang melakukan suatu tindakan.
  30. Kumpulan Data Objek 365 — kumpulan data gambar berkualitas tinggi dengan kotak pembatas objek.
  31. Kumpulan data sketsa foto — berisi lebih dari 1000 gambar dengan gambar garis besarnya.
  32. Kumpulan Data CQ500 — kumpulan data berisi 491 CT scan kepala dengan 193 irisan.
  33. Kumpulan data IMDB-Wiki — kumpulan data dengan lebih dari 5 juta gambar wajah yang ditandai berdasarkan jenis kelamin dan usia. (Opsi aplikasi dengan kode sumber aktif Proyek Python Deteksi Gender & Usia)
  34. Kumpulan Data Youtube 8M - Kumpulan data video berlabel yang berisi 6,1 juta ID video Youtube
  35. Kumpulan data Urban Sound 8K — satu set data suara perkotaan (berisi 8732 suara perkotaan dari 10 kelas).
  36. Kumpulan Data LSUN - kumpulan data jutaan gambar berwarna dari pemandangan dan objek (sekitar 59 juta gambar, 10 kategori pemandangan berbeda, dan 20 kategori objek berbeda).
  37. Kumpulan Data RAVDESS — database audiovisual ucapan emosional. (Opsi aplikasi dengan kode sumber aktif Proyek Python Pengenalan Emosi Ucapan)
  38. Kumpulan Data Perpustakaan — kumpulan data berisi 1000 jam pidato bahasa Inggris dengan aksen berbeda.
  39. Kumpulan Data Baidu Apolloscape — kumpulan data untuk pengembangan teknologi self-driving.
  40. Portal Data Quandl — gudang data ekonomi dan keuangan (ada konten gratis dan berbayar).
  41. Portal Data Terbuka Bank Dunia — informasi mengenai pinjaman yang dikeluarkan oleh Bank Dunia kepada negara-negara berkembang.
  42. Portal Data IMF adalah portal dana moneter internasional yang menerbitkan data keuangan internasional, tingkat utang, investasi, cadangan devisa, dan komoditas.
  43. Portal Data Asosiasi Ekonomi Amerika (AEA). - Sumber daya untuk mencari data makroekonomi AS.
  44. Portal Data Google Trends - Data tren Google dapat digunakan untuk menjelajahi dan menganalisis data secara visual.
  45. Portal Data Pasar Financial Times adalah sumber informasi terkini tentang pasar keuangan dari seluruh dunia.
  46. Portal Data.gov - Portal data terbuka pemerintah AS (pertanian, kesehatan, iklim, pendidikan, energi, keuangan, sains dan penelitian, dll.).
  47. Portal Data: Data terbuka pemerintah (India) adalah platform data pemerintah terbuka India.
  48. Portal Data Atlas lingkungan makanan — berisi data penelitian tentang nutrisi di Amerika Serikat.
  49. Portal Data Kesehatan adalah portal Departemen Kesehatan dan Layanan Kemanusiaan AS.
  50. Portal Data Pusat Pengendalian dan Pencegahan Penyakit - berisi berbagai macam data yang berhubungan dengan kesehatan.
  51. Portal Penyimpanan Data London - data tentang kehidupan masyarakat di London.
  52. Portal Data Terbuka Pemerintah Kanada - portal data terbuka tentang warga Kanada (pertanian, seni, musik, pendidikan, pemerintahan, perawatan kesehatan, dll.)

Baca selengkapnya

Sumber: www.habr.com

Tambah komentar