52 datasets pikeun proyék latihan

  1. Mall Palanggan Dataset - data sémah toko: id, gender, umur, panghasilan, rating belanja. (Pilihan aplikasi: Proyék Segméntasi Pelanggan sareng Pembelajaran Mesin)
  2. Iris Dataset - dataset pikeun beginners, ngandung ukuran sepals na petals pikeun sagala rupa kembang.
  3. Dataset MNIST - susunan data tina angka tulisan leungeun. 60 gambar latihan jeung 000 gambar test.
  4. Dataset Perumahan Boston mangrupakeun set data populér pikeun pangakuan pola. Ngandung informasi ngeunaan imah di Boston: Jumlah apartemen, harga rental, indéks kajahatan.
  5. Dataset Deteksi Warta Palsu - ngandung 7796 éntri kalawan tanda warta: bener atawa salah. (Pilihan aplikasi sareng kode sumber dina Python: Proyék Python Deteksi Warta Palsu )
  6. Dataset kualitas anggur - ngandung émbaran ngeunaan anggur: 4898 rékaman jeung 14 parameter.
  7. Data SOCR - Dataset Jangkungna sareng Beurat - pilihan alus pikeun mimitian ku. Ngandung 25 rékaman jangkungna jeung beurat jalma 000 taun heubeul.

    52 datasets pikeun proyék latihan

    Artikel ieu ditarjamahkeun kalayan dukungan EDISON Software, anu minuhan pesenan ti Cina Kidul "saé pisan"jeung ngembangkeun aplikasi wéb sareng situs wéb.

  8. Dataset Parkinson - 195 rékaman pasien kalayan kasakit Parkinson, kalawan 25 parameter analisis. Bisa dipaké pikeun assessment awal bédana antara jalma gering jeung jalma cageur. (Pilihan aplikasi sareng kode sumber dina Python: Proyék Pembelajaran Mesin ngeunaan Ngadeteksi Kasakit Parkinson)
  9. Titanic Dataset - ngandung émbaran ngeunaan panumpang (umur, gender, baraya on dewan, jeung sajabana) 891 dina set latihan jeung 418 dina set test.
  10. Dataset Uber Pickups - inpormasi ngeunaan 4.5 juta perjalanan dina Uber di 2014 sareng 14 juta di 2015. (Pilihan aplikasi sareng kode sumber dina R: Proyék Analisis Data Uber di R)
  11. Chars74k Dataset - ngandung gambar lambang Britania jeung Kanada 64 kelas: 0-9, A-Z, a-z. 7700 7.7k gambar alam, 3400k tulisan leungeun, 62000 komputer fon disintésis.
  12. Dataset deteksi panipuan kartu kiridit - ngandung émbaran ngeunaan transaksi kartu kiridit compromised. (Pilihan aplikasi sareng sumber: Proyék Learning Mesin Deteksi Penipuan Kartu Kredit)
  13. Chatbot Intents Dataset - file JSON anu ngandung sababaraha tag: salam, wilujeung, hospital_search, pharmacy_search, jsb. Ngandung sakumpulan template patarosan-jawaban. (Pilihan aplikasi sareng kode sumber dina Python: Proyék Chatbot dina Python)
  14. Enron Email Dataset - ngandung satengah juta surat ti 150 manajer Enron.
  15. The Yelp Dataset - ngandung 1,2 juta saran ti 1,6 juta pamaké ngeunaan 1,2 juta organisasi.
  16. Dataset Jeopardy - langkung ti 200 rékaman patarosan-jawaban tina kaulinan televisi populér.
  17. Rekomendasi Systems Dataset - portal sareng kumpulan set data ti UCSD University. Ngandung rékaman ulasan dina situs populér (Goodreads, Amazon). Gede pikeun nyieun sistem recommender. (Pilihan aplikasi sareng kode sumber dina R: Proyék Sistem Rekomendasi Pilem di Sunda )
  18. UCI Spambase Dataset - set data latihan pikeun deteksi spam. Ngandung 4601 hurup sareng 57 parameter metadata.
  19. Flickr 30k Dataset - langkung ti 30 gambar sareng caption. (Flickr 8k Dataset - 8000 gambar. Proyék sumber Python: Gambar Caption Generator Proyék Python)
  20. ulasan IMDB - 25 ulasan pilem dina set latihan jeung 000 dina set test. (Pilihan aplikasi sareng kode sumber dina R: Proyék Élmu Data Analisis Sentimen)
  21. databés MS COCO - 1,5 juta gambar anu ditandaan.
  22. CIFAR-10 jeung CIFAR-100 dataset - CIFAR-10 ngandung 60,000 gambar leutik 32 * 32 piksel angka 0-9. CIFAR-100 - masing-masing 0-100.
  23. GTSRB (pangakuan tanda lalulintas Jerman patokan) Dataset - 50 gambar tina 000 tanda jalan. (Pilihan aplikasi sareng kode sumber dina Python: Proyék Python Pangakuan Tanda Lalu Lintas)
  24. Dataset ImageNet - ngandung langkung ti 100 frasa sareng sakitar 000 gambar per frasa.
  25. Payudara Histopatologi Gambar Dataset - dataset ngandung gambar sampel kanker payudara. (Pilihan aplikasi kalawan kode sumber on Proyék Python Klasifikasi Kangker Payudara)
  26. Dataset Cityscapes - ngandung anotasi kualitas luhur tina urutan pidéo jalan-jalan di kota anu béda.
  27. Dataset kinétik - ngandung tautan URL ka sakitar 6,5 juta pidéo kualitas luhur.
  28. Dataset pose manusa MPII - dataset ngandung 25 gambar pose manusa kalawan annotations gabungan.
  29. 20BN-something-some dataset v2 - sakumpulan pidéo kualitas luhur anu nunjukkeun kumaha hiji jalma ngalakukeun sababaraha tindakan.
  30. Objék 365 Dataset - set data gambar kualitas luhur sareng kotak wates objék.
  31. Data sketsa poto - ngandung leuwih ti 1000 gambar kalawan gambar outline maranéhanana.
  32. Dataset CQ500 - dataset ngandung 491 CT scan sirah kalawan 193 keureut.
  33. IMDB-Wiki dataset - set data sareng langkung ti 5 juta gambar wajah anu ditandaan ku gender sareng umur. (Pilihan aplikasi kalawan kode sumber on Proyék Python deteksi Gender & Umur)
  34. Dataset Youtube 8M - Dataset pidéo anu dilabélan anu ngandung 6,1 juta ID pidéo Youtube
  35. Dataset Urban Sora 8K - sakumpulan data sora kota (ngandung 8732 sora kota tina 10 kelas).
  36. Dataset LSUN - susunan data jutaan gambar warna pamandangan sareng objék (sakitar 59 juta gambar, 10 kategori pamandangan anu béda sareng 20 kategori objék anu béda).
  37. Dataset RAVDESS - database audiovisual ucapan emosi. (Pilihan aplikasi kalawan kode sumber on Proyék Python Pangenal Émosi Biantara)
  38. Dataset Librispeech — dataset ngandung 1000 jam pidato basa Inggris kalayan aksen anu béda.
  39. Dataset Baidu Apolloscape - susunan data pikeun ngembangkeun téknologi nyetir mandiri.
  40. Portal Data Quandl - Repository data ékonomi jeung finansial (aya eusi haratis sareng nu mayar).
  41. Portal Data Buka Bank Dunia — inpormasi ngeunaan pinjaman anu dikaluarkeun ku Bank Dunia ka nagara berkembang.
  42. Portal Data IMF mangrupikeun portal dana moneter internasional anu nyebarkeun data ngeunaan kauangan internasional, tingkat hutang, investasi, cadangan devisa sareng komoditas.
  43. Asosiasi Ékonomi Amérika (AEA) Portal Data - Sumberdaya pikeun milarian data makroekonomi AS.
  44. Portal Data Google Trends - Data trend Google tiasa dianggo pikeun ngajalajah sareng nganalisis data sacara visual.
  45. Portal Data Pasar Financial Times mangrupa sumberdaya pikeun informasi up-to-date dina pasar finansial ti sakuliah dunya.
  46. Portal Data.gov - portal data kabuka pamaréntah AS (tatanén, kaséhatan, iklim, atikan, tanaga, keuangan, sains jeung panalungtikan, jsb).
  47. Portal Data: Buka data pamaréntah (India) nyaéta platform data pamaréntah kabuka India.
  48. Pangan lingkungan Atlas Data Portal - ngandung data panalungtikan ngeunaan gizi di Amérika Serikat.
  49. Portal Data Kaséhatan mangrupikeun portal Departemen Kaséhatan sareng Jasa Asasi Manusa AS.
  50. Puseur pikeun Control Kasakit jeung Pencegahan Portal Data - ngandung rupa-rupa data nu patali jeung kaséhatan.
  51. London Datastore Portal - data ngeunaan kahirupan masarakat di London.
  52. Portal Data Buka Pamaréntah Kanada - portal data kabuka ngeunaan urang Kanada (tatanén, seni, musik, pendidikan, pamaréntahan, kasehatan, jsb.)

Maca deui

sumber: www.habr.com

Tambahkeun komentar