Seti 52 za ​​data za miradi ya mafunzo

  1. Seti ya data ya Wateja wa Mall - data ya wageni wa duka: kitambulisho, jinsia, umri, mapato, ukadiriaji wa matumizi. (Chaguo la maombi: Mradi wa Kugawanya Wateja na Kujifunza kwa Mashine)
  2. Hifadhidata ya iris - seti ya data kwa wanaoanza, iliyo na saizi za sepals na petals kwa maua anuwai.
  3. Seti ya data ya MNIST - seti ya data ya nambari zilizoandikwa kwa mkono. Picha 60 za mafunzo na picha 000 za majaribio.
  4. Hifadhidata ya Makazi ya Boston ni mkusanyiko maarufu wa data kwa utambuzi wa muundo. Ina taarifa kuhusu nyumba katika Boston: idadi ya vyumba, bei ya kukodisha, uhalifu index.
  5. Seti ya Data ya Ugunduzi wa Habari Bandia - ina maingizo 7796 yenye alama za habari: kweli au si kweli. (Chaguo la maombi na nambari ya chanzo katika Python: Mradi wa Python wa kugundua Habari bandia )
  6. Seti ya data ya ubora wa mvinyo - ina habari kuhusu divai: rekodi 4898 na vigezo 14.
  7. Data ya SOCR - Hifadhidata ya Urefu na Uzito - chaguo nzuri kuanza na. Ina rekodi 25 za urefu na uzito wa watu wenye umri wa miaka 000.

    Seti 52 za ​​data za miradi ya mafunzo

    Nakala hiyo ilitafsiriwa kwa usaidizi wa Programu ya EDISON, ambayo inatimiza maagizo kutoka Kusini mwa China "kwa ubora"Na inakuza programu za wavuti na tovuti.

  8. Hifadhidata ya Parkinson - Rekodi 195 za wagonjwa wenye ugonjwa wa Parkinson, na vigezo 25 vya uchambuzi. Inaweza kutumika kwa tathmini ya awali ya tofauti kati ya wagonjwa na watu wenye afya. (Chaguo la maombi na nambari ya chanzo katika Python: Mradi wa Kujifunza kwa Mashine juu ya Kugundua Ugonjwa wa Parkinson)
  9. Hifadhidata ya Titanic - ina taarifa kuhusu abiria (umri, jinsia, jamaa kwenye bodi, nk) 891 katika seti ya mafunzo na 418 katika seti ya mtihani.
  10. Seti ya Data ya Uber Pickups - maelezo kuhusu safari milioni 4.5 kwenye Uber mwaka wa 2014 na milioni 14 mwaka wa 2015. (Chaguo la maombi na nambari ya chanzo katika R: Mradi wa Uchambuzi wa Data wa Uber nchini R)
  11. Karatasi ya data ya Chars74k - ina picha za alama za Uingereza na Kanada za madarasa 64: 0-9, A-Z, a-z. 7700 7.7k picha asili, 3400k zilizoandikwa kwa mkono, fonti 62000 zilizosanisishwa kwa kompyuta.
  12. Seti ya Data ya Kugundua Ulaghai wa Kadi ya Mkopo - ina habari kuhusu shughuli za kadi za mkopo zilizoathiriwa. (Chaguo la maombi na chanzo: Mradi wa Kujifunza wa Mashine ya Kugundua Ulaghai wa Kadi ya Mkopo)
  13. Seti ya Data ya Madhumuni ya Chatbot — faili ya JSON ambayo ina lebo mbalimbali: salamu, kwaheri, hospitali_search, pharmacy_search, n.k. Ina seti ya violezo vya majibu ya maswali. (Chaguo la maombi na nambari ya chanzo katika Python: Mradi wa Chatbot huko Python)
  14. Seti ya data ya barua pepe ya Enron - ina barua nusu milioni kutoka kwa wasimamizi 150 wa Enron.
  15. Seti ya data ya Yelp - ina mapendekezo milioni 1,2 kutoka kwa watumiaji milioni 1,6 kuhusu mashirika milioni 1,2.
  16. Seti ya Data ya Hatari - zaidi ya rekodi 200 za maswali na majibu kutoka kwa mchezo maarufu wa televisheni.
  17. Seti ya Data ya Mifumo ya Mpendekezaji - lango lenye mkusanyiko wa hifadhidata kutoka Chuo Kikuu cha UCSD. Ina rekodi za hakiki kwenye tovuti maarufu (Goodreads, Amazon). Nzuri kwa kuunda mifumo ya washauri. (Chaguo la maombi na nambari ya chanzo katika R: Mradi wa Mfumo wa Mapendekezo ya Filamu katika R )
  18. UCI Spambase Dataset - seti ya data ya mafunzo ya kugundua barua taka. Ina herufi 4601 na vigezo 57 vya metadata.
  19. Hifadhidata ya Flickr 30k - zaidi ya picha 30 na maelezo mafupi. (Hifadhidata ya Flickr 8k - picha 8000. Mradi wa chanzo cha Python: Mradi wa Python wa Jenereta ya Maelezo ya Picha)
  20. Mapitio ya IMDB - Mapitio ya filamu 25 katika seti ya mafunzo na 000 katika seti ya majaribio. (Chaguo la maombi na nambari ya chanzo katika R: Mradi wa Sayansi ya Uchambuzi wa Hisia)
  21. Karatasi ya data ya MS COCO - Picha milioni 1,5 zilizowekwa alama.
  22. Seti ya data ya CIFAR-10 na CIFAR-100 — CIFAR-10 ina picha ndogo 60,000 za nambari 32*32 za pikseli 0-9. CIFAR-100 - kwa mtiririko huo, 0-100.
  23. GTSRB (Kigezo cha utambuzi wa alama ya trafiki cha Ujerumani) Seti ya data - Picha 50 za alama 000 za barabarani. (Chaguo la maombi na nambari ya chanzo katika Python: Mradi wa Python wa Utambuzi wa Alama za Trafiki)
  24. Seti ya data ya ImageNet - ina zaidi ya misemo 100 na takriban picha 000 kwa kila kifungu.
  25. Seti ya Data ya Picha za Histopatholojia ya Matiti - hifadhidata ina picha za sampuli za saratani ya matiti. (Chaguo la programu na msimbo wa chanzo umewashwa Mradi wa Python wa Uainishaji wa Saratani ya Matiti)
  26. Seti ya Data ya Cityscapes - ina maelezo ya hali ya juu ya mfuatano wa video wa mitaa katika miji tofauti.
  27. Seti ya data ya Kinetics - ina kiungo cha URL kwa takribani video milioni 6,5 za ubora wa juu.
  28. Seti ya data ya pozi ya binadamu ya MPII - seti ya data ina picha 25 za pozi za binadamu zenye maelezo ya pamoja.
  29. 20BN-kitu-kitu cha data v2 - seti ya video za ubora wa juu zinazoonyesha jinsi mtu hufanya kitendo fulani.
  30. Object 365 Dataset - mkusanyiko wa picha za ubora wa juu na visanduku vya kufunga vitu.
  31. Seti ya data ya kuchora picha - Ina zaidi ya picha 1000 na michoro yao ya muhtasari.
  32. Karatasi ya data ya CQ500 - seti ya data ina vipimo 491 vya CT vya kichwa na vipande 193.
  33. Seti ya data ya IMDB-Wiki - seti ya data iliyo na zaidi ya picha milioni 5 za nyuso zilizo na alama za jinsia na umri. (Chaguo la programu na msimbo wa chanzo umewashwa Mradi wa Python wa Utambuzi wa Jinsia na Umri)
  34. Seti ya data ya Youtube 8M - Seti ya data ya video iliyo na lebo ambayo ina Vitambulisho vya video vya YouTube milioni 6,1
  35. Seti ya data ya Sauti ya Mjini 8K - seti ya data ya sauti ya mijini (ina sauti 8732 za mijini kutoka kwa madarasa 10).
  36. Seti ya data ya LSUN - mkusanyiko wa mamilioni ya picha za rangi za matukio na vitu (takriban picha milioni 59, kategoria 10 tofauti za eneo na kategoria 20 tofauti za vitu).
  37. Seti ya data ya RAVDESS - hifadhidata ya sauti na kuona ya hotuba ya kihemko. (Chaguo la programu na msimbo wa chanzo umewashwa Mradi wa Python wa Utambuzi wa Hotuba)
  38. Seti ya Data ya Librispeech - seti ya data ina masaa 1000 ya hotuba ya Kiingereza yenye lafudhi tofauti.
  39. Seti ya Data ya Baidu Apolloscape - seti ya data ya ukuzaji wa teknolojia za kujiendesha.
  40. Quandl Data Portal - hifadhi ya data ya kiuchumi na kifedha (kuna maudhui ya bure na ya kulipwa).
  41. Benki ya Dunia ya Open Data Portal - habari juu ya mikopo iliyotolewa na Benki ya Dunia kwa nchi zinazoendelea.
  42. Tovuti ya data ya IMF ni tovuti ya hazina ya kimataifa ya fedha ambayo huchapisha data kuhusu fedha za kimataifa, viwango vya madeni, uwekezaji, akiba ya fedha za kigeni na bidhaa.
  43. Tovuti ya Data ya Jumuiya ya Kiuchumi ya Marekani (AEA). - Nyenzo ya kutafuta data ya uchumi mkuu wa Marekani.
  44. Tovuti ya Data ya Google Trends - Data ya mwelekeo wa Google inaweza kutumika kuchunguza na kuchanganua data.
  45. Financial Times Market Data Portal ni nyenzo kwa taarifa za kisasa kuhusu masoko ya fedha kutoka duniani kote.
  46. Data.gov Portal - Tovuti ya wazi ya data ya serikali ya Marekani (kilimo, afya, hali ya hewa, elimu, nishati, fedha, sayansi na utafiti, n.k.).
  47. Tovuti ya Data: Fungua data ya serikali (India) ni jukwaa la wazi la data la serikali ya India.
  48. Mazingira ya chakula Atlas Data Portal - ina data ya utafiti kuhusu lishe nchini Marekani.
  49. Tovuti ya Data ya Afya ni lango la Idara ya Afya na Huduma za Kibinadamu ya Marekani.
  50. Vituo vya Data ya Kudhibiti na Kuzuia Magonjwa - ina anuwai ya data inayohusiana na afya.
  51. London Datastore Portal - data kuhusu maisha ya watu huko London.
  52. Tovuti ya Data ya Wazi ya Serikali ya Kanada - lango la data wazi kuhusu Wakanada (kilimo, sanaa, muziki, elimu, serikali, huduma ya afya, n.k.)

Soma zaidi

Chanzo: mapenzi.com

Kuongeza maoni