52 datasets foar trainingsprojekten

  1. Mall Customers Dataset - gegevens fan winkelbesikers: id, geslacht, leeftyd, ynkommen, útjeftenwurdearring. (Applikaasje opsje: Klantsegmentaasjeprojekt mei Machine Learning)
  2. Iris Dataset - in dataset foar begjinners, mei de grutte fan kelkblêden en petalen foar ferskate blommen.
  3. MNIST Dataset - in dataset fan mei de hân skreaune nûmers. 60 trainingsôfbyldings en 000 testôfbyldings.
  4. De Boston Housing Dataset is in populêre dataset foar patroanherkenning. Befettet ynformaasje oer huzen yn Boston: oantal apparteminten, hierprizen, kriminaliteitsyndeks.
  5. Fake Nijs Detection Dataset - befettet 7796 ynstjoerings mei nijsmarkeringen: wier of falsk. (Applikaasje-opsje mei boarnekoade yn Python: Fake News Detection Python Project )
  6. Wyn kwaliteit dataset - befettet ynformaasje oer wyn: 4898 records mei 14 parameters.
  7. SOCR-gegevens - Dataset foar hichten en gewichten - in goede opsje om mei te begjinnen. Befettet 25 records fan 'e hichte en gewicht fan 000-jierrige minsken.

    52 datasets foar trainingsprojekten

    It artikel waard oerset mei de stipe fan EDISON Software, dy't foltôget oarders út Súd-Sina "foarút", lykas ek ûntwikkelet webapplikaasjes en websiden.

  8. Parkinson Dataset - 195 records fan pasjinten mei de sykte fan Parkinson, mei 25 analyze parameters. Kin brûkt wurde foar foarriedige beoardieling fan it ferskil tusken sike minsken en sûne minsken. (Applikaasje-opsje mei boarnekoade yn Python: Machine Learning Project oer it opspoaren fan de sykte fan Parkinson)
  9. Titanic Dataset - befettet ynformaasje oer passazjiers (leeftyd, geslacht, sibben oan board, ensfh.) 891 yn 'e trainingsset en 418 yn' e testset.
  10. Uber Pickups Dataset - ynformaasje oer 4.5 miljoen reizen op Uber yn 2014 en 14 miljoen yn 2015. (Applikaasje-opsje mei boarnekoade yn R: Uber Data Analysis Project yn R)
  11. Chars74k Dataset - befettet bylden fan Britske en Kanadeeske symboalen fan 64 klassen: 0-9, A-Z, a-z. 7700 7.7k natuerlike ôfbyldings, 3400k mei de hân skreaun, 62000 komputer syntetisearre lettertypen.
  12. Credit Card Fraude Detection Dataset - befettet ynformaasje oer transaksjes fan kompromittearre kredytkaarten. (Applikaasjeopsje mei boarne: Credit Card Fraude Detection Machine Learning Project)
  13. Chatbot Intents Dataset - in JSON-bestân dat ferskate tags befettet: groetnis, oant sjen, hospital_search, pharmacy_search, ensfh. Befettet in set fraach-antwurd-sjabloanen. (Applikaasje-opsje mei boarnekoade yn Python: Chatbot Project yn Python)
  14. Enron Email Dataset - befettet in heal miljoen brieven fan 150 Enron-managers.
  15. De Yelp-dataset - befettet 1,2 miljoen oanbefellings fan 1,6 miljoen brûkers oer 1,2 miljoen organisaasjes.
  16. Jeopardy Dataset - mear dan 200 fraach-en-antwurd-opnames fan it populêre televyzjespul.
  17. Recommender Systems Dataset - in portaal mei in samling datasets fan UCSD University. Befettet records fan resinsjes op populêre siden (Goodreads, Amazon). Geweldich foar it meitsjen fan oanbefellingssystemen. (Applikaasje-opsje mei boarnekoade yn R: Movie Recommendation System Project yn R )
  18. UCI Spambase Dataset - in training dataset foar deteksje fan spam. Befettet 4601 letters mei 57 metadataparameters.
  19. Flickr 30k Dataset - mear dan 30 ôfbyldings en titels. (Flickr 8k Dataset - 8000 ôfbyldings. Python boarne projekt: Image Caption Generator Python Project)
  20. IMDB resinsjes - 25 filmresinsjes yn 'e trainingsset en 000 yn' e testset. (Applikaasje-opsje mei boarnekoade yn R: Sentiment Analysis Data Science Project)
  21. MS COCO dataset - 1,5 miljoen tagged ôfbyldings.
  22. CIFAR-10 en CIFAR-100 dataset - CIFAR-10 befettet 60,000 lytse ôfbyldings fan 32 * 32 piksels nûmers 0-9. CIFAR-100 - respektivelik, 0-100.
  23. GTSRB (Dútske benchmark foar erkenning fan ferkearsteken) Dataset - 50 bylden fan 000 ferkearsbuorden. (Applikaasje-opsje mei boarnekoade yn Python: Ferkearsbuorden Erkenning Python Project)
  24. ImageNet dataset - befettet mear dan 100 sinnen en sawat 000 ôfbyldings per sin.
  25. Breast Histopathology Images Dataset - de dataset befettet ôfbyldings fan boarstkankermonsters. (Applikaasje-opsje mei boarnekoade oan Breast Cancer Classification Python Project)
  26. Stedsgesichten Dataset - befettet annotaasjes fan hege kwaliteit fan fideosekwinsjes fan strjitten yn ferskate stêden.
  27. Kinetics Dataset - befettet in URL-keppeling nei sawat 6,5 miljoen fideo's fan hege kwaliteit.
  28. MPII minsklike pose dataset - de dataset befettet 25 bylden fan minsklike poses mei mienskiplike annotaasjes.
  29. 20BN-wat-iets dataset v2 - in set fideo's fan hege kwaliteit dy't sjen litte hoe't in persoan wat aksje útfiert.
  30. Objekt 365 Dataset - in dataset fan ôfbyldings fan hege kwaliteit mei beheinende fakken foar objekten.
  31. Foto sketching dataset - befettet mear dan 1000 ôfbyldings mei har tekeningen.
  32. CQ500 Dataset - de dataset befettet 491 CT-scans fan 'e holle mei 193 plakjes.
  33. IMDB-Wiki dataset - in dataset mei mear dan 5 miljoen ôfbyldings fan gesichten markearre troch geslacht en leeftyd. (Applikaasje-opsje mei boarnekoade oan Geslacht en leeftyd Detection Python Project)
  34. Youtube 8M Dataset - In markearre fideodataset dy't 6,1 miljoen YouTube-fideo-ID's befettet
  35. Urban Sound 8K dataset - in set stedske lûdgegevens (befettet 8732 stedske lûden út 10 klassen).
  36. LSUN Dataset - in dataset fan miljoenen kleurôfbyldings fan sênes en objekten (sawat 59 miljoen ôfbyldings, 10 ferskillende sênekategoryen en 20 ferskillende objektkategoryen).
  37. RAVDESS Dataset - audiofisuele databank fan emosjonele spraak. (Applikaasje-opsje mei boarnekoade oan Spraak Emoasje Erkenning Python Project)
  38. Librispeech Dataset - de dataset befettet 1000 oeren Ingelsk spraak mei ferskate aksinten.
  39. Baidu Apolloscape Dataset - in dataset foar de ûntwikkeling fan selsridende technologyen.
  40. Quandl Data Portal - repository fan ekonomyske en finansjele gegevens (d'r is fergees en betelle ynhâld).
  41. De World Bank Open Data Portal - ynformaasje oer lieningen útjûn troch de Wrâldbank oan ûntwikkelingslannen.
  42. IMF Data Portal is in ynternasjonaal monetêr fûnsportaal dat gegevens publisearret oer ynternasjonale finânsjes, skuldraten, ynvestearrings, bûtenlânske útwikselingsreserves en commodities.
  43. American Economic Association (AEA) Data Portal - In boarne foar it sykjen fan Amerikaanske makroekonomyske gegevens.
  44. Google Trends Data Portal - Google-trendgegevens kinne wurde brûkt om gegevens visueel te ferkennen en te analysearjen.
  45. Financial Times Market Data Portal is in boarne foar aktuele ynformaasje oer finansjele merken fan oer de hiele wrâld.
  46. Data.gov Portal - Open dataportaal fan 'e Amerikaanske regearing (lânbou, sûnens, klimaat, ûnderwiis, enerzjy, finânsjes, wittenskip en ûndersyk, ensfh.).
  47. Gegevensportaal: Iepen regearingsgegevens (Yndia) is it iepen regeardataplatfoarm fan Yndia.
  48. Food omjouwing Atlas Data Portal - befettet ûndersyksgegevens oer fieding yn 'e Feriene Steaten.
  49. Health Data Portal is in portaal fan it Amerikaanske ministearje fan sûnens en minsklike tsjinsten.
  50. Centers for Disease Control and Prevention Data Portal - befettet in breed skala oan sûnensrelatearre gegevens.
  51. London Datastore Portal - gegevens oer it libben fan minsken yn Londen.
  52. Kanada Government Open Data Portal - in portaal fan iepen gegevens oer Kanadezen (lânbou, keunst, muzyk, ûnderwiis, oerheid, sûnenssoarch, ensfh.)

Lês mear

Boarne: www.habr.com

Add a comment