प्रशिक्षण प्रकल्पांसाठी 52 डेटासेट

  1. मॉल ग्राहक डेटासेट — स्टोअर अभ्यागतांचा डेटा: आयडी, लिंग, वय, उत्पन्न, खर्च रेटिंग. (अर्ज पर्याय: मशीन लर्निंगसह ग्राहक विभाजन प्रकल्प)
  2. आयरिस डेटासेट - नवशिक्यांसाठी डेटासेट, ज्यामध्ये विविध फुलांसाठी सेपल्स आणि पाकळ्यांचे आकार असतात.
  3. MNIST डेटासेट - हस्तलिखित संख्यांचा डेटासेट. 60 प्रशिक्षण प्रतिमा आणि 000 चाचणी प्रतिमा.
  4. बोस्टन हाऊसिंग डेटासेट नमुना ओळखण्यासाठी एक लोकप्रिय डेटासेट आहे. बोस्टनमधील घरांबद्दल माहिती आहे: अपार्टमेंटची संख्या, भाड्याच्या किमती, गुन्हे निर्देशांक.
  5. फेक न्यूज डिटेक्शन डेटासेट — बातम्या चिन्हांसह 7796 नोंदी आहेत: खरे किंवा खोटे. (पायथनमधील स्त्रोत कोडसह अनुप्रयोग पर्याय: फेक न्यूज डिटेक्शन पायथन प्रोजेक्ट )
  6. वाइन गुणवत्ता डेटासेट — वाइनबद्दल माहिती आहे: 4898 पॅरामीटर्ससह 14 रेकॉर्ड.
  7. SOCR डेटा - उंची आणि वजन डेटासेट - सुरू करण्यासाठी एक चांगला पर्याय. 25 वर्षांच्या लोकांच्या उंची आणि वजनाच्या 000 नोंदी आहेत.

    प्रशिक्षण प्रकल्पांसाठी 52 डेटासेट

    लेखाचा अनुवाद एडिसन सॉफ्टवेअरच्या समर्थनाने केला गेला होता, जे दक्षिण चीनमधील ऑर्डर "उत्कृष्टपणे" पूर्ण करतेआणि वेब अॅप्लिकेशन्स आणि वेबसाइट्स विकसित करते.

  8. पार्किन्सन डेटासेट - 195 विश्लेषण पॅरामीटर्ससह पार्किन्सन रोग असलेल्या रुग्णांच्या 25 नोंदी. आजारी लोक आणि निरोगी लोकांमधील फरकाच्या प्राथमिक मूल्यांकनासाठी वापरला जाऊ शकतो. (पायथनमधील स्त्रोत कोडसह अनुप्रयोग पर्याय: पार्किन्सन रोग शोधण्यावर मशीन लर्निंग प्रकल्प)
  9. टायटॅनिक डेटासेट — ट्रेनिंग सेटमध्ये प्रवाशांची (वय, लिंग, नातेवाईक इ.) 891 आणि चाचणी सेटमध्ये 418 बद्दल माहिती आहे.
  10. Uber पिकअप डेटासेट — 4.5 मध्ये Uber वर 2014 दशलक्ष आणि 14 मध्ये 2015 दशलक्ष सहलींची माहिती. (आर मधील स्त्रोत कोडसह अनुप्रयोग पर्याय: आर मध्ये उबर डेटा विश्लेषण प्रकल्प)
  11. Chars74k डेटासेट — मध्ये 64 वर्गांच्या ब्रिटिश आणि कॅनेडियन चिन्हांच्या प्रतिमा आहेत: 0-9, AZ, az. 7700 7.7k नैसर्गिक प्रतिमा, 3400k हस्तलिखित, 62000 संगणक संश्लेषित फॉन्ट.
  12. क्रेडिट कार्ड फसवणूक शोध डेटासेट - तडजोड केलेल्या क्रेडिट कार्डच्या व्यवहारांबद्दल माहिती आहे. (स्त्रोतासह अर्ज पर्याय: क्रेडिट कार्ड फ्रॉड डिटेक्शन मशीन लर्निंग प्रोजेक्ट)
  13. चॅटबॉट इंटेंट्स डेटासेट — एक JSON फाइल ज्यामध्ये विविध टॅग असतात: ग्रीटिंग्ज, गुडबाय, हॉस्पिटल_शोध, फार्मसी_शोध इ. प्रश्न-उत्तर टेम्पलेट्सचा संच आहे. (पायथनमधील स्त्रोत कोडसह अनुप्रयोग पर्याय: पायथनमधील चॅटबॉट प्रकल्प)
  14. एनरॉन ईमेल डेटासेट - 150 एनरॉन व्यवस्थापकांची अर्धा दशलक्ष पत्रे आहेत.
  15. Yelp डेटासेट — सुमारे 1,2 दशलक्ष संस्थांच्या 1,6 दशलक्ष वापरकर्त्यांकडून 1,2 दशलक्ष शिफारसी आहेत.
  16. धोक्याचा डेटासेट — लोकप्रिय टेलिव्हिजन गेममधील 200 हून अधिक प्रश्न-उत्तर रेकॉर्डिंग.
  17. शिफारस प्रणाली डेटासेट — UCSD युनिव्हर्सिटीच्या डेटासेटच्या संग्रहासह पोर्टल. लोकप्रिय साइट्स (गुडरेड्स, ऍमेझॉन) वरील पुनरावलोकनांच्या नोंदी आहेत. शिफारस प्रणाली तयार करण्यासाठी उत्तम. (आर मधील स्त्रोत कोडसह अनुप्रयोग पर्याय: आर मध्ये चित्रपट शिफारस प्रणाली प्रकल्प )
  18. UCI Spambase डेटासेट - स्पॅम शोधण्यासाठी प्रशिक्षण डेटासेट. 4601 मेटाडेटा पॅरामीटर्ससह 57 अक्षरे आहेत.
  19. फ्लिकर 30k डेटासेट - 30 पेक्षा जास्त प्रतिमा आणि मथळे. (फ्लिकर 8k डेटासेट - 8000 प्रतिमा. पायथन स्त्रोत प्रकल्प: प्रतिमा मथळा जनरेटर पायथन प्रकल्प)
  20. IMDB पुनरावलोकने - प्रशिक्षण सेटमध्ये 25 चित्रपट परीक्षणे आणि 000 चाचणी सेटमध्ये. (आर मधील स्त्रोत कोडसह अनुप्रयोग पर्याय: भावना विश्लेषण डेटा विज्ञान प्रकल्प)
  21. एमएस COCO डेटासेट - 1,5 दशलक्ष टॅग केलेल्या प्रतिमा.
  22. CIFAR-10 आणि CIFAR-100 डेटासेट — CIFAR-10 मध्ये 60,000-32 क्रमांकाच्या 32*0 पिक्सेलच्या 9 लहान प्रतिमा आहेत. CIFAR-100 - अनुक्रमे, 0-100.
  23. GTSRB (जर्मन ट्रॅफिक साइन रेकग्निशन बेंचमार्क) डेटासेट — 50 रोड चिन्हांच्या 000 प्रतिमा. (पायथनमधील स्त्रोत कोडसह अनुप्रयोग पर्याय: ट्रॅफिक साइन्स रेकग्निशन पायथन प्रोजेक्ट)
  24. इमेजनेट डेटासेट — 100 पेक्षा जास्त वाक्यांश आणि प्रति वाक्यांश सुमारे 000 प्रतिमा आहेत.
  25. ब्रेस्ट हिस्टोपॅथॉलॉजी इमेजेस डेटासेट — डेटासेटमध्ये स्तनाच्या कर्करोगाच्या नमुन्यांच्या प्रतिमा आहेत. (स्त्रोत कोड चालू असलेला अनुप्रयोग पर्याय स्तन कर्करोग वर्गीकरण पायथन प्रकल्प)
  26. सिटीस्केप्स डेटासेट — विविध शहरांमधील रस्त्यांच्या व्हिडिओ अनुक्रमांची उच्च-गुणवत्तेची भाष्ये आहेत.
  27. गतीशास्त्र डेटासेट - सुमारे 6,5 दशलक्ष उच्च-गुणवत्तेच्या व्हिडिओंची URL लिंक आहे.
  28. MPII मानवी पोज डेटासेट — डेटासेटमध्ये संयुक्त भाष्यांसह मानवी पोझच्या 25 प्रतिमा आहेत.
  29. 20BN-समथिंग-समथिंग डेटासेट v2 - उच्च-गुणवत्तेच्या व्हिडिओंचा संच जो दर्शवितो की एखादी व्यक्ती काही क्रिया कशी करते.
  30. ऑब्जेक्ट 365 डेटासेट — ऑब्जेक्ट बाउंडिंग बॉक्ससह उच्च-गुणवत्तेच्या प्रतिमांचा डेटासेट.
  31. फोटो स्केचिंग डेटासेट — त्यांच्या बाह्यरेखा रेखाचित्रांसह 1000 हून अधिक प्रतिमा आहेत.
  32. CQ500 डेटासेट — डेटासेटमध्ये 491 स्लाइससह डोक्याचे 193 CT स्कॅन आहेत.
  33. IMDB-विकी डेटासेट — लिंग आणि वयानुसार चिन्हांकित चेहऱ्यांच्या 5 दशलक्षाहून अधिक प्रतिमा असलेला डेटासेट. (स्त्रोत कोड चालू असलेला अनुप्रयोग पर्याय लिंग आणि वय शोध पायथन प्रकल्प)
  34. Youtube 8M डेटासेट - एक लेबल केलेला व्हिडिओ डेटासेट ज्यामध्ये 6,1 दशलक्ष Youtube व्हिडिओ आयडी आहेत
  35. अर्बन साउंड 8K डेटासेट — शहरी ध्वनी डेटाचा संच (8732 वर्गातील 10 शहरी ध्वनी आहेत).
  36. LSUN डेटासेट - दृश्ये आणि वस्तूंच्या लाखो रंगीत प्रतिमांचा डेटासेट (सुमारे 59 दशलक्ष प्रतिमा, 10 भिन्न दृश्य श्रेणी आणि 20 भिन्न ऑब्जेक्ट श्रेणी).
  37. RAVDESS डेटासेट - भावनिक भाषणाचा दृकश्राव्य डेटाबेस. (स्त्रोत कोड चालू असलेला अनुप्रयोग पर्याय स्पीच इमोशन रेकग्निशन पायथन प्रोजेक्ट)
  38. लिब्रिस्पीच डेटासेट — डेटासेटमध्ये वेगवेगळ्या उच्चारांसह 1000 तासांचे इंग्रजी भाषण आहे.
  39. Baidu Apolloscape डेटासेट - सेल्फ-ड्रायव्हिंग तंत्रज्ञानाच्या विकासासाठी डेटासेट.
  40. Quandl डेटा पोर्टल - आर्थिक आणि आर्थिक डेटाचे भांडार (तेथे विनामूल्य आणि सशुल्क सामग्री आहे).
  41. जागतिक बँक ओपन डेटा पोर्टल - जागतिक बँकेने विकसनशील देशांना जारी केलेल्या कर्जाची माहिती.
  42. IMF डेटा पोर्टल हे एक आंतरराष्ट्रीय नाणेनिधी पोर्टल आहे जे आंतरराष्ट्रीय वित्त, कर्ज दर, गुंतवणूक, परकीय चलन साठा आणि वस्तूंवरील डेटा प्रकाशित करते.
  43. अमेरिकन इकॉनॉमिक असोसिएशन (AEA) डेटा पोर्टल - यूएस मॅक्रो इकॉनॉमिक डेटा शोधण्यासाठी एक संसाधन.
  44. Google Trends डेटा पोर्टल - Google ट्रेंड डेटा दृष्यदृष्ट्या एक्सप्लोर आणि विश्लेषण करण्यासाठी वापरला जाऊ शकतो.
  45. फायनान्शिअल टाइम्स मार्केट डेटा पोर्टल जगभरातील आर्थिक बाजारांवरील अद्ययावत माहितीसाठी एक संसाधन आहे.
  46. Data.gov पोर्टल - यूएस सरकार खुले डेटा पोर्टल (शेती, आरोग्य, हवामान, शिक्षण, ऊर्जा, वित्त, विज्ञान आणि संशोधन इ.).
  47. डेटा पोर्टल: सरकारी डेटा उघडा (भारत) भारताचे खुले सरकारी डेटा प्लॅटफॉर्म आहे.
  48. अन्न पर्यावरण ऍटलस डेटा पोर्टल — युनायटेड स्टेट्स मध्ये पोषण संशोधन डेटा समाविष्टीत आहे.
  49. आरोग्य डेटा पोर्टल हे यूएस डिपार्टमेंट ऑफ हेल्थ अँड ह्युमन सर्व्हिसेसचे पोर्टल आहे.
  50. रोग नियंत्रण आणि प्रतिबंध केंद्रे डेटा पोर्टल - यामध्ये आरोग्य-संबंधित डेटाची विस्तृत श्रेणी आहे.
  51. लंडन डेटास्टोर पोर्टल - लंडनमधील लोकांच्या जीवनाबद्दल डेटा.
  52. कॅनडा सरकार ओपन डेटा पोर्टल - कॅनेडियन (शेती, कला, संगीत, शिक्षण, सरकार, आरोग्यसेवा इ.) बद्दलच्या खुल्या डेटाचे पोर्टल

पुढे वाचा

स्त्रोत: www.habr.com

एक टिप्पणी जोडा