डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

शुरुआती के लिए डेटा साइंस

1. भावना विश्लेषण (पाठ के माध्यम से मूड विश्लेषण)

डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

स्रोत कोड का उपयोग करके डेटा साइंस प्रोजेक्ट का पूर्ण कार्यान्वयन देखें - आर में भावना विश्लेषण परियोजना.

भाव विश्लेषण भावनाओं और विचारों की पहचान करने के लिए शब्दों का विश्लेषण है, जो सकारात्मक या नकारात्मक हो सकता है। यह एक प्रकार का वर्गीकरण है जहाँ वर्ग द्विआधारी (सकारात्मक और नकारात्मक) या बहुवचन (खुश, क्रोधित, उदास, बुरा ...) हो सकते हैं। हम इस डेटा साइंस प्रोजेक्ट को R में लागू करेंगे और डेटासेट का उपयोग "janeaustenR" पैकेज में करेंगे। हम AFINN, bing और loughran जैसे सामान्य प्रयोजन के शब्दकोशों का उपयोग करेंगे, एक आंतरिक जुड़ाव करेंगे और अंत में हम परिणाम प्रदर्शित करने के लिए एक शब्द क्लाउड बनाएंगे।

भाषा: R
डेटासेट/पैकेज: janeoustenR

डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

एडिसन सॉफ्टवेयर के समर्थन से लेख का अनुवाद किया गया था, जो मल्टी-ब्रांड स्टोर्स के लिए वर्चुअल फिटिंग रूम बनाता हैऔर परीक्षण सॉफ्टवेयर.

2. फेक न्यूज डिटेक्शन

शुरुआती लोगों के लिए डेटा साइंस प्रोजेक्ट पर काम करके अपने कौशल को अगले स्तर पर ले जाएं - पायथन के साथ नकली समाचार का पता लगाना.

डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

नकली समाचार राजनीतिक लक्ष्यों को प्राप्त करने के लिए सोशल मीडिया और अन्य ऑनलाइन मीडिया के माध्यम से फैलाई गई झूठी सूचना है। इस डेटा साइंस प्रोजेक्ट आइडिया में, हम एक मॉडल बनाने के लिए पायथन का उपयोग करेंगे जो यह निर्धारित कर सके कि खबर असली है या नकली। हम एक TfidfVectorizer बनाएंगे और PassiveAggressiveClassifier का उपयोग "वास्तविक" और "नकली" में समाचारों को वर्गीकृत करने के लिए करेंगे। हम 7796×4 आकार के डेटासेट का उपयोग करेंगे और सब कुछ ज्यूपिटर लैब में करेंगे।

भाषा: अजगर

डेटासेट/पैकेज: news.csv

3. पार्किंसंस रोग का पता लगाना

डाटा साइंस प्रोजेक्ट आइडिया पर काम करके आगे बढ़ें - XGBoost के साथ पार्किंसंस रोग का पता लगाना.

डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

हमने स्वास्थ्य सेवा और सेवाओं को बेहतर बनाने के लिए डेटा साइंस का उपयोग करना शुरू कर दिया है - अगर हम प्रारंभिक अवस्था में ही बीमारी की भविष्यवाणी कर सकते हैं, तो हमें कई फायदे होंगे। तो, इस डेटा साइंस प्रोजेक्ट आइडिया में, हम सीखेंगे कि पायथन का उपयोग करके पार्किंसंस रोग का पता कैसे लगाया जाए। यह केंद्रीय तंत्रिका तंत्र की एक neurodegenerative, प्रगतिशील बीमारी है जो आंदोलन को प्रभावित करती है और कांपने और कठोरता का कारण बनती है। यह मस्तिष्क में डोपामाइन-उत्पादक न्यूरॉन्स को प्रभावित करता है, और हर साल, यह भारत में 1 लाख से अधिक लोगों को प्रभावित करता है।

भाषा: अजगर

डेटासेट/पैकेज: यूसीआई एमएल पार्किंसंस डेटासेट

मध्यम जटिलता के डेटा साइंस प्रोजेक्ट

4. भाषण भावना पहचान

डेटा साइंस सैंपल प्रोजेक्ट के पूर्ण कार्यान्वयन की जाँच करें - लिब्रोसा के साथ वाक् पहचान.

डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

आइए अब सीखते हैं कि विभिन्न पुस्तकालयों का उपयोग कैसे करें। यह डेटा साइंस प्रोजेक्ट वाक् पहचान के लिए लाइब्रोसा का उपयोग करता है। SER वाणी से मानवीय भावनाओं और भावात्मक अवस्थाओं की पहचान करने की प्रक्रिया है। क्योंकि हम अपनी आवाज के साथ भावनाओं को व्यक्त करने के लिए टोन और पिच का उपयोग करते हैं, एसईआर प्रासंगिक है। लेकिन चूंकि भावनाएं व्यक्तिपरक हैं, ऑडियो एनोटेशन एक मुश्किल काम है। हम mfcc, chroma और mel फ़ंक्शंस का उपयोग करेंगे और भावना पहचान के लिए RAVDESS डेटासेट का उपयोग करेंगे। हम इस मॉडल के लिए एक MLPC क्लासिफायरियर बनाएंगे।

भाषा: अजगर

डेटासेट/पैकेज: रावडेस डेटासेट

5. लिंग और आयु का पता लगाना

नवीनतम डेटा साइंस प्रोजेक्ट के साथ नियोक्ताओं को प्रभावित करें - OpenCV के साथ लिंग और आयु का पता लगाना.

डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

यह पायथन के साथ एक दिलचस्प डेटा साइंस है। केवल एक छवि का उपयोग करके, आप सीखेंगे कि किसी व्यक्ति के लिंग और आयु का अनुमान कैसे लगाया जाता है। इसमें हम आपको कंप्यूटर विजन और उसके सिद्धांतों से परिचित कराएंगे। हम निर्माण करेंगे दृढ़ तंत्रिका नेटवर्क और एडियंस डेटासेट पर टैल हसनर और गिल लेवी द्वारा प्रशिक्षित मॉडल का उपयोग करेगा। हम रास्ते में कुछ .pb, .pbtxt, .prototxt और .caffemodel फ़ाइलों का उपयोग करेंगे।

भाषा: अजगर

डेटासेट/पैकेज: आज्ञा

6. उबेर डेटा विश्लेषण

स्रोत कोड के साथ डेटा साइंस प्रोजेक्ट का पूरा कार्यान्वयन देखें - आर में Uber डेटा विश्लेषण प्रोजेक्ट.

डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

यह ggplot2 के साथ एक डेटा विज़ुअलाइज़ेशन प्रोजेक्ट है जिसमें हम R और उसके पुस्तकालयों का उपयोग करेंगे और विभिन्न मापदंडों का विश्लेषण करेंगे। हम Uber Pickups न्यूयॉर्क डेटासेट का इस्तेमाल करेंगे और साल की अलग-अलग समयावधि के लिए विज़ुअलाइज़ेशन बनाएंगे। यह हमें बताता है कि समय ग्राहक यात्रा को कैसे प्रभावित करता है।

भाषा: R

डेटासेट/पैकेज: न्यूयॉर्क सिटी डेटासेट में Uber पिकअप

7. चालक उनींदापन का पता लगाने

टॉप डेटा साइंस प्रोजेक्ट पर काम करके अपने कौशल को अपग्रेड करें - OpenCV और Keras के साथ स्लीपनेस डिटेक्शन सिस्टम.

डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

नींद में गाड़ी चलाना बेहद खतरनाक है, वाहन चलाते समय नींद आने के कारण हर साल लगभग एक हजार दुर्घटनाएं होती हैं। इस पायथन प्रोजेक्ट में, हम एक ऐसी प्रणाली बनाएंगे जो नींद में चलने वाले ड्राइवरों का पता लगा सकती है और उन्हें बीप के साथ सचेत भी कर सकती है।

यह प्रोजेक्ट Keras और OpenCV का उपयोग करके कार्यान्वित किया गया है। हम चेहरे और आंखों का पता लगाने के लिए OpenCV का उपयोग करेंगे और केरस की मदद से हम गहरे तंत्रिका नेटवर्क विधियों का उपयोग करके आंख की स्थिति (खुली या बंद) को वर्गीकृत करेंगे।

8. चैटबॉट

पायथन के साथ चैटबॉट बनाएं और अपने करियर में एक कदम आगे बढ़ाएं - एनएलटीके और केरस के साथ चैटबॉट.

डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

चैटबॉट व्यवसाय का एक अभिन्न अंग हैं। कई व्यवसायों को अपने ग्राहकों को सेवाएं प्रदान करनी होती हैं और उन्हें सेवा प्रदान करने में बहुत अधिक जनशक्ति, समय और प्रयास लगता है। ग्राहकों द्वारा पूछे जाने वाले कुछ सामान्य प्रश्नों के उत्तर देकर चैटबॉट ग्राहक की अधिकांश बातचीत को स्वचालित कर सकते हैं। चैटबॉट मूल रूप से दो प्रकार के होते हैं: डोमेन-विशिष्ट और ओपन-डोमेन। एक विशिष्ट समस्या को हल करने के लिए अक्सर एक डोमेन-विशिष्ट चैटबॉट का उपयोग किया जाता है। इस प्रकार, आपको इसे अपने क्षेत्र में प्रभावी ढंग से काम करने के लिए अनुकूलित करने की आवश्यकता है। ओपन-डोमेन चैटबॉट्स से कोई भी प्रश्न पूछा जा सकता है, इसलिए उन्हें प्रशिक्षित करने के लिए बड़ी मात्रा में डेटा की आवश्यकता होती है।

डेटा सेट: json फ़ाइल का इरादा रखता है

भाषा: अजगर

उन्नत डेटा विज्ञान परियोजनाएं

9. इमेज कैप्शन जेनरेटर

स्रोत कोड − के साथ संपूर्ण परियोजना कार्यान्वयन देखें CNN और LSTM के साथ इमेज कैप्शन जेनरेटर.

डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

एक छवि में क्या है इसका वर्णन करना मनुष्यों के लिए एक आसान काम है, लेकिन कंप्यूटर के लिए, एक छवि केवल संख्याओं का संग्रह है जो प्रत्येक पिक्सेल के रंग मान का प्रतिनिधित्व करती है। कंप्यूटर के लिए यह एक कठिन कार्य है। एक छवि में क्या है यह समझना और फिर एक प्राकृतिक भाषा विवरण (जैसे अंग्रेजी) बनाना एक और मुश्किल काम है। यह परियोजना गहन शिक्षण तकनीकों का उपयोग करती है जिसमें हम एक छवि विवरण जनरेटर बनाने के लिए एक आवर्तक तंत्रिका नेटवर्क (LSTM) के साथ एक संवादात्मक तंत्रिका नेटवर्क (CNN) को लागू करते हैं।

डेटा सेट: फ़्लिकर 8K

भाषा: अजगर

रूपरेखा: Keras

10. क्रेडिट कार्ड धोखाधड़ी का पता लगाना

डेटा साइंस प्रोजेक्ट आइडिया पर काम करके अपना सर्वश्रेष्ठ करें - मशीन लर्निंग के साथ क्रेडिट कार्ड धोखाधड़ी का पता लगाना.

डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

अब तक आप विधियों और अवधारणाओं को समझने लगे हैं। आइए कुछ उन्नत डेटा विज्ञान परियोजनाओं पर चलते हैं। इस प्रोजेक्ट में, हम R भाषा का उपयोग एल्गोरिदम के साथ करेंगे जैसे निर्णय के पेड़, लॉजिस्टिक रिग्रेशन, आर्टिफिशियल न्यूरल नेटवर्क और ग्रेडिएंट बूस्टिंग क्लासिफायरियर। हम क्रेडिट कार्ड लेनदेन को धोखाधड़ी और वास्तविक के रूप में वर्गीकृत करने के लिए कार्ड लेनदेन डेटासेट का उपयोग करेंगे। हम उनके लिए अलग-अलग मॉडल चुनेंगे और परफॉर्मेंस कर्व्स बनाएंगे।

भाषा: R

डेटासेट/पैकेज: कार्ड लेनदेन डेटासेट

11. मूवी अनुशंसा प्रणाली

सोर्स कोड के साथ सर्वश्रेष्ठ डेटा साइंस प्रोजेक्ट के कार्यान्वयन का अन्वेषण करें - आर में मूवी सिफारिश प्रणाली

डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

इस डेटा साइंस प्रोजेक्ट में, हम मशीन लर्निंग के माध्यम से मूवी की अनुशंसाओं को निष्पादित करने के लिए R का उपयोग करेंगे। अनुशंसा प्रणाली अन्य उपयोगकर्ताओं की प्राथमिकताओं और ब्राउज़िंग इतिहास के आधार पर फ़िल्टरिंग प्रक्रिया के माध्यम से उपयोगकर्ताओं को सुझाव भेजती है। अगर ए और बी को होम अलोन पसंद है, और बी को मीन गर्ल्स पसंद है, तो आप ए को सुझाव दे सकते हैं - उन्हें भी यह पसंद आ सकता है। यह ग्राहकों को प्लेटफॉर्म के साथ इंटरैक्ट करने की अनुमति देता है।

भाषा: R

डेटासेट/पैकेज: मूवीलेंस डेटासेट

12. ग्राहक विभाजन

डेटा साइंस प्रोजेक्ट (स्रोत कोड सहित) से नियोक्ताओं को प्रभावित करें - मशीन लर्निंग के साथ ग्राहक विभाजन.

डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

क्रेता विभाजन एक लोकप्रिय अनुप्रयोग है अनियंत्रित शिक्षा. क्लस्टरिंग का उपयोग करते हुए, कंपनियां संभावित उपयोगकर्ता आधार के साथ काम करने के लिए ग्राहक खंड को परिभाषित करती हैं। वे ग्राहकों को लिंग, आयु, रुचियों और खर्च करने की आदतों जैसी सामान्य विशेषताओं के अनुसार समूहों में विभाजित करते हैं, ताकि वे प्रत्येक समूह को अपने उत्पादों का प्रभावी ढंग से विपणन कर सकें। हम इस्तेमाल करेंगे K- का अर्थ है क्लस्टरिंग, साथ ही लिंग और आयु के अनुसार वितरण की कल्पना करें। फिर हम उनकी वार्षिक आय और व्यय के स्तर का विश्लेषण करते हैं।

भाषा: R

डेटासेट/पैकेज: मॉल_ग्राहक डेटासेट

13. स्तन कैंसर का वर्गीकरण

पायथन में डेटा साइंस प्रोजेक्ट का पूर्ण कार्यान्वयन देखें - डीप लर्निंग का उपयोग करके स्तन कैंसर का वर्गीकरण.

डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

डेटा साइंस के चिकित्सा योगदान पर लौटते हुए, आइए जानें कि पायथन के साथ स्तन कैंसर का पता कैसे लगाया जाए। हम इनवेसिव डक्टल कार्सिनोमा, स्तन कैंसर के सबसे सामान्य रूप का पता लगाने के लिए IDC_regular डेटासेट का उपयोग करेंगे। यह दुग्ध नलिकाओं में विकसित होता है, वाहिनी के बाहर स्तन ग्रंथि के रेशेदार या वसायुक्त ऊतक में प्रवेश करता है। इस डेटा संग्रह विज्ञान परियोजना के विचार में, हम उपयोग करेंगे गहरी सीख और वर्गीकरण के लिए केरस पुस्तकालय।

भाषा: अजगर

डेटासेट/पैकेज: आईडीसी_नियमित

14. यातायात संकेत पहचान

डेटा साइंस प्रोजेक्ट के साथ सेल्फ-ड्राइविंग कार तकनीक में सटीकता हासिल करना यातायात संकेत मान्यता सीएनएन का उपयोग कर खुला स्त्रोत।

डेटा विज्ञान कौशल में सुधार के लिए 14 ओपन-सोर्स प्रोजेक्ट (आसान, सामान्य, कठिन)

दुर्घटनाओं से बचने के लिए प्रत्येक चालक के लिए सड़क के संकेत और यातायात नियम बहुत महत्वपूर्ण हैं। नियम का पालन करने के लिए, आपको सबसे पहले यह समझने की जरूरत है कि रोड साइन कैसा दिखता है। किसी भी वाहन को चलाने का अधिकार दिए जाने से पहले एक व्यक्ति को सभी सड़क संकेतों को सीखना चाहिए। लेकिन अब स्वायत्त वाहनों की संख्या बढ़ रही है, और निकट भविष्य में एक व्यक्ति अब अपने दम पर कार नहीं चलाएगा। रोड साइन रिकॉग्निशन प्रोजेक्ट में, आप सीखेंगे कि इनपुट के रूप में एक छवि लेकर एक प्रोग्राम किस प्रकार एक रोड साइन को पहचान सकता है। जर्मन रोड साइन रिकॉग्निशन रेफरेंस डेटासेट (GTSRB) का उपयोग उस वर्ग को पहचानने के लिए एक गहरे तंत्रिका नेटवर्क के निर्माण के लिए किया जाता है जिससे ट्रैफ़िक चिन्ह संबंधित होता है। हम एप्लिकेशन के साथ इंटरैक्ट करने के लिए एक साधारण जीयूआई भी बना रहे हैं।

भाषा: अजगर

डेटा सेट: GTRB (जर्मन ट्रैफिक साइन रिकॉग्निशन बेंचमार्क)

अधिक पढ़ें

स्रोत: www.habr.com

एक टिप्पणी जोड़ें