भाव विश्लेषण भावनाओं और विचारों की पहचान करने के लिए शब्दों का विश्लेषण है, जो सकारात्मक या नकारात्मक हो सकता है। यह एक प्रकार का वर्गीकरण है जहाँ वर्ग द्विआधारी (सकारात्मक और नकारात्मक) या बहुवचन (खुश, क्रोधित, उदास, बुरा ...) हो सकते हैं। हम इस डेटा साइंस प्रोजेक्ट को R में लागू करेंगे और डेटासेट का उपयोग "janeaustenR" पैकेज में करेंगे। हम AFINN, bing और loughran जैसे सामान्य प्रयोजन के शब्दकोशों का उपयोग करेंगे, एक आंतरिक जुड़ाव करेंगे और अंत में हम परिणाम प्रदर्शित करने के लिए एक शब्द क्लाउड बनाएंगे।
नकली समाचार राजनीतिक लक्ष्यों को प्राप्त करने के लिए सोशल मीडिया और अन्य ऑनलाइन मीडिया के माध्यम से फैलाई गई झूठी सूचना है। इस डेटा साइंस प्रोजेक्ट आइडिया में, हम एक मॉडल बनाने के लिए पायथन का उपयोग करेंगे जो यह निर्धारित कर सके कि खबर असली है या नकली। हम एक TfidfVectorizer बनाएंगे और PassiveAggressiveClassifier का उपयोग "वास्तविक" और "नकली" में समाचारों को वर्गीकृत करने के लिए करेंगे। हम 7796×4 आकार के डेटासेट का उपयोग करेंगे और सब कुछ ज्यूपिटर लैब में करेंगे।
हमने स्वास्थ्य सेवा और सेवाओं को बेहतर बनाने के लिए डेटा साइंस का उपयोग करना शुरू कर दिया है - अगर हम प्रारंभिक अवस्था में ही बीमारी की भविष्यवाणी कर सकते हैं, तो हमें कई फायदे होंगे। तो, इस डेटा साइंस प्रोजेक्ट आइडिया में, हम सीखेंगे कि पायथन का उपयोग करके पार्किंसंस रोग का पता कैसे लगाया जाए। यह केंद्रीय तंत्रिका तंत्र की एक neurodegenerative, प्रगतिशील बीमारी है जो आंदोलन को प्रभावित करती है और कांपने और कठोरता का कारण बनती है। यह मस्तिष्क में डोपामाइन-उत्पादक न्यूरॉन्स को प्रभावित करता है, और हर साल, यह भारत में 1 लाख से अधिक लोगों को प्रभावित करता है।
आइए अब सीखते हैं कि विभिन्न पुस्तकालयों का उपयोग कैसे करें। यह डेटा साइंस प्रोजेक्ट वाक् पहचान के लिए लाइब्रोसा का उपयोग करता है। SER वाणी से मानवीय भावनाओं और भावात्मक अवस्थाओं की पहचान करने की प्रक्रिया है। क्योंकि हम अपनी आवाज के साथ भावनाओं को व्यक्त करने के लिए टोन और पिच का उपयोग करते हैं, एसईआर प्रासंगिक है। लेकिन चूंकि भावनाएं व्यक्तिपरक हैं, ऑडियो एनोटेशन एक मुश्किल काम है। हम mfcc, chroma और mel फ़ंक्शंस का उपयोग करेंगे और भावना पहचान के लिए RAVDESS डेटासेट का उपयोग करेंगे। हम इस मॉडल के लिए एक MLPC क्लासिफायरियर बनाएंगे।
यह पायथन के साथ एक दिलचस्प डेटा साइंस है। केवल एक छवि का उपयोग करके, आप सीखेंगे कि किसी व्यक्ति के लिंग और आयु का अनुमान कैसे लगाया जाता है। इसमें हम आपको कंप्यूटर विजन और उसके सिद्धांतों से परिचित कराएंगे। हम निर्माण करेंगे दृढ़ तंत्रिका नेटवर्क और एडियंस डेटासेट पर टैल हसनर और गिल लेवी द्वारा प्रशिक्षित मॉडल का उपयोग करेगा। हम रास्ते में कुछ .pb, .pbtxt, .prototxt और .caffemodel फ़ाइलों का उपयोग करेंगे।
यह ggplot2 के साथ एक डेटा विज़ुअलाइज़ेशन प्रोजेक्ट है जिसमें हम R और उसके पुस्तकालयों का उपयोग करेंगे और विभिन्न मापदंडों का विश्लेषण करेंगे। हम Uber Pickups न्यूयॉर्क डेटासेट का इस्तेमाल करेंगे और साल की अलग-अलग समयावधि के लिए विज़ुअलाइज़ेशन बनाएंगे। यह हमें बताता है कि समय ग्राहक यात्रा को कैसे प्रभावित करता है।
भाषा: R
डेटासेट/पैकेज: न्यूयॉर्क सिटी डेटासेट में Uber पिकअप
नींद में गाड़ी चलाना बेहद खतरनाक है, वाहन चलाते समय नींद आने के कारण हर साल लगभग एक हजार दुर्घटनाएं होती हैं। इस पायथन प्रोजेक्ट में, हम एक ऐसी प्रणाली बनाएंगे जो नींद में चलने वाले ड्राइवरों का पता लगा सकती है और उन्हें बीप के साथ सचेत भी कर सकती है।
यह प्रोजेक्ट Keras और OpenCV का उपयोग करके कार्यान्वित किया गया है। हम चेहरे और आंखों का पता लगाने के लिए OpenCV का उपयोग करेंगे और केरस की मदद से हम गहरे तंत्रिका नेटवर्क विधियों का उपयोग करके आंख की स्थिति (खुली या बंद) को वर्गीकृत करेंगे।
चैटबॉट व्यवसाय का एक अभिन्न अंग हैं। कई व्यवसायों को अपने ग्राहकों को सेवाएं प्रदान करनी होती हैं और उन्हें सेवा प्रदान करने में बहुत अधिक जनशक्ति, समय और प्रयास लगता है। ग्राहकों द्वारा पूछे जाने वाले कुछ सामान्य प्रश्नों के उत्तर देकर चैटबॉट ग्राहक की अधिकांश बातचीत को स्वचालित कर सकते हैं। चैटबॉट मूल रूप से दो प्रकार के होते हैं: डोमेन-विशिष्ट और ओपन-डोमेन। एक विशिष्ट समस्या को हल करने के लिए अक्सर एक डोमेन-विशिष्ट चैटबॉट का उपयोग किया जाता है। इस प्रकार, आपको इसे अपने क्षेत्र में प्रभावी ढंग से काम करने के लिए अनुकूलित करने की आवश्यकता है। ओपन-डोमेन चैटबॉट्स से कोई भी प्रश्न पूछा जा सकता है, इसलिए उन्हें प्रशिक्षित करने के लिए बड़ी मात्रा में डेटा की आवश्यकता होती है।
एक छवि में क्या है इसका वर्णन करना मनुष्यों के लिए एक आसान काम है, लेकिन कंप्यूटर के लिए, एक छवि केवल संख्याओं का संग्रह है जो प्रत्येक पिक्सेल के रंग मान का प्रतिनिधित्व करती है। कंप्यूटर के लिए यह एक कठिन कार्य है। एक छवि में क्या है यह समझना और फिर एक प्राकृतिक भाषा विवरण (जैसे अंग्रेजी) बनाना एक और मुश्किल काम है। यह परियोजना गहन शिक्षण तकनीकों का उपयोग करती है जिसमें हम एक छवि विवरण जनरेटर बनाने के लिए एक आवर्तक तंत्रिका नेटवर्क (LSTM) के साथ एक संवादात्मक तंत्रिका नेटवर्क (CNN) को लागू करते हैं।
अब तक आप विधियों और अवधारणाओं को समझने लगे हैं। आइए कुछ उन्नत डेटा विज्ञान परियोजनाओं पर चलते हैं। इस प्रोजेक्ट में, हम R भाषा का उपयोग एल्गोरिदम के साथ करेंगे जैसे निर्णय के पेड़, लॉजिस्टिक रिग्रेशन, आर्टिफिशियल न्यूरल नेटवर्क और ग्रेडिएंट बूस्टिंग क्लासिफायरियर। हम क्रेडिट कार्ड लेनदेन को धोखाधड़ी और वास्तविक के रूप में वर्गीकृत करने के लिए कार्ड लेनदेन डेटासेट का उपयोग करेंगे। हम उनके लिए अलग-अलग मॉडल चुनेंगे और परफॉर्मेंस कर्व्स बनाएंगे।
भाषा: R
डेटासेट/पैकेज: कार्ड लेनदेन डेटासेट
11. मूवी अनुशंसा प्रणाली
सोर्स कोड के साथ सर्वश्रेष्ठ डेटा साइंस प्रोजेक्ट के कार्यान्वयन का अन्वेषण करें - आर में मूवी सिफारिश प्रणाली
इस डेटा साइंस प्रोजेक्ट में, हम मशीन लर्निंग के माध्यम से मूवी की अनुशंसाओं को निष्पादित करने के लिए R का उपयोग करेंगे। अनुशंसा प्रणाली अन्य उपयोगकर्ताओं की प्राथमिकताओं और ब्राउज़िंग इतिहास के आधार पर फ़िल्टरिंग प्रक्रिया के माध्यम से उपयोगकर्ताओं को सुझाव भेजती है। अगर ए और बी को होम अलोन पसंद है, और बी को मीन गर्ल्स पसंद है, तो आप ए को सुझाव दे सकते हैं - उन्हें भी यह पसंद आ सकता है। यह ग्राहकों को प्लेटफॉर्म के साथ इंटरैक्ट करने की अनुमति देता है।
क्रेता विभाजन एक लोकप्रिय अनुप्रयोग है अनियंत्रित शिक्षा. क्लस्टरिंग का उपयोग करते हुए, कंपनियां संभावित उपयोगकर्ता आधार के साथ काम करने के लिए ग्राहक खंड को परिभाषित करती हैं। वे ग्राहकों को लिंग, आयु, रुचियों और खर्च करने की आदतों जैसी सामान्य विशेषताओं के अनुसार समूहों में विभाजित करते हैं, ताकि वे प्रत्येक समूह को अपने उत्पादों का प्रभावी ढंग से विपणन कर सकें। हम इस्तेमाल करेंगे K- का अर्थ है क्लस्टरिंग, साथ ही लिंग और आयु के अनुसार वितरण की कल्पना करें। फिर हम उनकी वार्षिक आय और व्यय के स्तर का विश्लेषण करते हैं।
डेटा साइंस के चिकित्सा योगदान पर लौटते हुए, आइए जानें कि पायथन के साथ स्तन कैंसर का पता कैसे लगाया जाए। हम इनवेसिव डक्टल कार्सिनोमा, स्तन कैंसर के सबसे सामान्य रूप का पता लगाने के लिए IDC_regular डेटासेट का उपयोग करेंगे। यह दुग्ध नलिकाओं में विकसित होता है, वाहिनी के बाहर स्तन ग्रंथि के रेशेदार या वसायुक्त ऊतक में प्रवेश करता है। इस डेटा संग्रह विज्ञान परियोजना के विचार में, हम उपयोग करेंगे गहरी सीख और वर्गीकरण के लिए केरस पुस्तकालय।
दुर्घटनाओं से बचने के लिए प्रत्येक चालक के लिए सड़क के संकेत और यातायात नियम बहुत महत्वपूर्ण हैं। नियम का पालन करने के लिए, आपको सबसे पहले यह समझने की जरूरत है कि रोड साइन कैसा दिखता है। किसी भी वाहन को चलाने का अधिकार दिए जाने से पहले एक व्यक्ति को सभी सड़क संकेतों को सीखना चाहिए। लेकिन अब स्वायत्त वाहनों की संख्या बढ़ रही है, और निकट भविष्य में एक व्यक्ति अब अपने दम पर कार नहीं चलाएगा। रोड साइन रिकॉग्निशन प्रोजेक्ट में, आप सीखेंगे कि इनपुट के रूप में एक छवि लेकर एक प्रोग्राम किस प्रकार एक रोड साइन को पहचान सकता है। जर्मन रोड साइन रिकॉग्निशन रेफरेंस डेटासेट (GTSRB) का उपयोग उस वर्ग को पहचानने के लिए एक गहरे तंत्रिका नेटवर्क के निर्माण के लिए किया जाता है जिससे ट्रैफ़िक चिन्ह संबंधित होता है। हम एप्लिकेशन के साथ इंटरैक्ट करने के लिए एक साधारण जीयूआई भी बना रहे हैं।