புரோஹோஸ்டர் > Блог > இணைய செய்தி > தரவு அறிவியல் திறன்களை மேம்படுத்த 14 திறந்த மூல திட்டங்கள் (எளிதானது, சாதாரணமானது, கடினமானது)
தரவு அறிவியல் திறன்களை மேம்படுத்த 14 திறந்த மூல திட்டங்கள் (எளிதானது, சாதாரணமானது, கடினமானது)
ஆரம்பநிலைக்கான தரவு அறிவியல்
1. உணர்வு பகுப்பாய்வு (உரை மூலம் மனநிலை பகுப்பாய்வு)
மூலக் குறியீட்டைப் பயன்படுத்தி தரவு அறிவியல் திட்டத்தின் முழுமையான செயலாக்கத்தைப் பார்க்கவும் - உணர்வு பகுப்பாய்வு திட்டம் ஆர்.
உணர்வு பகுப்பாய்வு என்பது உணர்வுகள் மற்றும் கருத்துக்களை அடையாளம் காண வார்த்தைகளின் பகுப்பாய்வு ஆகும், இது நேர்மறை அல்லது எதிர்மறையாக இருக்கலாம். இது ஒரு வகை வகைப்பாடு ஆகும், இதில் வகுப்புகள் பைனரி (நேர்மறை மற்றும் எதிர்மறை) அல்லது பன்மை (மகிழ்ச்சி, கோபம், சோகம், கேவலம்...) இருக்கலாம். இந்த தரவு அறிவியல் திட்டத்தை R இல் செயல்படுத்துவோம் மேலும் "janeaustenR" தொகுப்பில் உள்ள தரவுத்தொகுப்பைப் பயன்படுத்துவோம். AFINN, bing மற்றும் loughran போன்ற பொது நோக்க அகராதிகளைப் பயன்படுத்துவோம், ஒரு உள் இணைப்புச் செய்வோம், முடிவில் ஒரு வார்த்தை மேகத்தை உருவாக்கி முடிவைக் காட்டுவோம்.
தொடக்கநிலையாளர்களுக்கான தரவு அறிவியல் திட்டத்தில் பணிபுரிவதன் மூலம் உங்கள் திறமைகளை அடுத்த கட்டத்திற்கு கொண்டு செல்லுங்கள் - பைதான் மூலம் போலி செய்தி கண்டறிதல்.
அரசியல் இலக்குகளை அடைவதற்காக சமூக ஊடகங்கள் மற்றும் பிற இணைய ஊடகங்கள் மூலம் பரப்பப்படும் தவறான தகவல்கள் போலி செய்திகள் ஆகும். இந்த டேட்டா சயின்ஸ் திட்ட யோசனையில், செய்தி உண்மையானதா அல்லது போலியானதா என்பதை துல்லியமாக தீர்மானிக்கும் மாதிரியை உருவாக்க பைத்தானைப் பயன்படுத்துவோம். நாங்கள் TfidfVectorizer ஐ உருவாக்கி, செய்திகளை "உண்மையான" மற்றும் "போலி" என வகைப்படுத்த, PassiveAggressive Classifier ஐப் பயன்படுத்துவோம். நாங்கள் 7796×4 வடிவ தரவுத்தொகுப்பைப் பயன்படுத்துவோம் மற்றும் எல்லாவற்றையும் ஜூபிடர் ஆய்வகத்தில் செய்வோம்.
சுகாதாரம் மற்றும் சேவைகளை மேம்படுத்த தரவு அறிவியலைப் பயன்படுத்தத் தொடங்கியுள்ளோம் - ஆரம்ப நிலையிலேயே நோயைக் கணிக்க முடிந்தால், நமக்கு பல நன்மைகள் கிடைக்கும். எனவே, இந்த தரவு அறிவியல் திட்ட யோசனையில், பைத்தானைப் பயன்படுத்தி பார்கின்சன் நோயை எவ்வாறு கண்டறிவது என்பதைக் கற்றுக்கொள்வோம். இது மைய நரம்பு மண்டலத்தின் நரம்பியக்கடத்தல், முற்போக்கான நோயாகும், இது இயக்கத்தை பாதிக்கிறது மற்றும் நடுக்கம் மற்றும் விறைப்பை ஏற்படுத்துகிறது. இது மூளையில் உள்ள டோபமைன்-உற்பத்தி செய்யும் நியூரான்களை பாதிக்கிறது, மேலும் ஒவ்வொரு ஆண்டும், இது இந்தியாவில் 1 மில்லியனுக்கும் அதிகமான மக்களை பாதிக்கிறது.
மொழி: பைதான்
தரவுத்தொகுப்பு/தொகுப்பு: UCI ML பார்கின்சன் தரவுத்தொகுப்பு
வெவ்வேறு நூலகங்களை எவ்வாறு பயன்படுத்துவது என்பதை இப்போது கற்றுக்கொள்வோம். இந்த தரவு அறிவியல் திட்டம் பேச்சு அங்கீகாரத்திற்காக லிப்ரோசாவைப் பயன்படுத்துகிறது. SER என்பது பேச்சிலிருந்து மனித உணர்ச்சிகள் மற்றும் பாதிப்பு நிலைகளை அடையாளம் காணும் செயல்முறையாகும். எங்கள் குரலில் உணர்ச்சிகளை வெளிப்படுத்த தொனி மற்றும் சுருதியைப் பயன்படுத்துவதால், SER பொருத்தமானது. ஆனால் உணர்ச்சிகள் அகநிலை என்பதால், ஆடியோ சிறுகுறிப்பு ஒரு கடினமான பணியாகும். நாங்கள் mfcc, chroma மற்றும் mel செயல்பாடுகளைப் பயன்படுத்துவோம் மற்றும் உணர்ச்சி அங்கீகாரத்திற்காக RAVDESS தரவுத்தொகுப்பைப் பயன்படுத்துவோம். இந்த மாதிரிக்கு MLPC வகைப்படுத்தியை உருவாக்குவோம்.
இது பைத்தானுடன் ஒரு சுவாரஸ்யமான தரவு அறிவியல். ஒரே ஒரு படத்தைப் பயன்படுத்தி, ஒரு நபரின் பாலினம் மற்றும் வயதைக் கணிப்பது எப்படி என்பதை நீங்கள் கற்றுக் கொள்வீர்கள். இதில், கம்ப்யூட்டர் விஷன் மற்றும் அதன் கொள்கைகளை நாங்கள் உங்களுக்கு அறிமுகப்படுத்துவோம். நாங்கள் கட்டுவோம் மாற்றும் நரம்பு வலையமைப்பு மற்றும் Adience தரவுத்தொகுப்பில் Tal Hassner மற்றும் Gil Levy ஆகியோரால் பயிற்சியளிக்கப்பட்ட மாதிரிகளைப் பயன்படுத்தும். வழியில் சில .pb, .pbtxt, .prototxt மற்றும் .caffemodel கோப்புகளைப் பயன்படுத்துவோம்.
இது ggplot2 உடன் தரவு காட்சிப்படுத்தல் திட்டமாகும், இதில் R மற்றும் அதன் நூலகங்களைப் பயன்படுத்துவோம் மற்றும் பல்வேறு அளவுருக்களை பகுப்பாய்வு செய்வோம். Uber Pickups New York தரவுத்தொகுப்பைப் பயன்படுத்துவோம், மேலும் ஆண்டின் வெவ்வேறு காலகட்டங்களுக்கான காட்சிப்படுத்தல்களை உருவாக்குவோம். வாடிக்கையாளர் பயணங்களை நேரம் எவ்வாறு பாதிக்கிறது என்பதை இது நமக்கு சொல்கிறது.
மொழி: R
தரவுத்தொகுப்பு/தொகுப்பு: நியூயார்க் நகர தரவுத்தொகுப்பில் Uber பிக்கப்ஸ்
தூக்கத்தில் வாகனம் ஓட்டுவது மிகவும் ஆபத்தானது, ஓட்டுநர்கள் வாகனம் ஓட்டும்போது தூங்குவதால் ஒவ்வொரு ஆண்டும் சுமார் ஆயிரம் விபத்துக்கள் ஏற்படுகின்றன. இந்த பைதான் திட்டத்தில், தூக்கம் வரும் டிரைவர்களைக் கண்டறிந்து அவர்களை பீப் மூலம் எச்சரிக்கும் அமைப்பை உருவாக்குவோம்.
இந்த திட்டம் Keras மற்றும் OpenCV பயன்படுத்தி செயல்படுத்தப்படுகிறது. முகம் மற்றும் கண்களைக் கண்டறிய OpenCV ஐப் பயன்படுத்துவோம், மேலும் Keras உதவியுடன் கண்ணின் நிலையை (திறந்த அல்லது மூடிய) ஆழமான நரம்பியல் நெட்வொர்க் முறைகளைப் பயன்படுத்தி வகைப்படுத்துவோம்.
8. சாட்போட்
பைத்தானைக் கொண்டு சாட்போட்டை உருவாக்கி, உங்கள் வாழ்க்கையில் ஒரு படி முன்னேறுங்கள் - NLTK & Keras உடன் Chatbot.
சாட்போட்கள் வணிகத்தின் ஒருங்கிணைந்த பகுதியாகும். பல வணிகங்கள் தங்கள் வாடிக்கையாளர்களுக்கு சேவைகளை வழங்க வேண்டும் மற்றும் அவர்களுக்கு சேவை செய்ய நிறைய மனிதவளம், நேரம் மற்றும் முயற்சி தேவை. வாடிக்கையாளர்கள் கேட்கும் சில பொதுவான கேள்விகளுக்குப் பதிலளிப்பதன் மூலம், சாட்போட்கள் வாடிக்கையாளர் தொடர்புகளின் பெரும்பகுதியைத் தானியங்குபடுத்த முடியும். அடிப்படையில் இரண்டு வகையான சாட்போட்கள் உள்ளன: டொமைன்-குறிப்பிட்ட மற்றும் திறந்த-டொமைன். ஒரு குறிப்பிட்ட சிக்கலைத் தீர்க்க, டொமைன் சார்ந்த சாட்பாட் பெரும்பாலும் பயன்படுத்தப்படுகிறது. எனவே, உங்கள் துறையில் திறம்பட செயல்பட அதை நீங்கள் தனிப்பயனாக்க வேண்டும். ஓப்பன்-டொமைன் சாட்போட்களிடம் ஏதேனும் கேள்விகள் கேட்கப்படலாம், எனவே அவற்றைப் பயிற்றுவிக்க அதிக அளவு தரவு தேவைப்படுகிறது.
ஒரு படத்தில் உள்ளதை விவரிப்பது மனிதர்களுக்கு எளிதான பணியாகும், ஆனால் கணினிகளுக்கு, ஒவ்வொரு பிக்சலின் வண்ண மதிப்பையும் குறிக்கும் எண்களின் தொகுப்பே ஒரு படம். கணினிகளுக்கு இது கடினமான பணி. ஒரு படத்தில் என்ன இருக்கிறது என்பதைப் புரிந்துகொண்டு, பின்னர் ஒரு இயல்பான மொழி விளக்கத்தை உருவாக்குவது (எ.கா. ஆங்கிலம்) மற்றொரு கடினமான பணி. இந்த திட்டம் ஆழமான கற்றல் நுட்பங்களைப் பயன்படுத்துகிறது, இதில் பட விளக்க ஜெனரேட்டரை உருவாக்க, தொடர்ச்சியான நரம்பியல் நெட்வொர்க்குடன் (LSTM) கன்வல்யூஷனல் நியூரல் நெட்வொர்க்கை (CNN) செயல்படுத்துகிறோம்.
இப்போது நீங்கள் முறைகள் மற்றும் கருத்துகளைப் புரிந்துகொள்ளத் தொடங்கியுள்ளீர்கள். சில மேம்பட்ட தரவு அறிவியல் திட்டங்களுக்கு செல்லலாம். இந்தத் திட்டத்தில், R மொழியைப் போன்ற அல்காரிதம்களுடன் பயன்படுத்துவோம் முடிவு மரங்கள், லாஜிஸ்டிக் பின்னடைவு, செயற்கை நரம்பியல் நெட்வொர்க்குகள் மற்றும் சாய்வு அதிகரிக்கும் வகைப்படுத்தி. கிரெடிட் கார்டு பரிவர்த்தனைகளை மோசடி மற்றும் உண்மையானவை என வகைப்படுத்த, கார்டு பரிவர்த்தனை தரவுத்தொகுப்பைப் பயன்படுத்துவோம். அவற்றுக்கான வெவ்வேறு மாதிரிகளைத் தேர்ந்தெடுத்து செயல்திறன் வளைவுகளை உருவாக்குவோம்.
மொழி: R
தரவுத்தொகுப்பு/தொகுப்பு: அட்டை பரிவர்த்தனை தரவுத்தொகுப்பு
இந்தத் தரவு அறிவியல் திட்டத்தில், திரைப்படத்தின் பரிந்துரைகளை இயந்திரக் கற்றல் மூலம் செயல்படுத்த R ஐப் பயன்படுத்துவோம். பரிந்துரை அமைப்பு பிற பயனர்களின் விருப்பத்தேர்வுகள் மற்றும் உலாவல் வரலாற்றின் அடிப்படையில் வடிகட்டுதல் செயல்முறை மூலம் பயனர்களுக்கு பரிந்துரைகளை அனுப்புகிறது. A மற்றும் B ஹோம் அலோன் மற்றும் B என்றால் சராசரி பெண்களை விரும்பினால், நீங்கள் A ஐ பரிந்துரைக்கலாம் - அவர்களும் அதை விரும்பலாம். இது வாடிக்கையாளர்களை தளத்துடன் தொடர்பு கொள்ள அனுமதிக்கிறது.
வாங்குபவர் பிரிவு ஒரு பிரபலமான பயன்பாடு ஆகும் மேற்பார்வை செய்யப்படாத கற்றல். கிளஸ்டரிங்கைப் பயன்படுத்தி, சாத்தியமான பயனர் தளத்துடன் பணிபுரிய வாடிக்கையாளர் பிரிவுகளை நிறுவனங்கள் வரையறுக்கின்றன. பாலினம், வயது, ஆர்வங்கள் மற்றும் செலவு செய்யும் பழக்கம் போன்ற பொதுவான குணாதிசயங்களின்படி வாடிக்கையாளர்களை குழுக்களாகப் பிரிக்கிறார்கள், இதனால் அவர்கள் ஒவ்வொரு குழுவிற்கும் தங்கள் தயாரிப்புகளை திறம்பட சந்தைப்படுத்த முடியும். பயன்படுத்துவோம் கே-என்றால் கொத்து என்று பொருள், அத்துடன் பாலினம் மற்றும் வயது அடிப்படையில் விநியோகத்தை காட்சிப்படுத்தவும். அதன் பிறகு அவர்களின் ஆண்டு வருமானம் மற்றும் செலவின அளவுகளை பகுப்பாய்வு செய்கிறோம்.
தரவு அறிவியலின் மருத்துவப் பங்களிப்பிற்குத் திரும்புகையில், பைதான் மூலம் மார்பகப் புற்றுநோயைக் கண்டறிவது எப்படி என்பதைக் கற்றுக்கொள்வோம். மார்பக புற்றுநோயின் மிகவும் பொதுவான வடிவமான ஆக்கிரமிப்பு குழாய் புற்றுநோயைக் கண்டறிய IDC_regular தரவுத்தொகுப்பைப் பயன்படுத்துவோம். இது பால் குழாய்களில் உருவாகிறது, குழாய்க்கு வெளியே உள்ள பாலூட்டி சுரப்பியின் நார்ச்சத்து அல்லது கொழுப்பு திசுக்களில் ஊடுருவுகிறது. இந்த தரவு சேகரிப்பு அறிவியல் திட்ட யோசனையில், நாங்கள் பயன்படுத்துவோம் ஆழமான கற்றல் மற்றும் வகைப்படுத்தலுக்கான கேராஸ் நூலகம்.
விபத்துகளைத் தவிர்க்க ஒவ்வொரு ஓட்டுநருக்கும் சாலை அடையாளங்கள் மற்றும் போக்குவரத்து விதிகள் மிகவும் முக்கியம். விதியைப் பின்பற்ற, சாலை அடையாளம் எப்படி இருக்கும் என்பதை நீங்கள் முதலில் புரிந்து கொள்ள வேண்டும். எந்தவொரு வாகனத்தையும் ஓட்டும் உரிமையை வழங்குவதற்கு முன், ஒரு நபர் அனைத்து சாலை அடையாளங்களையும் கற்றுக் கொள்ள வேண்டும். ஆனால் இப்போது தன்னாட்சி வாகனங்களின் எண்ணிக்கை அதிகரித்து வருகிறது, எதிர்காலத்தில், ஒரு நபர் இனி சொந்தமாக ஒரு காரை ஓட்ட மாட்டார். சாலை அடையாள அங்கீகாரத் திட்டத்தில், ஒரு படத்தை உள்ளீடாக எடுத்து ஒரு நிரல் ஒரு வகை சாலை அடையாளத்தை எவ்வாறு அடையாளம் காண முடியும் என்பதை நீங்கள் அறிந்து கொள்வீர்கள். ஜெர்மன் ரோடு சைன் ரெஃபரன்ஸ் டேட்டாசெட் (ஜி.டி.எஸ்.ஆர்.பி) ஒரு டிராஃபிக் அடையாளம் எந்த வகுப்பைச் சேர்ந்தது என்பதை அடையாளம் காண ஆழமான நரம்பியல் வலையமைப்பை உருவாக்கப் பயன்படுகிறது. பயன்பாட்டுடன் தொடர்புகொள்வதற்கான எளிய GUI ஐயும் நாங்கள் உருவாக்குகிறோம்.
மொழி: பைதான்
தரவு தொகுப்பு: GTRB (ஜெர்மன் ட்ராஃபிக் சைன் ரெகக்னிஷன் பெஞ்ச்மார்க்)