စတင်သူများအတွက် ဒေတာသိပ္ပံ
1. Sentiment Analysis (စာသားမှတဆင့် ခံစားချက်ခွဲခြမ်းစိတ်ဖြာခြင်း)
အရင်းအမြစ်ကုဒ်ကို အသုံးပြု၍ ဒေတာသိပ္ပံပရောဂျက်၏ အပြီးသတ်အကောင်အထည်ဖော်မှုကို ကြည့်ရှုပါ။
Sentiment Analysis ဆိုသည်မှာ အပြုသဘော သို့မဟုတ် အပျက်သဘောဆောင်သော ခံစားချက်များနှင့် ထင်မြင်ချက်များကို ခွဲခြားသတ်မှတ်ရန် စကားလုံးများကို ခွဲခြမ်းစိတ်ဖြာခြင်းဖြစ်သည်။ ၎င်းသည် အတန်းများကို ဒွိ(အပြုသဘောနှင့် အနုတ်သဘော) သို့မဟုတ် အများကိန်း (ပျော်ရွှင်၊ ဒေါသ၊ ဝမ်းနည်း၊ စိတ်ညစ်စရာ...) ဟူ၍ အမျိုးအစားခွဲခြင်း အမျိုးအစားတစ်ခုဖြစ်သည်။ ကျွန်ုပ်တို့သည် ဤဒေတာသိပ္ပံပရောဂျက်ကို R ဖြင့်အကောင်အထည်ဖော်မည်ဖြစ်ပြီး "janeaustenR" ပက်ကေ့ခ်ျတွင် ဒေတာအစုံကို အသုံးပြုပါမည်။ AFINN၊ bing နှင့် loughran ကဲ့သို့သော ယေဘုယျရည်ရွယ်ချက်အဘိဓာန်များကို ကျွန်ုပ်တို့အသုံးပြုမည်ဖြစ်ပြီး အတွင်းပိုင်းပါဝင်ပြီး အဆုံးတွင် ရလဒ်ကိုပြသရန် စကားလုံးတိမ်တိုက်တစ်ခုကို ဖန်တီးပါမည်။
Язык: R
ဒေတာအတွဲ/အထုပ်- janeoustenR
ဆောင်းပါးကို EDISON Software ၏ ပံ့ပိုးမှုဖြင့် ဘာသာပြန်ခဲ့ပါသည်။အမှတ်တံဆိပ်ပေါင်းစုံစတိုးဆိုင်များအတွက် virtual fitting အခန်းများပြုလုပ်သည်။ နှင့်စမ်းသပ်ဆော့ဖ်ဝဲ .
2. သတင်းအတု ထောက်လှမ်းခြင်း။
Beginners for Data Science Project ကိုလုပ်ဆောင်ခြင်းဖြင့် သင်၏အရည်အချင်းများကို နောက်တစ်ဆင့်သို့တက်လှမ်းပါ။
သတင်းအတုသည် နိုင်ငံရေးရည်မှန်းချက်များ အောင်မြင်စေရန်အတွက် ဆိုရှယ်မီဒီယာနှင့် အခြားအွန်လိုင်းမီဒီယာများမှတစ်ဆင့် မှားယွင်းသောသတင်းများဖြစ်သည်။ ဤ Data Science ပရောဂျက်စိတ်ကူးတွင်၊ သတင်းသည် အစစ်လား သို့မဟုတ် အတုလား အတိအကျ ဆုံးဖြတ်နိုင်သော စံနမူနာတစ်ခုကို တည်ဆောက်ရန်အတွက် Python ကို အသုံးပြုပါမည်။ ကျွန်ုပ်တို့သည် TfidfVectorizer ကိုဖန်တီးပြီး သတင်းများကို "အစစ်" နှင့် "အတု" ဟူ၍ခွဲခြားရန် PassiveAggressiveClassifier ကိုအသုံးပြုပါမည်။ ကျွန်ုပ်တို့သည် 7796×4 ပုံသဏ္ဍာန်ဒေတာအတွဲကို အသုံးပြုပြီး Jupyter Lab တွင် အရာအားလုံးကို လုပ်ဆောင်ပါမည်။
Язык: Python ကို
ဒေတာအတွဲ/အထုပ်- news.csv
3. ပါကင်ဆန်ရောဂါကို စစ်ဆေးခြင်း။
ဒေတာသိပ္ပံပရောဂျက် Idea − ကိုလုပ်ဆောင်ခြင်းဖြင့် ရှေ့ကိုဆက်ပါ။
ကျွန်ုပ်တို့သည် ကျန်းမာရေးစောင့်ရှောက်မှုနှင့် ဝန်ဆောင်မှုများ တိုးတက်စေရန် ဒေတာသိပ္ပံကို စတင်အသုံးပြုနေပြီဖြစ်သည်- ကျွန်ုပ်တို့သည် ရောဂါကို အစောပိုင်းအဆင့်တွင် ကြိုတင်ခန့်မှန်းနိုင်လျှင် အကျိုးကျေးဇူးများစွာ ရရှိမည်ဖြစ်သည်။ ထို့ကြောင့် ဤ Data Science ပရောဂျက်စိတ်ကူးတွင် Python ကို အသုံးပြု၍ ပါကင်ဆန်ရောဂါကို မည်သို့သိရှိနိုင်သည်ကို လေ့လာပါမည်။ ၎င်းသည် လှုပ်ရှားမှုကို ထိခိုက်စေပြီး တုန်လှုပ်ခြင်းနှင့် တောင့်တင်းခြင်းတို့ကို ဖြစ်စေသော ဗဟိုအာရုံကြောစနစ်၏ အာရုံကြောစနစ်၏ အာရုံကြောများ ယိုယွင်းပျက်စီးလာခြင်း၊ ၎င်းသည် ဦးနှောက်အတွင်းရှိ dopamine ထုတ်လုပ်သည့် အာရုံကြောများကို ထိခိုက်စေပြီး နှစ်စဉ် အိန္ဒိယတွင် လူပေါင်း ၁ သန်းကျော်ကို ထိခိုက်စေပါသည်။
Язык: Python ကို
ဒေတာအတွဲ/အထုပ်- UCI ML ပါကင်ဆန်ဒေတာအတွဲ
အလယ်အလတ်ရှုပ်ထွေးသော ဒေတာသိပ္ပံပရောဂျက်များ
4. စကားပြောစိတ်ခံစားချက်ကို အသိအမှတ်ပြုခြင်း။
ဒေတာသိပ္ပံနမူနာပရောဂျက်၏ အကောင်အထည်ဖော်မှု အပြည့်အစုံကို စစ်ဆေးကြည့်ပါ။
အခုပဲ မတူညီတဲ့ စာကြည့်တိုက်တွေကို ဘယ်လိုသုံးရမလဲဆိုတာ လေ့လာကြည့်ရအောင်။ ဤ ဒေတာသိပ္ပံပရောဂျက်သည် စကားပြောမှတ်မိခြင်းအတွက် librosa ကို အသုံးပြုသည်။ SER သည် လူသားတို့၏ စိတ်ခံစားမှုနှင့် ချစ်ခင်ဖွယ်အခြေအနေများကို ထုတ်ဖော်ပြောဆိုခြင်း၏ လုပ်ငန်းစဉ်ဖြစ်သည်။ ကျွန်ုပ်တို့သည် ကျွန်ုပ်တို့၏အသံဖြင့် စိတ်ခံစားမှုများကိုဖော်ပြရန် လေသံနှင့် အသံထွက်ကိုအသုံးပြုသောကြောင့် SER သည် သက်ဆိုင်ပါသည်။ သို့သော် စိတ်ခံစားမှုများသည် ပုဂ္ဂလဒိဋ္ဌိဖြစ်သောကြောင့်၊ အသံမှတ်စာသည် ခက်ခဲသောအလုပ်ဖြစ်သည်။ ကျွန်ုပ်တို့သည် mfcc၊ chroma နှင့် mel လုပ်ဆောင်ချက်များကို အသုံးပြုပြီး စိတ်ခံစားမှုကို အသိအမှတ်ပြုရန်အတွက် RAVDESS ဒေတာအတွဲကို အသုံးပြုပါမည်။ ဤမော်ဒယ်အတွက် MLPC အမျိုးအစားခွဲခြားမှုကို ကျွန်ုပ်တို့ ဖန်တီးပါမည်။
Язык: Python ကို
ဒေတာအတွဲ/အထုပ်- RAVDESS ဒေတာအတွဲ
5. ကျား/မ နှင့် အသက်ကို ထောက်လှမ်းခြင်း။
နောက်ဆုံးပေါ် Data Science ပရောဂျက်ဖြင့် အလုပ်ရှင်များကို အထင်ကြီးစေသည် -
ဒါက Python နဲ့ စိတ်ဝင်စားစရာကောင်းတဲ့ Data Science တစ်ခုပါ။ ပုံတစ်ပုံတည်းကိုသာ အသုံးပြု၍ လူတစ်ယောက်၏ လိင်နှင့် အသက်ကို ခန့်မှန်းနည်းကို သင်လေ့လာနိုင်မည်ဖြစ်သည်။ ဒီမှာတော့ Computer Vision နဲ့ သူ့ရဲ့ အခြေခံသဘောတရားတွေကို မိတ်ဆက်ပေးလိုက်ပါတယ်။ ဆောက်မယ်။
Язык: Python ကို
ဒေတာအတွဲ/အထုပ်- ပရိတ်သတ်
6. Uber ဒေတာ ခွဲခြမ်းစိတ်ဖြာခြင်း။
အရင်းအမြစ်ကုဒ်ဖြင့် ဒေတာသိပ္ပံပရောဂျက်၏ အပြီးသတ်အကောင်အထည်ဖော်မှုကို ကြည့်ပါ။
၎င်းသည် ကျွန်ုပ်တို့ R နှင့် ၎င်း၏စာကြည့်တိုက်များကို အသုံးပြုကာ ဘောင်အမျိုးမျိုးကို ခွဲခြမ်းစိတ်ဖြာမည့် ggplot2 ပါသည့် ဒေတာမြင်ယောင်မှုပရောဂျက်တစ်ခုဖြစ်သည်။ Uber Pickups New York ဒေတာအတွဲကို အသုံးပြုပြီး တစ်နှစ်တာ၏ မတူညီသောအချိန်ဘောင်များအတွက် စိတ်ကူးပုံဖော်မှုများကို ဖန်တီးပါမည်။ ၎င်းသည် အချိန်သည် ဖောက်သည်များ၏ ခရီးစဉ်များအပေါ် မည်ကဲ့သို့အကျိုးသက်ရောက်သည်ကို ကျွန်ုပ်တို့အား ပြောပြသည်။
Язык: R
ဒေတာအတွဲ/အထုပ်- New York City ရှိ Uber Pickups ဒေတာအတွဲ
7. Driver Drowsiness detection
ထိပ်တန်းဒေတာသိပ္ပံပရောဂျက်တွင် လုပ်ဆောင်ခြင်းဖြင့် သင်၏အရည်အချင်းများကို မြှင့်တင်ပါ-
အိပ်ငိုက်မောင်းနှင်ခြင်းသည် အလွန်အန္တရာယ်များပြီး ယာဉ်မောင်းများ အိပ်ငိုက်ခြင်းကြောင့် နှစ်စဉ် ယာဉ်မတော်တဆမှု တစ်ထောင်ခန့် ဖြစ်ပွားလေ့ရှိသည်။ ဤ Python ပရောဂျက်တွင်၊ ကျွန်ုပ်တို့သည် အိပ်ငိုက်နေသော ယာဉ်မောင်းများကို သိရှိနိုင်ပြီး ၎င်းတို့ကို ဘီပီဖြင့် သတိပေးနိုင်သည့် စနစ်တစ်ခုကို တည်ဆောက်ပါမည်။
ဤပရောဂျက်ကို Keras နှင့် OpenCV ကို အသုံးပြု၍ အကောင်အထည်ဖော်သည်။ မျက်နှာနှင့် မျက်လုံးများကို သိရှိရန် OpenCV ကို အသုံးပြုပြီး Keras ၏အကူအညီဖြင့် နက်ရှိုင်းသော အာရုံကြောကွန်ရက်နည်းလမ်းများကို အသုံးပြု၍ မျက်လုံး၏အခြေအနေကို (အဖွင့် သို့မဟုတ် အပိတ်) အမျိုးအစားခွဲခြားပါမည်။
၂။ Chatbot
Python ဖြင့် chatbot တစ်ခုကိုတည်ဆောက်ပြီး သင်၏အသက်မွေးဝမ်းကြောင်းတွင် ခြေတစ်လှမ်းတိုးပါ -
Chatbots များသည် လုပ်ငန်း၏ အဓိကကျသော အစိတ်အပိုင်းတစ်ခုဖြစ်သည်။ လုပ်ငန်းများစွာသည် ၎င်းတို့၏ဖောက်သည်များအား ဝန်ဆောင်မှုများပေးဆောင်ရန် လိုအပ်ပြီး ၎င်းတို့အား ဝန်ဆောင်မှုပေးရန် လူအင်အား၊ အချိန်နှင့် ကြိုးစားအားထုတ်မှုများစွာ လိုအပ်ပါသည်။ Chatbots များသည် ဖောက်သည်များမေးလေ့ရှိသော မေးခွန်းအချို့ကို ဖြေခြင်းဖြင့် ဖောက်သည်အပြန်အလှန်တုံ့ပြန်မှုများစွာကို အလိုအလျောက်လုပ်ဆောင်ပေးနိုင်ပါသည်။ အခြေခံအားဖြင့် chatbot အမျိုးအစား နှစ်မျိုးရှိသည်- Domain-specific နှင့် Open-domain. သီးခြားပြဿနာတစ်ခုဖြေရှင်းရန် ဒိုမိန်း-သီးသန့် chatbot ကိုမကြာခဏအသုံးပြုသည်။ ထို့ကြောင့် သင့်နယ်ပယ်တွင် ထိထိရောက်ရောက် လုပ်ဆောင်နိုင်ရန် ၎င်းကို စိတ်ကြိုက်ပြင်ဆင်ရန် လိုအပ်ပါသည်။ Open-domain chatbots များကို မည်သည့်မေးခွန်းများ မေးမြန်းနိုင်သည်၊ ထို့ကြောင့် ၎င်းတို့ကို လေ့ကျင့်သင်ကြားရာတွင် ဒေတာပမာဏများစွာ လိုအပ်ပါသည်။
ဒေတာအစုံ- ရည်ရွယ်ချက် json ဖိုင်
Язык: Python ကို
အဆင့်မြင့်ဒေတာသိပ္ပံပရောဂျက်များ
9. Image Caption Generator
အရင်းအမြစ်ကုဒ်ဖြင့် ပြီးပြည့်စုံသော ပရောဂျက်အကောင်အထည်ဖော်မှုကို စစ်ဆေးကြည့်ပါ။
ပုံတစ်ပုံတွင်ရှိသောအရာများကို ဖော်ပြခြင်းသည် လူသားများအတွက် လွယ်ကူသောအလုပ်ဖြစ်သော်လည်း ကွန်ပျူတာများအတွက်၊ ရုပ်ပုံတစ်ပုံသည် pixel တစ်ခုစီ၏ အရောင်တန်ဖိုးကိုကိုယ်စားပြုသည့် ကိန်းဂဏန်းများစုစည်းမှုမျှသာဖြစ်သည်။ ဒါက ကွန်ပျူတာတွေအတွက် ခက်ခဲတဲ့အလုပ်တစ်ခုပါ။ ရုပ်ပုံတစ်ခုတွင်ရှိသောအရာကို နားလည်ပြီးနောက် သဘာဝဘာသာစကားဖော်ပြချက်တစ်ခုဖန်တီးခြင်း (ဥပမာ အင်္ဂလိပ်) သည် နောက်ထပ်ခက်ခဲသောအလုပ်တစ်ခုဖြစ်သည်။ ဤပရောဂျက်သည် ပုံဖော်ပြချက် ဂျင်နရေတာတစ်ခုဖန်တီးရန် Recurrent Neural Network (LSTM) ဖြင့် Convolutional Neural Network (CNN) ကို အကောင်အထည်ဖော်သည့် နက်နဲသောသင်ယူမှုနည်းစနစ်များကို အသုံးပြုပါသည်။
ဒေတာအစုံ- Flickr 8K
Язык: Python ကို
မူဘောင်- ကရား
10. ခရက်ဒစ်ကတ် လိမ်လည်မှုကို ထောက်လှမ်းခြင်း။
Data Science ပရောဂျက်စိတ်ကူးကို လုပ်ဆောင်ခြင်းဖြင့် အကောင်းဆုံးလုပ်ဆောင်ပါ။
ယခုအချိန်တွင် သင်သည် နည်းလမ်းများနှင့် သဘောတရားများကို နားလည်လာပါသည်။ အဆင့်မြင့်ဒေတာသိပ္ပံပရောဂျက်အချို့ကို ဆက်သွားကြပါစို့။ ဤပရောဂျက်တွင် ကျွန်ုပ်တို့သည် R ဘာသာစကားကဲ့သို့သော အယ်လဂိုရီသမ်များဖြင့် အသုံးပြုပါမည်။
Язык: R
ဒေတာအတွဲ/အထုပ်- ကတ်ငွေပေးငွေယူဒေတာအတွဲ
11. Movie Recommendation စနစ်
Source Code ဖြင့် အကောင်းဆုံး Data Science ပရောဂျက်ကို အကောင်အထည်ဖော်ရန် စူးစမ်းလေ့လာပါ။
ဤဒေတာသိပ္ပံပရောဂျက်တွင်၊ စက်သင်ယူမှုမှတစ်ဆင့် ရုပ်ရှင်၏အကြံပြုချက်များကို လုပ်ဆောင်ရန် R ကိုအသုံးပြုပါမည်။ အကြံပြုချက်စနစ်သည် အခြားအသုံးပြုသူများ၏ နှစ်သက်မှုနှင့် ရှာဖွေမှုမှတ်တမ်းအပေါ် အခြေခံ၍ စစ်ထုတ်ခြင်းလုပ်ငန်းစဉ်မှတစ်ဆင့် သုံးစွဲသူများထံ အကြံပြုချက်များကို ပေးပို့ပါသည်။ A နှင့် B သည် Home Alone ကို နှစ်သက်ပြီး B သည် Mean Girls များကို နှစ်သက်ပါက A သည် ၎င်းတို့လည်း ကြိုက်နှစ်သက်နိုင်ကြောင်း အကြံပြုနိုင်ပါသည်။ ၎င်းသည် ဖောက်သည်များအား ပလပ်ဖောင်းနှင့် အပြန်အလှန်ဆက်သွယ်နိုင်စေပါသည်။
Язык: R
ဒေတာအတွဲ/အထုပ်- MovieLens ဒေတာအတွဲ
12. Customer Segmentation
ဒေတာသိပ္ပံပရောဂျက် (အရင်းအမြစ်ကုဒ်အပါအဝင်) ဖြင့် အလုပ်ရှင်များကို အထင်ကြီးစေသည် -
ဝယ်သူ အပိုင်းခွဲခြင်းသည် လူကြိုက်များသော အပလီကေးရှင်းတစ်ခုဖြစ်သည်။
Язык: R
ဒေတာအတွဲ/အထုပ်- Mall_Customers ဒေတာအတွဲ
13. ရင်သားကင်ဆာ အမျိုးအစားခွဲခြားခြင်း။
Python − ရှိ ဒေတာသိပ္ပံပရောဂျက်၏ အကောင်အထည်ဖော်မှု အပြည့်အစုံကို ကြည့်ပါ။
ဒေတာသိပ္ပံ၏ ဆေးဘက်ဆိုင်ရာ ပံ့ပိုးကူညီမှုသို့ ပြန်သွားကာ Python ဖြင့် ရင်သားကင်ဆာကို ရှာဖွေနိုင်ပုံကို လေ့လာကြည့်ကြပါစို့။ ရင်သားကင်ဆာ၏ အဖြစ်အများဆုံးပုံစံဖြစ်သော ထိုးဖောက်ပြွန်ကင်ဆာကို ရှာဖွေရန် IDC_regular dataset ကို အသုံးပြုပါမည်။ ၎င်းသည် နို့ပြွန်အတွင်း ကြီးထွားလာပြီး ပြွန်အပြင်ဘက်ရှိ mammary gland ၏ fibrous သို့မဟုတ် fatty tissue အတွင်းသို့ ထိုးဖောက်ဝင်ရောက်သည်။ ဤအချက်အလက်စုဆောင်းမှု သိပ္ပံပရောဂျက်စိတ်ကူးတွင် ကျွန်ုပ်တို့အသုံးပြုပါမည်။
Язык: Python ကို
ဒေတာအတွဲ/အထုပ်- IDC_ပုံမှန်
14. Traffic Signs အသိအမှတ်ပြုခြင်း။
ဒေတာသိပ္ပံပရောဂျက်ဖြင့် မောင်းသူမဲ့ကားနည်းပညာတွင် တိကျမှုရရှိရန်
ယာဉ်မောင်းသူတိုင်း ယာဉ်မတော်တဆမှုမဖြစ်စေရန် လမ်းစည်းကမ်း၊ လမ်းစည်းကမ်းများသည် အလွန်အရေးကြီးပါသည်။ စည်းကမ်းကိုလိုက်နာရန်၊ လမ်းဆိုင်းဘုတ်၏ပုံသဏ္ဍာန်ကို ဦးစွာနားလည်ရန်လိုအပ်သည်။ လူတစ်ဦးသည် မည်သည့်ယာဉ်ကိုမဆို မောင်းနှင်ခွင့်မပေးမီ လမ်းအမှတ်အသားအားလုံးကို လေ့လာထားရမည်ဖြစ်သည်။ သို့သော် ယခုအခါတွင် ကိုယ်ပိုင်အုပ်ချုပ်ခွင့်ရယာဉ်များ တိုးပွားလာနေပြီး မဝေးတော့သောအနာဂတ်တွင် လူတစ်ဦးသည် သူ့ဘာသာသူ ကားမမောင်းတော့ပါ။ Road Sign Recognition ပရောဂျက်တွင်၊ ပရိုဂရမ်တစ်ခုသည် ပုံတစ်ခုထည့်သွင်းခြင်းဖြင့် လမ်းဆိုင်းဘုတ်အမျိုးအစားကို မည်သို့မှတ်မိနိုင်သည်ကို သင်လေ့လာရပါမည်။ German Road Sign Recognition Reference Dataset (GTSRB) ကို ယာဉ်ကြောအသွားအလာ အမှတ်အသားပါ လူတန်းစားကို အသိအမှတ်ပြုရန် နက်နဲသော အာရုံကြောကွန်ရက်ကို တည်ဆောက်ရန် အသုံးပြုပါသည်။ ကျွန်ုပ်တို့သည် အပလီကေးရှင်းနှင့် အပြန်အလှန်ဆက်ဆံရန်အတွက် ရိုးရှင်းသော GUI တစ်ခုကိုလည်း ဖန်တီးနေပါသည်။
Язык: Python ကို
ဒေတာအစုံ- GTRB (ဂျာမန် ယာဉ်အသွားအလာ အသိအမှတ်ပြု စံနှုန်း)
ပိုပြီးဖတ်ပါ
လေ့ကျင့်ရေးပရောဂျက်များအတွက် ဒေတာအတွဲ ၅၂ ခု Front-end dojo- developer ကျွမ်းကျင်မှုကို လေ့ကျင့်ရန် ပရောဂျက်များ (အသစ် 5 ခု + အဟောင်း 43 ခု) ထိပ်တန်း 12 စိတ်ဝင်စားစရာအကောင်းဆုံး IT Dynamic Infographics
source: www.habr.com