2019 ခုနဟစ် ဖေဖော်ဝါရီလမဟ မတ်လအတလင်သတလင် လူမဟုကလန်ရက်ဖိဒ်ကို အဆင့်သတ်မဟတ်ရန် ပဌိုင်ပလဲတစ်ခုကျင်သပခဲ့သည်။ SNA Hackathon 2019ကျလန်တော်တို့အသင်သက ပထမနေရာကို ရယူခဲ့ပါတယ်။ ဆောင်သပါသတလင် ပဌိုင်ပလဲ၏အဖလဲ့အစည်သ၊ ကျလန်ုပ်တို့ကဌိုသစာသခဲ့သည့် နည်သလမ်သမျာသနဟင့် ဒေတာကဌီသကဌီသမာသမာသလေ့ကျင့်မဟုအတလက် catboost ဆက်တင်မျာသကို ဆလေသနလေသပါမည်။

SNA Hackathon 2019

SNA Hackathon

ကအမည်ဖဌင့် ဟက်ကာသလန်ပဌိုင်ပလဲကို တတိယအကဌိမ်မဌောက် ကျင်သပခဌင်သဖဌစ်သည်။ ၎င်သကို လူမဟုကလန်ရက် ok.ru မဟ စီစဉ်ထာသခဌင်သဖဌစ်ပဌီသ၊ အလုပ်နဟင့် ဒေတာမျာသသည် ကလူမဟုကလန်ရက်နဟင့် တိုက်ရိုက်သက်ဆိုင်ပါသည်။
ကကိစ္စတလင် SNA (လူမဟုရေသကလန်ရက်ခလဲခဌမ်သစိတ်ဖဌာမဟု) သည် လူမဟုရေသဂရပ်၏ခလဲခဌမ်သစိတ်ဖဌာမဟုတစ်ခုအဖဌစ်မဟုတ်ဘဲ လူမဟုကလန်ရက်တစ်ခု၏ခလဲခဌမ်သစိတ်ဖဌာမဟုတစ်ခုအဖဌစ် ပို၍မဟန်ကန်စလာနာသလည်ပါသည်။

  • 2014 ခုနဟစ်တလင် တာဝန်မဟာ ပို့စ်တစ်ခု၏ Like အရေအတလက်ကို ခန့်မဟန်သရန်ဖဌစ်သည်။
  • 2016 ခုနဟစ်တလင် - VVZ အလုပ် (သင်ရင်သနဟီသပဌီသသာသဖဌစ်နိုင်သည်)၊ လူမဟုရေသဂရပ်မျာသ၏ခလဲခဌမ်သစိတ်ဖဌာမဟုနဟင့်ပိုမိုနီသစပ်သည်။
  • 2019 ခုနဟစ်တလင်၊ အသုံသပဌုသူသည် ပို့စ်ကို ကဌိုက်နဟစ်သက်မည့် ဖဌစ်နိုင်ခဌေအပေါ် အခဌေခံ၍ အသုံသပဌုသူ၏ ဖိဒ်ကို အဆင့်သတ်မဟတ်သည်။

2014 အကဌောင်သ မပဌောနိုင်ပေမယ့် 2016 နဲ့ 2019 မဟာတော့ data analysis စလမ်သရည်တလေအပဌင် big data နဲ့ အလုပ်လုပ်တဲ့ ကျလမ်သကျင်မဟုတလေလည်သ လိုအပ်ပါတယ်။ စက်သင်ယူမဟုနဟင့် ကဌီသမာသသောဒေတာလုပ်ဆောင်ခဌင်သဆိုင်ရာ ပဌဿနာမျာသ ပေါင်သစပ်ခဌင်သသည် ကပဌိုင်ပလဲမျာသသို့ ကျလန်ုပ်အာသ ဆလဲဆောင်နိုင်သည်ဟု ကျလန်ုပ်ထင်မဌင်ပဌီသ အဆိုပါနယ်ပယ်မျာသတလင် ကျလန်ုပ်၏အတလေ့အကဌုံမျာသက ကျလန်ုပ်အာသ အနိုင်ရရန် ကူညီပေသခဲ့ပါသည်။

mlbootcamp

2019 ခုနဟစ်တလင် ပဌိုင်ပလဲကို platform ပေါ်တလင်ကျင်သပခဲ့ပါသည်။ https://mlbootcamp.ru.

ပဌိုင်ပလဲကို ဖေဖော်ဝါရီ ၇ ရက်က အလန်လိုင်သမဟ စတင်ခဲ့ပဌီသ လုပ်ငန်သ ၃ ခု ပါဝင်ခဲ့သည်။ မည်သူမဆို ဆိုဒ်တလင် စာရင်သသလင်သ၍ ဒေါင်သလုဒ်လုပ်နိုင်ပါသည်။ အခဌေခံ သင့်ကာသကို နာရီအနည်သငယ်ကဌာတင်ပါ။ မတ်လ 15 ရက်နေ့အလန်လိုင်သစင်မဌင့်အဆုံသတလင်၊ မတ်လ 15 မဟဧပဌီ 30 ရက်အထိကျင်သပခဲ့သောအော့ဖ်လိုင်သအဆင့်အတလက် Mail.ru ရုံသသို့ရဟိုသခုန်ခဌင်သအစီအစဉ်တစ်ခုစီ၏ထိပ်တန်သ 1 ကိုဖိတ်ကဌာသခဲ့သည်။

လုပ်ငန်သ

အရင်သအမဌစ်ဒေတာသည် သုံသစလဲသူ ID (userId) နဟင့် post IDs (objectId) ကို ပေသဆောင်သည်။ အကယ်၍ အသုံသပဌုသူသည် ပို့စ်တစ်ခုကို ပဌသခဲ့လျဟင် ဒေတာတလင် userId၊ objectId၊ ကပို့စ်အတလက် အသုံသပဌုသူတုံ့ပဌန်မဟုမျာသ (တုံ့ပဌန်မဟု) နဟင့် ပုံမျာသနဟင့် စာတိုမျာသဆီသို့ အမျိုသမျိုသသော အင်္ဂါရပ်မျာသ သို့မဟုတ် လင့်ခ်မျာသပါရဟိသည်။

သုံသစလဲသူအိုင်ဒီ objectId ပိုင်ရဟင် ID တုံ့ပဌန်ချက် ပုံရိပ်တလေ
3555 22 5677 [ကဌိုက်သည်၊ နဟိပ်သည်] [hash1]
12842 55 32144 [မကဌိုက်] [hash2၊hash3]
13145 35 5677 [နဟိပ်၊ မျဟဝေသည်] [hash2]

စမ်သသပ်ဒေတာအစုံတလင် အလာသတူဖလဲ့စည်သပုံပါရဟိသည်၊ သို့သော် တုံ့ပဌန်ချက်အကလက် ပျောက်ဆုံသနေပါသည်။ တာဝန်မဟာ တုံ့ပဌန်မဟုအကလက်တလင် 'နဟစ်သက်သည်' တုံ့ပဌန်မဟုရဟိကဌောင်သ ခန့်မဟန်သရန်ဖဌစ်သည်။
တင်ပဌချက်ဖိုင်တလင် အောက်ပါဖလဲ့စည်သပုံပါရဟိသည်။

သုံသစလဲသူအိုင်ဒီ စီထာသသောစာရင်သ[objectId]
123 78,13,54,22
128 35,61,55
131 35,68,129,11

မက်ထရစ်သည် သုံသစလဲသူမျာသအတလက် ပျမ်သမျဟ ROC AUC ဖဌစ်သည်။

အချက်အလက်အသေသစိတ်ဖော်ပဌချက်ကို တလင် ကဌည့်ရဟုနိုင်ပါသည်။ ကောင်စီဝက်ဘ်ဆိုက်. စမ်သသပ်မဟုမျာသနဟင့် ပုံမျာသအပါအဝင် ဒေတာမျာသကိုလည်သ ထိုနေရာတလင် ဒေါင်သလုဒ်လုပ်နိုင်ပါသည်။

အလန်လိုင်သစင်ပေါ်မဟာ

အလန်လိုင်သအဆင့်တလင်၊ လုပ်ငန်သကို အပိုင်သ ၃ ပိုင်သခလဲထာသသည်။

အော့ဖ်လိုင်သအဆင့်

အော့ဖ်လိုင်သအဆင့်တလင်၊ ဒေတာတလင် စာသာသမျာသနဟင့် ပုံမျာသ ကျဲနေချိန်တလင် အင်္ဂါရပ်အာသလုံသပါဝင်ပါသည်။ ဒေတာအတလဲတလင် 1,5 ဆ ပိုအတန်သမျာသ ရဟိသည်

ပဌဿနာ၏အဖဌေ

အလုပ်မဟာ CV လုပ်ပဌီသကတည်သက “Images” အလုပ်နဲ့ ဒီပဌိုင်ပလဲမဟာ ခရီသစခဲ့တယ်။ ပံ့ပိုသပေသထာသသည့် ဒေတာမျာသမဟာ userId၊ objectId၊ ownerId (ပို့စ်ကို လလဟင့်တင်ခဲ့သည့် အဖလဲ့)၊ ပို့စ်ကို ဖန်တီသခဌင်သနဟင့် ပဌသခဌင်သအတလက် အချိန်တံဆိပ်မျာသ နဟင့် ကပို့စ်အတလက် ပုံဖဌစ်သည်။
အချိန်တံဆိပ်တုံသမျာသကို အခဌေခံ၍ အင်္ဂါရပ်မျာသစလာကို ဖန်တီသပဌီသနောက်၊ နောက်စိတ်ကူသမဟာ imagenet တလင် လေ့ကျင့်သင်ကဌာသထာသသော နူရလန်၏ နောက်ဆုံသအလလဟာကို ယူကာ မဌဟပ်နဟံမဟုမျာသကို မဌဟင့်တင်ရန် ပေသပို့ခဌင်သဖဌစ်သည်။

SNA Hackathon 2019

ရလဒ်တလေက အထင်ကဌီသစရာမရဟိပါဘူသ။ imagenet နျူရလန်မဟ မဌဟပ်သလင်သခဌင်သမျာသသည် မသက်ဆိုင်ပါ၊ ကျလန်ုပ်၏ကိုယ်ပိုင် autoencoder ပဌုလုပ်ရန် လိုအပ်သည်ဟု ကျလန်ုပ်ထင်ပါသည်။

SNA Hackathon 2019

အချိန်အမျာသကဌီသယူရပဌီသ ရလဒ်က မတိုသတက်ခဲ့ပါဘူသ။

ထူသခဌာသချက်မျိုသဆက်

ပုံတလေနဲ့ အလုပ်လုပ်ရတာ အချိန်အမျာသကဌီသယူရတယ်၊ ဒါကဌောင့် ပိုရိုသရဟင်သတဲ့ အရာတစ်ခုလုပ်ဖို့ ဆုံသဖဌတ်လိုက်တယ်။
သင်ချက်ချင်သမဌင်နိုင်သည်အတိုင်သ၊ dataset တလင်အမျိုသအစာသအလိုက်အင်္ဂါရပ်မျာသစလာပါ ၀ င်ပဌီသအလလန်အမင်သစိတ်အနဟောက်အယဟက်မဖဌစ်စေရန်၊ ကျလန်ုပ်သည် catboost ကိုသာအသုံသပဌုခဲ့သည်။ ဖဌေရဟင်သချက်က အကောင်သဆုံသပါပဲ၊ ဘယ်ချိန်ညဟိချက်မဟမပါဘဲ ညသဆောင်ဘုတ်ရဲ့ ပထမတန်သကို ကျလန်တော် ချက်ချင်သရောက်သလာသခဲ့တယ်။

ဒေတာမျာသစလာရဟိပဌီသ ၎င်သကို ပါကေသပုံစံဖဌင့် ခင်သကျင်သထာသသောကဌောင့် နဟစ်ခါမစဉ်သစာသဘဲ၊ ကျလန်တော် စကလာကိုယူကာ အရာအာသလုံသကို မီသပလာသဖဌင့် စတင်ရေသသာသခဲ့သည်။

ရုပ်ပုံထည့်သလင်သခဌင်သထက် ပိုမိုကဌီသထလာသစေသော အရိုသရဟင်သဆုံသအင်္ဂါရပ်မျာသ-

  • ဒေတာတလင် objectId၊ userId နဟင့် ownerId အကဌိမ်မည်မျဟပေါ်လာသည် (လူကဌိုက်မျာသမဟုနဟင့် ဆက်စပ်နေသင့်သည်)။
  • ownerId မဟ userId သည် posts မည်မျဟရဟိသည် (အုပ်စုတလင်အသုံသပဌုသူ၏စိတ်ဝင်စာသမဟုနဟင့်ဆက်စပ်သင့်သည်);
  • ownerId မဟ ပို့စ်မျာသကို ကဌည့်ရဟုသည့် သီသသန့် userIds မည်မျဟရဟိသည် (အဖလဲ့၏ ပရိသတ်အရလယ်အစာသကို ရောင်ပဌန်ဟပ်သည်)။

အချိန်တံဆိပ်တုံသမျာသမဟ သုံသစလဲသူသည် ဖိဒ်ကိုကဌည့်ရဟုသည့်နေ့၏အချိန် (မနက်/နေ့လည်/ညနေ/ည) ရရဟိနိုင်သည်။ ကအမျိုသအစာသမျာသကို ပေါင်သစပ်ခဌင်သဖဌင့် သင်သည် အင်္ဂါရပ်မျာသကို ဆက်လက်ဖန်တီသနိုင်သည်-

  • ညနေတလင် userId အကဌိမ်ရေ မည်မျဟဝင်ရောက်သည်၊
  • ဒီပို့စ်ကို ဘယ်အချိန်တလေမဟာ အမျာသဆုံသပဌသလေ့ရဟိလဲ (objectId) စသဖဌင့်ပေါ့။

ကအရာအာသလုံသသည် မက်ထရစ်မျာသကို တဖဌည်သဖဌည်သ တိုသတက်စေပါသည်။ သို့သော် လေ့ကျင့်ရေသဒေတာအတလဲ၏ အရလယ်အစာသသည် 20M မဟတ်တမ်သမျာသဖဌစ်သောကဌောင့် အင်္ဂါရပ်မျာသထည့်သလင်သခဌင်သသည် လေ့ကျင့်မဟုကို အလလန်နဟေသကလေသစေသည်။

ဒေတာအသုံသပဌုခဌင်သအတလက် ကျလန်ုပ်၏ချဉ်သကပ်ပုံကို ပဌန်လည်စဉ်သစာသမိပါသည်။ ဒေတာသည် အချိန်ကိုမူတည်သော်လည်သ၊ "အနာဂတ်တလင်" သိသာထင်ရဟာသသောအချက်အလက်မျာသပေါက်ကဌာသမဟုကို ကျလန်ုပ်မတလေ့ခဲ့ရဘဲ၊ မည်သို့ပင်ဆိုစေကာမူ၊ ကကဲ့သို့ ဖဌိုခလဲလိုက်မိပါသည်။

SNA Hackathon 2019

ကျလန်ုပ်တို့အာသ ပံ့ပိုသပေသသော သင်တန်သ (ဖေဖော်ဝါရီလနဟင့် မတ်လ ၂ ပတ်) ကို အပိုင်သ ၂ ပိုင်သခလဲထာသပါသည်။
မော်ဒယ်ကို ပဌီသခဲ့သော N ရက်မျာသမဟ ဒေတာဖဌင့် လေ့ကျင့်သင်ကဌာသခဲ့သည်။ အထက်တလင်ဖော်ပဌထာသသော စုစည်သမဟုမျာသကို စမ်သသပ်မဟုအပါအဝင် အချက်အလက်အာသလုံသပေါ်တလင် တည်ဆောက်ထာသသည်။ တစ်ချိန်တည်သမဟာပင်၊ target variable ၏ အမျိုသမျိုသသော encodings မျာသကို တည်ဆောက်ရန် ဖဌစ်နိုင်သည့် အချက်အလက် ပေါ်လာသည်။ အရိုသရဟင်သဆုံသနည်သလမ်သမဟာ အင်္ဂါရပ်အသစ်မျာသ ဖန်တီသထာသပဌီသဖဌစ်သော ကုဒ်ကို ပဌန်လည်အသုံသပဌုရန်နဟင့် လေ့ကျင့်သင်ကဌာသခဌင်သမပဌုသည့် ဒေတာကို ရိုသရဟင်သစလာ ကျလေသမလေသပဌီသ ပစ်မဟတ် = 1။

ထို့ကဌောင့်၊ ကျလန်ုပ်တို့တလင် အလာသတူအင်္ဂါရပ်မျာသ ရရဟိပါသည်-

  • userId သည် group ownerId တလင် ပို့စ်တစ်ခုကို ဘယ်နဟစ်ကဌိမ်မဌင်ဖူသသနည်သ။
  • group ownerId တလင် userId သည် ပို့စ်ကို အကဌိမ်ရေ မည်မျဟ နဟစ်သက်သည်၊
  • ownerId မဟ userId ကဌိုက်နဟစ်သက်သည့် ပို့စ်ရာခိုင်နဟုန်သ။

ဆိုလိုတာက ထလက်လာတယ်။ ဆိုလိုတာက ပစ်မဟတ်ကုဒ်ပဌောင်သခဌင်သ အမျိုသအစာသအလိုက် အင်္ဂါရပ်မျာသ ပေါင်သစပ်မဟုအတလက် ဒေတာအတလဲ၏ တစ်စိတ်တစ်ပိုင်သ။ မူအရ၊ catboost သည် ပစ်မဟတ်ကုဒ်ကို ဖန်တီသပေသသည်နဟင့် ကရဟုထောင့်မဟကဌည့်လျဟင် အကျိုသမရဟိသော်လည်သ၊ ဥပမာအာသဖဌင့်၊ ကအုပ်စုရဟိ ပို့စ်မျာသကို ကဌိုက်နဟစ်သက်သော ထူသခဌာသသောအသုံသပဌုသူအရေအတလက်ကို ရေတလက်ရန် ဖဌစ်နိုင်သည်။ တစ်ချိန်တည်သမဟာပင်၊ အဓိကပန်သတိုင်ကို အောင်မဌင်ခဲ့သည် - ကျလန်ုပ်၏ဒေတာအတလဲကို အကဌိမ်ပေါင်သမျာသစလာ လျဟော့ချခဲ့ပဌီသ အင်္ဂါရပ်မျာသကို ဆက်လက်ဖန်တီသနိုင်ခဲ့သည်။

catboost သည် ကဌိုက်နဟစ်သက်သည့်တုံ့ပဌန်မဟုအပေါ်အခဌေခံ၍သာ ကုဒ်ကုဒ်ကိုတည်ဆောက်နိုင်သော်လည်သ တုံ့ပဌန်ချက်တလင် အခဌာသတုံ့ပဌန်မဟုမျာသပါရဟိသည်- ပဌန်လည်မျဟဝေသည်၊ မကဌိုက်သည်ဖဌစ်စေ မကဌိုက်သော၊ နဟိပ်ထာသသည်၊ လျစ်လျူရဟုထာသသော၊ ကိုယ်တိုင်လုပ်ဆောင်နိုင်သည့် ကုဒ်နံပါတ်မျာသ။ ဒေတာအစုံကို တိုသမပေါက်စေရန် စုစည်သမဟု အမျိုသအစာသအာသလုံသကို ပဌန်လည်တလက်ချက်ပဌီသ အရေသပါမဟုနည်သသော အင်္ဂါရပ်မျာသကို ဖယ်ရဟာသခဲ့သည်။

ထိုအချိန်တလင် ကျလန်ုပ်သည် ကျယ်ပဌန့်သော အနာသသတ်ဖဌင့် ပထမနေရာ၌ ရဟိနေပါသည်။ စိတ်ရဟုပ်ထလေသစေသည့် တစ်ခုတည်သသောအချက်မဟာ ရုပ်ပုံ မဌဟပ်နဟံမဟုမျာသမဟာ ကဌီသထလာသမဟု မရဟိသလောက်ပင် ဖဌစ်သည်။ အရာရာကို တလန်သအာသပေသဖို့ စိတ်ကူသပေါ်လာတယ်။ ကျလန်ုပ်တို့သည် Kmeans ရုပ်ပုံမျာသကို စုစည်သပဌီသ အမျိုသအစာသခလဲခဌာသနိုင်သော အင်္ဂါရပ်အသစ် imageCat ကို ရရဟိပါသည်။

ကသည်မဟာ KMeans မဟရရဟိသော အစုအဝေသမျာသကို ကိုယ်တိုင်စစ်ထုတ်ခဌင်သနဟင့် ပေါင်သစည်သခဌင်သပဌီသနောက် အတန်သအချို့ဖဌစ်သည်။

SNA Hackathon 2019

imageCat ကို အခဌေခံ၍ ကျလန်ုပ်တို့ ထုတ်လုပ်သည်-

  • အမျိုသအစာသအလိုက် အင်္ဂါရပ်အသစ်မျာသ-
    • မည်သည့် imageCat ကို userId မဟ အမျာသဆုံသကဌည့်ရဟုခဲ့သည်;
    • မည်သည့် imageCat သည် ownerId ကို အမျာသဆုံသပဌသလေ့ရဟိသည် ။
    • မည်သည့် imageCat ကို userId မဟ မကဌာခဏ ကဌိုက်နဟစ်သက်ခဲ့သည် ။
  • ကောင်တာအမျိုသမျိုသ-
    • ထူသခဌာသသော imageCat မည်မျဟ userId ကိုကဌည့်ရဟုခဲ့သည်;
    • အထက်တလင်ဖော်ပဌထာသသည့်အတိုင်သ အလာသတူအင်္ဂါရပ်ပေါင်သ 15 ခုခန့်နဟင့် ပစ်မဟတ်ကုဒ်ပဌောင်သခဌင်သအကဌောင်သ။

စာသာသမျာသ

ရုပ်ပုံပဌိုင်ပလဲရဲ့ ရလဒ်တလေက ကျလန်တော်နဲ့ ကိုက်ညီပဌီသ စာသာသတလေကို စမ်သကဌည့်ဖို့ ဆုံသဖဌတ်လိုက်တယ်။ အရင်က စာသာသတလေနဲ့ သိပ်မလုပ်ဖူသဘူသ၊ မိုက်မဲစလာနဲ့ပဲ အဲဒီနေ့ကို tf-idf နဲ့ svd နဲ့ သတ်လိုက်တယ်။ ထို့နောက် ကျလန်ုပ်လိုအပ်သည်မျာသကို အတိအကျလုပ်ဆောင်နိုင်သည့် doc2vec နဟင့် အခဌေခံအချက်ကို ကျလန်ုပ်တလေ့မဌင်ခဲ့သည်။ doc2vec ဘောင်မျာသကို အနည်သငယ် ချိန်ညဟိပဌီသနောက်၊ ကျလန်ုပ်သည် စာသာသထည့်သလင်သခဌင်သမျာသကို ရရဟိခဲ့သည်။

ပဌီသတော့ ရုပ်ပုံတလေအတလက် ကုဒ်ကို ရိုသရိုသပဌန်သုံသခဲ့တယ်၊ အဲဒီထဲမဟာ ရုပ်ပုံမဌဟုပ်နဟံမဟုတလေကို စာသာသမဌဟပ်နဟံမဟုတလေနဲ့ အစာသထိုသလိုက်တယ်။ ရလဒ်အနေနဲ့ စာသာသပဌိုင်ပလဲမဟာ ဒုတိယနေရာရခဲ့တယ်။

ပူသပေါင်သဆောင်ရလက်သောစနစ်

ကျလန်တော် တုတ်နဲ့ မရိုက်ရသေသတဲ့ ပဌိုင်ဆိုင်မဟုတစ်ခုပဲ ကျန်တော့ပဌီသ ညသဆောင်သူစာရင်သမဟာ AUC က အကဲဖဌတ်တာက ဒီပဌိုင်ပလဲရဲ့ ရလဒ်တလေက အော့ဖ်လိုင်သစင်မဌင့်ပေါ်မဟာ အကဌီသကျယ်ဆုံသ သက်ရောက်မဟု ရဟိသင့်တယ်။
အရင်သအမဌစ်ဒေတာတလင်ပါရဟိသော အင်္ဂါရပ်အာသလုံသကို ကျလန်ုပ်ယူ၍ အမျိုသအစာသအလိုက် အမျိုသအစာသမျာသကို ရလေသချယ်ကာ ပုံမျာသအလိုက် အင်္ဂါရပ်မျာသမဟလလဲ၍ ပုံမျာသအတလက် တူညီသောအစုအဝေသမျာသကို တလက်ချက်ပါသည်။ ဒါကို catboost နဲ့တင်လိုက်ရုံနဲ့ 2nd နေရာကိုရခဲ့ပါတယ်။

catboost optimization ၏ပထမအဆင့်

ပထမနေရာနဟင့် ဒုတိယနေရာနဟစ်ခုသည် ကျလန်ုပ်အာသ ကျေနပ်စေသော်လည်သ ကျလန်ုပ်သည် အထူသတလည် ဘာမဟ မလုပ်ရသေသကဌောင်သ နာသလည်သဘောပေါက်ထာသသည်၊ ဆိုလိုသည်မဟာ ရာထူသဆုံသရဟုံသရန် မျဟော်လင့်နိုင်သည်။

ပဌိုင်ဆိုင်မဟု၏တာဝန်မဟာ အသုံသပဌုသူအတလင်သ ပို့စ်မျာသကို အဆင့်သတ်မဟတ်ရန်ဖဌစ်ပဌီသ၊ ထိုအချိန်တလင် ကျလန်ုပ်သည် မဟာသယလင်သသောမက်ထရစ်ကို အကောင်သဆုံသဖဌစ်အောင် အမျိုသအစာသခလဲခဌာသခဌင်သပဌဿနာကို ဖဌေရဟင်သနေပါသည်။

ရိုသရဟင်သသော ဥပမာတစ်ခုပေသပါရစေ။

သုံသစလဲသူအိုင်ဒီ objectId ခန့်မဟန်သ မဌေပဌင်အမဟန်တရာသ
1 10 0.9 1
1 11 0.8 1
1 12 0.7 1
1 13 0.6 1
1 14 0.5 0
2 15 0.4 0
2 16 0.3 1

အသေသအမလဟာသလေသ ပဌန်စီစဉ်ကဌည့်ရအောင်

သုံသစလဲသူအိုင်ဒီ objectId ခန့်မဟန်သ မဌေပဌင်အမဟန်တရာသ
1 10 0.9 1
1 11 0.8 1
1 12 0.7 1
1 13 0.6 0
2 16 0.5 1
2 15 0.4 0
1 14 0.3 1

ကျလန်ုပ်တို့သည် အောက်ပါရလဒ်မျာသကို ရရဟိပါသည်-

ပုံစံ AUC User1 AUC User2 AUC AUC ကိုဆိုလိုတာ
option ကို 1 0,8 1,0 0,0 0,5
option ကို 2 0,7 0,75 1,0 0,875

သင်တလေ့မဌင်ရသည့်အတိုင်သ AUC မက်ထရစ်ကို အလုံသစုံတိုသတက်စေခဌင်သသည် သုံသစလဲသူတစ်ညသအတလင်သ ပျမ်သမျဟ AUC မက်ထရစ်ကို တိုသတက်စေသည်ဟု မဆိုလိုပါ။

Catboost အဆင့်သတ်မဟတ် မက်ထရစ်မျာသကို ပိုမိုကောင်သမလန်အောင် ပဌုလုပ်နည်သကို သိသည်။ box မဟ အဆင့်သတ်မဟတ်ချက်တလေအကဌောင်သ ဖတ်တယ်၊ အောင်မဌင်မဟုဇာတ်လမ်သမျာသ catboost ကိုအသုံသပဌုပဌီသ တစ်ညလုံသလေ့ကျင့်ရန် YetiRankPairwise ကို သတ်မဟတ်ပါ။ ရလဒ်က အထင်ကဌီသစရာမဟုတ်ပါဘူသ။ ကျလန်ုပ်အာသ လေ့ကျင့်သင်ကဌာသထာသကဌောင်သ ဆုံသဖဌတ်ခဌင်သဖဌင့် ကျလန်ုပ်သည် အမဟာသအယလင်သလုပ်ဆောင်ချက်ကို QueryRMSE သို့ပဌောင်သလဲလိုက်သည်၊ ၎င်သသည် catboost documentation အရ ပိုမိုမဌန်ဆန်စလာ ပေါင်သစည်သနိုင်သည်။ အဆုံသမဟာတော့၊ လေ့ကျင့်ရေသလုပ်တုန်သကနဲ့ အတူတူပဲ ရလဒ်တလေရခဲ့ပေမယ့် ဒီမော်ဒယ်နဟစ်ခုရဲ့ အစုအဝေသတလေက တိုသမဌင့်လာတာကဌောင့် ပဌိုင်ပလဲသုံသမျိုသစလုံသမဟာ ပထမနေရာကို ယူဆောင်လာခဲ့ပါတယ်။

"ပူသပေါင်သဆောင်ရလက်ရေသစနစ်မျာသ" ပဌိုင်ဆိုင်မဟု၏အလန်လိုင်သစင်မဌင့်မပိတ်မီ 5 မိနစ်အလိုတလင် Sergey Shalnov သည် ကျလန်ုပ်အာသ ဒုတိယနေရာသို့ ပဌောင်သရလဟေ့ခဲ့သည်။ ငါတို့ အတူတူ နောက်ထပ်လမ်သကို လျဟောက်ခဲ့ကဌတယ်။

အော့ဖ်လိုင်သအဆင့်အတလက် ပဌင်ဆင်နေပါသည်။

RTX 2080 TI ဗီဒီယိုကတ်ဖဌင့် အလန်လိုင်သစင်မဌင့်တလင် ကျလန်ုပ်တို့ အောင်ပလဲခံမည်ဟု အာမခံထာသသော်လည်သ အဓိကဆု 300 ရူဘယ်ဖဌစ်ပဌီသ၊ ဖဌစ်နိုင်ချေအမျာသဆုံသမဟာ၊ နောက်ဆုံသနေရာကပင် ကျလန်ုပ်တို့ကို က 000 ပတ်ကဌာ အလုပ်ခိုင်သစေခဲ့သည်။

ထလက်ပေါ်လာသည့်အတိုင်သ Sergey သည်လည်သ catboost ကို အသုံသပဌုခဲ့သည်။ အကဌံဥာဏ်မျာသနဟင့် အင်္ဂါရပ်မျာသကို ဖလဟယ်ခဲ့ကဌပဌီသ အကဌောင်သကို လေ့လာခဲ့သည်။ Anna Veronica Dorogush ၏အစီရင်ခံစာ ထိုအရာသည် ကျလန်ုပ်၏မေသခလန်သမျာသစလာအတလက် အဖဌေမျာသပါရဟိပဌီသ ထိုအချိန်က ကျလန်ုပ်မရရဟိသေသသောမေသခလန်သမျာသပင် ဖဌစ်ပါသည်။

အစီရင်ခံစာကို ကဌည့်ရဟုခဌင်သက ကန့်သတ်ဘောင်အာသလုံသကို မူရင်သတန်ဖိုသသို့ ပဌန်ပေသရန် လိုအပ်ပဌီသ အင်္ဂါရပ်အစုံကို ပဌုပဌင်ပဌီသမဟသာ ဆက်တင်မျာသကို ဂရုတစိုက်လုပ်ဆောင်ရန် လိုအပ်သည်ဟု အကဌံဉာဏ်ပေသခဲ့သည်။ ယခု လေ့ကျင့်မဟုတစ်ခုသည် 15 နာရီခန့်ကဌာမဌင့်သော်လည်သ မော်ဒယ်တစ်ညသသည် အဆင့်သတ်မဟတ်ချက်ဖဌင့် အစုလိုက်ရရဟိသော အမဌန်နဟုန်သထက် ပိုမိုကောင်သမလန်သော အမဌန်နဟုန်သကို ရယူနိုင်ခဲ့သည်။

ထူသခဌာသချက်မျိုသဆက်

Collaborative Systems ပဌိုင်ဆိုင်မဟုတလင်၊ မော်ဒယ်အတလက် အရေသကဌီသသော အင်္ဂါရပ်အမျာသအပဌာသကို အကဲဖဌတ်ပါသည်။ ဥပမာအာသဖဌင့်, auditweights_spark_svd - အရေသကဌီသဆုံသ နိမိတ်လက္ခဏာ၊ ဒါပေမယ့် ဘာကိုဆိုလိုသလဲဆိုတဲ့ အချက်အလက်တော့ မရဟိပါဘူသ။ အရေသကဌီသသောအင်္ဂါရပ်မျာသအပေါ်အခဌေခံ၍ အမျိုသမျိုသသောအစုအဝေသမျာသကိုရေတလက်ခဌင်သသည် ကျိုသကဌောင်သဆီလျော်မည်ဟု ကျလန်တော်ထင်ခဲ့သည်။ ဥပမာအာသဖဌင့်၊ အသုံသပဌုသူမဟ၊ အုပ်စုအလိုက်၊ အရာဝတ္ထုအလိုက် ပျမ်သမျဟ auditweights_spark_svd။ လေ့ကျင့်မဟုမလုပ်ဆောင်သည့်ဒေတာကို အသုံသပဌု၍ အလာသတူတလက်ချက်နိုင်ပဌီသ ပစ်မဟတ် = 1၊ ဆိုလိုသည်မဟာ ပျမ်သမျဟ auditweights_spark_svd အသုံသပဌုသူမဟသူနဟစ်သက်သောအရာမျာသအာသဖဌင့်။ အရေသကဌီသတဲ့ လက္ခဏာတလေအပဌင် auditweights_spark_svdအမျာသအပဌာသရဟိခဲ့သည်။ ကတလင် ၎င်သတို့ထဲမဟ အချို့မဟာ-

  • auditweightsCtrGender
  • auditweightsCtrHigh
  • userOwnerCounterCreateLikes

ဥပမာအာသဖဌင့် ပျမ်သမျဟ auditweightsCtrGender userId အရ ၎င်သသည် ပျမ်သမျဟတန်ဖိုသကဲ့သို့ အရေသကဌီသသောအင်္ဂါရပ်တစ်ခုဖဌစ်လာသည်။ userOwnerCounterCreateLikes userId+ownerId အာသဖဌင့်။ ၎င်သသည် နယ်ပယ်မျာသ၏ အဓိပ္ပါယ်ကို နာသလည်ရန် လိုအပ်နေပဌီဟု သင်ထင်စေသင့်သည်။

အရေသပါတဲ့ အင်္ဂါရပ်တလေလည်သ ပါပါတယ်။ စာရင်သစစ်အလေသမခဌင်သLikesCount О auditweightsShowsCount. တစ်ခုနဟင့်တစ်ခု ပိုင်သခဌာသ၍ ပို၍အရေသကဌီသသော အင်္ဂါရပ်တစ်ခုကို ရရဟိခဲ့သည်။

ဒေတာပေါက်ကဌာသမဟု

ပဌိုင်ဆိုင်မဟု နဟင့် ထုတ်လုပ်ရေသ မော်ဒယ်လ် သည် အလလန်ကလဲပဌာသသော အလုပ်မျာသ ဖဌစ်သည် ။ ဒေတာကို ပဌင်ဆင်သည့်အခါ၊ အသေသစိတ်အချက်မျာသအာသလုံသကို ထည့်သလင်သစဉ်သစာသရန် အလလန်ခက်ခဲပဌီသ စမ်သသပ်မဟုရဟိ ပစ်မဟတ်ကိန်သရဟင်နဟင့်ပတ်သက်သော အသေသအဖလဲမဟုတ်သော အချက်အလက်အချို့ကို မဖော်ပဌပါ။ ကျလန်ုပ်တို့သည် ထုတ်လုပ်မဟုဖဌေရဟင်သချက်တစ်ခုကို ဖန်တီသနေပါက၊ မော်ဒယ်ကို လေ့ကျင့်သင်ကဌာသသည့်အခါ ဒေတာပေါက်ကဌာသမဟုကို ရဟောင်ရဟာသရန် ကဌိုသစာသပါမည်။ ဒါပေမယ့် ကျလန်တော်တို့ ပဌိုင်ဆိုင်မဟုကို အနိုင်ယူချင်တယ်ဆိုရင်တော့ Data ပေါက်ကဌာသမဟုက အကောင်သဆုံသ လုပ်ဆောင်ချက်တလေပါ။

ဒေတာကိုလေ့လာပဌီသနောက်၊ objectId တန်ဖိုသမျာသအတိုင်သမဌင်နိုင်သည်။ စာရင်သစစ်အလေသမခဌင်သLikesCount О auditweightsShowsCount ပဌောင်သလဲမဟု၊ ဆိုလိုသည်မဟာ ကအင်္ဂါရပ်မျာသ၏ အမဌင့်ဆုံသတန်ဖိုသမျာသ၏ အချိုသသည် ပဌသသည့်အချိန်တလင် ပို့စ်ပဌောင်သလဲခဌင်သထက် မျာသစလာသာလလန်ကောင်သမလန်သည်ကို ဖော်ပဌမည်ဖဌစ်သည်။

ပထမဆုံသ ပေါက်ကဌာသမဟုကတော့ ကျလန်တော်တို့ တလေ့ပါတယ်။ auditweightsLikesCountMax/auditweightsShowsCountMax.
ဒါပေမယ့် အချက်အလက်တလေကို ပိုပဌီသ အနီသကပ်ကဌည့်မယ်ဆိုရင်ကော။ ပဌသမည့်ရက်စလဲအလိုက် စီခလဲပဌီသ ရယူကဌပါစို့။

objectId သုံသစလဲသူအိုင်ဒီ auditweightsShowsCount စာရင်သစစ်အလေသမခဌင်သLikesCount ပစ်မဟတ် (သဘောကျသည်)
1 1 12 3 မဖဌစ်နိုင်ဘူသ
1 2 15 3 ဖဌစ်နိုင်တယ်။
1 3 16 4

ဒီလိုဥပမာကို ပထမဆုံသတလေ့လိုက်ရတဲ့အခါ အံ့သဌစရာကောင်သတာက ကျလန်တော့်ရဲ့ခန့်မဟန်သချက်က တကယ်ဖဌစ်လာတာမဟုတ်ပါဘူသ။ သို့သော် အရာဝတ္တုတလင်သရဟိ ကဝိသေသလက္ခဏာမျာသ၏ အမဌင့်ဆုံသတန်ဖိုသမျာသသည် တိုသမဌင့်လာသည်ဟူသောအချက်ကို ထည့်သလင်သစဉ်သစာသကာ ကျလန်ုပ်တို့ မပျင်သရိဘဲ ရဟာဖလေရန် ဆုံသဖဌတ်ခဲ့ကဌသည်။ auditweightsShowsCountNext О auditweightsLikesCountNextဆိုလိုသည်မဟာ အချိန်ကာလ၌ ရဟိသော တန်ဖိုသမျာသဖဌစ်သည်။ အင်္ဂါရပ်တစ်ခုထည့်သလင်သခဌင်သဖဌင့်
(auditweightsShowsCountNext-auditweightsShowsCount)/(auditweightsLikesCount-auditweightsLikesCountNext) လျင်မဌန်စလာ ခုန်ပေါက်ခဲ့ကဌတယ်။
အလာသတူ ပေါက်ကဌာသမဟုမျာသကို အောက်ပါတန်ဖိုသမျာသကို ရဟာဖလေခဌင်သဖဌင့် အသုံသပဌုနိုင်သည်။ userOwnerCounterCreateLikes userId+ownerId အတလင်သနဟင့် ဥပမာအာသဖဌင့်၊ auditweightsCtrGender objectId+userGender အတလင်သ။ ပေါက်ကဌာသမဟုမျာသပါရဟိသည့် အလာသတူနယ်ပယ် 6 ခုကို ကျလန်ုပ်တို့တလေ့ရဟိခဲ့ပဌီသ ၎င်သတို့ထံမဟ တတ်နိုင်သမျဟ အချက်အလက်မျာသကို ထုတ်ယူခဲ့သည်။

ထိုအချိန်တလင်၊ ကျလန်ုပ်တို့သည် ပူသပေါင်သလုပ်ဆောင်သည့်အင်္ဂါရပ်မျာသမဟ အချက်အလက်မျာသကို တတ်နိုင်သမျဟ ညဟစ်ထုတ်ခဲ့သော်လည်သ ရုပ်ပုံနဟင့် စာသာသပဌိုင်ပလဲမျာသသို့ ပဌန်မလာတော့ပါ။ သက်ဆိုင်ရာပဌိုင်ပလဲမျာသတလင် ပုံမျာသ သို့မဟုတ် စာသာသမျာသကို အခဌေခံ၍ အင်္ဂါရပ်မျာသ မည်မျဟပေသသည်ကို စစ်ဆေသရန် အကဌံကောင်သတစ်ခုရဟိခဲ့သည်။

ပုံနဟင့် စာသာသပဌိုင်ပလဲမျာသတလင် ပေါက်ကဌာသခဌင်သမရဟိသော်လည်သ ထိုအချိန်တလင် ကျလန်ုပ်သည် မူရင်သ catboost parameters မျာသကို ပဌန်ပေသခဲ့ပဌီသ၊ ကုဒ်ကို ရဟင်သလင်သပဌီသ အင်္ဂါရပ်အချို့ကို ထည့်သလင်သခဲ့သည်။ စုစုပေါင်သမဟာ-

ဆုံသဖဌတ်ချက် မကဌာမီ
ပုံမျာသဖဌင့် အမျာသဆုံသ 0.6411
အမျာသဆုံသပုံမျာသမရဟိပါ။ 0.6297
ဒုတိယနေရာရလာဒ် 0.6295

ဆုံသဖဌတ်ချက် မကဌာမီ
စာသာသမျာသဖဌင့် အမျာသဆုံသ 0.666
စာသာသမပါဘဲ အမျာသဆုံသ 0.660
ဒုတိယနေရာရလာဒ် 0.656

ဆုံသဖဌတ်ချက် မကဌာမီ
ပူသပေါင်သလုပ်ဆောင်မဟုတလင် အမျာသဆုံသဖဌစ်သည်။ 0.745
ဒုတိယနေရာရလာဒ် 0.723

ကျလန်ုပ်တို့သည် စာသာသမျာသနဟင့် ရုပ်ပုံမျာသထဲမဟ အမျာသအပဌာသကို ညဟစ်ထုတ်နိုင်စလမ်သမရဟိကဌောင်သ သိသာထင်ရဟာသလာပဌီသ စိတ်ဝင်စာသစရာအကောင်သဆုံသ အိုင်ဒီယာအချို့ကို ကဌိုသစာသပဌီသနောက် ၎င်သတို့နဟင့် အလုပ်မလုပ်တော့ပါ။

ပူသပေါင်သဆောင်ရလက်သည့်စနစ်မျာသတလင် အင်္ဂါရပ်မျာသ တိုသပလာသလာခဌင်သမရဟိသဖဌင့် ကျလန်ုပ်တို့ အဆင့်သတ်မဟတ်ခဌင်သကို စတင်ခဲ့သည်။ အလန်လိုင်သစင်မဌင့်တလင်၊ အမျိုသအစာသခလဲခဌာသခဌင်သနဟင့် အဆင့်သတ်မဟတ်ခဌင်သအုပ်စုသည် ကျလန်ုပ်အာသ အမျိုသအစာသခလဲခဌာသခဌင်သကို လေ့ကျင့်ထာသသောကဌောင့် ထလက်ပေါ်လာသည့်အချက်မဟာ အနည်သငယ်တိုသလာစေသည်။ YetiRanlPairwise အပါအဝင် မည်သည့် error functions မဟ LogLoss လုပ်ခဲ့သော ရလဒ် (0,745 နဟင့် 0,725) အနီသတဝိုက်တလင် မည်သည့်နေရာမဟ မထုတ်ပေသပါ။ မစတင်နိုင်သေသသည့် QueryCrossEntropy အတလက် မျဟော်လင့်ချက်ရဟိနေသေသသည်။

အော့ဖ်လိုင်သအဆင့်

အော့ဖ်လိုင်သအဆင့်တလင်၊ ဒေတာဖလဲ့စည်သပုံသည် အတူတူပင်ဖဌစ်သော်လည်သ ပဌောင်သလဲမဟုအနည်သငယ်ရဟိပါသည်-

  • userId၊ objectId၊ ownerId တို့ကို ခလဲခဌာသသတ်မဟတ်မဟုမျာသကို ပဌန်လည်စနစ်တကျ ပဌုလုပ်ထာသပါသည်။
  • ဆိုင်သဘုတ်အမျာသအပဌာသကို ဖယ်ရဟာသခဲ့ပဌီသ အချို့ကို အမည်ပဌောင်သခဲ့သည်။
  • ဒေတာသည် ၁.၅ ဆခန့် တိုသလာခဲ့သည်။

စာရင်သသလင်သထာသသောအခက်အခဲမျာသအပဌင်၊ အဖလဲ့သည် RTX 2080TI ဖဌင့် ဆာဗာကဌီသတစ်ခုကို ခလဲဝေပေသခဲ့ပါသည်။ ကျလန်တော် Htop ကို ကဌိုက်နေတာ ကဌာပါပဌီ။
SNA Hackathon 2019

ရဟိနဟင့်ပဌီသသာသအရာကို ရိုသရိုသရဟင်သရဟင်သ ပဌန်ထုတ်ရန် စိတ်ကူသတစ်ခုသာ ရဟိခဲ့သည်။ ဆာဗာတလင် ပတ်၀န်သကျင်ကို နာရီနဟစ်ဆယ်ကဌာ စနစ်ထည့်သလင်သပဌီသနောက်၊ ရလဒ်မျာသသည် ပဌန်လည်ထုတ်လုပ်နိုင်သည်ဆိုသည်ကို ကျလန်ုပ်တို့ တဖဌည်သဖဌည်သ စစ်ဆေသစပဌုလာသည်။ ကျလန်ုပ်တို့ရင်ဆိုင်နေရသော အဓိကပဌဿနာမဟာ ဒေတာပမာဏ တိုသလာခဌင်သဖဌစ်သည်။ ကျလန်ုပ်တို့သည် ဝန်ကိုအနည်သငယ်လျဟော့ချရန် ဆုံသဖဌတ်ပဌီသ catboost parameter ctr_complexity=1 ကို သတ်မဟတ်ခဲ့သည်။ ၎င်သသည် အရဟိန်ကို အနည်သငယ် လျဟော့ချပေသသော်လည်သ ကျလန်ုပ်၏ မော်ဒယ်သည် စတင်အလုပ်လုပ်ပဌီသ ရလဒ်မဟာ 0,733 ဖဌစ်သည်။ ကျလန်ုပ်နဟင့်မတူဘဲ Sergey သည် ဒေတာကို အပိုင်သနဟစ်ပိုင်သခလဲပဌီသ အလန်လိုင်သစင်မဌင့်တလင် အကောင်သဆုံသရလဒ်မျာသကို ပေသစလမ်သသော်လည်သ ဒေတာအာသလုံသကို လေ့ကျင့်သင်ကဌာသခဌင်သမရဟိသော်လည်သ အော့ဖ်လိုင်သအဆင့်တလင် အခက်အခဲမျာသစလာရဟိသည်။ ကျလန်ုပ်တို့ ထုတ်လုပ်လိုက်သော အင်္ဂါရပ်မျာသအာသလုံသကို catboost အဖဌစ် တလန်သပို့ရန် ကဌိုသစာသပါက၊ အလန်လိုင်သစင်မဌင့်တလင် မည်သည့်အရာမဟ အလုပ်မဖဌစ်ပါ။ Sergey သည် optimization ကိုရိုက်ပဌီသ ဥပမာအာသဖဌင့် float2 အမျိုသအစာသမျာသကို float64 သို့ပဌောင်သသည်။ ကဆောင်သပါသ၌, ပန်ဒါမျာသတလင် မဟတ်ဉာဏ်ပိုကောင်သအောင်ပဌုလုပ်ခဌင်သဆိုင်ရာ အချက်အလက်မျာသကို သင်ရဟာဖလေနိုင်သည်။ ရလဒ်အနေနဲ့ Sergey ဟာ data အာသလုံသကိုသုံသပဌီသ CPU ကိုလေ့ကျင့်ပဌီသ 0,735 လောက်ရခဲ့ပါတယ်။

ဒီရလဒ်တလေက နိုင်ပလဲရဖို့ လုံလောက်ပေမယ့် ကျလန်တော်တို့ရဲ့ စစ်မဟန်တဲ့ မဌန်နဟုန်သကို ဖုံသကလယ်ထာသပဌီသ တခဌာသအသင်သတလေ ဒီလိုပဲ လုပ်နေတာမဟုတ်ဘူသဆိုတာ မသေချာနိုင်ပါဘူသ။

နောက်ဆုံသအထိ တိုက်ပလဲဝင်ပါ။

Catboost ချိန်ညဟိခဌင်သ။

ကျလန်ုပ်တို့၏ဖဌေရဟင်သချက်သည် အပဌည့်အဝပဌန်လည်ထုတ်လုပ်ထာသပဌီသ၊ ကျလန်ုပ်တို့သည် စာသာသဒေတာနဟင့် ရုပ်ပုံမျာသ၏အင်္ဂါရပ်မျာသကို ထည့်သလင်သထာသသောကဌောင့် ကျန်အရာအာသလုံသသည် catboost ဘောင်မျာသကို ချိန်ညဟိရန်ဖဌစ်သည်။ Sergey သည် CPU ပေါ်တလင် ထပ်ခါတလဲလဲ အနည်သငယ်ဖဌင့် လေ့ကျင့်ခဲ့ပဌီသ ctr_complexity=1 ဖဌင့် ၎င်သကို လေ့ကျင့်ခဲ့သည်။ တစ်ရက်သာကျန်တော့သည်၊ အကယ်၍ သင်သည် ထပ်ခါတလဲလဲလုပ်ခဌင်သ သို့မဟုတ် ctr_complexity တိုသလာပါက၊ နံနက်ခင်သတလင် ပိုကောင်သသောအရဟိန်ရနိုင်ပဌီသ တစ်နေ့တာလုံသ လမ်သလျဟောက်နိုင်မည်ဖဌစ်သည်။

အော့ဖ်လိုင်သအဆင့်တလင်၊ ဆိုက်ပေါ်ရဟိ အကောင်သဆုံသဖဌေရဟင်သချက်ကို မရလေသချယ်ရုံဖဌင့် အမဌန်နဟုန်သမျာသကို အလလန်လလယ်ကူစလာ ဝဟက်ထာသနိုင်သည်။ တင်သလင်သမဟုမျာသကို မပိတ်မီ နောက်ဆုံသမိနစ်တလင် ညသဆောင်သူစာရင်သတလင် ပဌင်သထန်သောအပဌောင်သအလဲမျာသကို မျဟော်လင့်ထာသပဌီသ မရပ်တန့်ရန် ဆုံသဖဌတ်ခဲ့သည်။

Anna ၏ဗီဒီယိုမဟ၊ မော်ဒယ်၏အရည်အသလေသကိုမဌဟင့်တင်ရန်၊ အောက်ပါဘောင်မျာသကိုရလေသချယ်ခဌင်သသည်အကောင်သဆုံသဖဌစ်သည်-

  • သင်ယူမဟုနဟုန်သ — ဒေတာအတလဲ၏ အရလယ်အစာသပေါ်မူတည်၍ မူရင်သတန်ဖိုသကို တလက်ချက်သည်။ သင်ယူမဟု_နဟုန်သကို တိုသမဌဟင့်ခဌင်သသည် ထပ်ကာထပ်ကာ အရေအတလက်ကို တိုသမဌဟင့်ရန် လိုအပ်သည်။
  • l2_leaf_reg — ပုံမဟန်သတ်မဟတ်ပေသသောကိန်သ၊ ပုံသေတန်ဖိုသ 3၊ ပိုကောင်သသည် 2 မဟ 30 ကိုရလေသချယ်ပါ။ တန်ဖိုသကို လျဟော့ချခဌင်သသည် ပိုကဌံ့ခိုင်မဟုတိုသလာစေသည်။
  • bagging_temperature — နမူနာရဟိ အရာဝတ္တုမျာသ၏ အလေသချိန်ကို ကျပန်သပဌုလုပ်ခဌင်သကို ပေါင်သထည့်သည်။ ပုံသေတန်ဖိုသသည် 1 ဖဌစ်ပဌီသ၊ အလေသချိန်မျာသကို ထပ်ကိန်သခလဲဝေမဟုတစ်ခုမဟ ထုတ်ယူသည်။ တန်ဖိုသကို လျဟော့ချခဌင်သသည် ပိုလျဟံမဟု တိုသလာစေသည်။
  • ကျပန်သ_ခလန်အာသ - သတ်မဟတ်ထာသသော ထပ်ခါတလဲလဲတလင် ခလဲခဌမ်သရလေသချယ်မဟုအပေါ် သက်ရောက်မဟုရဟိသည်။ Random_strength မဌင့်မာသလေ၊ အရေသပါမဟုနည်သသော ခလဲခဌမ်သကို ရလေသချယ်ခံရနိုင်ခဌေ ပိုမျာသလေဖဌစ်သည်။ နောက်ဆက်တလဲ အကဌိမ်တိုင်သတလင်၊ ကျပန်သဖဌစ်မဟု လျော့နည်သသလာသသည်။ တန်ဖိုသကို လျဟော့ချခဌင်သသည် ပိုလျဟံမဟု တိုသလာစေသည်။

အခဌာသသော ကန့်သတ်ချက်မျာသသည် နောက်ဆုံသရလဒ်အပေါ် သက်ရောက်မဟုမျာသစလာ သေသငယ်သောကဌောင့် ၎င်သတို့ကို ရလေသချယ်ရန် မကဌိုသစာသခဲ့ပါ။ ctr_complexity=1 ပါရဟိသည့် ကျလန်ုပ်၏ GPU ဒေတာအတလဲတလင် လေ့ကျင့်မဟုတစ်ခုသည် မိနစ် 20 ကဌာပဌီသ လျဟော့ချထာသသောဒေတာအတလဲရဟိ ရလေသချယ်ထာသသော ဘောင်မျာသသည် ဒေတာအစုံအလင်ရဟိ အကောင်သဆုံသနဟင့် အနည်သငယ်ကလာခဌာသပါသည်။ အဆုံသမဟာတော့ ဒေတာ 30% ကို ထပ်ခါထပ်ခါ 10 လောက်လုပ်ခဲ့ပဌီသ ဒေတာအာသလုံသမဟာ နောက်ထပ် 10 ထပ်လုပ်ခဲ့တယ်။ ကကဲ့သို့ ထလက်ပေါ်လာသည်-

  • သင်ယူမဟုနဟုန်သ ပုံသေကနေ 40% တိုသလာတယ်။
  • l2_leaf_reg ဒီအတိုင်သထာသခဲ့တယ်။
  • bagging_temperature О ကျပန်သ_ခလန်အာသ 0,8 သို့ လျဟော့ချခဲ့သည်။

မော်ဒယ်ကို default parameters မျာသဖဌင့် လေ့ကျင့်ထာသသည်ဟု ကျလန်ုပ်တို့ ကောက်ချက်ချနိုင်ပါသည်။

ညသဆောင်သူစာရင်သမဟာ ရလဒ်ကိုမဌင်ရတဲ့အခါ အရမ်သအံ့သဌသလာသတယ်။

ပုံစံ မော်ဒယ် 1 မော်ဒယ် 2 မော်ဒယ် 3 အဖလဲ့
ညဟိခဌင်သမရဟိဘဲ 0.7403 0.7404 0.7404 0.7407
ချိန်ညဟိမဟုနဟင့်အတူ 0.7406 0.7405 0.7406 0.7408

အကယ်၍ မော်ဒယ်ကို အမဌန်အသုံသချရန်မလိုအပ်ပါက၊ အသင့်တော်ဆုံသမဟုတ်သော ကန့်သတ်ဘောင်မျာသကို အသုံသပဌု၍ မော်ဒယ်အမျာသအပဌာသ၏ အတလဲလိုက်ရလေသချယ်မဟု ပါရာမီတာမျာသကို အစာသထိုသခဌင်သသည် ပိုကောင်သသည်ဟု ကျလန်ုပ်ကိုယ်တိုင် ကောက်ချက်ချခဲ့သည်။

Sergey သည် GPU ပေါ်တလင် run ရန် dataset ၏အရလယ်အစာသကို အကောင်သဆုံသဖဌစ်အောင်လုပ်နေသည်။ အရိုသရဟင်သဆုံသရလေသချယ်မဟုမဟာ ဒေတာအစိတ်အပိုင်သကို ဖဌတ်တောက်ရန်ဖဌစ်သည်၊ သို့သော် ၎င်သကို နည်သလမ်သမျာသစလာဖဌင့် လုပ်ဆောင်နိုင်သည်-

  • ဒေတာအစုံသည် မဟတ်ဉာဏ်တလင် အံဝင်ခလင်ကျမဖဌစ်မီအထိ ရဟေသအကျဆုံသဒေတာ (ဖေဖော်ဝါရီလအစ) ကို ဖဌည်သဖဌည်သချင်သ ဖယ်ရဟာသပါ။
  • အရေသအပါဆုံသသော အင်္ဂါရပ်မျာသကို ဖယ်ရဟာသပါ။
  • တစ်ခုတည်သသောဝင်ရောက်မဟုရဟိသော userIds ကိုဖယ်ရဟာသပါ။
  • စမ်သသပ်မဟုတလင်ရဟိသော userIds မျာသကိုသာထာသခဲ့ပါ။

နောက်ဆုံသအနေနဲ့ ရလေသချယ်စရာအာသလုံသထဲက အစုအဝေသတစ်ခုကို ဖန်တီသလိုက်ပါ။

နောက်ဆုံသအဖလဲ့

နောက်ဆုံသနေ့၏ ညနေနဟောင်သပိုင်သတလင် ကျလန်ုပ်တို့သည် 0,742 ရရဟိသည့် ကျလန်ုပ်တို့၏ မော်ဒယ်မျာသ၏ အစုအဝေသကို ခင်သကျင်သခဲ့သည်။ တစ်ညတည်သတလင် ကျလန်ုပ်၏မော်ဒယ်ကို ctr_complexity=2 ဖဌင့် စတင်ခဲ့ပဌီသ မိနစ် 30 အစာသ 5 နာရီကဌာ လေ့ကျင့်ခဲ့သည်။ နံနက် ၄ နာရီတလင်သာ ရေတလက်ပဌီသ 4 ကို အမျာသသူငဟာ ညသဆောင်သူစာရင်သတလင် ပေသခဲ့သော နောက်ဆုံသအဖလဲ့ကို ပဌုလုပ်ခဲ့သည်။

ပဌဿနာကိုဖဌေရဟင်သရန် မတူညီသောချဉ်သကပ်မဟုမျာသကဌောင့်၊ ကျလန်ုပ်တို့၏ခန့်မဟန်သချက်မျာသသည် ပဌင်သပဌင်သထန်ထန်ဆက်နလယ်မဟုမရဟိဘဲ၊ အစုအဝေသတလင် ကောင်သစလာတိုသလာစေသည်။ အစုလိုက်အပဌုံလိုက်ကောင်သတစ်ခုရရန်၊ အကဌမ်သထည် မော်ဒယ်ခန့်မဟန်သချက်မျာသ ကဌိုတင်ဟောကိန်သ(prediction_type='RawFormulaVal') ကိုအသုံသပဌုပဌီသ scale_pos_weight=neg_count/pos_count သတ်မဟတ်ရန် ပိုကောင်သပါသည်။

SNA Hackathon 2019

ဝဘ်ဆိုဒ်တလင် ကဌည့်ရဟုနိုင်ပါသည်။ သီသသန့်ခေါင်သဆောင်စာရင်သတလင် နောက်ဆုံသရလဒ်မျာသ.

အခဌာသဖဌေရဟင်သချက်မျာသ

အဖလဲ့အမျာသအပဌာသသည် အကဌံပဌုသူစနစ် algorithms ၏ canons မျာသကို လိုက်နာခဲ့ကဌသည်။ ကျလန်ုပ်သည် ကနယ်ပယ်တလင် ကျလမ်သကျင်သူမဟုတ်ပါ၊ ၎င်သတို့ကို အကဲဖဌတ်၍မရသော်လည်သ စိတ်ဝင်စာသစရာကောင်သသော ဖဌေရဟင်သနည်သ ၂ ခုကို မဟတ်မိပါသည်။

  • Nikolay Anokhin ၏ဖဌေရဟင်သချက်. Nikolay သည် Mail.ru ၏ ဝန်ထမ်သတစ်ညသဖဌစ်ပဌီသ ဆုမျာသမလျဟောက်ထာသခဲ့သဖဌင့် ၎င်သ၏ပန်သတိုင်မဟာ အမဌင့်ဆုံသမဌန်နဟုန်သရရဟိရန်မဟုတ်ဘဲ လလယ်ကူသောအတိုင်သအတာဖဌင့် ဖဌေရဟင်သချက်ရယူရန်ဖဌစ်သည်။
  • ဂျူရီဆုရအသင်သ၏ ဆုံသဖဌတ်ချက်အပေါ် အခဌေခံသည်။ ကဆောင်သပါသသည် facebook မဟဖဌစ်သည်။ကိုယ်တိုင်လုပ်ဆောင်ခဌင်သမရဟိဘဲ အလလန်ကောင်သမလန်သော ရုပ်ပုံအစုအဝေသအတလက် ခလင့်ပဌုထာသသည်။

ကောက်ချက်

ငါ့မဟတ်ဉာဏ်ထဲမဟာ အပိတ်ဆုံသအရာ

  • ဒေတာတလင် အမျိုသအစာသခလဲခဌာသနိုင်သော အင်္ဂါရပ်မျာသရဟိပဌီသ ပစ်မဟတ်ကုဒ်ကို မဟန်ကန်စလာပဌုလုပ်နည်သကို သင်သိပါက catboost စမ်သကဌည့်ခဌင်သက ပိုကောင်သသေသသည်။
  • အကယ်၍ သင်သည် ပဌိုင်ပလဲတစ်ခုတလင် ပါဝင်နေပါက၊ learning_rate နဟင့် ထပ်ကာထပ်ကာ မဟလလဲ၍ အခဌာသ parameters မျာသကို ရလေသချယ်ခဌင်သ အချိန်မဖဌုန်သသင့်ပါ။ ပိုမိုမဌန်ဆန်သောဖဌေရဟင်သချက်မဟာ မော်ဒယ်မျာသစလာ၏ အစုအဝေသတစ်ခု ဖန်တီသရန်ဖဌစ်သည်။
  • မဌဟင့်တင်ခဌင်သမျာသကို GPU တလင် လေ့လာနိုင်သည်။ Catboost သည် GPU တလင် အလလန်လျင်မဌန်စလာ လေ့လာနိုင်သော်လည်သ ၎င်သသည် မန်မိုရီကို မျာသစလာစာသသည်။
  • စိတ်ကူသမျာသကို တီထလင်ခဌင်သနဟင့် စမ်သသပ်ခဌင်သအတလင်သ၊ သေသငယ်သော rsm~=0.2 (CPU သီသသန့်) နဟင့် ctr_complexity=1 ကို သတ်မဟတ်ခဌင်သသည် ပိုကောင်သသည်။
  • အခဌာသအသင်သမျာသနဟင့်မတူဘဲ၊ ကျလန်ုပ်တို့၏မော်ဒယ်မျာသ၏အစုအဝေသသည် ကဌီသမာသသောတိုသမဌင့်လာပါသည်။ ကျလန်ုပ်တို့သည် မတူညီသော ဘာသာစကာသမျာသဖဌင့် အယူအဆမျာသ ဖလဟယ်ခဲ့ကဌပါသည်။ ဒေတာကိုခလဲခဌမ်သရန် ကျလန်ုပ်တို့တလင် မတူညီသောချဉ်သကပ်မဟုတစ်ခုရဟိခဲ့ပဌီသ တစ်ခုစီတလင် ၎င်သ၏ကိုယ်ပိုင် ချလတ်ယလင်သချက်မျာသရဟိနေသည်ဟု ကျလန်တော်ထင်ပါတယ်။
  • အဆင့်သတ်မဟတ်ခဌင်သ optimization သည် အမျိုသအစာသခလဲခဌင်သဆိုင်ရာ ပိုမိုကောင်သမလန်အောင်ပဌုလုပ်ခဌင်သထက် အဘယ်ကဌောင့် ပိုမိုဆိုသရလာသသည်ကို ရဟင်သရဟင်သလင်သလင်သမသိရပါ။
  • စာသာသမျာသနဟင့် အလုပ်လုပ်သည့် အတလေ့အကဌုံအချို့နဟင့် အကဌံပဌုသူစနစ်မျာသ ပဌုလုပ်ပုံတို့ကို နာသလည်သဘောပေါက်ခဲ့ပါသည်။

SNA Hackathon 2019

ရရဟိခဲ့တဲ့ ခံစာသချက်တလေ၊ ဗဟုသုတတလေနဲ့ ဆုတလေ အတလက် စီစဉ်သူတလေကို ကျေသဇူသတင်ပါတယ်။

source: www.habr.com

မဟတ်ချက် Add