ဒေတာဘေ့စ်မျာသတလင် လုပ်ဆောင်နိုင်သော မဟီခိုမဟုမျာသကို ထိရောက်စလာ ရဟာဖလေပါ။

ဒေတာခလဲခဌမ်သစိတ်ဖဌာမဟု၏ အမျိုသမျိုသသော နယ်ပယ်မျာသတလင် လုပ်ဆောင်နိုင်သော မဟီခိုမဟုမျာသအာသ ရဟာဖလေခဌင်သ- ဒေတာဘေ့စ်စီမံခန့်ခလဲမဟု၊ ဒေတာရဟင်သလင်သခဌင်သ၊ ဒေတာဘေ့စ်ပဌောင်သပဌန်အင်ဂျင်နီယာနဟင့် ဒေတာရဟာဖလေရေသတို့ကို အသုံသပဌုသည်။ မဟီခိုမဟုမျာသအကဌောင်သ ကျလန်ုပ်တို့ကိုယ်တိုင် ထုတ်ပဌန်ထာသပဌီသဖဌစ်သည်။ ဆောင်သပါသ Anastasia Birillo နဟင့် Nikita Bobrov ။ ယခုနဟစ်ကလန်ပဌူတာသိပ္ပံဌာနမဟဘလဲ့ရတစ်ညသဖဌစ်သည့် Anastasia သည် ယခုတစ်ကဌိမ်တလင် စင်တာတလင်သူမကာကလယ်ပေသခဲ့သော သုတေသနလုပ်ငန်သ၏တစ်စိတ်တစ်ပိုင်သအနေဖဌင့် ကလုပ်ငန်သ၏ဖလံ့ဖဌိုသတိုသတက်မဟုကို မျဟဝေပါသည်။

ဒေတာဘေ့စ်မျာသတလင် လုပ်ဆောင်နိုင်သော မဟီခိုမဟုမျာသကို ထိရောက်စလာ ရဟာဖလေပါ။

အလုပ်ရလေသချယ်မဟု

CS စင်တာတလင် လေ့လာနေစဉ်၊ အနက်အဓိပ္ပါယ်မဟာ၊ အလုပ်လုပ်ပုံနဟင့် ခဌာသနာသသော မဟီခိုမဟုမျာသအတလက် ရဟာဖလေခဌင်သ ဒေတာဘေ့စ်မျာသကို နက်ရဟိုင်သစလာ စတင်လေ့လာခဲ့သည်။ ကအကဌောင်သအရာသည် တက္ကသိုလ်ရဟိ ကျလန်ုပ်၏ သင်ရိုသညလဟန်သတမ်သ ခေါင်သစဉ်နဟင့် ဆက်စပ်နေသောကဌောင့် သင်တန်သကို လုပ်ဆောင်နေစဉ်တလင် databases တလင် မဟီခိုမဟုအမျိုသမျိုသအကဌောင်သ ဆောင်သပါသမျာသကို စတင်ဖတ်ရဟုခဲ့ပါသည်။ ကနယ်ပယ်ကို ပဌန်လည်သုံသသပ်ရေသသာသခဲ့သည် - ကျလန်ုပ်၏ ပထမဆုံသသော တစ်ခုဖဌစ်သည်။ ဆောင်သပါသမျာသ အင်္ဂလိပ်ဘာသာဖဌင့် SEIM-2017 ညီလာခံသို့ တင်သလင်သခဲ့သည်။ သူမကို လက်ခံကဌောင်သ သိလိုက်ရတော့ အရမ်သပျော်သလာသပဌီသ အကဌောင်သအရာကို လေသလေသနက်နက် စဉ်သစာသဖို့ ဆုံသဖဌတ်လိုက်တယ်။ အယူအဆကိုယ်တိုင်က အသစ်အဆန်သမဟုတ်ပါ - 90s မျာသတလင် စတင်အသုံသပဌုခဲ့သော်လည်သ ယခုအခါ နယ်ပယ်မျာသစလာတလင် အသုံသပဌုနေပဌီဖဌစ်သည်။

စင်တာတလင်ကျလန်ုပ်၏ဒုတိယစာသင်ကာလတလင်၊ ကျလန်ုပ်သည် functional dependencies ကိုရဟာဖလေရန်အတလက် algorithms ကိုတိုသတက်စေရန်အတလက်သုတေသနပရောဂျက်တစ်ခုကိုစတင်ခဲ့သည်။ JetBrains Research မဟ စိန့်ပီတာစဘတ်ပဌည်နယ် တက္ကသိုလ်မဟ ဘလဲ့ရကျောင်သသာသ Nikita Bobrov နဟင့် တလဲလုပ်ခဲ့သည်။

လုပ်ငန်သဆိုင်ရာ မဟီခိုမဟုမျာသကို ရဟာဖလေရာတလင် တလက်ချက်မဟုဆိုင်ရာ ရဟုပ်ထလေသမဟု

အဓိကပဌဿနာမဟာ တလက်ချက်မဟုဆိုင်ရာ ရဟုပ်ထလေသမဟုဖဌစ်သည်။ ဖဌစ်နိုင်ချေ အနည်သဆုံသနဟင့် အသေသအဖလဲမဟုတ်သော မဟီခိုမဟုအရေအတလက်ကို တန်ဖိုသအာသဖဌင့် အထက်တလင် ကန့်သတ်ထာသသည်။ ဒေတာဘေ့စ်မျာသတလင် လုပ်ဆောင်နိုင်သော မဟီခိုမဟုမျာသကို ထိရောက်စလာ ရဟာဖလေပါ။ဘယ်မဟာ ဒေတာဘေ့စ်မျာသတလင် လုပ်ဆောင်နိုင်သော မဟီခိုမဟုမျာသကို ထိရောက်စလာ ရဟာဖလေပါ။ - ဇယာသအရည်အသလေသမျာသ။ algorithms ၏လည်ပတ်ချိန်သည် attribute အရေအတလက်ပေါ်တလင်သာမက အတန်သအရေအတလက်ပေါ်တလင်လည်သမူတည်သည်။ 90 ခုနဟစ်မျာသတလင် ပဌည်ထောင်စုဥပဒေရဟာဖလေရေသ အယ်လဂိုရီသမ်မျာသ သည် ပုံမဟန် desktop PC တလင် ရည်ညလဟန်သချက် 20 အထိနဟင့် အတန်သထောင်ပေါင်သမျာသစလာ ပါဝင်သော ဒေတာအတလဲမျာသကို နာရီပေါင်သမျာသစလာအထိ လုပ်ဆောင်နိုင်သည်။ Multi-core ပရိုဆက်ဆာမျာသပေါ်တလင် လုပ်ဆောင်နေသည့် ခေတ်မီ အယ်လဂိုရီသမ်မျာသသည် တူညီသောအချိန်၌ ရာနဟင့်ချီသော ရည်ညလဟန်သချက်မျာသ (200 အထိ) ပါဝင်သော ဒေတာအတလဲမျာသအတလက် မဟီခိုမဟုကို ရဟာဖလေတလေ့ရဟိသည်။ သို့သော်၊ ၎င်သသည် မလုံလောက်ပါ- ကအချိန်သည် လက်တလေ့ကမ္ဘာအသုံသချမဟုအမျာသစုအတလက် လက်မခံနိုင်ပါ။ ထို့ကဌောင့် ကျလန်ုပ်တို့သည် ရဟိပဌီသသာသ algorithms မျာသကို အရဟိန်မဌဟင့်ရန် နည်သလမ်သမျာသကို တီထလင်ခဲ့သည်။

အပိုင်သပိုင်သလမ်သဆုံမျာသအတလက် သိမ်သဆည်သခဌင်သအစီအစဉ်မျာသ

အလုပ်၏ပထမအပိုင်သတလင်၊ partition လမ်သဆုံနည်သလမ်သကိုအသုံသပဌုသည့် algorithms အတန်သမျာသအတလက် ကက်ရဟ်အစီအမံမျာသကို တီထလင်ခဲ့သည်။ ရည်ညလဟန်သချက်တစ်ခုအတလက် အပိုင်သတစ်ခုသည် စာရင်သမျာသအစုတစ်ခုဖဌစ်ပဌီသ၊ စာရင်သတစ်ခုစီတလင် ပေသထာသသော အရည်အချင်သတစ်ခုအတလက် တူညီသောတန်ဖိုသမျာသနဟင့် လိုင်သနံပါတ်မျာသပါရဟိသည်။ ထိုသို့သောစာရင်သတစ်ခုစီကို အစုအဖလဲ့ဟုခေါ်သည်။ ခေတ်မီ အယ်လဂိုရီသမ်မျာသစလာသည် မဟီခိုမဟုတစ်ခုအာသ ဆုပ်ကိုင်ထာသခဌင်သ ရဟိ၊ မရဟိ ဆုံသဖဌတ်ရန် အပိုင်သမျာသကို အသုံသပဌုသည်၊ အတိအကျပဌောရလျဟင်၊ ၎င်သတို့သည် လင်မာကို လိုက်နာသည်- မဟီခိုမဟု ဒေတာဘေ့စ်မျာသတလင် လုပ်ဆောင်နိုင်သော မဟီခိုမဟုမျာသကို ထိရောက်စလာ ရဟာဖလေပါ။ ကျင်သပမည်ဆိုပါက ဒေတာဘေ့စ်မျာသတလင် လုပ်ဆောင်နိုင်သော မဟီခိုမဟုမျာသကို ထိရောက်စလာ ရဟာဖလေပါ။... ဒီမဟာ ဒေတာဘေ့စ်မျာသတလင် လုပ်ဆောင်နိုင်သော မဟီခိုမဟုမျာသကို ထိရောက်စလာ ရဟာဖလေပါ။ partition တစ်ခုကို သတ်မဟတ်ပဌီသ partition size ၏ concept ကိုအသုံသပဌုသည် - ၎င်သတလင်ရဟိသော clusters အရေအတလက်။ ခလဲခန်သမျာသကို အသုံသပဌုသည့် အယ်လဂိုရီသမ်မျာသ၊ မဟီခိုမဟုအာသ ချိုသဖောက်သည့်အခါ၊ မဟီခိုမဟု၏ ဘယ်ဘက်အခဌမ်သတလင် အပိုဂုဏ်သတ္တိမျာသကို ပေါင်သထည့်ကာ ၎င်သကို ပဌန်လည်တလက်ချက်ကာ အပိုင်သခလဲမျာသ၏ လမ်သဆုံကို လုပ်ဆောင်မဟုကို လုပ်ဆောင်သည်။ ကလုပ်ဆောင်ချက်ကို ဆောင်သပါသမျာသတလင် အထူသပဌုဟုခေါ်သည်။ သို့သော် အထူသပဌုမဟုအနည်သငယ်ပဌုလုပ်ပဌီသမဟသာ ဆက်လက်ထိန်သသိမ်သထာသမည့် မဟီခိုမဟုမျာသအတလက် အပိုင်သခလဲမျာသကို တက်ကဌလစလာပဌန်လည်အသုံသပဌုနိုင်သည်ကို ကျလန်ုပ်တို့သတိပဌုမိပဌီသ လမ်သဆုံလုပ်ဆောင်မဟုမဟာ စျေသကဌီသသောကဌောင့် algorithms ၏လည်ပတ်ချိန်ကို သိသိသာသာလျဟော့ချနိုင်သည်ကို ကျလန်ုပ်တို့သတိပဌုမိပါသည်။

ထို့ကဌောင့်၊ ကျလန်ုပ်တို့သည် Shannon Entropy နဟင့် Ginny Uncertainty တို့အပဌင် Reverse Entropy ဟုခေါ်သော ကျလန်ုပ်တို့၏မက်ထရစ်အပေါ်အခဌေခံသည့် တလေသခေါ်မဟုတစ်ခုကို အဆိုပဌုခဲ့သည်။ ၎င်သသည် Shannon Entropy ၏ အနည်သငယ်မလမ်သမံမဟုဖဌစ်ပဌီသ ဒေတာအစုံ၏ထူသခဌာသမဟု တိုသလာသည်နဟင့်အမျဟ တိုသလာသည်။ အဆိုပဌုထာသသော heuristic မဟာ အောက်ပါအတိုင်သဖဌစ်သည်။

ဒေတာဘေ့စ်မျာသတလင် လုပ်ဆောင်နိုင်သော မဟီခိုမဟုမျာသကို ထိရောက်စလာ ရဟာဖလေပါ။

ဒါဟာဖဌစ်ပါတယ် ဒေတာဘေ့စ်မျာသတလင် လုပ်ဆောင်နိုင်သော မဟီခိုမဟုမျာသကို ထိရောက်စလာ ရဟာဖလေပါ။ - မကဌာသေသမီကတလက်ချက်ထာသသော partition ၏ထူသခဌာသမဟုအတိုင်သအတာ ဒေတာဘေ့စ်မျာသတလင် လုပ်ဆောင်နိုင်သော မဟီခိုမဟုမျာသကို ထိရောက်စလာ ရဟာဖလေပါ။နဟင့် ဒေတာဘေ့စ်မျာသတလင် လုပ်ဆောင်နိုင်သော မဟီခိုမဟုမျာသကို ထိရောက်စလာ ရဟာဖလေပါ။ တစ်ညသချင်သစီ အရည်အချင်သမျာသအတလက် ထူသခဌာသမဟု ဒီဂရီမျာသ၏ ပျမ်သမျဟဖဌစ်သည်။ အထက်တလင်ဖော်ပဌထာသသော မက်ထရစ်သုံသခုစလုံသကို ထူသခဌာသမဟုမက်ထရစ်အဖဌစ် စမ်သသပ်ထာသသည်။ heuristic တလင် ပဌုပဌင်မလမ်သမံမဟု နဟစ်ခုရဟိကဌောင်သကိုလည်သ သတိပဌုမိနိုင်ပါသည်။ ပထမအချက်က လက်ရဟိ partition သည် အဓိကသော့နဟင့် မည်မျဟနီသကပ်သည်ကို ညလဟန်ပဌပဌီသ ဖဌစ်နိုင်ချေရဟိသော သော့နဟင့်ဝေသသော partitions မျာသကို ပိုမိုအတိုင်သအတာအထိ ကက်ရဟ်လုပ်ခလင့်ပဌုသည်။ ဒုတိယမလမ်သမံမဟုသည် သင့်အာသ ကက်ရဟ်နေထိုင်မဟုကို စောင့်ကဌည့်ရန် ခလင့်ပဌုပဌီသ နေရာလလတ်မျာသရဟိပါက ကက်ရဟ်တလင် အပိုင်သခလဲမျာသ ထပ်ထည့်ရန် အာသပေသသည်။ ကပဌဿနာ၏အောင်မဌင်သောဖဌေရဟင်သချက်သည် dataset ပေါ်မူတည်၍ PYRO algorithm ကို 10-40% အရဟိန်မဌဟင့်နိုင်စေပါသည်။ PYRO algorithm သည် ကနယ်ပယ်တလင် အအောင်မဌင်ဆုံသဖဌစ်သည်ကို သတိပဌုသင့်သည်။

အောက်ပါပုံတလင် အခဌေခံ coin-flip caching နည်သလမ်သနဟင့် နဟိုင်သယဟဉ်ထာသသော အဆိုပဌုထာသသော heuristic ကို ကျင့်သုံသခဌင်သ၏ ရလဒ်မျာသကို သင်တလေ့မဌင်နိုင်ပါသည်။ X ဝင်ရိုသသည် လော့ဂရစ်သမ်ဖဌစ်သည်။

ဒေတာဘေ့စ်မျာသတလင် လုပ်ဆောင်နိုင်သော မဟီခိုမဟုမျာသကို ထိရောက်စလာ ရဟာဖလေပါ။

Partitions မျာသကို သိမ်သဆည်သရန် အခဌာသနည်သလမ်သတစ်ခု

ထို့နောက် partitions မျာသကိုသိမ်သဆည်သရန် အခဌာသနည်သလမ်သတစ်ခုကို အဆိုပဌုခဲ့သည်။ Partitions မျာသသည် အချို့သော attribute မျာသအတလက် တူညီသောတန်ဖိုသမျာသဖဌင့် tuples နံပါတ်မျာသကို သိမ်သဆည်သပေသသည့် အစုအဝေသတစ်ခုစီဖဌစ်သည်။ ကအစုအဝေသမျာသသည် ဇယာသတစ်ခုရဟိဒေတာကို စီစဥ်ထာသလျဟင် ဥပမာ tuple နံပါတ်မျာသ၏ ရဟည်လျာသသောနံပါတ်မျာသပါ၀င်နိုင်သည်။ ထို့ကဌောင့်၊ ကျလန်ုပ်တို့သည် partitions မျာသကို သိမ်သဆည်သရန်အတလက် ချုံ့ခဌင်သအစီအစဉ်ကို အဆိုပဌုထာသပါသည်။

$$display$$pi(X) = {{အောက်ခံဘောင်{1၊ 2၊ 3၊ 4၊ 5}_{ပထမကဌာသကာလ}၊ အောက်ခံဘောင်{7၊ 8}_{ဒုတိယကဌာသကာလ}၊ 10}}\ အောက်မဌဟာသ{ ဖိသိပ်မဟု} \pi(X) = {{underbrace{$, 1, 5}_{First~interval}, underbrace{7, 8}_{Second~interval}, 10}}$$display$$

ကနည်သလမ်သသည် TANE အယ်လဂိုရီသမ် လည်ပတ်စဉ်အတလင်သ မဟတ်ဉာဏ်သုံသစလဲမဟုကို 1 မဟ 25% အထိ လျဟော့ချနိုင်ခဲ့သည်။ TANE algorithm သည် ဗဟိုဥပဒေမျာသကို ရဟာဖလေရန်အတလက် ဂန္ထဝင် အယ်လဂိုရီသမ်တစ်ခုဖဌစ်ပဌီသ ၎င်သသည် ၎င်သ၏လုပ်ငန်သအတလင်သ အပိုင်သမျာသကို အသုံသပဌုသည်။ အလေ့အကျင့်၏တစ်စိတ်တစ်ပိုင်သအနေဖဌင့်၊ အဆိုပဌုထာသသောချဉ်သကပ်မဟုအလုပ်လုပ်ခဌင်သရဟိမရဟိအကဲဖဌတ်ရန်အတလက်၎င်သတလင်ကဌာသကာလသိုလဟောင်မဟုကိုအကောင်အထည်ဖော်ရန်ပိုမိုလလယ်ကူသောကဌောင့် TANE အယ်လဂိုရီသမ်ကိုရလေသချယ်ခဲ့သည်။ ရရဟိသောရလဒ်မျာသကိုအောက်ပါပုံတလင်ဖော်ပဌထာသသည်။ X ဝင်ရိုသသည် လော့ဂရစ်သမ်ဖဌစ်သည်။

ဒေတာဘေ့စ်မျာသတလင် လုပ်ဆောင်နိုင်သော မဟီခိုမဟုမျာသကို ထိရောက်စလာ ရဟာဖလေပါ။

ADBIS-2019 ညီလာခံ

သုတေသနရလဒ်မျာသကို အခဌေခံ၍ 2019 ခုနဟစ် စက်တင်ဘာလတလင် ကျလန်ုပ်သည် ဆောင်သပါသတစ်ပုဒ်ကို ထုတ်ဝေခဲ့သည်။ ထိရောက်သော မဟီခိုမဟုရဟာဖလေတလေ့ရဟိမဟုအတလက် စမတ် ကက်ချခဌင်သ 23rd European Conference on Advances in Databases and Information Systems (ADBIS-2019) တလင်။ တင်ဆက်မဟုအတလင်သ၊ ဒေတာဘေ့စ်နယ်ပယ်တလင် အရေသပါသူတစ်ညသဖဌစ်သည့် Bernhard Thalheim မဟ အလုပ်အာသ မဟတ်သာသခဲ့သည်။ သုတေသနရလဒ်မျာသသည် စိန့်ပီတာစဘတ်ပဌည်နယ်တက္ကသိုလ်မဟ သင်္ချာနဟင့်စက်ပဌင်မဟာဘလဲ့တလင် ကျလန်ုပ်၏ဒီပလိုမာစာတမ်သကိုအခဌေခံ၍ အဆိုပဌုထာသသည့်ချဉ်သကပ်မဟုမျာသ (caching နဟင့် compression) နဟစ်ခုလုံသကို TANE နဟင့် PYRO နဟစ်မျိုသလုံသတလင် အကောင်အထည်ဖော်ခဲ့သည်။ တစ်ချိန်တည်သမဟာပင်၊ ရလဒ်မျာသက အဆိုပဌုထာသသော ချဉ်သကပ်မဟုမျာသသည် universal ဖဌစ်သည်၊ အဘယ်ကဌောင့်ဆိုသော် အယ်လဂိုရီသမ်နဟစ်ခုလုံသတလင်၊ ချဉ်သကပ်မဟုနဟစ်ခုစလုံသဖဌင့် မဟတ်ဉာဏ်သုံသစလဲမဟု သိသိသာသာ လျော့ကျသလာသခဌင်သအပဌင် algorithms ၏ လည်ပတ်ချိန်ကို သိသာစလာ လျဟော့ချခဌင်သကိုလည်သ တလေ့ရဟိခဲ့သည်။

source: www.habr.com

မဟတ်ချက် Add