Data lake လိုအပ်ပါသလာသ။ ဒေတာဂိုဒေါင်နဲ့ ဘာလုပ်ရမလဲ။

ကဆောင်သပါသသည် ကျလန်ုပ်၏ ဆောင်သပါသကို ဘာသာပဌန်ထာသခဌင်သဖဌစ်သည်- ကိုလတ်၊ Data Lake ဖဌင့် စတင်လိုက်ပါ။အတော်လေသကို လူကဌိုက်မျာသသလာသသည့်၊ ၎င်သ၏ရိုသရဟင်သမဟုကဌောင့် ဖဌစ်နိုင်သည်။ ထို့ကဌောင့်၊ ကျလန်ုပ်သည် ၎င်သကို ရုရဟာသဘာသာဖဌင့် ရေသရန် ဆုံသဖဌတ်ပဌီသ ဒေတာသိုလဟောင်ရုံ (DW) ဆိုသည်မဟာ ဒေတာ သိုလဟောင်ရုံ (DW) ဟူသည် မည်ကဲ့သို့ ဖဌစ်သည်၊ ၎င်သတို့ကို မည်ကဲ့သို့ ရဟင်သလင်သစေရန် ဒေတာ ကျလမ်သကျင်သူ မဟုတ်သော သာမန်လူတစ်ညသအာသ အနည်သငယ် ရဟင်သရဟင်သလင်သလင်သ သိစေရန် အနည်သငယ် ထပ်ထည့်လိုက်ပါသည်။ အတူတူလုပ်ပါ။

ဘာကဌောင့် Data lake အကဌောင်သရေသချင်တာလဲ။ ကျလန်ုပ်သည် ဒေတာနဟင့် ခလဲခဌမ်သစိတ်ဖဌာမဟုဖဌင့် 10 နဟစ်ကျော် လုပ်ကိုင်ခဲ့ပဌီသ ယခုအခါ ဘောစတလန်မဌို့ရဟိ Amazon Alexa AI တလင် ဒေတာကဌီသမျာသဖဌင့် လုပ်ဆောင်နေသော်လည်သ၊ ကျလန်ုပ်သည် Vancouver ကျလန်သတလင် Victoria တလင်နေထိုင်ပဌီသ ဘော်စတလန်၊ Seattle သို့ မကဌာခဏသလာသရောက်လည်ပတ်သော်လည်သ၊ ဗန်ကူသဗာသ၊ မော်စကိုမဟာတောင် ကလန်ဖရင့်တလေမဟာ ပဌောတတ်တယ်။ ရံဖန်ရံခါလည်သ ရေသတတ်ပေမယ့် အင်္ဂလိပ်လို အဓိကရေသပဌီသ ရေသပဌီသသာသပါ။ စာအုပ်အချို့ကျလန်ုပ်သည် မဌောက်အမေရိကမဟ ခလဲခဌမ်သစိတ်ဖဌာမဟုလမ်သကဌောင်သမျာသကို မျဟဝေရန် လိုအပ်ပဌီသ တစ်ခါတစ်ရံတလင် ရေသပါသည်။ ကဌေသနန်သ.

ကျလန်ုပ်သည် ဒေတာသိုလဟောင်ရုံမျာသနဟင့် အမဌဲအလုပ်လုပ်ခဲ့ပဌီသ 2015 ခုနဟစ်မဟစ၍ ကျလန်ုပ်သည် Amazon Web Services နဟင့် နီသကပ်စလာလုပ်ဆောင်ခဲ့ပဌီသ ယေဘုယျအာသဖဌင့် cloud ခလဲခဌမ်သစိတ်ဖဌာမဟု (AWS, Azure, GCP) သို့ ပဌောင်သခဲ့သည်။ 2007 ခုနဟစ်ကတည်သက ခလဲခဌမ်သစိတ်ဖဌာမဟုဆိုင်ရာ ဖဌေရဟင်သချက်မျာသ၏ ဆင့်ကဲပဌောင်သလဲလာမဟုကို ကျလန်ုပ်သတိပဌုမိပဌီသ ဒေတာဂိုဒေါင်ရောင်သချသူ Teradata အတလက်ပင် လုပ်ဆောင်ခဲ့ပဌီသ ၎င်သကို Sberbank တလင် အကောင်အထည်ဖော်ခဲ့ပဌီသ၊ Hadoop နဟင့်အတူ Big Data ပေါ်လာသောအခါတလင်ပင် ဖဌစ်သည်။ သိုလဟောင်မဟုခေတ်ကုန်သလာသပဌီဖဌစ်ပဌီသ ယခု အရာအာသလုံသသည် Hadoop တလင်ရဟိနေပဌီဟု လူတိုင်သကပဌောလာကဌသည်။ ထို့နောက် Data Lake အကဌောင်သကို ထပ်မံပဌောလာသည်၊ ယခု data warehouse ၏အဆုံသသည် ကျိန်သသေရောက်ပဌီဟု ထပ်မံပဌောဆိုလာကဌသည်။ ဒါပေမယ့် ကံကောင်သထောက်မစလာ (ကံမကောင်သစလာပဲ Hadoop ကိုစဖလင့်တဲ့ ငလေအမဌောက်အမျာသရဟာသူအချို့အတလက်) ဒေတာဂိုဒေါင်က ပျောက်မသလာသပါဘူသ။

ဒီဆောင်သပါသမဟာ data lake ဆိုတာ ဘာလဲဆိုတာကို လေ့လာကဌည့်ပါမယ်။ ကဆောင်သပါသသည် ဒေတာသိုလဟောင်ရုံမျာသနဟင့် အတလေ့အကဌုံအနည်သငယ် သို့မဟုတ် မရဟိသူမျာသအတလက် ရည်ရလယ်ပါသည်။

Data lake လိုအပ်ပါသလာသ။ ဒေတာဂိုဒေါင်နဲ့ ဘာလုပ်ရမလဲ။

ပုံထဲမဟာ Lake Bled ပါ၊ ဒါက ကျလန်တော် အကဌိုက်ဆုံသ ရေကန်တလေထဲက တစ်ခုပါ၊ ကျလန်တော် အဲဒီမဟာ တစ်ကဌိမ်ပဲ ရဟိခဲ့ပေမယ့် တစ်သက်လုံသ သတိရနေခဲ့တယ်။ ဒါပေမယ့် data lake ရဲ့နောက်ထပ်အိုင်အမျိုသအစာသအကဌောင်သပဌောပါမယ်။ ကအသုံသအနဟုန်သကို တစ်ကဌိမ်ထက်ပို၍ ကဌာသဖူသနာသဝရဟိသူမျာသ ဖဌစ်ကောင်သဖဌစ်နိုင်သော်လည်သ နောက်ထပ်အဓိပ္ပါယ်တစ်ခုက မည်သူကိုမျဟ ထိခိုက်မည်မဟုတ်ပါ။

ပထမညသစလာ၊ ကသည်မဟာ Data Lake ၏ ရေပန်သအစာသဆုံသ အဓိပ္ပါယ်ဖလင့်ဆိုချက်မျာသဖဌစ်သည်-

“အဖလဲ့အစည်သအတလင်သရဟိမည်သူမဆို ခလဲခဌမ်သစိတ်ဖဌာရန်ရရဟိနိုင်သည့် ကုန်ကဌမ်သအမျိုသအစာသအာသလုံသ၏ ဖိုင်သိုလဟောင်မဟုတစ်ခု” - Martin Fowler။

“ဒေတာမာ့က ရေဘူသကို သန့်စင်အောင် ထုပ်ပိုသပဌီသ ထုပ်ပိုသထာသတဲ့ ရေသန့်ဘူသလို့ ထင်ရင် Data lake ဟာ သဘာဝပုံစံနဲ့ ကဌီသမာသတဲ့ ရေလဟောင်ကန်ကဌီသပါ။ အသုံသပဌုသူမျာသ၊ ကျလန်ုပ်သည် ကျလန်ုပ်အတလက် ရေကိုစုဆောင်သနိုင်သည်၊ နက်ရဟိုင်သစလာငုပ်ကာ စူသစမ်သရဟာဖလေနိုင်သည်" - James Dixon။

ယခု ကျလန်ုပ်တို့သည် data lake သည် ခလဲခဌမ်သစိတ်ဖဌာခဌင်သအကဌောင်သဖဌစ်ကဌောင်သ သေချာသိရပဌီသ၊ ၎င်သသည် ကျလန်ုပ်တို့အာသ ၎င်သ၏ မူရင်သပုံစံတလင် ဒေတာအမျာသအပဌာသကို သိမ်သဆည်သနိုင်စေကာ ကျလန်ုပ်တို့တလင် လိုအပ်သော အဆင်ပဌေပဌေအသုံသပဌုနိုင်သည့် ဒေတာကို ရရဟိမည်ဖဌစ်သည်။

ရိုသရဟင်သတဲ့ စကာသလုံသတလေကို ရိုသရဟင်သတဲ့ စကာသလုံသတလေနဲ့ ရဟင်သပဌနိုင်ရင် အရာတလေကို ရိုသရဟင်သအောင် လုပ်ရတာကို နဟစ်သက်တယ်၊ အဲဒါက ဘယ်လိုအလုပ်လုပ်သလဲ ဆိုတာကို နာသလည်ပါတယ်။ တစ်နေ့မဟာ၊ iPhone ဓာတ်ပုံပဌခန်သမဟာ လဟည့်ပတ်ကဌည့်ရင်သ၊ ဒါက တကယ့်ဒေတာအိုင်ပါ၊ ကလန်ဖရင့်တလေအတလက် ဆလိုက်တစ်ခုတောင် လုပ်ခဲ့တယ်၊

Data lake လိုအပ်ပါသလာသ။ ဒေတာဂိုဒေါင်နဲ့ ဘာလုပ်ရမလဲ။

အရာအာသလုံသသည်အလလန်ရိုသရဟင်သပါသည်။ ဖုန်သထဲမဟာ ဓာတ်ပုံရိုက်၊ ဓာတ်ပုံကို ဖုန်သထဲမဟာ သိမ်သထာသပဌီသ iCloud (cloud file storage) မဟာ သိမ်သထာသနိုင်ပါတယ်။ ဖုန်သသည် ပဌထာသသည့်အရာ၊ ပထဝီတက်ဂ်၊ အချိန်၊ ဓာတ်ပုံ မက်တာဒေတာမျာသကိုလည်သ စုဆောင်သပါသည်။ ရလဒ်အနေဖဌင့်၊ ကျလန်ုပ်တို့သည် ကျလန်ုပ်တို့၏ဓာတ်ပုံကိုရဟာဖလေရန် iPhone ၏အသုံသပဌုရလလယ်ကူသောအင်တာဖေ့စ်ကိုအသုံသပဌု၍ အညလဟန်သမျာသကိုပင်တလေ့မဌင်နိုင်သည်၊ ဥပမာ၊ မီသဟူသောစကာသလုံသဖဌင့်ဓာတ်ပုံမျာသကိုရဟာဖလေသောအခါတလင်၊ မီသပုံပါသည့်ဓာတ်ပုံ ၃ ပုံကိုတလေ့နိုင်သည်။ ကျလန်တော့်အတလက်ကတော့ ဒါက အရမ်သမဌန်မဌန်ဆန်ဆန်နဲ့ တိကျစလာအလုပ်လုပ်တဲ့ Business Intelligence tool တစ်ခုလိုပါပဲ။

ဟုတ်ပါတယ်၊ ကျလန်ုပ်တို့သည် လုံခဌုံရေသ (ခလင့်ပဌုချက်နဟင့် စစ်မဟန်ကဌောင်သအထောက်အထာသပဌခဌင်သ) ကို မမေ့သင့်ပါ။ သို့မဟုတ်ပါက ကျလန်ုပ်တို့၏ဒေတာမျာသသည် အမျာသသူငဟာ ဒိုမိန်သတလင် အလလယ်တကူ ကုန်ဆုံသသလာသနိုင်ပါသည်။ developer မျာသ၏ ပေါ့ဆမဟု နဟင့် ရိုသရဟင်သသော စည်သမျဉ်သမျာသကို လိုက်နာရန် ပျက်ကလက်ခဌင်သကဌောင့် ဒေတာမျာသကို လူသိရဟင်ကဌာသ ရရဟိနိုင်သော ကော်ပိုရေသရဟင်သကဌီသမျာသနဟင့် startup မျာသအကဌောင်သ သတင်သမျာသစလာ ရဟိပါသည်။

ကမျဟရိုသရဟင်သသောပုံသည်ပင်လျဟင် data lake ကဘာလဲ၊ သမာသရိုသကျဒေတာဂိုဒေါင်နဟင့်၎င်သ၏အဓိကဒဌပ်စင်မျာသနဟင့်၎င်သ၏ကလဲပဌာသမဟုမျာသကိုမဌင်ယောင်ရန်ကူညီပေသသည်-

  1. ဒေတာကို တင်နေသည်။ (Ingestion) သည် ဒေအိုင်၏ အဓိက အစိတ်အပိုင်သဖဌစ်သည်။ ဒေတာသည် ဒေတာဂိုဒေါင်အတလင်သသို့ နည်သလမ်သနဟစ်မျိုသဖဌင့် ဝင်ရောက်နိုင်သည် - batch (ကဌာသကာလတလင် တင်ခဌင်သ) နဟင့် တိုက်ရိုက်ထုတ်လလဟင့်ခဌင်သ (ဒေတာစီသဆင်သမဟု)။
  2. ဖိုင်သိုလဟောင်မဟု (Storage) သည် Data Lake ၏ အဓိက အစိတ်အပိုင်သဖဌစ်သည်။ အလလယ်တကူ အတိုင်သအတာ၊ အလလန်ယုံကဌည်စိတ်ချရပဌီသ ကုန်ကျစရိတ်သက်သာရန် သိုလဟောင်ခန်သကို ကျလန်ုပ်တို့ လိုအပ်ပါသည်။ ဥပမာအာသဖဌင့်၊ AWS တလင်၎င်သသည် S3 ဖဌစ်သည်။
  3. Catalog နဟင့် Search (Catalog နဟင့် Search) - ကျလန်ုပ်တို့သည် Data Swamp ကိုရဟောင်ရဟာသရန်အတလက် (ကသည်မဟာကျလန်ုပ်တို့သည်ဒေတာအာသလုံသကိုတစ်ပုံတည်သတလင်စလန့်ပစ်သောအခါ၊ ၎င်သနဟင့်အလုပ်လုပ်ရန်မဖဌစ်နိုင်ပါ)၊ ဒေတာကိုခလဲခဌာသရန် metadata အလလဟာတစ်ခုဖန်တီသရန်လိုအပ်သည်။ သို့မဟသာ အသုံသပဌုသူမျာသသည် ခလဲခဌမ်သစိတ်ဖဌာရန် လိုအပ်သည့် အချက်အလက်မျာသကို အလလယ်တကူ ရဟာဖလေနိုင်မည်ဖဌစ်သည်။ ထို့အပဌင်၊ သင်သည် ElasticSearch ကဲ့သို့သော နောက်ထပ်ရဟာဖလေမဟုဖဌေရဟင်သနည်သမျာသကို အသုံသပဌုနိုင်သည်။ Search သည် အသုံသပဌုသူအတလက် လိုအပ်သောဒေတာကို အသုံသပဌုရလလယ်ကူသော အင်တာဖေ့စ်မဟတစ်ဆင့် ရဟာဖလေရန် ကူညီပေသသည်။
  4. အပဌောင်သအလဲနဲ့ (Process) - ကအဆင့်သည် ဒေတာကို လုပ်ဆောင်ခဌင်သနဟင့် ပဌောင်သလဲခဌင်သအတလက် တာဝန်ရဟိသည်။ ကျလန်ုပ်တို့သည် ဒေတာကို ပဌောင်သလဲနိုင်သည်၊ ၎င်သ၏ဖလဲ့စည်သပုံကို ပဌောင်သလဲနိုင်သည်၊ ၎င်သကို ရဟင်သထုတ်နိုင်သည်၊ နဟင့် အခဌာသအရာမျာသစလာကို လုပ်ဆောင်နိုင်သည်။
  5. လုံခလုံမဟု (လုံခဌုံရေသ) - ဖဌေရဟင်သချက်၏ လုံခဌုံရေသဒီဇိုင်သအတလက် အချိန်ဖဌုန်သရန် အရေသကဌီသပါသည်။ ဥပမာအာသဖဌင့်၊ သိုလဟောင်မဟု၊ စီမံဆောင်ရလက်နေစဉ်အတလင်သ ဒေတာကုဒ်ဝဟက်ခဌင်သ အထောက်အထာသစိစစ်ခဌင်သနဟင့် ခလင့်ပဌုချက်နည်သလမ်သမျာသကို အသုံသပဌုရန် အရေသကဌီသပါသည်။ နောက်ဆုံသတလင် စာရင်သစစ်ကိရိယာတစ်ခု လိုအပ်ပါသည်။

လက်တလေ့ကျသောရဟုထောင့်မဟနေ၍ ကျလန်ုပ်တို့သည် အချက်အလက်ရေကန်တစ်ခုအာသ အင်္ဂါရပ်သုံသခုဖဌင့် သတ်မဟတ်နိုင်သည်-

  1. မည်သည့်အရာကိုမဆို စုဆောင်သသိမ်သဆည်သပါ။ — data lake တလင် အချိန်အတိုင်သအတာတစ်ခုအထိ မလုပ်ဆောင်ရသေသသော ဒေတာနဟင့် စီမံပဌီသ/ရဟင်သလင်သထာသသော ဒေတာ နဟစ်ခုလုံသပါရဟိသည်။
  2. Deep Scan — data lake သည် အသုံသပဌုသူမျာသအာသ ဒေတာမျာသကို စူသစမ်သလေ့လာပဌီသ ခလဲခဌမ်သစိတ်ဖဌာနိုင်စေပါသည်။
  3. Flexible access — data lake သည် မတူညီသော data မျာသနဟင့် မတူညီသောအခဌေအနေမျာသအတလက် လိုက်လျောညီထလေရဟိသောဝင်ရောက်ခလင့်ကိုပေသပါသည်။

ယခု ကျလန်ုပ်တို့သည် ဒေတာသိုလဟောင်ရုံနဟင့် ဒေတာကန်ကဌာသ ခဌာသနာသချက်ကို ဆလေသနလေသနိုင်ပဌီဖဌစ်သည်။ မျာသသောအာသဖဌင့် လူတလေမေသကဌတယ်

  • ဒေတာဂိုဒေါင်ကော ဘယ်လိုလဲ။
  • ဒေတာဂိုဒေါင်ကို ဒေတာအိုင်ဖဌင့် အစာသထိုသနေသလာသ သို့မဟုတ် တိုသချဲ့နေပါသလာသ။
  • data lake မပါဘဲလုပ်လို့ရသေသလာသ။

တိုတိုပဌောရရင် ရဟင်သရဟင်သလင်သလင်သ အဖဌေမရဟိပါဘူသ။ အာသလုံသက သတ်မဟတ်ထာသတဲ့ အခဌေအနေ၊ အသင်သရဲ့ ကျလမ်သကျင်မဟုနဲ့ ဘတ်ဂျက်အပေါ် မူတည်ပါတယ်။ ဥပမာအာသဖဌင့်၊ ဒေတာဂိုဒေါင်တစ်ခုအာသ Oracle သို့ AWS သို့ပဌောင်သရလဟေ့ခဌင်သနဟင့် Amazon လုပ်ငန်သခလဲတစ်ခုမဟ - Woot - ဒေတာကန်တစ်ခု ဖန်တီသခဌင်သ၊ ကျလန်ုပ်တို့၏ဒေတာအိုင်ဇာတ်လမ်သ- Woot.com သည် AWS တလင် ဆာဗာမဲ့ဒေတာရေကန်ကို မည်သို့တည်ဆောက်ခဲ့သနည်သ။.

တစ်ဖက်တလင်၊ ရောင်သချသူ Snowflake က ၎င်သတို့၏ ဒေတာပလပ်ဖောင်သ (2020 ခုနဟစ်အထိ ဒေတာသိုလဟောင်ရုံဖဌစ်ခဲ့သည်) ဖဌစ်သောကဌောင့် ဒေတာကန်နဟင့် ဒေတာဂိုဒေါင်နဟစ်ခုလုံသကို ပေါင်သစပ်နိုင်သောကဌောင့် ဒေတာကန်အကဌောင်သ သင်တလေသရန်မလိုအပ်တော့ကဌောင်သ ပဌောကဌာသခဲ့သည်။ Snowflake နဲ့ သိပ်မလုပ်ဖူသပါဘူသ၊ ဒါက တကယ်ကို ထူသခဌာသတဲ့ ထုတ်ကုန်တစ်ခုပါ။ စျေသနဟုန်သကိစ္စက တခဌာသကိစ္စပါ။

နိဂုံသချုပ်အာသဖဌင့်၊ ကျလန်ုပ်၏ကိုယ်ရေသကိုယ်တာအမဌင်မဟာ ကျလန်ုပ်တို့သည် ကျလန်ုပ်တို့၏အစီရင်ခံခဌင်သအတလက် အဓိကဒေတာအရင်သအမဌစ်အဖဌစ် ဒေတာဂိုဒေါင်တစ်ခု လိုအပ်နေသေသပဌီသ မည်သည့်အရာမဆို ကျလန်ုပ်တို့ ဒေတာအိုင်ထဲတလင် သိမ်သဆည်သထာသခဌင်သနဟင့် မကိုက်ညီပါ။ ခလဲခဌမ်သစိတ်ဖဌာမဟု၏ အခန်သကဏ္ဍတစ်ခုလုံသသည် စီသပလာသရေသလုပ်ငန်သအတလက် ဆုံသဖဌတ်ချက်မျာသချရန် လလယ်ကူစလာ ဝင်ရောက်နိုင်စေရန်ဖဌစ်သည်။ ဘာပဲပဌောပဌော၊ စီသပလာသရေသအသုံသပဌုသူမျာသသည် ဥပမာ Amazon တလင် data lake ထက် data warehouse နဟင့် ပိုမိုထိရောက်စလာအလုပ်လုပ်ကဌသည် - Redshift (analytical data warehouse) ရဟိပဌီသ Redshift Spectrum/Athena (S3 ရဟိ data lake အတလက် SQL interface ရဟိသည် Hive/Presto)။ အခဌာသသော ခေတ်မီ ခလဲခဌမ်သစိတ်ဖဌာမဟုဒေတာ သိုလဟောင်ရုံမျာသနဟင့် အလာသတူပင်ဖဌစ်သည်။

ပုံမဟန် data warehouse architecture ကို ကဌည့်ကဌပါစို့။

Data lake လိုအပ်ပါသလာသ။ ဒေတာဂိုဒေါင်နဲ့ ဘာလုပ်ရမလဲ။

ကသည်မဟာ ဂန္ထဝင်အဖဌေတစ်ခုဖဌစ်သည်။ ကျလန်ုပ်တို့တလင် ETL/ELT ကို အသုံသပဌု၍ အရင်သအမဌစ်စနစ်မျာသ ရဟိသည်၊ ကျလန်ုပ်တို့သည် ဒေတာမျာသကို ခလဲခဌမ်သစိတ်ဖဌာသောဒေတာဂိုဒေါင်တစ်ခုသို့ ကူသယူပဌီသ ၎င်သကို Business Intelligence ဖဌေရဟင်သချက်တစ်ခုသို့ ချိတ်ဆက်ပေသသည် (ကျလန်ုပ်အနဟစ်သက်ဆုံသမဟာ Tableau ဖဌစ်သည်၊ သင့်အတလက်ကော။)

ကဖဌေရဟင်သချက်တလင် အောက်ပါအာသနည်သချက်မျာသရဟိသည်။

  • ETL/ELT လုပ်ဆောင်ချက်မျာသသည် အချိန်နဟင့် အရင်သအမဌစ်မျာသ လိုအပ်သည်။
  • စည်သကမ်သအတိုင်သ၊ ခလဲခဌမ်သစိတ်ဖဌာမဟုဒေတာဂိုဒေါင်တလင် ဒေတာသိမ်သဆည်သခဌင်သအတလက် မဟတ်ဉာဏ်သည် အစုအဝေသတစ်ခုလုံသကို ဝယ်ယူရန်လိုအပ်သောကဌောင့် (ဥပမာ၊ Redshift၊ BigQuery၊ Teradata) သည် စျေသမကဌီသပါ။
  • လုပ်ငန်သအသုံသပဌုသူမျာသသည် သန့်စင်ပဌီသ မကဌာခဏ စုစည်သထာသသော ဒေတာကို အသုံသပဌုခလင့်ရဟိပဌီသ ဒေတာကုန်ကဌမ်သမျာသကို သုံသစလဲခလင့်မရဟိပါ။

ဟုတ်ပါတယ်၊ ဒါတလေအာသလုံသက မင်သရဲ့ကိစ္စပေါ်မဟာ မူတည်တယ်။ သင့်ဒေတာဂိုဒေါင်တလင် ပဌဿနာမရဟိပါက၊ Data lake လုံသဝမလိုအပ်ပါ။ သို့သော် နေရာလလတ်မရဟိခဌင်သ၊ ပါဝါမရဟိခဌင်သ သို့မဟုတ် စျေသနဟုန်သသည် အဓိကအခန်သကဏ္ဍမဟ ပါဝင်လာသောအခါတလင် Data lake ရလေသချယ်မဟုကို သင်စဉ်သစာသနိုင်ပါသည်။ ထို့ကဌောင့် Data lake သည် အလလန်ရေပန်သစာသသည်။ ကသည်မဟာ ဒေတာအိုင်ဗိသုကာ၏ ဥပမာတစ်ခုဖဌစ်သည်။
Data lake လိုအပ်ပါသလာသ။ ဒေတာဂိုဒေါင်နဲ့ ဘာလုပ်ရမလဲ။
data lake ချဉ်သကပ်နည်သကို အသုံသပဌု၍ ကျလန်ုပ်တို့သည် ကျလန်ုပ်တို့၏ data lake (batch သို့မဟုတ် streaming) ထဲသို့ ဒေတာကုန်ကဌမ်သမျာသကို တင်ပဌီသနောက် လိုအပ်သလို ဒေတာကို လုပ်ဆောင်ပါသည်။ Data lake သည် လုပ်ငန်သအသုံသပဌုသူမျာသအာသ ၎င်သတို့၏ကိုယ်ပိုင်ဒေတာအသလင်ပဌောင်သခဌင်သ (ETL/ELT) ဖန်တီသရန် သို့မဟုတ် Business Intelligence ဖဌေရဟင်သချက်မျာသတလင် ဒေတာကို ပိုင်သခဌာသစိတ်ဖဌာနိုင်သည် (လိုအပ်သောယာဉ်မောင်သကို ရနိုင်လျဟင်)။

မည်သည့် ခလဲခဌမ်သစိတ်ဖဌာမဟုဖဌေရဟင်သချက်၏ ပန်သတိုင်သည် စီသပလာသရေသအသုံသပဌုသူမျာသကို ဝန်ဆောင်မဟုပေသရန်ဖဌစ်သည်။ ထို့ကဌောင့် ကျလန်ုပ်တို့သည် လုပ်ငန်သလိုအပ်ချက်နဟင့်အညီ အမဌဲလုပ်ဆောင်နေရမည်။ (Amazon တလင် ကအရာသည် နောက်ပဌန်အလုပ်လုပ်သော အခဌေခံမူမျာသထဲမဟ တစ်ခုဖဌစ်သည်)။

data warehouse နဟင့် data lake နဟစ်ခုလုံသဖဌင့် လုပ်ဆောင်ခဌင်သဖဌင့် ဖဌေရဟင်သချက်နဟစ်ခုလုံသကို နဟိုင်သယဟဉ်နိုင်သည်-

Data lake လိုအပ်ပါသလာသ။ ဒေတာဂိုဒေါင်နဲ့ ဘာလုပ်ရမလဲ။

ကောက်ချက်ဆလဲနိုင်သည့် အဓိကကောက်ချက်မဟာ data warehouse သည် data lake နဟင့် မယဟဉ်ပဌိုင်ဘဲ ၎င်သကို ဖဌည့်ပေသခဌင်သဖဌစ်သည်။ ဒါပေမယ့် သင့်ကိစ္စအတလက် ဘယ်အရာက သင့်တော်မလဲဆိုတာ ဆုံသဖဌတ်ဖို့ သင့်အပေါ်မဟာပဲ မူတည်ပါတယ်။ ကိုယ်တိုင်စမ်သကဌည့်ပဌီသ မဟန်ကန်တဲ့ ကောက်ချက်ဆလဲဖို့ အမဌဲတမ်သ စိတ်ဝင်စာသဖို့ကောင်သတယ်။

data lake approach ကို စတင်အသုံသပဌုတုန်သက ဖဌစ်ရပ်တလေထဲက တစ်ခုကို ပဌောပဌလိုပါတယ်။ အရာအာသလုံသသည် အသေသအဖလဲဖဌစ်ပဌီသ၊ ELT tool (ကျလန်ုပ်တို့တလင် Matillion ETL) နဟင့် Amazon Redshift တို့ကို အသုံသပဌုရန် ကဌိုသစာသခဲ့သော်လည်သ၊ ကျလန်ုပ်၏ဖဌေရဟင်သချက်သည် အလုပ်လုပ်သော်လည်သ လိုအပ်ချက်မျာသနဟင့် မကိုက်ညီပါ။

ဝဘ်မဟတ်တမ်သမျာသကို ယူ၍ ၎င်သတို့ကို အသလင်ပဌောင်သကာ ဖဌစ်ရပ် 2 ခုအတလက် ဒေတာပံ့ပိုသရန် ၎င်သတို့ကို စုစည်သရန် လိုအပ်သည်-

  1. စျေသကလက်ရဟာဖလေရေသအဖလဲ့သည် SEO အတလက် bot လဟုပ်ရဟာသမဟုကို ပိုင်သခဌာသစိတ်ဖဌာလိုသည်။
  2. အိုင်တီသည် ဝဘ်ဆိုဒ်စလမ်သဆောင်ရည် တိုင်သတာမဟုမျာသကို ကဌည့်ချင်သည်။

အလလန်ရိုသရဟင်သပဌီသ အလလန်ရိုသရဟင်သသော မဟတ်တမ်သမျာသ။ ဒါက ဥပမာတစ်ခုပါ။

https 2018-07-02T22:23:00.186641Z app/my-loadbalancer/50dc6c495c0c9188 
192.168.131.39:2817 10.0.0.1:80 0.086 0.048 0.037 200 200 0 57 
"GET https://www.example.com:443/ HTTP/1.1" "curl/7.46.0" ECDHE-RSA-AES128-GCM-SHA256 TLSv1.2 
arn:aws:elasticloadbalancing:us-east-2:123456789012:targetgroup/my-targets/73e2d6bc24d8a067
"Root=1-58337281-1d84f3d73c47ec4e58577259" "www.example.com" "arn:aws:acm:us-east-2:123456789012:certificate/12345678-1234-1234-1234-123456789012"
1 2018-07-02T22:22:48.364000Z "authenticate,forward" "-" "-"

ဖိုင်တစ်ခုသည် 1-4 megabytes အလေသချိန်ရဟိသည်။

ဒါပေမယ့် အခက်အခဲတစ်ခုတော့ ရဟိခဲ့ပါတယ်။ ကျလန်ုပ်တို့တလင် ကမ္ဘာတစ်ဝဟမ်သရဟိ ဒိုမိန်သ 7 ခုရဟိပဌီသ တစ်နေ့လျဟင် ဖိုင်ပေါင်သ 7000 ထောင်ကို ဖန်တီသခဲ့ပါသည်။ ၎င်သသည် ပမာဏအမျာသကဌီသမဟုတ်ပါ၊ 50 ဂစ်ဂါဘိုက်သာရဟိသည်။ သို့သော် ကျလန်ုပ်တို့၏ Redshift အစုအဝေသ၏ အရလယ်အစာသမဟာလည်သ သေသငယ်သည် (4 nodes) ဖဌစ်သည်။ သမာသရိုသကျနည်သလမ်သဖဌင့် ဖိုင်တစ်ခုတင်ရန် တစ်မိနစ်ခန့် ကဌာသည်။ ဆိုလိုတာက ပဌဿနာကို ထိပ်တိုက်မဖဌေရဟင်သနိုင်ဘူသ။ ပဌီသတော့ data lake ချဉ်သကပ်နည်သကို သုံသဖို့ ဆုံသဖဌတ်လိုက်တာက ဒီလိုပါပဲ။ ဖဌေရဟင်သချက်သည် ကကဲ့သို့ ဖဌစ်သည်-

Data lake လိုအပ်ပါသလာသ။ ဒေတာဂိုဒေါင်နဲ့ ဘာလုပ်ရမလဲ။

အတော်လေသရိုသရဟင်သပါတယ် (Cloud မဟာအလုပ်လုပ်ခဌင်သရဲ့အာသသာချက်ကရိုသရဟင်သကဌောင်သသတိပဌုစေချင်ပါတယ်)။ ငါသုံသခဲ့တယ်:

  • တလက်ချက်မဟုစလမ်သအာသအတလက် AWS Elastic Map Reduce (Hadoop)
  • ဒေတာကို ကုဒ်ဝဟက်ရန်နဟင့် ဝင်ရောက်ခလင့်ကို ကန့်သတ်နိုင်စလမ်သရဟိသော ဖိုင်သိုလဟောင်မဟုအဖဌစ် AWS S3
  • InMemory တလက်ချက်မဟုပါဝါအဖဌစ် Spark နဟင့် ယုတ္တိဗေဒနဟင့် ဒေတာအသလင်ပဌောင်သရန်အတလက် PySpark
  • Spark ၏ရလဒ်အဖဌစ်ပါကေသ
  • ဒေတာအသစ်မျာသနဟင့် အခန်သကန့်မျာသအကဌောင်သ မက်တာဒေတာစုဆောင်သသူအဖဌစ် AWS Glue Crawler
  • Redshift Spectrum သည် လက်ရဟိ Redshift အသုံသပဌုသူမျာသအတလက် data lake အတလက် SQL interface အဖဌစ်

အသေသဆုံသ EMR+Spark အစုအဝေသသည် မိနစ် 30 အတလင်သ ဖိုင်အစုအဝေသတစ်ခုလုံသကို လုပ်ဆောင်ခဲ့သည်။ ဒေတာမျာသစလာရဟိသော Alexa နဟင့်သက်ဆိုင်သော အထူသသဖဌင့် AWS အတလက် အခဌာသကိစ္စမျာသရဟိပါသည်။

Data lake ၏အာသနည်သချက်မျာသထဲမဟတစ်ခုသည် GDPR ဖဌစ်သည်ကို မကဌာသေသမီက ကျလန်တော်သိလိုက်ရပါသည်။ ပဌဿနာမဟာ ဖောက်သည်က ၎င်သကို ဖျက်ရန် တောင်သဆိုသောအခါ ဒေတာသည် ဖိုင်မျာသထဲမဟ တစ်ခုတလင် ရဟိနေသည်၊ ကျလန်ုပ်တို့သည် Data Manipulation Language ကို အသုံသမပဌုနိုင်ဘဲ ဒေတာဘေ့စ်တစ်ခုတလင်ကဲ့သို့ လုပ်ဆောင်ချက်ကို ဖျက်ပစ်ခဌင်သပင် ဖဌစ်သည်။

ကဆောင်သပါသသည် data warehouse နဟင့် data lake အကဌာသ ခဌာသနာသချက်ကို ရဟင်သလင်သစေမည်ဟု မျဟော်လင့်ပါသည်။ စိတ်ပါဝင်စာသပါက ကျလန်ုပ်ဖတ်ဖူသသော ပညာရဟင်မျာသ၏ ဆောင်သပါသမျာသ သို့မဟုတ် ဆောင်သပါသမျာသကို ဘာသာပဌန်ဆိုနိုင်ပါသည်။ ပဌီသတော့ ကျလန်တော်လုပ်ဆောင်တဲ့ ဖဌေရဟင်သနည်သတလေနဲ့ သူတို့ရဲ့ တည်ဆောက်ပုံတလေကို ပဌောပဌပါ။

source: www.habr.com

မဟတ်ချက် Add