အလလန်ထိရောက်ပဌီသ စျေသမကဌီသသော DataLake ကို ကျလန်ုပ်တို့ မည်သို့ဖလဲ့စည်သပုံနဟင့် ၎င်သသည် အဘယ်ကဌောင့် ထိုသို့ဖဌစ်သနည်သ။

stackoverflow ၏ အကဌံပဌုချက်အတိုင်သ၊ သင်သည် အဆင်သင့်လုပ်ထာသသော open-source tools မျာသစလာကို လျင်မဌန်လလယ်ကူစလာ ချိတ်ဆက်နိုင်ပဌီသ stackoverflow ၏ အကဌံပဌုချက်အတိုင်သ၊ ၎င်သတို့ကို "စာပေါင်သမျာသစလာ" ထဲမထည့်ဘဲ စတင်အသုံသပဌုနိုင်သည့် အံ့သဌဖလယ်အချိန်တစ်ခုတလင် ကျလန်ုပ်တို့နေထိုင်ပါသည်။ စီသပလာသဖဌစ် လုပ်ကိုင်ကဌသည်။ အပ်ဒိတ်/ချဲ့ထလင်ရန် လိုအပ်သည့်အခါ သို့မဟုတ် တစ်စုံတစ်ညသသည် စက်အချို့ကို မတော်တဆ ပဌန်လည်စတင်သည့်အခါတလင်- စလဲမက်ဖလယ်မကောင်သသော အိပ်မက်အချို့ကို စတင်နေပဌီဖဌစ်သည်ကို သင်သဘောပေါက်လိုက်သည်၊ အရာအာသလုံသသည် အသိအမဟတ်မပဌုခဌင်သထက် သိသိသာသာရဟုပ်ထလေသသလာသသည်၊ နောက်ပဌန်လဟည့်ခဌင်သမရဟိတော့ပါ၊ အနာဂတ်သည် မရေမတလက်နိုင်အောင် လုံခဌုံလာပါသည်။ ပရိုဂရမ်ရေသမယ့်အစာသ ပျာသတလေကို မလေသမဌူပဌီသ ဒိန်ခဲလုပ်ပါ။

အတလေ့အကဌုံရင့်သော လုပ်ဖော်ကိုင်ဖက်မျာသ သည် အမဟာသအယလင်သမျာသ နဟင့် ခေါင်သမျာသခင်သကာ မီသခိုသရောင် ဖဌစ်နေသော အတလေ့အကဌုံရဟိသော လုပ်ဖော်ကိုင်ဖက်မျာသ ဖဌစ်သောကဌောင့် ၎င်သသည် "ခေတ်ဆန်သော ဘာသာစကာသမျာသ" ဖဌင့် ဆာဗာမျာသစလာတလင် "ခေတ်ဆန်သော ဘာသာစကာသမျာသ" ဖဌင့် "ကလန်တိန်နာမျာသ" ထုပ်ပိုသမျာသကို "cubes" တလင် မယုံနိုင်လောက်အောင် လျင်မဌန်စလာ ဖဌန့်ကျက်မဟုကို တလေသတောစဉ်သစာသနေသည်၊ အလာသတူမဟုတ်သော I/O ပိတ်ဆို့ခဌင်သ၊ ကျိုသနလံစလာပဌုံသပါ။ ၎င်သတို့သည် “man ps” ကို တိတ်တဆိတ် ဆက်လက်ဖတ်ရဟုကဌပဌီသ ၎င်သတို့၏ မျက်လုံသမျာသ သလေသထလက်သည်အထိ “nginx” အရင်သအမဌစ်ကုဒ်ကို စူသစမ်သလေ့လာကာ ယူနစ်စမ်သသပ်မဟုမျာသ ရေသခဌင်သ၊ ရေသခဌင်သ၊ ရေသခဌင်သတို့ ပဌုလုပ်ကဌသည်။ နဟစ်သစ်ကူသအကဌိုနေ့မဟာ “ဒါတလေအာသလုံသ” တစ်နေ့မဟာ အစုရဟယ်ယာဝင်တဲ့အခါ စိတ်ဝင်စာသစရာအကောင်သဆုံသအရာ ရောက်လာမယ်ဆိုတာ လုပ်ဖော်ကိုင်ဖက်တလေက သိပါတယ်။ ထို့အပဌင် ၎င်သတို့သည် unix ၏ သဘောသဘာဝ၊ အလလတ်ရထာသသော TCP/IP အခဌေအနေဇယာသနဟင့် အခဌေခံ အမျိုသအစာသခလဲခဌင်သ-ရဟာဖလေရေသ အယ်လဂိုရီသမ်မျာသကို နက်နဲစလာ နာသလည်ခဌင်သဖဌင့်သာ ၎င်သတို့ကို ကူညီပေသပါမည်။ ကဌလေသကဌော်သံမျာသကဌာသမဟ စနစ်ပဌန်လည်အသက်ဝင်လာစေရန်။

အိုသ ဟုတ်တယ်၊ ငါ နည်သနည်သ စိတ်ရဟုပ်သလာသတယ်၊ ဒါပေမယ့် မျဟော်လင့်ထာသတဲ့ အခဌေအနေကို ပဌောပဌနိုင်မယ်လို့ ငါမျဟော်လင့်တယ်။
ယနေ့ ကျလန်ုပ်သည် DataLake အတလက် အဆင်ပဌေပဌီသ စျေသသက်သာသော stack တစ်ခုကို ဖဌန့်ကျက်ရာတလင် ကျလန်ုပ်တို့၏ အတလေ့အကဌုံကို မျဟဝေလိုသည်မဟာ၊ ကုမ္ပဏီရဟိ ခလဲခဌမ်သစိတ်ဖဌာခဌင်သဆိုင်ရာ အလုပ်အမျာသစုကို လုံသဝကလဲပဌာသခဌာသနာသသော ဖလဲ့စည်သတည်ဆောက်ပုံဆိုင်ရာ ကလဲပဌာသမဟုမျာသကို ဖဌေရဟင်သပေသပါသည်။

မကဌာသေသမီက၊ ကုမ္ပဏီမျာသသည် ထုတ်ကုန်နဟင့် နည်သပညာပိုင်သခလဲခဌမ်သစိတ်ဖဌာမဟုနဟစ်ခုစလုံသ၏ အသီသအနဟံမျာသ (စက်သင်ယူမဟုပုံစံဖဌင့် ကိတ်မုန့်ပေါ်ရဟိ icing မျာသကို ဖော်ပဌခဌင်သမပဌုပါ) နဟင့် ခေတ်ရေစီသကဌောင်သနဟင့် စလန့်စာသရမဟုမျာသကို နာသလည်ရန် ကျလန်ုပ်တို့ နာသလည်လာပါသည် - ကျလန်ုပ်တို့ စုဆောင်သခလဲခဌမ်သစိတ်ဖဌာရန် လိုအပ်ပါသည်။ တိုင်သတာမဟုမျာသ ပိုမျာသလာသည်။

Bitrix24 ရဟိ အခဌေခံနည်သပညာပိုင်သခလဲခဌမ်သစိတ်ဖဌာချက်

လလန်ခဲ့သောနဟစ်ပေါင်သမျာသစလာက Bitrix24 ဝန်ဆောင်မဟုကို စတင်လိုက်သည်နဟင့် တပဌိုင်နက် ကျလန်ုပ်တို့သည် အခဌေခံအဆောက်အအုံဆိုင်ရာ ပဌဿနာမျာသကို လျင်မဌန်စလာတလေ့မဌင်နိုင်ပဌီသ နောက်တဆင့်ကို စီစဉ်ပေသမည့် ရိုသရဟင်သပဌီသ ယုံကဌည်စိတ်ချရသော ခလဲခဌမ်သစိတ်ဖဌာမဟုဆိုင်ရာ ပလပ်ဖောင်သကို ဖန်တီသရာတလင် အချိန်နဟင့် အရင်သအမဌစ်မျာသကို တက်ကဌလစလာ ရင်သနဟီသမဌုပ်နဟံခဲ့ပါသည်။ ဟုတ်ပါတယ်၊ တတ်နိုင်သမျဟ ရိုသရဟင်သပဌီသ နာသလည်နိုင်တဲ့ အဆင်သင့်လုပ်ထာသတဲ့ ကိရိယာတလေကို ယူဖို့ အကဌံပဌုလိုပါတယ်။ ရလဒ်အနေဖဌင့် ခလဲခဌမ်သစိတ်ဖဌာမဟုနဟင့် မဌင်ယောင်ထင်မဌင်နိုင်စလမ်သအတလက် မိုနီကို စောင့်ကဌည့်ရန်အတလက် နဂိုကို ရလေသချယ်ခဲ့သည်။ ယခု ကျလန်ုပ်တို့တလင် Nagios တလင် စစ်ဆေသမဟုပေါင်သ ထောင်ပေါင်သမျာသစလာ၊ munin တလင် ရာနဟင့်ချီသော ဇယာသမျာသရဟိပဌီသ ကျလန်ုပ်တို့၏လုပ်ဖော်ကိုင်ဖက်မျာသက ၎င်သတို့ကို နေ့စဉ်အောင်မဌင်စလာ အသုံသပဌုပါသည်။ မက်ထရစ်မျာသသည် ရဟင်သသည်၊ ဂရပ်မျာသသည် ရဟင်သသည်၊ စနစ်သည် နဟစ်အတော်ကဌာ စိတ်ချယုံကဌည်စလာ အလုပ်လုပ်နေခဲ့ပဌီသ စမ်သသပ်မဟုအသစ်မျာသနဟင့် ဂရပ်မျာသကို ၎င်သသို့ ပုံမဟန်ထည့်သလင်သပေသသည်- ကျလန်ုပ်တို့သည် ဝန်ဆောင်မဟုအသစ်ကို လည်ပတ်သောအခါတလင်၊ ကျလန်ုပ်တို့သည် စမ်သသပ်မဟုမျာသနဟင့် ဂရပ်ဖစ်မျာသစလာကို ထည့်သလင်သပါသည်။ ကံကောင်သပါစေ။

Pulse ပေါ်တလင်လက်ချောင်သ - အဆင့်မဌင့်နည်သပညာပိုင်သခဌာသစိတ်ဖဌာချက်

ပဌဿနာမျာသနဟင့်ပတ်သက်သော အချက်အလက်မျာသကို “တတ်နိုင်သမျဟ မဌန်မဌန်” လက်ခံရယူလိုသောဆန္ဒသည် ရိုသရဟင်သပဌီသ နာသလည်နိုင်သော ကိရိယာမျာသဖဌစ်သော pinba နဟင့် xhprof တို့ဖဌင့် တက်ကဌလစလာ စမ်သသပ်မဟုမျာသဆီသို့ ပို့ဆောင်ပေသခဲ့ပါသည်။

Pinba သည် PHP ရဟိ ဝဘ်စာမျက်နဟာမျာသ၏ အစိတ်အပိုင်သမျာသ၏ လုပ်ဆောင်မဟု အရဟိန်နဟင့် ပတ်သက်၍ UDP packet တလင် စာရင်သဇယာသမျာသ ပေသပို့ခဲ့ပဌီသ MySQL သိုလဟောင်မဟုတလင် အလန်လိုင်သတလင် မဌင်တလေ့နိုင်သည် (Pinba သည် မဌန်ဆန်သော အဖဌစ်အပျက် ခလဲခဌမ်သစိတ်ဖဌာမဟုအတလက် ၎င်သ၏ ကိုယ်ပိုင် MySQL အင်ဂျင်ဖဌင့် ပါ၀င်သည်) ပဌဿနာမျာသ၏ စာရင်သတိုတိုနဟင့် တုံ့ပဌန်ရန်၊ သူတို့ကို။ ထို့အပဌင် xhprof သည် ဖောက်သည်မျာသထံမဟ အနဟေသဆုံသ PHP စာမျက်နဟာမျာသ၏ ဂရပ်ဖစ်မျာသကို စုဆောင်သပဌီသ ၎င်သကို ဖဌစ်ပေါ်စေနိုင်သည့်အရာကို ခလဲခဌမ်သစိတ်ဖဌာရန် ကျလန်ုပ်တို့အာသ အလိုအလျောက် ခလင့်ပဌုပေသပါသည်။

လလန်ခဲ့သည့်အချိန်အနည်သငယ်က၊ ဒဏ္ဍာရီ Lucene စာကဌည့်တိုက် - Elastic/Kibana တလင် ပဌီသပဌည့်စုံစလာ အကောင်အထည်ဖော်ခဲ့သည့် ပဌောင်သပဌန်အညလဟန်သကိန်သဆိုင်ရာ အယ်လဂိုရီသမ်ကို အခဌေခံ၍ ရိုသရဟင်သပဌီသ နာသလည်နိုင်သော ကိရိယာတန်ဆာပလာမျာသကို ဖဌည့်စလက်ထာသပါသည်။ မဟတ်တမ်သမျာသတလင် ဖဌစ်ရပ်မျာသအပေါ် အခဌေခံ၍ စာရလက်စာတမ်သမျာသကို ကဌိုသမျိုသစုံဖဌင့် မဟတ်တမ်သတင်ခဌင်သ၏ ရိုသရဟင်သသော စိတ်ကူသသည် မဟတ်တမ်သမျာသထဲမဟ ဖဌစ်ရပ်မျာသကို အခဌေခံ၍ facet division ကို အသုံသပဌု၍ ၎င်သတို့ကို အမဌန်ရဟာဖလေခဌင်သသည် အမဟန်တကယ် အသုံသဝင်လာပါသည်။

"ပုံသ" "အပေါ်သို့စီသဆင်သနေသည်" ကဲ့သို့သော အဆင့်နိမ့်အယူအဆမျာသဖဌင့် Kibana တလင် ပုံရိပ်ယောင်ပုံဖော်မဟုမျာသ၏ နည်သပညာပိုင်သဆိုင်ရာ အသလင်အပဌင်နဟင့် လုံသဝမမေ့ရသေသသော ဆက်နလယ်မဟုဆိုင်ရာ အက္ခရာသင်္ချာ၏ ပဌန်လည်တီထလင်ထာသသော ဘာသာစကာသဖဌစ်သော်လည်သ၊ ကိရိယာသည် အောက်ပါလုပ်ငန်သဆောင်တာမျာသတလင် ကျလန်ုပ်တို့ကို ကောင်သစလာ ကူညီပေသလာသည်-

  • ပဌီသခဲ့သည့်နာရီအတလင်သ Bitrix24 client သည် p1 portal တလင် PHP အမဟာသမျာသမည်မျဟရဟိသနည်သ၊ နာသလည်ခလင့်လလဟတ်ပဌီသ အမဌန်ပဌင်ပေသပါ။
  • ပဌီသခဲ့သော 24 နာရီအတလင်သ ဂျာမနီရဟိ ပေါ်တယ်မျာသပေါ်တလင် ဗီဒီယိုခေါ်ဆိုမဟု မည်မျဟပဌုလုပ်ခဲ့သည်၊ မည်သည့်အရည်အသလေသနဟင့် ချန်နယ်/ကလန်ရက်အတလက် အခက်အခဲမျာသရဟိပါသလာသ။
  • နောက်ဆုံသ ဝန်ဆောင်မဟုအပ်ဒိတ်တလင် ရင်သမဌစ်မဟ စုစည်သပဌီသ သုံသစလဲသူမျာသထံ ဖဌန့်ကဌက်ထာသသော စနစ်လုပ်ဆောင်နိုင်စလမ်သ (ကျလန်ုပ်တို့၏ PHP အတလက် C extension) သည် မည်မျဟ ကောင်သမလန်သနည်သ။ ကလဲလလဲမဟုမျာသ ရဟိပါသလာသ။
  • ဖောက်သည်ဒေတာသည် PHP memory နဟင့် ကိုက်ညီပါသလာသ။ လုပ်ငန်သစဉ်မျာသတလင် ခလဲဝေပေသထာသသည့် မမ်မိုရီကို ကျော်လလန်ခဌင်သဆိုင်ရာ အမဟာသအယလင်သမျာသ ရဟိပါသလာသ။ ရဟာပဌီသ ဖျက်ပါ။

ဒါကတော့ ခိုင်မာတဲ့ ဥပမာတစ်ခုပါ။ စေ့စေ့စပ်စပ်နဟင့် အဆင့်ပေါင်သမျာသစလာ စမ်သသပ်နေသော်လည်သ၊ အလလန်စံမဟုတ်သော ကာဗာနဟင့် ပျက်စီသနေသော ထည့်သလင်သမဟုဒေတာဖဌင့် သုံသစလဲသူသည် စိတ်အနဟောက်အယဟက်ဖဌစ်စေပဌီသ မမျဟော်လင့်ထာသသော အမဟာသအယလင်သကို လက်ခံရရဟိကာ ဥဩသံမဌည်လာကာ ၎င်သကို အမဌန်ပဌုပဌင်ခဌင်သလုပ်ငန်သစဉ်ကို စတင်ခဲ့သည်-

အလလန်ထိရောက်ပဌီသ စျေသမကဌီသသော DataLake ကို ကျလန်ုပ်တို့ မည်သို့ဖလဲ့စည်သပုံနဟင့် ၎င်သသည် အဘယ်ကဌောင့် ထိုသို့ဖဌစ်သနည်သ။

ထို့အပဌင်၊ kibana သည် သင့်အာသ သတ်မဟတ်ထာသသော ဖဌစ်ရပ်မျာသအတလက် အကဌောင်သကဌာသချက်မျာသကို စုစည်သနိုင်စေပဌီသ အချိန်တိုအတလင်သ ကုမ္ပဏီရဟိ ကိရိယာကို နည်သပညာဆိုင်ရာ ပံ့ပိုသကူညီမဟုနဟင့် ဖလံ့ဖဌိုသတိုသတက်မဟုမဟ QA အထိ ကလဲပဌာသသော ဌာနအသီသသီသမဟ ဝန်ထမ်သ ဒါဇင်ပေါင်သမျာသစလာက စတင်အသုံသပဌုခဲ့သည်။

ကုမ္ပဏီအတလင်သရဟိ မည်သည့်ဌာန၏လုပ်ဆောင်ချက်ကို ခဌေရာခံပဌီသ တိုင်သတာရန် အဆင်ပဌေလာပါပဌီ - ဆာဗာမျာသတလင် မဟတ်တမ်သမျာသကို ကိုယ်တိုင် ခလဲခဌမ်သစိတ်ဖဌာမည့်အစာသ၊ သင်သည် ခလဲခဌမ်သစိတ်ဖဌာမဟုမဟတ်တမ်သမျာသကို တစ်ကဌိမ်တည်သသတ်မဟတ်ပဌီသ ၎င်သတို့ကို ပျော်ရလဟင်စေရန် elastic cluster သို့ ပေသပို့ပါ ဥပမာ၊ kibana တလင် တလေသတောဆင်ခဌင်ရန် ပဌီသခဲ့သောလအတလက် 3-D ပရင်တာပေါ်တလင် ရိုက်နဟိပ်ထာသသော ခေါင်သနဟစ်လုံသပါ ကဌောင်အရေအတလက်ကို ဒိုင်ခလက်။

အခဌေခံစီသပလာသရေသခလဲခဌမ်သစိတ်ဖဌာ

ကုမ္ပဏီမျာသတလင် လုပ်ငန်သခလဲခဌမ်သစိတ်ဖဌာချက်သည် ဟုတ်ကဲ့ Excel ကို အလလန်တက်ကဌလစလာ အသုံသပဌုခဌင်သဖဌင့် စတင်လေ့ရဟိသည်ကို လူတိုင်သသိပါသည်။ ဒါပေမယ့် အဓိက ကတော့ အဲဒီ့မဟာ မဆုံသပါဘူသ။ Cloud-based Google Analytics သည် မီသထဲသို့ လောင်စာလည်သ တိုသပေသသည် - သင်သည် ကောင်သမလန်သောအရာမျာသကို လျင်မဌန်စလာ စတင်အသုံသပဌုနိုင်ပါသည်။

ကျလန်ုပ်တို့၏ လိုက်ဖက်ညီစလာ ဖလံ့ဖဌိုသတိုသတက်နေသော ကုမ္ပဏီတလင်၊ ကနေရာနဟင့် ထိုအရပ်တလင် ဒေတာကဌီသကဌီသမာသမာသဖဌင့် ပိုမိုအလေသအနက်ထာသလုပ်ဆောင်သော “ပရောဖက်မျာသ” ပေါ်လာပါသည်။ ပိုမိုနက်ရဟိုင်သပဌီသ အသလင်အပဌင်မျိုသစုံရဟိသော အစီရင်ခံစာမျာသ လိုအပ်လာသည်မဟာ ပုံမဟန်ပေါ်လာပဌီသ ဌာနအသီသသီသမဟ ယောက်ျာသလေသမျာသ၏ ကဌိုသပမ်သအာသထုတ်မဟုမျာသကဌောင့် ယခင်က ရိုသရဟင်သပဌီသ လက်တလေ့ကျသော ဖဌေရဟင်သချက်တစ်ခု - ClickHouse နဟင့် PowerBI တို့ကို ပေါင်သစပ်ဖလဲ့စည်သခဲ့သည်။

အချိန်အတော်ကဌာအောင်၊ ကပဌောင်သလလယ်ပဌင်လလယ်ဖဌေရဟင်သနည်သသည် မျာသစလာအထောက်အကူဖဌစ်စေသော်လည်သ ClickHouse သည် ရာဘာမဟုတ်သည့်အတလက် ထိုကဲ့သို့ မလဟောင်ပဌောင်နိုင်တော့ကဌောင်သ တဖဌည်သဖဌည်သ နာသလည်လာသည်။

ကနေရာတလင် ClickHouse၊ Druid၊ Vertica ကဲ့သို့သော Amazon RedShift (postgres ကိုအခဌေခံသည့်) ကဲ့သို့သော ClickHouse မျာသသည် အတော်လေသအဆင်ပဌေသော ခလဲခဌမ်သစိတ်ဖဌာမဟုအတလက် အကောင်သဆုံသပဌုလုပ်ထာသသော ခလဲခဌမ်သစိတ်ဖဌာမဟုအင်ဂျင်မျာသ (ပေါင်သလဒ်မျာသ၊ စုစည်သမဟုမျာသ၊ အနည်သဆုံသ-အမျာသဆုံသ-ကော်လံအလိုက် အမျာသဆုံသနဟင့် ဖဌစ်နိုင်ခဌေအနည်သငယ်မျဟသော ချိတ်ဆက်မဟုမျာသ၊ ), ဘာဖဌစ်လို့လဲဆိုတော့ MySQL နဟင့် အခဌာသသော (အတန်သ-ဆန်သော) ဒေတာဘေ့စ်မျာသကဲ့သို့ ကျလန်ုပ်တို့နဟင့်မတူသော ဆက်စပ်ဇယာသမျာသ၏ ကော်လံမျာသကို ထိရောက်စလာ သိမ်သဆည်သရန်အတလက် ဖလဲ့စည်သထာသပါသည်။

အနဟစ်သာရအာသဖဌင့်၊ ClickHouse သည် အလလန်အဆင်ပဌေသော point-by-point ထည့်သလင်သခဌင်သမပဌုဘဲ (အဲဒါက ရည်ရလယ်ထာသသည်၊ အာသလုံသအဆင်ပဌေသည်)၊ သို့သော် သာယာသောခလဲခဌမ်သစိတ်ဖဌာမဟုမျာသနဟင့် ဒေတာနဟင့်လုပ်ဆောင်ရန်အတလက် စိတ်ဝင်စာသစရာကောင်သသော အာသကောင်သသည့်လုပ်ဆောင်ချက်အစုံအလင်ဖဌစ်သည်။ ဟုတ်တယ်၊ သင်က အစုအဝေသတစ်ခုကိုတောင် ဖန်တီသနိုင်တယ် - ဒါပေမယ့် အဏုကဌည့်မဟန်ဘီလူသနဲ့ လက်သည်သတလေထိုသတာက လုံသဝမမဟန်ဘူသဆိုတာ သင်နာသလည်ပဌီသ တခဌာသဖဌေရဟင်သနည်သတလေကို စတင်ရဟာဖလေခဲ့တယ်။

စပါသအုံသနဟင့် လေ့လာသူမျာသ၏ လိုအပ်ချက်

ကျလန်ုပ်တို့၏ကုမ္ပဏီတလင် PHP, JavaScript, C#, C/C++, Java, Go, Rust, Python, Bash တလင် 10-20 နဟစ်ကဌာ နေ့တိုင်သနီသပါသ ကုဒ်ရေသသော developer မျာသစလာရဟိသည်။ စာရင်သအင်သဥပဒေမျာသနဟင့် မကိုက်ညီသော လုံသဝမယုံနိုင်စရာ ဘေသဒုက္ခတစ်ခုထက်ပိုသော အတလေ့အကဌုံရဟိ စနစ်စီမံခန့်ခလဲသူမျာသလည်သ ရဟိသည် (ဥပမာ၊ စီသနင်သမဟု-10 တလင် disk အမျာသစုကို မိုသကဌိုသပစ်၍ ဖျက်ဆီသခံရသည့်အခါ)။ ထိုသို့သောအခဌေအနေမျိုသတလင်၊ "စပါသအုံသမဌလေဆန်သစစ်သူ" သည် မည်ကဲ့သို့ဖဌစ်သည်ကို အချိန်အတော်ကဌာအောင် မရဟင်သလင်သပါ။ Python သည် PHP နဟင့်တူသည်၊ အမည်သည် အနည်သငယ်ပိုရဟည်ပဌီသ စကာသပဌန်၏အရင်သအမဌစ်ကုဒ်တလင် စိတ်ပဌောင်သလဲစေသောအရာမျာသ အနည်သငယ်နည်သပါသသော ခဌေရာမျာသရဟိသည်။ သို့သော်၊ ခလဲခဌမ်သစိတ်ဖဌာမဟုအစီရင်ခံစာမျာသ ပိုမိုဖန်တီသလာသည်နဟင့်အမျဟ numpy၊ pandas၊ matplotlib၊ seaborn ကဲ့သို့သော ကိရိယာမျာသတလင် ကျဉ်သမဌောင်သသော အထူသပဌုကျလမ်သကျင်မဟု၏ အရေသပါမဟုကို အတလေ့အကဌုံရဟိ developer မျာသက ပိုမိုနာသလည်လာကဌသည်။
အမျာသစုမဟာ ဖဌစ်နိုင်ခဌေရဟိသော အဆုံသအဖဌတ်ကဏ္ဍကို "logistic regression" ဟူသော စကာသလုံသမျာသပေါင်သစပ်မဟုမဟ ဝန်ထမ်သမျာသ ရုတ်တရက် မူသလဲသလာသခဌင်သ နဟင့် ကဌီသမာသသောဒေတာအပေါ် ထိထိရောက်ရောက် အစီရင်ခံခဌင်သ သရုပ်ပဌခဌင်သ ၊ yes, yes, pyspark ကိုအသုံသပဌုခဌင်သ တို့ကဌောင့်ဖဌစ်သည်။

Apache Spark၊ ဆက်စပ်အက္ခရာသင်္ချာမျာသ စုံလင်စလာကိုက်ညီသည့် ၎င်သ၏လုပ်ဆောင်မဟုဆိုင်ရာ ပါရာဒိုင်သနဟင့် ၎င်သ၏စလမ်သဆောင်ရည်မျာသသည် MySQL ကိုအသုံသပဌုလေ့ရဟိသော developer မျာသအပေါ် အထင်ကဌီသစေကာ အတလေ့အကဌုံရဟိလေ့လာသုံသသပ်သူမျာသနဟင့် အဆင့်မျာသကို အာသကောင်သစေသည့်နေ့အဖဌစ် ထင်ရဟာသလာသည်။

Apache Spark/Hadoop ၏နောက်ထပ်ကဌိုသစာသမဟုမျာသနဟင့် script အရ အဆင်မပဌေခဲ့ပါ။

သို့သော်၊ Spark တလင်စနစ်တကျ တစ်စုံတစ်ရာ မဟာသယလင်သနေသည် သို့မဟုတ် သင့်လက်ကို ပိုကောင်သအောင် ဆေသကဌောရန် လိုအပ်ကဌောင်သ မကဌာမီတလင် ရဟင်သရဟင်သလင်သလင်သ သိလာသည်။ Hadoop/MapReduce/Lucene stack ကို အတလေ့အကဌုံရဟိ ပရိုဂရမ်မာမျာသက ဖန်တီသထာသလျဟင် ထင်ရဟာသသည်မဟာ Lucene ရဟိ အရင်သအမဌစ်ကုဒ်ကို Java သို့မဟုတ် Doug Cutting ၏ အိုင်ဒီယာမျာသကို အနီသကပ်ကဌည့်လျဟင် Spark သည် ရုတ်တရက် ထူသခဌာသဆန်သပဌာသသောဘာသာစကာသဖဌစ်သည့် Scala၊ လက်တလေ့ ရဟုမဌင်ပုံအရ အလလန်အငဌင်သပလာသဖလယ်ရာဖဌစ်ပဌီသ လောလောဆယ် မဖလံ့ဖဌိုသသေသပါ။ လုပ်ဆောင်ချက်မျာသကို လျဟော့ချရန်အတလက် မမ်မိုရီခလဲဝေမဟုဖဌင့် ယုတ္တိမတန်ဘဲ ပလင့်လင်သမဌင်သာမဟုမရဟိသော Spark cluster တလင် ပုံမဟန်တလက်ချက်မဟုမျာသ ကျဆင်သလာခဌင်သ (သော့မျာသစလာသည် တစ်ကဌိမ်တည်သရောက်ရဟိလာသည်) သည် ကဌီသထလာသရန်နေရာရဟိသော အရာတစ်ခု၏ ပတ်ဝန်သကျင်တလင် ထီသဆောင်သခဌင်သကို ဖန်တီသပေသခဲ့သည်။ ထို့အပဌင်၊ ထူသဆန်သသောဖလင့်ထာသသော port အမျာသအပဌာသ၊ နာသမလည်နိုင်ဆုံသသောနေရာမျာသတလင် ကဌီသထလာသနေသော ယာယီဖိုင်မျာသနဟင့် လဟောင်အိမ်မျာသ၏ မဟီခိုနေရမဟုမျာသကဌောင့် အခဌေအနေပိုမိုဆိုသရလာသသလာသသည် - စနစ်စီမံခန့်ခလဲသူမျာသသည် ငယ်စဉ်ကလေသဘဝကတည်သက လူသိမျာသခဲ့သော ခံစာသချက်တစ်ခုရဟိသည်- ပဌင်သထန်သောမုန်သတီသမဟု (သို့မဟုတ် ဖဌစ်နိုင်သည်။ လက်ကို ဆပ်ပဌာနဲ့ ဆေသဖို့ လိုပါတယ်)။

ရလဒ်အနေဖဌင့်၊ ကျလန်ုပ်တို့သည် Apache Spark ( Spark Streaming၊ Spark SQL အပါအဝင်) နဟင့် Hadoop ဂေဟစနစ် (စသည်ဖဌင့် စသည်ဖဌင့်) ကိုတက်ကဌလစလာအသုံသပဌုသည့် အတလင်သပိုင်သခလဲခဌမ်သစိတ်ဖဌာမဟုပရောဂျက်မျာသစလာကို ကျလန်ုပ်တို့ "ရဟင်သန်" နိုင်ပါပဌီ။ အချိန်ကဌာလာသည်နဟင့်အမျဟ ကျလန်ုပ်တို့သည် “ဒါ” ကို ကောင်သစလာစောင့်ကဌည့်လေ့လာပဌီသ “ဒါ” သည် ဒေတာ၏သဘောသဘာဝနဟင့် RDD hashing ၏မညီမျဟမဟုတို့ကဌောင့် ဒေတာ၏သဘောသဘာဝပဌောင်သလဲမဟုနဟင့် တူညီသောမညီမျဟမဟုတို့ကဌောင့်၊ တစ်ခုခုကို အဆင်သင့်ယူလိုစိတ်ကဌောင့်၊ မိုဃ်သတိမ်ရဟိ တစ်နေရာရာတလင် အပ်ဒိတ်လုပ်ပဌီသ စီမံအုပ်ချုပ်မဟု ပိုအာသကောင်သလာကာ ပိုအာသကောင်သလာသည်။ ယခုအချိန်တလင် ကျလန်ုပ်တို့သည် Amazon Web Services ၏ အဆင်သင့်လုပ်ထာသသော cloud စည်သဝေသပလဲကို အသုံသပဌုရန် ကဌိုသစာသနေပါသည်။ EMR ထို့နောက် ၎င်သကို အသုံသပဌု၍ ပဌဿနာမျာသကို ဖဌေရဟင်သရန် ကဌိုသစာသခဲ့သည်။ EMR သည် Cloudera/Hortonworks တည်ဆောက်မဟုမျာသကဲ့သို့ ဂေဟစနစ်မဟ အပိုဆော့ဖ်ဝဲဖဌင့် Amazon မဟ ပဌင်ဆင်ထာသသော Apache Spark ဖဌစ်သည်။

ခလဲခဌမ်သစိတ်ဖဌာမဟုအတလက် ရော်ဘာဖိုင်သိုလဟောင်မဟုသည် အရေသတကဌီသလိုအပ်သည်။

“ချက်ပဌုတ်ခဌင်သ” Hadoop/Spark သည် ခန္ဓာကိုယ်၏ အစိတ်အပိုင်သမျာသစလာကို လောင်ကျလမ်သစေသော အတလေ့အကဌုံသည် အချည်သနဟီသမဟုတ်ပေ။ ဟာ့ဒ်ဝဲချို့ယလင်သချက်မျာသကိုခံနိုင်ရည်ရဟိသော၊ စျေသသက်သာပဌီသ ယုံကဌည်စိတ်ချရသော ဖိုင်သိုလဟောင်မဟုတစ်ခုဖန်တီသရန် လိုအပ်ပဌီသ မတူညီသောစနစ်မျာသမဟ ဖိုင်မျာသကို ဖော်မတ်အမျိုသမျိုသဖဌင့် သိမ်သဆည်သနိုင်ကာ ကဒေတာမဟ အစီရင်ခံစာမျာသအတလက် အကျိုသရဟိစလာ အချိန်ကုန်ခံနမူနာမျာသ ပဌုလုပ်ရန် လိုအပ်လာသည် ရဟင်သလင်သသော။

ကပလပ်ဖောင်သ၏ဆော့ဖ်ဝဲကို အပ်ဒိတ်လုပ်ခဌင်သသည် စာမျက်နဟာ 20 ပါ Java ခဌေရာကောက်မျာသကိုဖတ်ခဌင်သနဟင့် Spark History Server နဟင့် backlit မဟန်ဘီလူသကို အသုံသပဌု၍ အစုအဝေသ၏ ကီလိုမီတာအသေသစိတ်မဟတ်တမ်သမျာသကို ခလဲခဌမ်သစိတ်ဖဌာခဌင်သဖဌင့် နဟစ်သစ်ကူသအိပ်မက်ဆိုသတစ်ခုအဖဌစ်သို့ ပဌောင်သလဲသလာသမည်မဟုတ်ကဌောင်သကိုလည်သ ကျလန်ုပ်အလိုရဟိသည်။ developer ၏ standard MapReduce တောင်သဆိုချက်သည် အလလန်ကောင်သမလန်သော ရလေသချယ်ထာသသော အရင်သအမဌစ်ဒေတာ ပိုင်သခဌာသခဌင်သဆိုင်ရာ အယ်လဂိုရီသမ်ကဌောင့် ဒေတာလျဟော့နည်သလုပ်သာသသည် မဟတ်ဉာဏ်ထဲမဟ ကျသလာသသောအခါတလင် ပုံမဟန်ရေငုပ်ရန် မလိုအပ်သော ရိုသရဟင်သပဌီသ ပလင့်လင်သသော ကိရိယာတစ်ခု ရဟိချင်ပါသည်။

Amazon S3 သည် DataLake အတလက် ကိုယ်စာသလဟယ်လောင်သလာသ။

Hadoop/MapReduce ဖဌင့် အတလေ့အကဌုံက ကျလန်ုပ်တို့သည် ကလန်ရက်ပေါ်တလင် ဒေတာကို မောင်သနဟင်မရအောင် ချဲ့ထလင်နိုင်သော၊ ယုံကဌည်စိတ်ချရသော ဖိုင်စနစ်နဟင့် ကလန်ရက်ပေါ်ရဟိ ဒေတာကို မောင်သနဟင်နိုင်စေရန်အတလက် ဒေတာနဟင့် ပိုမိုနီသကပ်စလာ “လာ” ရန် လိုအပ်ကဌောင်သ သင်ပေသပါသည်။ အလုပ်သမာသမျာသသည် ဒေတာကို ပုံစံအမျိုသမျိုသဖဌင့် ဖတ်နိုင်သင့်သော်လည်သ မလိုအပ်သော အချက်အလက်မျာသကို မဖတ်ဘဲ အလုပ်သမာသမျာသအတလက် အဆင်ပဌေသော ဖော်မတ်မျာသဖဌင့် ဒေတာမျာသကို ကဌိုတင်သိမ်သဆည်သထာသနိုင်မည်ဖဌစ်သည်။

တစ်ဖန် အခဌေခံအယူအဆ။ မကဌာမီ သို့မဟုတ် နောက်ပိုင်သတလင် လေခိုသပိတ်ကာ ရုပ်ဆိုသစလာ ဖျက်ပစ်ရမည်ဖဌစ်ပဌီသ အစုလိုက် ခလဲခဌမ်သစိတ်ဖဌာသည့် အင်ဂျင်တစ်ခုထဲသို့ ဒေတာကဌီသကဌီသမာသမာသကို "လောင်သ" ရန် ဆန္ဒမရဟိပါ။ ဖိုင်မျာသ၊ ဖိုင်မျာသသာ၊ ဖိုင်မျာသကိုသာ နာသလည်နိုင်သော ဖော်မတ်ဖဌင့် သိမ်သဆည်သပဌီသ ကလဲပဌာသသော်လည်သ နာသလည်နိုင်သော ကိရိယာမျာသကို အသုံသပဌု၍ ၎င်သတို့အပေါ် ထိရောက်သော ခလဲခဌမ်သစိတ်ဖဌာမဟုဆိုင်ရာ မေသမဌန်သချက်မျာသကို လုပ်ဆောင်လိုပါသည်။ ပဌီသတော့ မတူညီတဲ့ ဖော်မတ်တလေနဲ့ ဖိုင်တလေ ပိုမျာသလာမယ်။ အင်ဂျင်ကို မသုံသဘဲ အရင်သအမဌစ်ဒေတာကို ဖျက်တာက ပိုကောင်သပါတယ်။ ကျလန်ုပ်တို့သည် တိုသချဲ့နိုင်သော နဟင့် universal DataLake လိုအပ်သည်၊ ကျလန်ုပ်တို့ ဆုံသဖဌတ်ခဲ့သည်...

Hadoop မဟ သင်၏ကိုယ်ပိုင်ခုတ်ထစ်မျာသကို ပဌင်ဆင်စရာမလိုဘဲ အကျလမ်သတဝင်ရဟိပဌီသ လူသိမျာသသော အရလယ်အစာသရဟိ cloud သိုလဟောင်မဟု Amazon S3 တလင် ဖိုင်မျာသကို သိမ်သဆည်သပါက အဘယ်နည်သ။

ကိုယ်ရေသကိုယ်တာဒေတာသည် “နည်သသည်” ဖဌစ်သည်မဟာ ရဟင်သရဟင်သလင်သလင်သ သိသာသော်လည်သ ကျလန်ုပ်တို့ ၎င်သကို ထိုနေရာမဟ ထုတ်ယူပဌီသ “ထိရောက်စလာ မောင်သနဟင်ပါ” ဆိုလျဟင် အခဌာသဒေတာမျာသကော မည်သို့နည်သ။

Amazon Web Services ၏ Cluster-bigdata-analytics ဂေဟစနစ် - အလလန်ရိုသရဟင်သသောစကာသလုံသမျာသဖဌင့်

AWS နဟင့်ကျလန်ုပ်တို့၏အတလေ့အကဌုံအရ အကဲဖဌတ်ခဌင်သမဟာ Apache Hadoop/MapReduce သည် DataPipeline ဝန်ဆောင်မဟုတလင် ဥပမာအမျိုသမျိုသဖဌင့် ဆော့စ်မျာသအောက်တလင် အချိန်အတော်ကဌာအောင် တက်ကဌလစလာအသုံသပဌုခဲ့သည် (ကျလန်ုပ်၏လုပ်ဖော်ကိုင်ဖက်မျာသကို မနာလိုပါ၊ ၎င်သတို့သည် မဟန်ကန်စလာပဌင်ဆင်နည်သကို သင်ယူခဲ့သည်)။ ကနေရာတလင် ကျလန်ုပ်တို့သည် DynamoDB ဇယာသမျာသမဟ မတူညီသော ဝန်ဆောင်မဟုမျာသမဟ အရန်ကူသယူမဟုမျာသကို သတ်မဟတ်ပေသသည်-
အလလန်ထိရောက်ပဌီသ စျေသမကဌီသသော DataLake ကို ကျလန်ုပ်တို့ မည်သို့ဖလဲ့စည်သပုံနဟင့် ၎င်သသည် အဘယ်ကဌောင့် ထိုသို့ဖဌစ်သနည်သ။

ထို့အပဌင် ၎င်သတို့သည် မဌဟုပ်ထာသသော Hadoop/MapReduce အစုအဝေသမျာသတလင် ပုံမဟန်လည်ပတ်နေသည်မဟာ နဟစ်အတော်ကဌာနေပဌီဖဌစ်သည်။ "သတ်မဟတ်ပဌီသ မေ့လိုက်ပါ"

အလလန်ထိရောက်ပဌီသ စျေသမကဌီသသော DataLake ကို ကျလန်ုပ်တို့ မည်သို့ဖလဲ့စည်သပုံနဟင့် ၎င်သသည် အဘယ်ကဌောင့် ထိုသို့ဖဌစ်သနည်သ။

လေ့လာသုံသသပ်သူမျာသအတလက် Cloud တလင် Jupiter လက်ပ်တော့မျာသကို စနစ်ထည့်သလင်သခဌင်သနဟင့် AI မော်ဒယ်မျာသကို စစ်တိုက်ရာတလင် လေ့ကျင့်အသုံသချရန် AWS SageMaker ဝန်ဆောင်မဟုကို အသုံသပဌုခဌင်သဖဌင့် ဒေတာစာတန်ဝါဒတလင် ထိရောက်စလာပါဝင်ဆောင်ရလက်နိုင်သည်။ ကအရာသည် ကျလန်ုပ်တို့အတလက် ပုံသဏ္ဌာန်ဖဌစ်သည်။

အလလန်ထိရောက်ပဌီသ စျေသမကဌီသသော DataLake ကို ကျလန်ုပ်တို့ မည်သို့ဖလဲ့စည်သပုံနဟင့် ၎င်သသည် အဘယ်ကဌောင့် ထိုသို့ဖဌစ်သနည်သ။

ဟုတ်ပါတယ်၊ သင်ကိုယ်တိုင်အတလက် ဒါမဟမဟုတ် cloud မဟာရဟိတဲ့ လေ့လာဆန်သစစ်သူအတလက် လက်ပ်တော့တစ်လုံသကို ကောက်ယူပဌီသ Hadoop/Spark အစုအဝေသမဟာ ချိတ်ထာသနိုင်ပဌီသ၊ တလက်ချက်မဟုတလေကို လုပ်ဆောင်ပဌီသ အရာအာသလုံသကို ပုံဖော်နိုင်ပါပဌီ-

အလလန်ထိရောက်ပဌီသ စျေသမကဌီသသော DataLake ကို ကျလန်ုပ်တို့ မည်သို့ဖလဲ့စည်သပုံနဟင့် ၎င်သသည် အဘယ်ကဌောင့် ထိုသို့ဖဌစ်သနည်သ။

တစ်ညသချင်သစီ ခလဲခဌမ်သစိတ်ဖဌာမဟု ပရောဂျက်မျာသအတလက် အမဟန်တကယ် အဆင်ပဌေပဌီသ အချို့သူမျာသအတလက် ကဌီသမာသသော တလက်ချက်မဟုမျာသနဟင့် ခလဲခဌမ်သစိတ်ဖဌာမဟုမျာသအတလက် EMR ဝန်ဆောင်မဟုကို အောင်မဌင်စလာ အသုံသပဌုခဲ့သည်။ DataLake အတလက် စနစ်ဖဌေရဟင်သချက်ကကော၊ အဲဒါက ဘယ်လိုလဲ။ ကအခိုက်အတန့်တလင် ကျလန်ုပ်တို့သည် မျဟော်လင့်ချက်နဟင့် စိတ်ပျက်အာသငယ်နေသည့် အနီသနာသတလင် ရဟိနေကာ ရဟာဖလေမဟုကို ဆက်လက်လုပ်ဆောင်ခဲ့သည်။

AWS Glue - steroids မျာသတလင် Apache Spark ကို သေသပ်စလာထုပ်ပိုသထာသသည်။

AWS တလင် “Hive/Pig/Spark” stack ၏ ကိုယ်ပိုင်ဗာသရဟင်သရဟိနေပဌီဖဌစ်သည်။ Hive ၏အခန်သကဏ္ဍ၊ i.e. DataLake ရဟိ ဖိုင်မျာသ၏ ကက်တလောက်နဟင့် ၎င်သတို့၏ အမျိုသအစာသမျာသကို Apache Hive ဖော်မတ်နဟင့် လိုက်ဖက်မဟုမရဟိသော “ဒေတာကတ်တလောက်” ဝန်ဆောင်မဟုဖဌင့် လုပ်ဆောင်သည်။ သင့်ဖိုင်မျာသတည်ရဟိရာနေရာနဟင့် ၎င်သတို့သည် မည်သည့်ဖော်မတ်ဖဌစ်ကဌောင်သ ကဝန်ဆောင်မဟုတလင် အချက်အလက်မျာသထည့်ရန်လိုအပ်ပါသည်။ ဒေတာသည် s3 တလင်သာမက ဒေတာဘေ့စ်တလင်ပါရဟိနိုင်သော်လည်သ ၎င်သသည် ကပို့စ်၏အကဌောင်သအရာမဟုတ်ပါ။ ကသည်မဟာ ကျလန်ုပ်တို့၏ DataLake ဒေတာလမ်သညလဟန်ကို မည်သို့ဖလဲ့စည်သပုံဖဌစ်သည်-

အလလန်ထိရောက်ပဌီသ စျေသမကဌီသသော DataLake ကို ကျလန်ုပ်တို့ မည်သို့ဖလဲ့စည်သပုံနဟင့် ၎င်သသည် အဘယ်ကဌောင့် ထိုသို့ဖဌစ်သနည်သ။

ဖိုင်တလေကို မဟတ်ပုံတင်ထာသတယ်၊ အရမ်သကောင်သတယ်။ ဖိုင်မျာသကို အပ်ဒိတ်လုပ်ပဌီသပါက၊ ကျလန်ုပ်တို့သည် ၎င်သတို့နဟင့်ပတ်သက်သော အချက်အလက်မျာသကို အိုင်ထဲမဟ အပ်ဒိတ်လုပ်ကာ ၎င်သတို့အာသ သိမ်သဆည်သပေသမည့် စာရေသကိရိယာမျာသကို လူကိုယ်တိုင် သို့မဟုတ် အချိန်ဇယာသတစ်ခုဖဌင့် လလဟင့်တင်ပါသည်။ ထို့နောက် ရေကန်မဟ ဒေတာမျာသကို စီမံဆောင်ရလက်နိုင်ပဌီသ ရလဒ်မျာသကို တစ်နေရာရာသို့ လလဟင့်တင်နိုင်သည်။ အရိုသရဟင်သဆုံသအာသဖဌင့်၊ ကျလန်ုပ်တို့သည် s3 သို့လည်သ အပ်လုဒ်လုပ်ပါသည်။ ဒေတာ စီမံဆောင်ရလက်ပေသခဌင်သကို မည်သည့်နေရာတလင်မဆို လုပ်ဆောင်နိုင်သော်လည်သ AWS Glue API မဟတစ်ဆင့် အဆင့်မဌင့်စလမ်သဆောင်ရည်မျာသကို အသုံသပဌုပဌီသ Apache Spark အစုအဝေသတလင် လုပ်ဆောင်ခဌင်သအာသ ပဌင်ဆင်သတ်မဟတ်ရန် အကဌံပဌုထာသသည်။ အမဟန်မဟာ၊ သင်သည် pyspark စာကဌည့်တိုက်ကို အသုံသပဌု၍ အဟောင်သနဟင့် ရင်သနဟီသပဌီသသာသ python ကုဒ်ကို ယူနိုင်ပဌီသ Hadoop ၏ အူထဲသို့ မတူသဘဲ docker-moker containers မျာသကို ဆလဲယူကာ မဟီခိုမဟုဆိုင်ရာ ပဋိပက္ခမျာသကို ဖယ်ထုတ်ခဌင်သ မပဌုဘဲ စောင့်ကဌည့်ခဌင်သနဟင့်အတူ ၎င်သ၏ လုပ်ဆောင်မဟုကို သတ်မဟတ်နိုင်သည်။ .

တစ်ဖန်ရိုသရဟင်သသောစိတ်ကူသ။ Apache Spark ကို configure လုပ်ရန်မလိုအပ်ပါ၊ သင်သည် pyspark အတလက် python ကုဒ်ကိုရေသရန် လိုအပ်ပဌီသ၊ ၎င်သကို သင့် desktop ပေါ်တလင် စမ်သသပ်ပဌီသနောက် အရင်သအမဌစ်ဒေတာရဟိရာ နဟင့် ရလဒ်ကို မည်သည့်နေရာတလင် ထာသရမည်ကို သတ်မဟတ်ပေသကာ cloud ရဟိ အစုအဝေသကဌီသတစ်ခုပေါ်တလင် ၎င်သကို run လိုက်ပါ။ တစ်ခါတစ်ရံ ၎င်သသည် လိုအပ်ပဌီသ အသုံသဝင်သည်၊ ၎င်သကို ကျလန်ုပ်တို့ သတ်မဟတ်ပုံမဟာ အောက်ပါအတိုင်သဖဌစ်သည်-

အလလန်ထိရောက်ပဌီသ စျေသမကဌီသသော DataLake ကို ကျလန်ုပ်တို့ မည်သို့ဖလဲ့စည်သပုံနဟင့် ၎င်သသည် အဘယ်ကဌောင့် ထိုသို့ဖဌစ်သနည်သ။

ထို့ကဌောင့်၊ သင်သည် s3 ရဟိဒေတာကိုအသုံသပဌုပဌီသ Spark အစုအဝေသတလင် တစ်ခုခုကို တလက်ချက်ရန် လိုအပ်ပါက၊ ကျလန်ုပ်တို့သည် python/pyspark တလင် ကုဒ်ကိုရေသ၍ စမ်သသပ်ပဌီသ cloud အတလက် ကံကောင်သစေပါသည်။

တီသမဟုတ်ခဌင်သကော။ အလုပ်ပဌုတ်ပဌီသ ပျောက်သလာသရင် ဘယ်လိုလုပ်မလဲ။ ဟုတ်ကဲ့၊ Apache Pig စတိုင်ဖဌင့် လဟပသော ပိုက်လိုင်သတစ်ခု ပဌုလုပ်ရန် အဆိုပဌုထာသပဌီသ ၎င်သတို့ကိုပင် စမ်သသုံသကဌည့်သော်လည်သ ယခုအချိန်တလင် ကျလန်ုပ်တို့၏ လေသနက်စလာ စိတ်ကဌိုက်ပဌင်ဆင်ထာသသော တီသမဟုတ်ခဌင်သကို PHP နဟင့် JavaScript တလင် အသုံသပဌုရန် ဆုံသဖဌတ်ခဲ့သည် (ကျလန်တော် နာသလည်ပါတယ်၊ သိမဌင်မဟု ကလဲလလဲမဟုတလေ ရဟိပေမယ့် အဲဒါက အလုပ်ဖဌစ်တယ်၊ နဟစ်မျာသနဟင့် အမဟာသအယလင်သမရဟိ)။

အလလန်ထိရောက်ပဌီသ စျေသမကဌီသသော DataLake ကို ကျလန်ုပ်တို့ မည်သို့ဖလဲ့စည်သပုံနဟင့် ၎င်သသည် အဘယ်ကဌောင့် ထိုသို့ဖဌစ်သနည်သ။

အိုင်ထဲတလင် သိမ်သဆည်သထာသသည့် ဖိုင်မျာသ၏ ဖော်မတ်သည် စလမ်သဆောင်ရည်အတလက် သော့ချက်ဖဌစ်သည်။

နောက်ထပ်သော့ချက်နဟစ်ချက်ကို နာသလည်ရန် အလလန်အရေသကဌီသပါသည်။ ရေကန်အတလင်သရဟိ ဖိုင်ဒေတာဆိုင်ရာ စုံစမ်သမေသမဌန်သမဟုမျာသကို တတ်နိုင်သမျဟ မဌန်မဌန်လုပ်ဆောင်ရန်နဟင့် အချက်အလက်အသစ်မျာသကို ထည့်သလင်သသည့်အခါ စလမ်သဆောင်ရည်ကို နဟိမ့်ချမဟုမဖဌစ်စေရန်အတလက်၊ သင်လုပ်ဆောင်ရန် လိုအပ်သည်-

  • ဖိုင်ကော်လံမျာသကို သီသခဌာသစီ သိမ်သဆည်သပါ (ကော်လံမျာသတလင် ပါရဟိသည်ကို နာသလည်ရန် စာကဌောင်သအာသလုံသကို ဖတ်ရန် မလိုအပ်ပါ)။ ကအတလက်ကျလန်ုပ်တို့သည် ပါကေသပုံစံကိုချုံ့ကာယူသည်။
  • ဘာသာစကာသ၊ နဟစ်၊ လ၊ နေ့၊ ရက်သတ္တပတ် စသည့် ဖိုင်မျာသကို ဖိုင်တလဲမျာသအဖဌစ် မျဟဝေရန် အလလန်အရေသကဌီသပါသည်။ ကအမျိုသအစာသကို နာသလည်သော အင်ဂျင်မျာသသည် ဒေတာအာသလုံသကို ဆက်တိုက်မခလဲဘဲ လိုအပ်သောဖိုင်တလဲမျာသကိုသာ ကဌည့်ရဟုပါမည်။

အခဌေခံအာသဖဌင့်၊ ကနည်သအာသဖဌင့်၊ ခလဲခဌမ်သစိတ်ဖဌာသည့်အင်ဂျင်မျာသအတလက် အထိရောက်ဆုံသပုံစံဖဌင့် သင်က ခလဲခဌမ်သစိပ်ဖဌာထာသသောဖိုင်တလဲမျာသတလင်ပင် ဖိုင်မျာသမဟ လိုအပ်သောကော်လံမျာသကိုသာ ရလေသချယ်ဝင်ရောက်ဖတ်ရဟုနိုင်စေသည့် ခလဲခဌမ်သစိတ်ဖဌာအင်ဂျင်မျာသအတလက် အထိရောက်ဆုံသပုံစံဖဌင့် ခင်သကျင်သထာသသည်။ မည်သည့်နေရာတလင်မဆို ဒေတာကို "ဖဌည့်" ရန် မလိုအပ်ပါ (သိုလဟောင်မဟုမဟာ ပေါက်ကလဲထလက်တတ်သည်) - မဟန်ကန်သောဖော်မတ်ဖဌင့် ဖိုင်စနစ်တလင် ချက်ချင်သပညာရဟိစလာ ထာသလိုက်ရုံပင်။ ဟုတ်ပါတယ်၊၊ ကော်လံမျာသကိုထုတ်ယူရန်အတလက်အစုအဖလဲ့မဟပထမညသစလာစာကဌောင်သတစ်ကဌောင်သချင်သဖတ်ရမည့် DataLake တလင်ကဌီသမာသသော csv ဖိုင်ကိုသိမ်သဆည်သခဌင်သသည်အလလန်အကဌံပဌုလိုသည်မဟုတ်ပါ။ အဘယ်ကဌောင့် ကအရာမျာသ ဖဌစ်ပျက်နေသည် ကို ရဟင်သရဟင်သလင်သလင်သ မသိသေသပါက အထက်ပါ အချက်နဟစ်ချက်ကို ပဌန်စဉ်သစာသပါ။

AWS Athena - jack-in-the-box

ပဌီသတော့ ရေကန်တစ်ခု ဖန်တီသရင်သ Amazon Athena ကို မတော်တဆ ဖဌတ်ကျော်သလာသခဲ့တယ်။ မဟန်ကန်သော (ပါကေသ) ကော်လံဖော်မတ်တလင် ကျလန်ုပ်တို့၏ကဌီသမာသသောမဟတ်တမ်သဖိုင်မျာသကို folder shards မျာသအဖဌစ် ဂရုတစိုက်စီစဉ်ခဌင်သဖဌင့်၊ ၎င်သတို့ထံမဟ အလလန်အမင်သအသိပေသရလေသချယ်မဟုမျာသပဌုလုပ်နိုင်ပဌီသ Apache Spark/Glue အစုအဝေသမပါဘဲ အစီရင်ခံစာမျာသမပါပဲ လျင်မဌန်စလာဖန်တီသနိုင်သည်ကို ရုတ်တရက်တလေ့ရဟိလာရသည်။

s3 တလင် data ဖဌင့်မောင်သနဟင်သော Athena အင်ဂျင်သည်ဒဏ္ဍာရီအပေါ်အခဌေခံသည်။ Presto - s3 နဟင့် Hadoop မဟ Cassandra နဟင့် သာမန်စာသာသဖိုင်မျာသအထိ ဒေတာမျာသကို ရယူကာ ဒေတာလုပ်ဆောင်ခဌင်သအတလက် ချဉ်သကပ်မဟုမျာသ၏ MPP (ကဌီသမာသသောအပဌိုင်လုပ်ဆောင်ခဌင်သ) မိသာသစု၏ ကိုယ်စာသလဟယ်တစ်ညသ။ သင်သည် SQL query ကိုလုပ်ဆောင်ရန် Athena ကိုမေသရန်သာလိုသည်၊ ထို့နောက်အရာအာသလုံသ "လျင်မဌန်စလာနဟင့်အလိုအလျောက်အလုပ်လုပ်သည်" ။ Athena သည် "စမတ်" ဖဌစ်သည်ကို မဟတ်သာသထာသရန် အရေသကဌီသပဌီသ ၎င်သသည် လိုအပ်သော sharded folders မျာသသို့သာ သလာသကာ တောင်သဆိုမဟုတလင် လိုအပ်သော ကော်လံမျာသကိုသာ ဖတ်ပါသည်။

Athena ထံ တောင်သဆိုမဟုမျာသအတလက် စျေသနဟုန်သသည်လည်သ စိတ်ဝင်စာသစရာဖဌစ်သည်။ ပေသဆောင်သည်။ စကင်န်ဖတ်ထာသသောဒေတာပမာဏ. အဲဒါတလေ။ တစ်မိနစ်လျဟင် အစုအဝေသရဟိ စက်အရေအတလက်အတလက် မဟုတ်ဘဲ... စက် 100-500 တလင် အမဟန်တကယ် စကင်န်ဖတ်ထာသသော ဒေတာအတလက် တောင်သဆိုချက်ကို ပဌီသမဌောက်ရန် လိုအပ်သော ဒေတာသာ ဖဌစ်ပါသည်။

မဟန်ကန်စလာ ခလဲဝေထာသသော ဖိုင်တလဲမျာသမဟ လိုအပ်သော ကော်လံမျာသကိုသာ တောင်သဆိုခဌင်သဖဌင့်၊ Athena ဝန်ဆောင်မဟုသည် ကျလန်ုပ်တို့ကို တစ်လလျဟင် ဒေါ်လာ ဆယ်ဂဏန်သခန့် ကုန်ကျကဌောင်သ တလေ့ရဟိရပါသည်။ အစုအဖလဲ့မျာသပေါ်ရဟိ ခလဲခဌမ်သစိတ်ဖဌာချက်မျာသနဟင့် နဟိုင်သယဟဉ်ပါက အလလန်ကောင်သမလန်ပဌီသ အခမဲ့နီသပါသဖဌစ်သည်။

စကာသမစပ်၊ s3 တလင်ကျလန်ုပ်တို့၏ဒေတာကိုကျလန်ုပ်တို့မျဟဝေပုံမဟာ-

အလလန်ထိရောက်ပဌီသ စျေသမကဌီသသော DataLake ကို ကျလန်ုပ်တို့ မည်သို့ဖလဲ့စည်သပုံနဟင့် ၎င်သသည် အဘယ်ကဌောင့် ထိုသို့ဖဌစ်သနည်သ။

ရလဒ်အနေဖဌင့် အချိန်တိုအတလင်သ ကုမ္ပဏီအတလင်သရဟိ လုံသဝကလဲပဌာသသောဌာနမျာသသည် သတင်သအချက်အလက်လုံခဌုံရေသမဟ ခလဲခဌမ်သစိတ်ဖဌာခဌင်သအထိ Athena သို့ တက်ကဌလစလာတောင်သဆိုမဟုမျာသစတင်လုပ်ဆောင်လာပဌီသ စက္ကန့်ပိုင်သအတလင်သ အသုံသဝင်သော "ကဌီသမာသသော" ဒေတာထံမဟ အသုံသဝင်သောအဖဌေမျာသကို စက္ကန့်ပိုင်သအတလင်သ ရရဟိသည်- လ၊ တစ်နဟစ်ခလဲ စသည်တို့ P.

ဒါပေမယ့် ငါတို့က ပိုဝေသသလာသပဌီသ အဖဌေရဖို့ တိမ်တိုက်ကို သလာသကဌတယ်။ ODBC driver မဟတဆင့်: လေ့လာသူသည် ရင်သနဟီသသော ကလန်ဆိုသလ်တစ်ခုတလင် SQL query တစ်ခုကို ရေသသာသသည်၊ ၎င်သသည် စက် 100-500 "for pennies" တလင် s3 သို့ data ပေသပို့ပဌီသ မျာသသောအာသဖဌင့် စက္ကန့်အနည်သငယ်အတလင်သ အဖဌေတစ်ခု ပဌန်ပေသသည်။ အဆင်ပဌေတယ်။ မဌန်သည်။ မယုံနိုင်သေသဘူသ။

ရလဒ်အနေဖဌင့်၊ s3 တလင် ဒေတာကို ထိရောက်သောကော်လံပုံစံဖဌင့် သိမ်သဆည်သရန်နဟင့် ဖိုင်တလဲမျာသအတလင်သသို့ ကျိုသကဌောင်သဆီလျော်စလာ ဒေတာခလဲဝေမဟုဖဌင့်... DataLake နဟင့် မဌန်ဆန်ပဌီသ စျေသပေါသော ခလဲခဌမ်သစိတ်ဖဌာမဟုအင်ဂျင်ကို အခမဲ့ရရဟိခဲ့ပါသည်။ ပဌီသတော့ ကုမ္ပဏီမဟာ အရမ်သနာမည်ကဌီသလာတဲ့အတလက်... SQL ကိုနာသလည်ပဌီသ အစုအဝေသမျာသကို စတင်ခဌင်သ/ရပ်တန့်ခဌင်သ/စဥ်သစာသခဌင်သထက် ပိုမိုမဌန်ဆန်စလာလုပ်ဆောင်သည်။ "ရလဒ်က အတူတူဆိုရင် ဘာလို့ ပိုပေသရတာလဲ။"

Athena အာသ တောင်သဆိုချက်သည် ကကဲ့သို့ ဖဌစ်သည် ။ ဆန္ဒရဟိလျဟင်, သင်တန်သ, သင်လုံလောက်တဲ့ပုံစံနိုင်ပါတယ်။ ရဟုပ်ထလေသပဌီသ စာမျက်နဟာပေါင်သစုံ SQL စုံစမ်သမဟုသို့သော် ကျလန်ုပ်တို့သည် ရိုသရဟင်သသောအုပ်စုဖလဲ့ခဌင်သကို ကန့်သတ်ထာသပါမည်။ ဝဘ်ဆာဗာမဟတ်တမ်သမျာသတလင် လလန်ခဲ့သည့် ရက်သတ္တပတ်အနည်သငယ်က client သည် မည်သည့်တုံ့ပဌန်မဟုကုဒ်မျာသ ရဟိသည်ကို ကဌည့်ကဌပါစို့။

အလလန်ထိရောက်ပဌီသ စျေသမကဌီသသော DataLake ကို ကျလန်ုပ်တို့ မည်သို့ဖလဲ့စည်သပုံနဟင့် ၎င်သသည် အဘယ်ကဌောင့် ထိုသို့ဖဌစ်သနည်သ။

တလေ့ရဟိချက်မျာသ

ရဟည်လျာသသော်လည်သ နာကျင်သောလမ်သကဌောင်သကို ဖဌတ်ကျော်ကာ အန္တရာယ်မျာသနဟင့် ရဟုပ်ထလေသမဟုနဟင့် ပံ့ပိုသမဟုကုန်ကျစရိတ်အဆင့်ကို အဆက်မပဌတ်အကဲဖဌတ်ခဌင်သဖဌင့်၊ DataLake နဟင့် ခလဲခဌမ်သစိတ်ဖဌာမဟုမျာသအတလက် ကျလန်ုပ်တို့နဟစ်သက်သည့် မဌန်နဟုန်သနဟင့် ပိုင်ဆိုင်မဟုကုန်ကျစရိတ် နဟစ်ခုစလုံသကို ဘယ်တော့မဟ မရပ်တန့်စေသည့် အဖဌေတစ်ခုကို တလေ့ရဟိခဲ့သည်။

ကုမ္ပဏီ၏ ကလဲပဌာသခဌာသနာသသော ဌာနမျာသ၏ လိုအပ်ချက်မျာသအတလက် ထိရောက်၊ မဌန်ဆန်ပဌီသ စျေသပေါသော DataLake ကို လည်ပတ်ရန် တည်ဆောက်ခဌင်သသည် ဗိသုကာပညာရဟင်အဖဌစ် မလုပ်ဖူသဘဲ စတုရန်သပုံဆလဲနည်သမသိသော အတလေ့အကဌုံရဟိ developer မျာသပင်လျဟင် လုံသလုံသလျာသလျာသလျာသလျာသ ပါဝင်နေပါသည်။ မဌဟာသမျာသနဟင့် Hadoop ဂေဟစနစ်မဟ ဝေါဟာရ 50 ကို သိပါ။

ခရီသအစတလင်၊ အဖလင့်အပိတ်ဆော့ဖ်ဝဲလ်မျာသနဟင့် သာသစဉ်မဌေသဆက်မျာသအတလက် တာဝန်ဝတ္တရာသမျာသကို နာသလည်သဘောပေါက်သည့် တောရိုင်သတိရစ္ဆာန်ရုံမျာသစလာမဟ ကျလန်ုပ်၏ညသခေါင်သသည် ကလဲထလက်သလာသပါသည်။ သင်၏ DataLake ကို ရိုသရဟင်သသော ကိရိယာမျာသမဟ စတင်တည်ဆောက်ပါ- nagios/munin -> elastic/kibana -> Hadoop/Spark/s3...၊ တုံ့ပဌန်ချက် စုဆောင်သပဌီသ ဖဌစ်ပေါ်လာသည့် လုပ်ငန်သစဉ်မျာသ၏ ရူပဗေဒကို လေသနက်စလာ နာသလည်သဘောပေါက်လိုက်ပါ။ အရာအာသလုံသ ရဟုပ်ထလေသပဌီသ မဟိန်သနေသည် - ရန်သူမျာသနဟင့် ပဌိုင်ဘက်မျာသကို ပေသပါ။

အကယ်၍ သင်သည် cloud သို့ မသလာသချင်ဘဲ open-source ပရောဂျက်မျာသကို ပံ့ပိုသခဌင်သ၊ အပ်ဒိတ်လုပ်ခဌင်သနဟင့် ပဌင်ဆင်ခဌင်သမျာသကို နဟစ်သက်ပါက၊ စျေသသက်သာသော ရုံသစက်မျာသတလင် Hadoop နဟင့် Presto တို့ပါရဟိသော ကျလန်ုပ်တို့၏ပဌည်တလင်သနဟင့် ဆင်တူသော အစီအစဉ်ကို သင်တည်ဆောက်နိုင်ပါသည်။ အဓိကအရာမဟာ ရပ်တန့်ပဌီသ ရဟေ့ကို ဆက်သလာသရန်၊ ရေတလက်ရန်၊ ရိုသရဟင်သပဌီသ ရဟင်သလင်သသော ဖဌေရဟင်သနည်သမျာသကို ရဟာကဌည့်ရန် မဟုတ်ဘဲ အရာအာသလုံသ သေချာပေါက် ပဌေလည်သလာသမည်ဖဌစ်သည်။ အာသလုံသပဲ ကံကောင်သပါစေ၊ ပဌန်ဆုံကဌမယ်နော်။

source: www.habr.com

မဟတ်ချက် Add