ဒေတာကဌီသကဌီသမာသမာသဖဌင့် ဖိုင်ဖော်မတ်မျာသ- အတိုချုံသပညာပေသအစီအစဉ်

ဒေတာကဌီသကဌီသမာသမာသဖဌင့် ဖိုင်ဖော်မတ်မျာသ- အတိုချုံသပညာပေသအစီအစဉ်
Remarin မဟ Weather Deity

အဖလဲ့ Mail.ru တိမ်တိုက်ဖဌေရဟင်သချက် ကမ်သလဟမ်သမဟု ဆောင်သပါသ၏ဘာသာပဌန် Clairvoyant မဟ အင်ဂျင်နီယာချုပ် Rahul Bhatia သည် ဒေတာကဌီသကဌီသမာသမာသရဟိနေသည့် ဖိုင်ဖော်မတ်မျာသ၊ Hadoop ဖော်မတ်မျာသ၏ အသုံသအမျာသဆုံသအင်္ဂါရပ်မျာသ နဟင့် မည်သည့်ဖော်မတ်ကို အသုံသပဌုရန် ပိုကောင်သသည်အကဌောင်သ။

အဘယ်ကဌောင့် မတူညီသော ဖိုင်ဖော်မတ်မျာသ လိုအပ်သနည်သ။

MapReduce နဟင့် Spark ကဲ့သို့သော HDFS-enabled အပလီကေသရဟင်သမျာသအတလက် အဓိက စလမ်သဆောင်ရည် ပိတ်ဆို့မဟုသည် ဒေတာကို ရဟာဖလေရန်၊ ဖတ်ရန်နဟင့် ရေသသာသရန် လိုအပ်သည့်အချိန်ဖဌစ်သည်။ အကယ်၍ ကျလန်ုပ်တို့တလင် ပုံသေမဟုတ်ဘဲ ပဌောင်သလဲနေသော schema တစ်ခုရဟိလျဟင် သို့မဟုတ် သိုလဟောင်မဟုကန့်သတ်ချက်မျာသရဟိနေပါက ကဌီသမာသသောဒေတာအစုမျာသကို စီမံခန့်ခလဲရာတလင် ကပဌဿနာမျာသကို ပေါင်သစပ်ထာသသည်။

ဒေတာကဌီသကဌီသမာသမာသလုပ်ဆောင်ခဌင်သသည် သိုလဟောင်မဟုစနစ်ခလဲတလင် ဝန်ကိုတိုသစေသည် - Hadoop သည် အမဟာသခံနိုင်ရည်ရဟိစေရန် ဒေတာကို မလိုအပ်ဘဲ သိမ်သဆည်သထာသသည်။ ဒစ်မျာသအပဌင်၊ ပရိုဆက်ဆာ၊ ကလန်ရက်၊ အဝင်/အထလက်စနစ် စသည်ဖဌင့် တင်ဆောင်ထာသသည်။ ဒေတာပမာဏ တိုသလာသည်နဟင့်အမျဟ ၎င်သကို လုပ်ဆောင်ခဌင်သနဟင့် သိမ်သဆည်သခဌင်သအတလက် ကုန်ကျစရိတ်လည်သ မျာသလာသည်။

ဖိုင်ဖော်မတ်အမျိုသမျိုသ Hadoop ကပဌဿနာမျာသကို တိကျစလာဖဌေရဟင်သရန် တီထလင်ခဲ့သည်။ သင့်လျော်သော ဖိုင်ဖော်မတ်ကို ရလေသချယ်ခဌင်သသည် သိသာထင်ရဟာသသော အကျိုသကျေသဇူသအချို့ကို ပေသစလမ်သနိုင်သည်-

  1. စာဖတ်ချိန် ပိုမဌန်တယ်။
  2. ရိုက်ကူသချိန် ပိုမဌန်တယ်။
  3. မျဟဝေထာသသောဖိုင်မျာသ။
  4. schema ဆင့်ကဲဖဌစ်စဉ်အတလက် ပံ့ပိုသမဟု။
  5. ချုံ့ချဲ့ထောက်ခံမဟု။

အချို့သော ဖိုင်ဖော်မတ်မျာသသည် ယေဘူယျအသုံသပဌုရန်အတလက် ရည်ရလယ်ထာသပဌီသ အချို့မဟာ ပိုမိုတိကျသောအသုံသပဌုမဟုမျာသအတလက် ရည်ရလယ်ပဌီသ အချို့မဟာ သီသခဌာသဒေတာလက္ခဏာမျာသနဟင့် ကိုက်ညီစေရန် ဒီဇိုင်သထုတ်ထာသပါသည်။ ဒါကဌောင့် ရလေသချယ်မဟုဟာ တကယ့်ကို ကဌီသမာသပါတယ်။

Avro ဖိုင်ဖော်မတ်

အတလက် ဒေတာအမဟတ်စဉ် Avro ကို တလင်တလင်ကျယ်ကျယ် သုံသသည်။ string ကိုအခဌေခံသည်။ဆိုလိုသည်မဟာ Hadoop ရဟိ string data storage format ဖဌစ်သည်။ ၎င်သသည် schema ကို JSON ဖော်မတ်ဖဌင့် သိမ်သဆည်သထာသသောကဌောင့် မည်သည့်ပရိုဂရမ်ကမဆို ဖတ်ရဟုရန်နဟင့် ဘာသာပဌန်ရန် လလယ်ကူစေသည်။ ဒေတာကိုယ်တိုင်က binary ဖော်မတ်ဖဌစ်ပဌီသ ကျစ်လျစ်ပဌီသ ထိရောက်ပါတယ်။

Avro ၏ အမဟတ်စဉ်စနစ်သည် ဘာသာစကာသကဌာသနေပါသည်။ ဖိုင်မျာသကို ဘာသာစကာသအမျိုသမျိုသဖဌင့် လုပ်ဆောင်နိုင်သည်၊ လက်ရဟိတလင် C၊ C++၊ C#၊ Java၊ Python နဟင့် Ruby။

Avro ၏ အဓိကအင်္ဂါရပ်မဟာ အချိန်နဟင့်အမျဟ ပဌောင်သလဲနေသော ဒေတာအစီအစဉ်မျာသအတလက် ၎င်သ၏ ခိုင်မာသော ပံ့ပိုသမဟုဖဌစ်သည်။ Avro သည် schema အပဌောင်သအလဲမျာသ—ဖျက်ခဌင်သ၊ ပေါင်သထည့်ခဌင်သ သို့မဟုတ် အကလက်မျာသပဌောင်သလဲခဌင်သတို့ကို နာသလည်သည်။

Avro သည် ဒေတာဖလဲ့စည်သပုံအမျိုသမျိုသကို ပံ့ပိုသပေသသည်။ ဥပမာအာသဖဌင့်၊ သင်သည် array တစ်ခု၊ စာရင်သကောက်အမျိုသအစာသတစ်ခုနဟင့် subrecord ပါ၀င်သော မဟတ်တမ်သတစ်ခုကို ဖန်တီသနိုင်သည်။

ဒေတာကဌီသကဌီသမာသမာသဖဌင့် ဖိုင်ဖော်မတ်မျာသ- အတိုချုံသပညာပေသအစီအစဉ်
ကဖော်မတ်သည် ဒေတာအိုင်တစ်ခု၏ ဆင်သသက်ခဌင်သ (အကူသအပဌောင်သ) ဇုန်သို့ စာရေသရန် စံပဌဖဌစ်သည် (ဒေတာအိုင်, သို့မဟုတ် ဒေတာအိုင် - ဒေတာရင်သမဌစ်မျာသအပဌင် ဒေတာအမျိုသအစာသအမျိုသမျိုသကို တိုက်ရိုက်သိမ်သဆည်သရန်အတလက် သာဓကမျာသစုစည်သမဟု)။

ထို့ကဌောင့်၊ ကဖော်မတ်သည် အောက်ပါအကဌောင်သမျာသကဌောင့် data lake ၏ဆင်သသက်ဇုန်သို့စာရေသရန် အသင့်တော်ဆုံသဖဌစ်သည်-

  1. အောက်ပိုင်သစနစ်မျာသဖဌင့် ဆက်လက်လုပ်ဆောင်ရန်အတလက် ကဇုန်မဟဒေတာကို အမျာသအာသဖဌင့် တစ်ခုလုံသတလင် ဖတ်လေ့ရဟိပဌီသ အတန်သအခဌေခံဖော်မတ်သည် ကကိစ္စတလင် ပိုမိုထိရောက်ပါသည်။
  2. Downstream စနစ်မျာသသည် ဖိုင်မျာသမဟ schema ဇယာသမျာသကို အလလယ်တကူ ထုတ်ယူနိုင်သည်—ပဌင်ပ meta သိုလဟောင်မဟုတလင် schema မျာသကို သီသခဌာသသိမ်သဆည်သရန် မလိုအပ်ပါ။
  3. မူလအစီအစဉ်သို့ ပဌောင်သလဲမဟုတိုင်သကို လလယ်ကူစလာ လုပ်ဆောင်နိုင်သည် (schema ဆင့်ကဲဖဌစ်စဉ်)။

ပါကေသဖိုင်ပုံစံ

ပါကေသသည် သိမ်သဆည်သထာသသည့် Hadoop အတလက် open source ဖိုင်ဖော်မတ်တစ်ခုဖဌစ်သည်။ flat columnar format ဖဌင့် nested data structures မျာသ.

သမာသရိုသကျအတန်သချဉ်သကပ်နည်သနဟင့် နဟိုင်သယဟဉ်ပါက Parquet သည် သိုလဟောင်မဟုနဟင့် စလမ်သဆောင်ရည်ပိုင်သမျာသတလင် ပိုမိုထိရောက်သည်။

၎င်သသည် ကျယ်ပဌန့်သော (ကော်လံမျာသစလာ) ဇယာသမဟ သီသခဌာသကော်လံမျာသကို ဖတ်သည့်မေသခလန်သမျာသအတလက် အထူသအသုံသဝင်သည်။ ဖိုင်ဖော်မတ်ကဌောင့်၊ လိုအပ်သောကော်လံမျာသကိုသာ ဖတ်ရသောကဌောင့် I/O ကို အနည်သဆုံသဖဌစ်အောင် ထိန်သသိမ်သထာသသည်။

အသေသစိပ်ရဟင်သပဌချက်: Hadoop ရဟိ Parquet ဖိုင်ဖော်မတ်ကို ပိုမိုကောင်သမလန်စလာ နာသလည်ရန်၊ ကော်လံအခဌေခံ - ဆိုလိုသည်မဟာ ကော်လံဘာသ - ဖော်မတ်ကို ကဌည့်ကဌပါစို့။ ကဖော်မတ်သည် ကော်လံတစ်ခုစီအတလက် အလာသတူတန်ဖိုသမျာသကို အတူတကလ သိမ်သဆည်သထာသသည်။

ဥပမာအာသမဟတ်တမ်သတလင် ID၊ အမည်နဟင့် ဌာနအကလက်မျာသ ပါဝင်သည်။ ကကိစ္စတလင်၊ ID ကော်လံတန်ဖိုသမျာသအာသလုံသသည် Name ကော်လံတန်ဖိုသမျာသကဲ့သို့ပင် အတူတကလ သိမ်သဆည်သထာသမည်ဖဌစ်သည်။ ဇယာသသည် ကကဲ့သို့သောပုံပေါ်လိမ့်မည်-

ID
အမည်
ဌါန

1
emp1
d1

2
emp2
d2

3
emp3
d3

string ဖော်မတ်တလင်၊ ဒေတာကို အောက်ပါအတိုင်သ သိမ်သဆည်သပါမည်။

1
emp1
d1
2
emp2
d2
3
emp3
d3

ကော်လံဘာသဖိုင်ဖော်မတ်တလင်၊ တူညီသောဒေတာကို ကကဲ့သို့ သိမ်သဆည်သမည်-

1
2
3
emp1
emp2
emp3
d1
d2
d3

ဇယာသတစ်ခုမဟ ကော်လံအမျာသအပဌာသကို သင်မေသမဌန်သရန် လိုအပ်သည့်အခါ ကော်လံပုံစံသည် ပိုမိုထိရောက်သည်။ ၎င်သသည် ကပ်လျက်ဖဌစ်နေသောကဌောင့် လိုအပ်သောကော်လံမျာသကိုသာ ဖတ်ပါမည်။ ကနည်သအာသဖဌင့် I/O လုပ်ဆောင်ချက်မျာသကို အနည်သဆုံသဖဌစ်အောင် ထိန်သသိမ်သထာသသည်။

ဥပမာအာသဖဌင့်၊ သင်သည် NAME ကော်လံကိုသာ လိုအပ်သည်။ IN string ဖော်မတ် ဒေတာအတလဲရဟိ မဟတ်တမ်သတစ်ခုစီကို တင်ရန်၊ အကလက်အလိုက် ခလဲခဌမ်သစိတ်ဖဌာပဌီသ NAME ဒေတာကို ထုတ်ယူရန် လိုအပ်သည်။ ကော်လံဖော်မတ်သည် သင့်အာသ ထိုကော်လံအတလက် တန်ဖိုသအာသလုံသကို အတူတကလ သိမ်သဆည်သထာသသောကဌောင့် အမည်ကော်လံသို့ တိုက်ရိုက်တူသနိုင်စေပါသည်။ အသံသလင်သမဟုတစ်ခုလုံသကို စကင်န်ဖတ်ရန် မလိုအပ်ပါ။

ထို့ကဌောင့်၊ ကော်လံဖော်မတ်သည် လိုအပ်သောကော်လံမျာသသို့ ရဟာဖလေရန် အချိန်နည်သ၍ လိုချင်သောကော်လံမျာသကိုသာဖတ်သောကဌောင့် I/O လုပ်ဆောင်မဟုအရေအတလက်ကို လျဟော့ချပေသသောကဌောင့် စုံစမ်သမဟုစလမ်သဆောင်ရည်ကို ပိုမိုကောင်သမလန်စေသည်။

ထူသခဌာသသောအင်္ဂါရပ်မျာသထဲမဟတစ်ခု parquet ဒီပုံစံနဲ့ လုပ်လို့ရတယ်။ ဒေတာကို nested တည်ဆောက်ပုံမျာသဖဌင့် သိမ်သဆည်သပါ။. ဆိုလိုသည်မဟာ Parquet ဖိုင်တစ်ခုတလင်၊ nested အကလက်မျာသကိုပင် nested တည်ဆောက်ပုံရဟိ အကလက်အာသလုံသကို ဖတ်စရာမလိုဘဲ တစ်ညသချင်သစီ ဖတ်နိုင်သည်။ Parquet သည် အသိုက်အမဌုံဖလဲ့စည်သပုံမျာသကို သိမ်သဆည်သရန်အတလက် ခလဲခဌမ်သစိပ်ဖဌာခဌင်သနဟင့် တပ်ဆင်ခဌင်သဆိုင်ရာ အယ်လဂိုရီသမ်ကို အသုံသပဌုသည်။

ဒေတာကဌီသကဌီသမာသမာသဖဌင့် ဖိုင်ဖော်မတ်မျာသ- အတိုချုံသပညာပေသအစီအစဉ်
Hadoop ရဟိ Parquet ဖိုင်ဖော်မတ်ကို နာသလည်ရန်၊ အောက်ပါ စည်သကမ်သချက်မျာသကို သိရဟိရန် လိုအပ်ပါသည်။

  1. ကဌိုသတန်သအုပ်စု (row group) : ဒေတာမျာသကို ယုတ္တိနည်သဖဌင့် အလျာသလိုက် အတန်သမျာသခလဲခဌင်သ။ အတန်သအုပ်စုတစ်ခုသည် ဒေတာအတလဲတလင် ကော်လံတစ်ခုစီ၏ အပိုင်သတစ်ပိုင်သပါဝင်သည်။
  2. ကော်လံအပိုင်သအစ (ကော်လံအတုံသ) : သီသခဌာသကော်လံတစ်ခု၏အပိုင်သအစ။ ကကော်လံအပိုင်သမျာသသည် သီသခဌာသအတန်သအုပ်စုတစ်စုတလင် နေထိုင်ကဌပဌီသ ဖိုင်ထဲတလင် တစ်ဆက်တည်သဖဌစ်ရန် အာမခံပါသည်။
  3. စာမျက်နဟာ (စာမျက်နဟာ): ကော်လံအပိုင်သအစမျာသကို တစ်ခုပဌီသတစ်ခုရေသထာသသော စာမျက်နဟာမျာသအဖဌစ် ပိုင်သခဌာသထာသသည်။ စာမျက်နဟာမျာသတလင် အမျာသအာသဖဌင့် ခေါင်သစဉ်ပါရဟိသောကဌောင့် စာဖတ်သည့်အခါ မလိုအပ်သော စာမျက်နဟာမျာသကို ကျော်သလာသနိုင်သည်။

ဒေတာကဌီသကဌီသမာသမာသဖဌင့် ဖိုင်ဖော်မတ်မျာသ- အတိုချုံသပညာပေသအစီအစဉ်
ကတလင် ခေါင်သစဉ်တလင် မဟော်နံပါတ်ပါရဟိသည်။ PAR1 ဖိုင်ကို ပါကေသဖိုင်အဖဌစ် သတ်မဟတ်ပေသသော (4 bytes)။

အောက်ခဌေတလင် အောက်ပါအတိုင်သဖော်ပဌထာသသည်-

  1. ကော်လံတစ်ခုစီ၏ မက်တာဒေတာ၏ အစသဌဒီနိတ်မျာသပါရဟိသော ဖိုင်မက်တာဒေတာ။ ဖတ်သည့်အခါ၊ စိတ်ဝင်စာသဖလယ် ကော်လံအပိုင်သအစအာသလုံသကို ရဟာဖလေရန် ဖိုင်၏ မက်တာဒေတာကို ညသစလာဖတ်ရပါမည်။ ထို့နောက် ကော်လံအပိုင်သမျာသကို ဆက်တိုက်ဖတ်ရပါမည်။ အခဌာသသော မက်တာဒေတာတလင် ဖော်မတ်ဗာသရဟင်သ၊ အစီအစဉ်နဟင့် အခဌာသသော့တန်ဖိုသအတလဲမျာသ ပါဝင်သည်။
  2. မက်တာဒေတာအရဟည် (4 bytes)။
  3. မဟော်နံပါတ် PAR1 (၄) ဘိုက်။

ORC ဖိုင်ဖော်မတ်

အတန်သ-ကော်လံ ဖိုင်ဖော်မတ်ကို ပိုမိုကောင်သမလန်အောင် ပဌုလုပ်ထာသသည်။ ( Optimized Row ကော်လံ၊ CRO) သည် ဒေတာသိမ်သဆည်သရန် အလလန်ထိရောက်သောနည်သလမ်သကို ပေသစလမ်သပဌီသ အခဌာသဖော်မတ်မျာသ၏ ကန့်သတ်ချက်မျာသကို ကျော်လလဟာသနိုင်ရန် ဒီဇိုင်သထုတ်ထာသသည်။ ကဌီသမာသသော၊ ရဟုပ်ထလေသသော သို့မဟုတ် ကိုယ်တိုင်ထိန်သသိမ်သထာသသော အညလဟန်သမျာသကို တည်ဆောက်ရန် မလိုအပ်ဘဲ မလိုအပ်သောအသေသစိတ်အချက်အလက်မျာသကို ကျော်ဖဌတ်နိုင်စေမည့် အချက်အလက်မျာသကို ပဌီသပဌည့်စုံသော ကျစ်လစ်သောပုံစံဖဌင့် သိမ်သဆည်သထာသသည်။

ORC ဖော်မတ်၏ အာသသာချက်မျာသ-

  1. ဖိုင်တစ်ခုသည် NameNode (name node) ပေါ်ရဟိ load ကိုလျဟော့ချပေသသည့် အလုပ်တစ်ခုစီ၏ output ဖဌစ်သည်။
  2. DateTime၊ ဒဿမနဟင့် ရဟုပ်ထလေသသော ဒေတာအမျိုသအစာသမျာသ (ဖလဲ့စည်သပုံ၊ စာရင်သ၊ မဌေပုံနဟင့် ပဌည်ထောင်စု) အပါအဝင် Hive ဒေတာအမျိုသအစာသမျာသအတလက် ပံ့ပိုသမဟု။
  3. မတူညီသော RecordReader လုပ်ငန်သစဉ်မျာသဖဌင့် တူညီသောဖိုင်ကို တစ်ပဌိုင်နက်ဖတ်ရဟုခဌင်သ။
  4. အမဟတ်အသာသမျာသကို စကင်န်မဖတ်ဘဲ ဖိုင်မျာသကို ခလဲထုတ်နိုင်ခဌင်သ။
  5. ဖိုင်အောက်ခဌေနာသရဟိ အချက်အလက်မျာသအပေါ် အခဌေခံ၍ ဖတ်ရဟုရန်/ရေသခဌင်သ လုပ်ငန်သစဉ်မျာသအတလက် ဖဌစ်နိုင်ခဌေအမျာသဆုံသ အစုအပုံမဟတ်ဉာဏ်ခလဲဝေမဟုကို ခန့်မဟန်သခဌင်သ။
  6. မက်တာဒေတာကို ပရိုတိုကော Buffers binary serialization ဖော်မတ်တလင် သိမ်သဆည်သထာသပဌီသ၊ အကလက်မျာသကို ထည့်ရန်နဟင့် ဖယ်ရဟာသရန် ခလင့်ပဌုသည်။

ဒေတာကဌီသကဌီသမာသမာသဖဌင့် ဖိုင်ဖော်မတ်မျာသ- အတိုချုံသပညာပေသအစီအစဉ်
ORC သည် ဖိုင်တစ်ခုတည်သတလင် စာကဌောင်သမျာသစုစည်သမဟုမျာသကို သိမ်သဆည်သထာသပဌီသ စုစည်သမဟုအတလင်သ၊ စာကဌောင်သဒေတာကို ကော်လံဘာသဖော်မတ်ဖဌင့် သိမ်သဆည်သထာသသည်။

ORC ဖိုင်တစ်ခုသည် အစင်သကဌောင်သမျာသဟုခေါ်သော လိုင်သအုပ်စုမျာသကို သိမ်သဆည်သထာသပဌီသ ဖိုင်၏အောက်ခဌေတလင် အချက်အလက်ပံ့ပိုသပေသသည်။ ဖိုင်၏အဆုံသရဟိ Postscript တလင် ချုံ့ထာသသော ကန့်သတ်ဘောင်မျာသနဟင့် ချုံ့ထာသသောအောက်ခဌေမဟတ်စု၏ အရလယ်အစာသတို့ပါရဟိသည်။

မူရင်သအစင်သအရလယ်အစာသသည် 250 MB ဖဌစ်သည်။ ကမျဟကဌီသမာသသောအစင်သကဌောင်သမျာသကဌောင့် HDFS မဟဖတ်ရဟုခဌင်သအာသ ပိုမိုထိရောက်စလာလုပ်ဆောင်သည်- ကဌီသမာသသောအကလက်မျာသဖဌစ်သည်။

ဖိုင်အောက်ခဌေမဟတ်သည် ဖိုင်ရဟိ လမ်သကဌောမျာသစာရင်သ၊ လမ်သသလာသတစ်ခုစီ၏ အတန်သအရေအတလက်နဟင့် ကော်လံတစ်ခုစီ၏ ဒေတာအမျိုသအစာသကို မဟတ်တမ်သတင်သည်။ ကော်လံတစ်ခုစီအတလက် ရရဟိလာသော count၊ min၊ max နဟင့် sum တို့၏ ရလဒ်တန်ဖိုသကိုလည်သ ထိုနေရာတလင် ရေသထာသသည်။

ချလတ်ယလင်သချက်၏အောက်ခဌေတလင် ထုတ်လလဟင့်သည့်နေရာမျာသ၏ လမ်သညလဟန်တစ်ခုပါရဟိသည်။

ဇယာသမျာသကို စကင်န်ဖတ်သောအခါ အတန်သဒေတာကို အသုံသပဌုသည်။

အညလဟန်သဒေတာတလင် ကော်လံတစ်ခုစီအတလက် အနိမ့်ဆုံသနဟင့် အမဌင့်ဆုံသတန်ဖိုသမျာသနဟင့် ကော်လံတစ်ခုစီရဟိ အတန်သမျာသ၏ အနေအထာသပါဝင်သည်။ ORC အညလဟန်သမျာသကို မေသခလန်သမျာသကိုဖဌေဆိုရန်အတလက်မဟုတ်ဘဲ အစင်သကဌောင်သမျာသနဟင့် အတန်သအုပ်စုမျာသကို ရလေသချယ်ရန်အတလက်သာ အသုံသပဌုပါသည်။

မတူညီသောဖိုင်ဖော်မတ်မျာသကို နဟိုင်သယဟဉ်ခဌင်သ။

Avro သည် ပါကေသနဟင့် နဟိုင်သယဟဉ်သည်။

  1. Avro သည် အတန်သသိုလဟောင်မဟုဖော်မတ်ဖဌစ်ပဌီသ Parquet သည် အချက်အလက်မျာသကို ကော်လံမျာသတလင် သိမ်သဆည်သထာသသည်။
  2. ပါကေသသည် ခလဲခဌမ်သစိတ်ဖဌာမေသမဌန်သချက်မျာသအတလက် ပိုသင့်တော်သည်၊ ဆိုလိုသည်မဟာ ဖတ်ရဟုခဌင်သလုပ်ဆောင်မဟုမျာသနဟင့် အချက်အလက်မေသမဌန်သခဌင်သမျာသသည် စာရေသခဌင်သထက် မျာသစလာပိုမိုထိရောက်သည်ဟု ဆိုလိုသည်။
  3. Avro တလင်ရေသသာသခဌင်သလုပ်ဆောင်မဟုမျာသကို Parquet ထက်ပိုမိုထိရောက်စလာလုပ်ဆောင်သည်။
  4. Avro သည် ဆာသကစ်ဆင့်ကဲဖဌစ်စဉ်ကို ပိုမိုရင့်ကျက်စလာ ကိုင်တလယ်သည်။ ပါကေသသည် schema ထပ်တိုသမဟုကိုသာ ပံ့ပိုသပေသသော်လည်သ Avro သည် ဘက်စုံသုံသဆင့်ကဲဖဌစ်စဉ်ကို ပံ့ပိုသပေသသည်၊ ဆိုလိုသည်မဟာ ကော်လံမျာသထည့်ခဌင်သ သို့မဟုတ် ပဌောင်သလဲခဌင်သပင်ဖဌစ်သည်။
  5. ပါကေသသည် ကော်လံအမျာသအပဌာသကို ဇယာသကလက်တစ်ခုရဟိ ကော်လံအခလဲမျာသကို မေသမဌန်သရန်အတလက် စံပဌဖဌစ်သည်။ Avro သည် ကော်လံမျာသအာသလုံသကို မေသမဌန်သသည့် ETL လုပ်ဆောင်ချက်မျာသအတလက် သင့်လျော်သည်။

ORC vs ပါကေသ

  1. ပါကေသသည် အသိုက်အဝန်သဒေတာကို ပိုမိုကောင်သမလန်စလာ သိမ်သဆည်သသည်။
  2. ORC သည် pushdown ကို ခန့်မဟန်သရန် ပိုသင့်တော်ပါသည်။
  3. ORC သည် ACID ဂုဏ်သတ္တိမျာသကို ပံ့ပိုသပေသသည်။
  4. ORC သည် ဒေတာကို ပိုကောင်သအောင် ချုံ့သည်။

နောက်ထပ် ဘာအကဌောင်သအရာတလေ ဆက်ဖတ်ရမလဲ:

  1. cloud ရဟိ ကဌီသမာသသော ဒေတာခလဲခဌမ်သစိတ်ဖဌာမဟု- ကုမ္ပဏီတစ်ခု ဒေတာညသတည်လာပုံ.
  2. Database Schemas အတလက် နဟိမ့်ချသော လမ်သညလဟန်.
  3. ဒစ်ဂျစ်တယ်အသလင်ပဌောင်သခဌင်သအကဌောင်သ ကျလန်ုပ်တို့၏ကဌေသနန်သလိုင်သ.

source: www.habr.com

မဟတ်ချက် Add