በጣም ትልቅ ውሂብን በርካሽ እና በፍጥነት እንዴት ማንቀሳቀስ፣ መስቀል እና ማዋሃድ ይቻላል? የግፊት ማውረድ ማመቻቸት ምንድነው?

ማንኛውም ትልቅ የውሂብ አሠራር ብዙ የኮምፒዩተር ኃይል ይጠይቃል. ከውሂብ ጎታ ወደ ሃዱፕ የሚደረግ የተለመደ የውሂብ ዝውውር ሳምንታት ሊወስድ ወይም እንደ አውሮፕላን ክንፍ ያህል ዋጋ ሊያስከፍል ይችላል። መጠበቅ እና ገንዘብ ማውጣት አይፈልጉም? ጭነቱን በተለያዩ መድረኮች ላይ ማመጣጠን። አንዱ መንገድ የግፊት ማውረድ ማመቻቸት ነው።

ለኢንፎርማቲካ ምርቶች ልማት እና አስተዳደር የሩሲያ መሪ አሰልጣኝ አሌክሲ አናንዬቭ በ Informatica Big Data Management (BDM) ውስጥ ስላለው የግፊት ማሻሻያ ተግባር እንዲናገር ጠየኩት። ከInformatica ምርቶች ጋር መስራት ተምረዋል? የPowerCenterን መሰረታዊ ነገሮች የነገረህ እና የካርታ ስራዎችን እንዴት እንደሚገነባ የገለፀው አሌክሲ ሳይሆን አይቀርም።

አሌክሲ አናንዬቭ, በ DIS ቡድን የስልጠና ኃላፊ

መገፋት ምንድን ነው?

ብዙዎቻችሁ ከኢንፎርማቲካ ቢግ ዳታ አስተዳደር (ቢዲኤም) ጋር አስቀድመው ያውቃሉ። ምርቱ ከተለያዩ ምንጮች ትልቅ ውሂብን ማዋሃድ, በተለያዩ ስርዓቶች መካከል ሊያንቀሳቅሰው, በቀላሉ እንዲደርስበት ያቀርባል, መገለጫውን እንዲገልጹ ያስችልዎታል, እና ሌሎች ብዙ.
በቀኝ እጆች, BDM ተአምራትን ሊያደርግ ይችላል-ተግባራት በፍጥነት እና በትንሹ የኮምፒዩተር ሀብቶች ይጠናቀቃል.

አንተም ይህን ትፈልጋለህ? የኮምፒውቲንግ ጭነትን በተለያዩ መድረኮች ለማሰራጨት በBDM ውስጥ የመግፋት ባህሪን መጠቀምን ይማሩ። Pushdown ቴክኖሎጂ ካርታውን ወደ ስክሪፕት እንዲቀይሩ እና ይህ ስክሪፕት የሚሰራበትን አካባቢ እንዲመርጡ ያስችልዎታል። ይህ ምርጫ የተለያዩ የመሳሪያ ስርዓቶችን ጥንካሬዎች እንዲያጣምሩ እና ከፍተኛ አፈፃፀማቸውን እንዲያሳኩ ያስችልዎታል.

የስክሪፕት ማስፈጸሚያ አካባቢን ለማዋቀር፣ የግፋ መውረድ አይነት መምረጥ ያስፈልግዎታል። ስክሪፕቱ ሙሉ በሙሉ በ Hadoop ላይ ሊሰራ ወይም በከፊል በምንጩ እና በእቃ ማጠቢያ መካከል ሊሰራጭ ይችላል። ሊገፉ የሚችሉ 4 ዓይነቶች አሉ። ካርታ ስራ ወደ ስክሪፕት (ቤተኛ) መቀየር አያስፈልግም። ካርታ መስራት በተቻለ መጠን በምንጩ (ምንጭ) ወይም ሙሉ በሙሉ (ሙሉ) ላይ ሊከናወን ይችላል። ካርታ መስራት ወደ ሃዱፕ ስክሪፕት (ምንም) ሊቀየር ይችላል።

የግፊት ማሻሻያ

የተዘረዘሩት 4 ዓይነቶች በተለያየ መንገድ ሊጣመሩ ይችላሉ - መግፋት ለስርዓቱ ልዩ ፍላጎቶች ማመቻቸት ይቻላል. ለምሳሌ የራሱን አቅም ተጠቅሞ መረጃን ከውሂብ ጎታ ማውጣት ብዙ ጊዜ ተገቢ ነው። እና ዳታቤዙ ራሱ ከመጠን በላይ እንዳይጭን መረጃው Hadoop በመጠቀም ይቀየራል።

ምንጩም መድረሻውም በመረጃ ቋቱ ውስጥ ሲሆኑ፣ እና የትራንስፎርሜሽን ማስፈጸሚያ መድረክ ሊመረጥ በሚችልበት ጊዜ ጉዳዩን እናስብ፡ እንደ ቅንጅቶቹም ኢንፎርማቲካ፣ የውሂብ ጎታ አገልጋይ ወይም ሃዱፕ ይሆናል። እንዲህ ዓይነቱ ምሳሌ የዚህን አሠራር አሠራር ቴክኒካዊ ጎን በትክክል እንድትረዳ ያስችልሃል. በተፈጥሮ, በእውነተኛ ህይወት, ይህ ሁኔታ አይነሳም, ነገር ግን ተግባራዊነትን ለማሳየት በጣም ተስማሚ ነው.

በአንድ Oracle ዳታቤዝ ውስጥ ሁለት ጠረጴዛዎችን ለማንበብ ካርታ እንውሰድ። እና የንባብ ውጤቶቹ በተመሳሳይ የውሂብ ጎታ ውስጥ በሰንጠረዥ ውስጥ ይመዝገቡ። የካርታ ስራው እንደሚከተለው ይሆናል-

በጣም ትልቅ ውሂብን በርካሽ እና በፍጥነት እንዴት ማንቀሳቀስ፣ መስቀል እና ማዋሃድ ይቻላል? የግፊት ማውረድ ማመቻቸት ምንድነው?

በ Informatica BDM 10.2.1 ላይ በካርታ ስራ መልክ ይህን ይመስላል፡-

በጣም ትልቅ ውሂብን በርካሽ እና በፍጥነት እንዴት ማንቀሳቀስ፣ መስቀል እና ማዋሃድ ይቻላል? የግፊት ማውረድ ማመቻቸት ምንድነው?

የግፊት አይነት - ቤተኛ

የፑሻውን ቤተኛ አይነት ከመረጥን ካርታው በ Informatica አገልጋይ ላይ ይከናወናል. ውሂቡ ከOracle አገልጋይ ይነበባል፣ ወደ ኢንፎርማቲካ አገልጋይ ይዛወራል፣ ወደዚያ ይቀየራል እና ወደ ሃዱፕ ይተላለፋል። በሌላ አነጋገር መደበኛ የኢቲኤል ሂደት እናገኛለን።

የግፊት አይነት - ምንጭ

የምንጩን አይነት በምንመርጥበት ጊዜ ሂደታችንን በውሂብ ጎታ አገልጋይ (ዲቢ) እና በሃዱፕ መካከል የማሰራጨት እድል እናገኛለን። በዚህ ቅንብር አንድ ሂደት ሲተገበር ከሰንጠረዦች ላይ ውሂብን የማውጣት ጥያቄዎች ወደ ዳታቤዝ ይላካሉ። እና ቀሪው በ Hadoop ላይ በደረጃዎች መልክ ይከናወናል.
የማስፈጸሚያ ሥዕላዊ መግለጫው ይህንን ይመስላል።

በጣም ትልቅ ውሂብን በርካሽ እና በፍጥነት እንዴት ማንቀሳቀስ፣ መስቀል እና ማዋሃድ ይቻላል? የግፊት ማውረድ ማመቻቸት ምንድነው?

ከዚህ በታች የማስኬጃ አካባቢን የማዋቀር ምሳሌ ነው።

በጣም ትልቅ ውሂብን በርካሽ እና በፍጥነት እንዴት ማንቀሳቀስ፣ መስቀል እና ማዋሃድ ይቻላል? የግፊት ማውረድ ማመቻቸት ምንድነው?

በዚህ ሁኔታ ካርታ መስራት በሁለት ደረጃዎች ይከናወናል. በቅንጅቶቹ ውስጥ ወደ ምንጩ የሚላክ ስክሪፕት መቀየሩን እናያለን። ከዚህም በላይ ሰንጠረዦችን በማጣመር እና ውሂብን በመለወጥ በምንጩ ላይ በተሻረ መጠይቅ መልክ ይከናወናል.
ከታች ባለው ሥዕል፣ በBDM ላይ የተመቻቸ ካርታ ስራ እና በምንጩ ላይ እንደገና የተገለጸ ጥያቄን እናያለን።

በጣም ትልቅ ውሂብን በርካሽ እና በፍጥነት እንዴት ማንቀሳቀስ፣ መስቀል እና ማዋሃድ ይቻላል? የግፊት ማውረድ ማመቻቸት ምንድነው?

በዚህ ውቅር ውስጥ የሃዱፕ ሚና የውሂብ ፍሰትን ወደ ማቀናበር ይቀንሳል - በማቀናበር ላይ። የጥያቄው ውጤት ወደ Hadoop ይላካል። ንባቡ ከተጠናቀቀ በኋላ ከሃዱፕ የሚገኘው ፋይል ወደ ማጠቢያ ገንዳ ይጻፋል።

የግፊት አይነት - ሙሉ

ሙሉውን አይነት ሲመርጡ ካርታ ስራ ሙሉ በሙሉ ወደ የውሂብ ጎታ መጠይቅ ይቀየራል። እና የጥያቄው ውጤት ወደ ሃዱፕ ይላካል። የእንደዚህ አይነት ሂደት ንድፍ ከዚህ በታች ቀርቧል.

በጣም ትልቅ ውሂብን በርካሽ እና በፍጥነት እንዴት ማንቀሳቀስ፣ መስቀል እና ማዋሃድ ይቻላል? የግፊት ማውረድ ማመቻቸት ምንድነው?

አንድ ምሳሌ ማዋቀር ከዚህ በታች ይታያል።

በጣም ትልቅ ውሂብን በርካሽ እና በፍጥነት እንዴት ማንቀሳቀስ፣ መስቀል እና ማዋሃድ ይቻላል? የግፊት ማውረድ ማመቻቸት ምንድነው?

በውጤቱም፣ ከቀዳሚው ጋር የሚመሳሰል የተመቻቸ ካርታ እናገኛለን። ብቸኛው ልዩነት ሁሉም አመክንዮዎች ወደ ተቀባዩ መጨመሩን በመሻር መልክ መተላለፉ ነው. የተመቻቸ የካርታ ስራ ምሳሌ ከዚህ በታች ቀርቧል።

በጣም ትልቅ ውሂብን በርካሽ እና በፍጥነት እንዴት ማንቀሳቀስ፣ መስቀል እና ማዋሃድ ይቻላል? የግፊት ማውረድ ማመቻቸት ምንድነው?

እዚህ, ልክ እንደ ቀድሞው ሁኔታ, ሃዱፕ የመምራት ሚና ይጫወታል. ግን እዚህ ምንጩ ሙሉ በሙሉ ይነበባል, ከዚያም የውሂብ ሂደት አመክንዮ በተቀባዩ ደረጃ ይከናወናል.

የመግፋት አይነት ባዶ ነው።

ደህና፣ የመጨረሻው አማራጭ የመግፊያ አይነት ነው፣ በውስጡም ካርታ ስራችን ወደ ሃዱፕ ስክሪፕት ይቀየራል።

የተሻሻለው ካርታ አሁን ይህን ይመስላል፡-

በጣም ትልቅ ውሂብን በርካሽ እና በፍጥነት እንዴት ማንቀሳቀስ፣ መስቀል እና ማዋሃድ ይቻላል? የግፊት ማውረድ ማመቻቸት ምንድነው?

እዚህ ከምንጩ ፋይሎች የተገኘው መረጃ በመጀመሪያ Hadoop ላይ ይነበባል። ከዚያም የራሱን መንገድ በመጠቀም እነዚህ ሁለት ፋይሎች ይጣመራሉ. ከዚህ በኋላ ውሂቡ ተለውጦ ወደ ዳታቤዝ ይሰቀላል።

የግፊት ማሻሻያ መርሆዎችን በመረዳት ከትልቅ ውሂብ ጋር ለመስራት ብዙ ሂደቶችን በብቃት ማደራጀት ይችላሉ። ስለዚህ፣ በቅርብ ጊዜ፣ አንድ ትልቅ ኩባንያ፣ ከጥቂት ሳምንታት በፊት፣ ቀደም ሲል ለበርካታ አመታት የሰበሰበውን፣ ትልቅ መረጃን ከማከማቻው ወደ ሃዱፕ አውርዷል።

ምንጭ: hab.com

አስተያየት ያክሉ