Giunsa ang paglihok, pag-upload ug pag-integrate sa dako kaayo nga datos nga barato ug dali? Unsa ang pushdown optimization?

Ang bisan unsang dagkong operasyon sa datos nanginahanglan daghang gahum sa pag-compute. Ang kasagaran nga paglihok sa datos gikan sa usa ka database ngadto sa Hadoop mahimong molungtad og mga semana o gasto sama sa pako sa eroplano. Dili gusto maghulat ug mogasto og kwarta? Balanse ang load sa lain-laing mga plataporma. Usa ka paagi mao ang pushdown optimization.

Gipangutana nako ang nanguna nga tigbansay sa Russia alang sa pagpalambo ug pagdumala sa mga produkto sa Informatica, si Alexey Ananyev, aron hisgutan ang function sa pag-optimize sa pushdown sa Informatica Big Data Management (BDM). Nakakat-on ka na ba sa pagtrabaho sa mga produkto sa Informatica? Lagmit, si Alexey ang nagsulti kanimo sa mga sukaranan sa PowerCenter ug gipatin-aw kung giunsa paghimo ang mga mapping.

Alexey Ananyev, pangulo sa pagbansay sa DIS Group

Unsa ang pushdown?

Daghan kaninyo ang pamilyar na sa Informatica Big Data Management (BDM). Ang produkto makahimo sa pag-integrate sa dagkong datos gikan sa lain-laing mga tinubdan, pagbalhin niini tali sa lain-laing mga sistema, paghatag og sayon ​​nga pag-access niini, nagtugot kanimo sa pag-profile niini, ug daghan pa.
Sa tuo nga mga kamot, ang BDM makahimo og mga katingalahan: ang mga buluhaton dali nga mahuman ug adunay gamay nga mga kapanguhaan sa pag-compute.

Gusto ba nimo kana? Pagkat-on sa paggamit sa feature sa pushdown sa BDM aron ipang-apod-apod ang computing load sa lainlaing mga plataporma. Ang teknolohiya sa pushdown nagtugot kanimo sa paghimo sa mapping ngadto sa usa ka script ug pagpili sa palibot diin kini nga script modagan. Kini nga pagpili nagtugot kanimo sa paghiusa sa mga kalig-on sa lain-laing mga plataporma ug pagkab-ot sa ilang maximum performance.

Aron ma-configure ang palibot sa pagpatuman sa script, kinahanglan nimo nga pilion ang tipo sa pagduso. Ang script mahimong bug-os nga ipadagan sa Hadoop o partially-apod-apod tali sa tinubdan ug lababo. Adunay 4 nga posible nga mga tipo sa pagduso. Ang pagmapa dili kinahanglang himoong script (native). Ang pagmapa mahimong himoon kutob sa mahimo sa tinubdan (tinubdan) o sa hingpit sa tinubdan (puno). Ang mapping mahimo usab nga usa ka Hadoop script (wala).

Pag-optimize sa pushdown

Ang nalista nga 4 nga mga tipo mahimong mahiusa sa lainlaing mga paagi - ang pagduso mahimong ma-optimize alang sa piho nga mga panginahanglanon sa sistema. Pananglitan, kasagaran mas tukma ang pagkuha sa datos gikan sa database gamit ang kaugalingong kapabilidad niini. Ug ang datos makombertir gamit ang Hadoop, aron dili ma-overload ang database mismo.

Atong tagdon ang kaso kung ang gigikanan ug ang destinasyon naa sa database, ug ang plataporma sa pagpatuman sa pagbag-o mahimong mapili: depende sa mga setting, kini mahimong Informatica, database server, o Hadoop. Ang ingon nga panig-ingnan magtugot kanimo sa labing tukma nga pagsabut sa teknikal nga bahin sa operasyon niini nga mekanismo. Natural, sa tinuud nga kinabuhi, kini nga kahimtang dili motungha, apan kini labing angay alang sa pagpakita sa pagpaandar.

Atong kuhaon ang mapping aron mabasa ang duha ka mga lamesa sa usa ka database sa Oracle. Ug himoa nga ang mga resulta sa pagbasa marekord sa usa ka lamesa sa parehas nga database. Ang mapping scheme mahimong sama niini:

Giunsa ang paglihok, pag-upload ug pag-integrate sa dako kaayo nga datos nga barato ug dali? Unsa ang pushdown optimization?

Sa porma sa pagmapa sa Informatica BDM 10.2.1 ingon niini:

Giunsa ang paglihok, pag-upload ug pag-integrate sa dako kaayo nga datos nga barato ug dali? Unsa ang pushdown optimization?

Pushdown type – lumad

Kung atong pilion ang pushdown native type, unya ang mapping ipahigayon sa Informatica server. Ang datos basahon gikan sa Oracle server, ibalhin sa Informatica server, mausab didto ug ibalhin sa Hadoop. Sa laing pagkasulti, makakuha kami usa ka normal nga proseso sa ETL.

Pushdown type – tinubdan

Kung gipili ang tipo sa gigikanan, nakakuha kami higayon nga ipanghatag ang among proseso tali sa database server (DB) ug Hadoop. Kung ang usa ka proseso gipatuman sa kini nga setting, ang mga hangyo aron makuha ang datos gikan sa mga lamesa ipadala sa database. Ug ang nahabilin himuon sa porma sa mga lakang sa Hadoop.
Ang execution diagram mahimong sama niini:

Giunsa ang paglihok, pag-upload ug pag-integrate sa dako kaayo nga datos nga barato ug dali? Unsa ang pushdown optimization?

Sa ubos usa ka pananglitan sa pag-set up sa runtime environment.

Giunsa ang paglihok, pag-upload ug pag-integrate sa dako kaayo nga datos nga barato ug dali? Unsa ang pushdown optimization?

Sa kini nga kaso, ang pagmapa himuon sa duha ka mga lakang. Sa mga setting niini atong makita nga kini nahimo nga usa ka script nga ipadala sa gigikanan. Dugang pa, ang paghiusa sa mga lamesa ug pagbag-o sa datos himuon sa porma sa usa ka overridden nga pangutana sa gigikanan.
Sa hulagway sa ubos, atong makita ang usa ka optimized mapping sa BDM, ug usa ka redefined nga pangutana sa tinubdan.

Giunsa ang paglihok, pag-upload ug pag-integrate sa dako kaayo nga datos nga barato ug dali? Unsa ang pushdown optimization?

Ang papel sa Hadoop sa kini nga pagsasaayos maminusan sa pagdumala sa dagan sa datos - pag-orkestra niini. Ang resulta sa pangutana ipadala sa Hadoop. Kung nahuman na ang pagbasa, ang file gikan sa Hadoop isulat sa lababo.

Pushdown type – puno

Kung imong pilion ang tibuuk nga tipo, ang pagmapa hingpit nga mahimong usa ka pangutana sa database. Ug ang resulta sa hangyo ipadala sa Hadoop. Ang usa ka diagram sa ingon nga proseso gipresentar sa ubos.

Giunsa ang paglihok, pag-upload ug pag-integrate sa dako kaayo nga datos nga barato ug dali? Unsa ang pushdown optimization?

Usa ka pananglitan nga setup gipakita sa ubos.

Giunsa ang paglihok, pag-upload ug pag-integrate sa dako kaayo nga datos nga barato ug dali? Unsa ang pushdown optimization?

Ingon usa ka sangputanan, makakuha kami usa ka na-optimize nga mapa nga parehas sa nauna. Ang bugtong kalainan mao nga ang tanan nga lohika gibalhin sa tigdawat sa porma sa pag-override sa pagsal-ot niini. Usa ka pananglitan sa na-optimize nga pagmapa gipresentar sa ubos.

Giunsa ang paglihok, pag-upload ug pag-integrate sa dako kaayo nga datos nga barato ug dali? Unsa ang pushdown optimization?

Dinhi, sama sa miaging kaso, ang Hadoop nagdula sa papel sa konduktor. Apan dinhi ang tinubdan gibasa sa kinatibuk-an, ug dayon ang lohika sa pagproseso sa datos gihimo sa lebel sa tigdawat.

Ang tipo sa pagduso kay null

Aw, ang katapusan nga kapilian mao ang pushdown type, diin ang among mapping mahimong usa ka Hadoop script.

Ang na-optimize nga mapping karon tan-awon sama niini:

Giunsa ang paglihok, pag-upload ug pag-integrate sa dako kaayo nga datos nga barato ug dali? Unsa ang pushdown optimization?

Dinhi ang datos gikan sa gigikanan nga mga file unang basahon sa Hadoop. Nian, gamit ang iya kaugalingon nga paagi, ining duha ka mga file pagahiusahon. Pagkahuman niini, ang datos mabag-o ug ma-upload sa database.

Pinaagi sa pagsabut sa mga prinsipyo sa pag-optimize sa pushdown, mahimo nimo nga epektibo nga maorganisar ang daghang mga proseso alang sa pagtrabaho sa dagkong datos. Busa, bag-o lang, usa ka dako nga kompanya, sa pipila lang ka semana, nag-download sa dagkong datos gikan sa pagtipig ngadto sa Hadoop, nga kaniadto nakolekta niini sulod sa pipila ka tuig.

Source: www.habr.com

Idugang sa usa ka comment