Sut i symud, lanlwytho ac integreiddio data mawr iawn yn rhad ac yn gyflym? Beth yw optimization pushdown?

Mae unrhyw weithrediad data mawr yn gofyn am lawer o bŵer cyfrifiadurol. Gall symud data arferol o gronfa ddata i Hadoop gymryd wythnosau neu gostio cymaint ag adain awyren. Ddim eisiau aros a gwario arian? Cydbwyso'r llwyth ar draws gwahanol lwyfannau. Un ffordd yw optimization pushdown.

Gofynnais i brif hyfforddwr Rwsia ar gyfer datblygu a gweinyddu cynhyrchion Informatica, Alexey Ananyev, i siarad am y swyddogaeth optimeiddio gwthio i lawr yn Informatica Big Data Management (BDM). Ydych chi erioed wedi dysgu gweithio gyda chynhyrchion Informatica? Yn fwyaf tebygol, Alexey a ddywedodd wrthych chi hanfodion PowerCenter ac esboniodd sut i adeiladu mapiau.

Alexey Ananyev, pennaeth hyfforddiant yn DIS Group

Beth yw pushdown?

Mae llawer ohonoch eisoes yn gyfarwydd â Informatica Big Data Management (BDM). Gall y cynnyrch integreiddio data mawr o wahanol ffynonellau, ei symud rhwng gwahanol systemau, darparu mynediad hawdd iddo, caniatáu ichi ei broffilio, a llawer mwy.
Yn y dwylo iawn, gall BDM weithio rhyfeddodau: bydd tasgau'n cael eu cwblhau'n gyflym a heb fawr o adnoddau cyfrifiadurol.

Ydych chi eisiau hynny hefyd? Dysgwch sut i ddefnyddio'r nodwedd gwthio i lawr yn BDM i ddosbarthu'r llwyth cyfrifiadurol ar draws gwahanol lwyfannau. Mae technoleg Pushdown yn caniatáu ichi droi mapio yn sgript a dewis yr amgylchedd y bydd y sgript hon yn rhedeg ynddo. Mae'r dewis hwn yn caniatáu ichi gyfuno cryfderau gwahanol lwyfannau a chyflawni eu perfformiad mwyaf posibl.

I ffurfweddu'r amgylchedd gweithredu sgript, mae angen i chi ddewis y math gwthio i lawr. Gellir rhedeg y sgript yn gyfan gwbl ar Hadoop neu ei ddosbarthu'n rhannol rhwng y ffynhonnell a'r sinc. Mae 4 math pushdown posibl. Nid oes angen troi mapio yn sgript (brodorol). Gellir perfformio mapio cymaint â phosibl ar y ffynhonnell (ffynhonnell) neu'n gyfan gwbl ar y ffynhonnell (llawn). Gellir troi mapio hefyd yn sgript Hadoop (dim).

Optimeiddio pushdown

Gellir cyfuno'r 4 math a restrir mewn gwahanol ffyrdd - gellir optimeiddio gwthio i lawr ar gyfer anghenion penodol y system. Er enghraifft, mae'n aml yn fwy priodol echdynnu data o gronfa ddata gan ddefnyddio ei alluoedd ei hun. A bydd y data'n cael ei drawsnewid gan ddefnyddio Hadoop, er mwyn peidio â gorlwytho'r gronfa ddata ei hun.

Gadewch i ni ystyried yr achos pan fydd y ffynhonnell a'r cyrchfan yn y gronfa ddata, a gellir dewis y llwyfan gweithredu trawsnewid: yn dibynnu ar y gosodiadau, bydd yn Informatica, gweinydd cronfa ddata, neu Hadoop. Bydd enghraifft o'r fath yn eich galluogi i ddeall yn fwyaf cywir ochr dechnegol gweithrediad y mecanwaith hwn. Yn naturiol, mewn bywyd go iawn, nid yw'r sefyllfa hon yn codi, ond mae'n fwyaf addas ar gyfer arddangos ymarferoldeb.

Gadewch i ni gymryd mapio i ddarllen dau dabl mewn un gronfa ddata Oracle. A gadewch i'r canlyniadau darllen gael eu cofnodi mewn tabl yn yr un gronfa ddata. Bydd y cynllun mapio fel hyn:

Sut i symud, lanlwytho ac integreiddio data mawr iawn yn rhad ac yn gyflym? Beth yw optimization pushdown?

Ar ffurf mapio ar Informatica BDM 10.2.1 mae'n edrych fel hyn:

Sut i symud, lanlwytho ac integreiddio data mawr iawn yn rhad ac yn gyflym? Beth yw optimization pushdown?

Math pushdown - brodorol

Os byddwn yn dewis y math brodorol gwthio i lawr, yna bydd y mapio yn cael ei berfformio ar y gweinydd Informatica. Bydd y data'n cael ei ddarllen o'r gweinydd Oracle, ei drosglwyddo i'r gweinydd Informatica, ei drawsnewid yno a'i drosglwyddo i Hadoop. Mewn geiriau eraill, byddwn yn cael proses ETL arferol.

Math pushdown - ffynhonnell

Wrth ddewis y math o ffynhonnell, rydym yn cael y cyfle i ddosbarthu ein proses rhwng gweinydd y gronfa ddata (DB) a Hadoop. Pan fydd proses yn cael ei gweithredu gyda'r gosodiad hwn, bydd ceisiadau i adfer data o dablau yn cael eu hanfon i'r gronfa ddata. A bydd y gweddill yn cael ei berfformio ar ffurf grisiau ar Hadoop.
Bydd y diagram gweithredu yn edrych fel hyn:

Sut i symud, lanlwytho ac integreiddio data mawr iawn yn rhad ac yn gyflym? Beth yw optimization pushdown?

Isod mae enghraifft o sefydlu'r amgylchedd amser rhedeg.

Sut i symud, lanlwytho ac integreiddio data mawr iawn yn rhad ac yn gyflym? Beth yw optimization pushdown?

Yn yr achos hwn, bydd y mapio yn cael ei berfformio mewn dau gam. Yn ei osodiadau fe welwn ei fod wedi troi'n sgript a fydd yn cael ei anfon at y ffynhonnell. Ar ben hynny, bydd cyfuno tablau a thrawsnewid data yn cael eu perfformio ar ffurf ymholiad diystyr ar y ffynhonnell.
Yn y llun isod, gwelwn fapio wedi'i optimeiddio ar y BDM, ac ymholiad wedi'i ailddiffinio ar y ffynhonnell.

Sut i symud, lanlwytho ac integreiddio data mawr iawn yn rhad ac yn gyflym? Beth yw optimization pushdown?

Bydd rôl Hadoop yn y cyfluniad hwn yn cael ei leihau i reoli llif data - gan ei drefnu. Bydd canlyniad yr ymholiad yn cael ei anfon at Hadoop. Unwaith y bydd y darlleniad wedi'i gwblhau, bydd y ffeil o Hadoop yn cael ei ysgrifennu i'r sinc.

Math pushdown - llawn

Pan fyddwch yn dewis y math llawn, bydd mapio yn troi'n ymholiad cronfa ddata yn llwyr. A bydd canlyniad y cais yn cael ei anfon at Hadoop. Cyflwynir diagram o broses o'r fath isod.

Sut i symud, lanlwytho ac integreiddio data mawr iawn yn rhad ac yn gyflym? Beth yw optimization pushdown?

Dangosir gosodiad enghreifftiol isod.

Sut i symud, lanlwytho ac integreiddio data mawr iawn yn rhad ac yn gyflym? Beth yw optimization pushdown?

O ganlyniad, byddwn yn cael mapio wedi'i optimeiddio yn debyg i'r un blaenorol. Yr unig wahaniaeth yw bod yr holl resymeg yn cael ei throsglwyddo i'r derbynnydd ar ffurf diystyru ei fewnosod. Rhoddir enghraifft o fapio wedi'i optimeiddio isod.

Sut i symud, lanlwytho ac integreiddio data mawr iawn yn rhad ac yn gyflym? Beth yw optimization pushdown?

Yma, fel yn yr achos blaenorol, mae Hadoop yn chwarae rôl yr arweinydd. Ond yma darllenir y ffynhonnell yn ei chyfanrwydd, ac yna perfformir y rhesymeg prosesu data ar lefel y derbynnydd.

Math pushdown yw null

Wel, yr opsiwn olaf yw'r math gwthio i lawr, y bydd ein mapio yn troi'n sgript Hadoop ynddo.

Bydd y mapio wedi'i optimeiddio nawr yn edrych fel hyn:

Sut i symud, lanlwytho ac integreiddio data mawr iawn yn rhad ac yn gyflym? Beth yw optimization pushdown?

Yma bydd y data o'r ffeiliau ffynhonnell yn cael eu darllen gyntaf ar Hadoop. Yna, gan ddefnyddio ei fodd ei hun, bydd y ddwy ffeil hyn yn cael eu cyfuno. Ar ôl hyn, bydd y data yn cael ei drosi a'i lanlwytho i'r gronfa ddata.

Trwy ddeall egwyddorion optimeiddio gwthio i lawr, gallwch chi drefnu llawer o brosesau ar gyfer gweithio gyda data mawr yn effeithiol iawn. Felly, yn eithaf diweddar, mae un cwmni mawr, mewn ychydig wythnosau, wedi lawrlwytho data mawr o storfa i Hadoop, yr oedd wedi'i gasglu ers sawl blwyddyn o'r blaen.

Ffynhonnell: hab.com

Ychwanegu sylw