Kif tiċċaqlaq, ittella u tintegra data kbira ħafna bl-irħis u malajr? X'inhu l-ottimizzazzjoni pushdown?

Kwalunkwe operazzjoni ta 'big data teħtieġ ħafna qawwa tal-kompjuter. Moviment tipiku ta 'data minn database għal Hadoop jista' jieħu ġimgħat jew jiswa daqs ġwienaħ ta 'ajruplan. Ma tridx tistenna u tonfoq flus? Ibbilanċja t-tagħbija fuq pjattaformi differenti. Mod wieħed huwa l-ottimizzazzjoni pushdown.

Staqsejt lit-trejner ewlieni tar-Russja għall-iżvilupp u l-amministrazzjoni ta 'prodotti Informatica, Alexey Ananyev, biex jitkellem dwar il-funzjoni ta' ottimizzazzjoni pushdown f'Informatica Big Data Management (BDM). Qatt tgħallimt taħdem mal-prodotti Informatica? Probabbilment, kien Alexey li qallek il-baŜi ta 'PowerCenter u spjega kif tibni mappings.

Alexey Ananyev, kap tat-taħriġ fil-Grupp DIS

X'inhu pushdown?

Ħafna minnkom diġà huma familjari mal-Informatica Big Data Management (BDM). Il-prodott jista 'jintegra data kbira minn sorsi differenti, iċċaqlaqha bejn sistemi differenti, jipprovdi aċċess faċli għaliha, jippermettilek tagħmel profil tagħha, u ħafna aktar.
F'idejn it-tajba, BDM jista 'jaħdem meravilji: il-kompiti se jitlestew malajr u b'riżorsi minimi tal-kompjuters.

Trid hekk ukoll? Tgħallem tuża l-karatteristika pushdown fil-BDM biex tqassam it-tagħbija tal-kompjuter fuq pjattaformi differenti. It-teknoloġija Pushdown tippermettilek li ddawwar l-immappjar fi skript u tagħżel l-ambjent li fih se jaħdem dan l-iskript. Din l-għażla tippermettilek tgħaqqad is-saħħiet ta 'pjattaformi differenti u tikseb il-prestazzjoni massima tagħhom.

Biex tikkonfigura l-ambjent tal-eżekuzzjoni tal-iskript, trid tagħżel it-tip pushdown. L-iskrittura tista 'titħaddem kompletament fuq Hadoop jew imqassma parzjalment bejn is-sors u l-sink. Hemm 4 tipi ta 'pushdown possibbli. L-immappjar m'għandux għalfejn jinbidel fi skript (nattiv). L-immappjar jista 'jitwettaq kemm jista' jkun fuq is-sors (sors) jew kompletament fuq is-sors (sħiħ). L-immappjar jista' wkoll jinbidel fi skript Hadoop (l-ebda wieħed).

Pushdown ottimizzazzjoni

L-4 tipi elenkati jistgħu jingħaqdu b'modi differenti - pushdown jista 'jiġi ottimizzat għall-ħtiġijiet speċifiċi tas-sistema. Pereżempju, ħafna drabi jkun aktar xieraq li tiġi estratta data minn database billi tuża l-kapaċitajiet tagħha stess. U d-dejta se tiġi kkonvertita bl-użu ta 'Hadoop, sabiex ma titgħabx żżejjed id-database nnifisha.

Ejja nikkunsidraw il-każ meta kemm is-sors kif ukoll id-destinazzjoni jkunu fid-database, u l-pjattaforma tal-eżekuzzjoni tat-trasformazzjoni tista 'tintgħażel: skont is-settings, se tkun Informatica, server tad-database, jew Hadoop. Eżempju bħal dan jippermettilek tifhem bl-aktar mod preċiż in-naħa teknika tat-tħaddim ta 'dan il-mekkaniżmu. Naturalment, fil-ħajja reali, din is-sitwazzjoni ma tqumx, iżda hija l-aktar adattata biex turi l-funzjonalità.

Ejja nieħdu l-immappjar biex naqraw żewġ tabelli f'database Oracle waħda. U ħalli r-riżultati tal-qari jiġu rreġistrati f'tabella fl-istess database. L-iskema tal-immappjar se tkun bħal din:

Kif tiċċaqlaq, ittella u tintegra data kbira ħafna bl-irħis u malajr? X'inhu l-ottimizzazzjoni pushdown?

Fil-forma ta 'mapping fuq Informatica BDM 10.2.1 jidher bħal dan:

Kif tiċċaqlaq, ittella u tintegra data kbira ħafna bl-irħis u malajr? X'inhu l-ottimizzazzjoni pushdown?

Tip pushdown - indiġeni

Jekk nagħżlu t-tip nattiv pushdown, allura l-immappjar se jsir fuq is-server Informatica. Id-data se tinqara mis-server Oracle, trasferita għas-server Informatica, trasformata hemmhekk u trasferita għal Hadoop. Fi kliem ieħor, se jkollna proċess ETL normali.

Tip ta 'pushdown - sors

Meta nagħżlu t-tip tas-sors, ikollna l-opportunità li nqassmu l-proċess tagħna bejn is-server tad-database (DB) u Hadoop. Meta proċess jiġi esegwit b'dan is-setting, it-talbiet biex tiġi rkuprata data mit-tabelli jintbagħtu fid-database. U l-bqija se jitwettaq fil-forma ta 'passi fuq Hadoop.
Id-dijagramma tal-eżekuzzjoni tidher bħal din:

Kif tiċċaqlaq, ittella u tintegra data kbira ħafna bl-irħis u malajr? X'inhu l-ottimizzazzjoni pushdown?

Hawn taħt hemm eżempju tat-twaqqif tal-ambjent tar-runtime.

Kif tiċċaqlaq, ittella u tintegra data kbira ħafna bl-irħis u malajr? X'inhu l-ottimizzazzjoni pushdown?

F'dan il-każ, l-immappjar se jsir f'żewġ passi. Fis-settings tiegħu se naraw li nbidel fi script li se jintbagħat lis-sors. Barra minn hekk, il-kombinazzjoni tat-tabelli u t-trasformazzjoni tad-dejta se ssir fil-forma ta 'mistoqsija li tinbidel fuq is-sors.
Fl-istampa hawn taħt, naraw mapping ottimizzat fuq il-BDM, u mistoqsija definita mill-ġdid fuq is-sors.

Kif tiċċaqlaq, ittella u tintegra data kbira ħafna bl-irħis u malajr? X'inhu l-ottimizzazzjoni pushdown?

Ir-rwol ta 'Hadoop f'din il-konfigurazzjoni se jitnaqqas għall-ġestjoni tal-fluss tad-dejta - orkestrazzjoni tagħha. Ir-riżultat tal-mistoqsija se jintbagħat lil Hadoop. Ladarba l-qari jitlesta, il-fajl minn Hadoop jinkiteb fis-sink.

Tip ta 'pushdown - sħiħ

Meta tagħżel it-tip sħiħ, l-immappjar jinbidel kompletament f'mistoqsija tad-database. U r-riżultat tat-talba se jintbagħat lil Hadoop. Dijagramma ta' proċess bħal dan hija ppreżentata hawn taħt.

Kif tiċċaqlaq, ittella u tintegra data kbira ħafna bl-irħis u malajr? X'inhu l-ottimizzazzjoni pushdown?

Setup eżempju huwa muri hawn taħt.

Kif tiċċaqlaq, ittella u tintegra data kbira ħafna bl-irħis u malajr? X'inhu l-ottimizzazzjoni pushdown?

Bħala riżultat, aħna se tikseb mapping ottimizzat simili għal dak preċedenti. L-unika differenza hija li l-loġika kollha hija trasferita lir-riċevitur fil-forma ta 'jibqa' l-inserzjoni tiegħu. Eżempju ta 'mapping ottimizzat huwa ppreżentat hawn taħt.

Kif tiċċaqlaq, ittella u tintegra data kbira ħafna bl-irħis u malajr? X'inhu l-ottimizzazzjoni pushdown?

Hawnhekk, bħal fil-każ preċedenti, Hadoop għandu r-rwol ta 'konduttur. Iżda hawnhekk is-sors jinqara fl-intier tiegħu, u mbagħad il-loġika tal-ipproċessar tad-dejta titwettaq fil-livell tar-riċevitur.

It-tip ta' pushdown huwa null

Ukoll, l-aħħar għażla hija t-tip pushdown, li fih l-immappjar tagħna jinbidel fi skript Hadoop.

L-immappjar ottimizzat issa se jidher bħal dan:

Kif tiċċaqlaq, ittella u tintegra data kbira ħafna bl-irħis u malajr? X'inhu l-ottimizzazzjoni pushdown?

Hawnhekk id-dejta mill-fajls tas-sors l-ewwel tinqara fuq Hadoop. Imbagħad, bl-użu tal-mezzi tiegħu stess, dawn iż-żewġ fajls se jingħaqdu. Wara dan, id-dejta tiġi kkonvertita u tittella fid-database.

Billi tifhem il-prinċipji tal-ottimizzazzjoni pushdown, tista 'torganizza b'mod effettiv ħafna ħafna proċessi biex taħdem ma' data kbira. Għalhekk, pjuttost reċentement, kumpanija kbira waħda, fi ftit ġimgħat biss, niżżlet data kbira mill-ħażna f'Hadoop, li qabel kienet ġabret għal diversi snin.

Sors: www.habr.com

Żid kumment