Kwalunkwe operazzjoni ta 'big data teħtieġ ħafna qawwa tal-kompjuter. Moviment tipiku ta 'data minn database għal Hadoop jista' jieħu ġimgħat jew jiswa daqs ġwienaħ ta 'ajruplan. Ma tridx tistenna u tonfoq flus? Ibbilanċja t-tagħbija fuq pjattaformi differenti. Mod wieħed huwa l-ottimizzazzjoni pushdown.
Staqsejt lit-trejner ewlieni tar-Russja għall-iżvilupp u l-amministrazzjoni ta 'prodotti Informatica, Alexey Ananyev, biex jitkellem dwar il-funzjoni ta' ottimizzazzjoni pushdown f'Informatica Big Data Management (BDM). Qatt tgħallimt taħdem mal-prodotti Informatica? Probabbilment, kien Alexey li qallek il-baŜi ta 'PowerCenter u spjega kif tibni mappings.
Alexey Ananyev, kap tat-taħriġ fil-Grupp DIS
X'inhu pushdown?
Ħafna minnkom diġà huma familjari mal-Informatica Big Data Management (BDM). Il-prodott jista 'jintegra data kbira minn sorsi differenti, iċċaqlaqha bejn sistemi differenti, jipprovdi aċċess faċli għaliha, jippermettilek tagħmel profil tagħha, u ħafna aktar.
F'idejn it-tajba, BDM jista 'jaħdem meravilji: il-kompiti se jitlestew malajr u b'riżorsi minimi tal-kompjuters.
Trid hekk ukoll? Tgħallem tuża l-karatteristika pushdown fil-BDM biex tqassam it-tagħbija tal-kompjuter fuq pjattaformi differenti. It-teknoloġija Pushdown tippermettilek li ddawwar l-immappjar fi skript u tagħżel l-ambjent li fih se jaħdem dan l-iskript. Din l-għażla tippermettilek tgħaqqad is-saħħiet ta 'pjattaformi differenti u tikseb il-prestazzjoni massima tagħhom.
Biex tikkonfigura l-ambjent tal-eżekuzzjoni tal-iskript, trid tagħżel it-tip pushdown. L-iskrittura tista 'titħaddem kompletament fuq Hadoop jew imqassma parzjalment bejn is-sors u l-sink. Hemm 4 tipi ta 'pushdown possibbli. L-immappjar m'għandux għalfejn jinbidel fi skript (nattiv). L-immappjar jista 'jitwettaq kemm jista' jkun fuq is-sors (sors) jew kompletament fuq is-sors (sħiħ). L-immappjar jista' wkoll jinbidel fi skript Hadoop (l-ebda wieħed).
Pushdown ottimizzazzjoni
L-4 tipi elenkati jistgħu jingħaqdu b'modi differenti - pushdown jista 'jiġi ottimizzat għall-ħtiġijiet speċifiċi tas-sistema. Pereżempju, ħafna drabi jkun aktar xieraq li tiġi estratta data minn database billi tuża l-kapaċitajiet tagħha stess. U d-dejta se tiġi kkonvertita bl-użu ta 'Hadoop, sabiex ma titgħabx żżejjed id-database nnifisha.
Ejja nikkunsidraw il-każ meta kemm is-sors kif ukoll id-destinazzjoni jkunu fid-database, u l-pjattaforma tal-eżekuzzjoni tat-trasformazzjoni tista 'tintgħażel: skont is-settings, se tkun Informatica, server tad-database, jew Hadoop. Eżempju bħal dan jippermettilek tifhem bl-aktar mod preċiż in-naħa teknika tat-tħaddim ta 'dan il-mekkaniżmu. Naturalment, fil-ħajja reali, din is-sitwazzjoni ma tqumx, iżda hija l-aktar adattata biex turi l-funzjonalità.
Ejja nieħdu l-immappjar biex naqraw żewġ tabelli f'database Oracle waħda. U ħalli r-riżultati tal-qari jiġu rreġistrati f'tabella fl-istess database. L-iskema tal-immappjar se tkun bħal din:
Fil-forma ta 'mapping fuq Informatica BDM 10.2.1 jidher bħal dan:
Tip pushdown - indiġeni
Jekk nagħżlu t-tip nattiv pushdown, allura l-immappjar se jsir fuq is-server Informatica. Id-data se tinqara mis-server Oracle, trasferita għas-server Informatica, trasformata hemmhekk u trasferita għal Hadoop. Fi kliem ieħor, se jkollna proċess ETL normali.
Tip ta 'pushdown - sors
Meta nagħżlu t-tip tas-sors, ikollna l-opportunità li nqassmu l-proċess tagħna bejn is-server tad-database (DB) u Hadoop. Meta proċess jiġi esegwit b'dan is-setting, it-talbiet biex tiġi rkuprata data mit-tabelli jintbagħtu fid-database. U l-bqija se jitwettaq fil-forma ta 'passi fuq Hadoop.
Id-dijagramma tal-eżekuzzjoni tidher bħal din:
Hawn taħt hemm eżempju tat-twaqqif tal-ambjent tar-runtime.
F'dan il-każ, l-immappjar se jsir f'żewġ passi. Fis-settings tiegħu se naraw li nbidel fi script li se jintbagħat lis-sors. Barra minn hekk, il-kombinazzjoni tat-tabelli u t-trasformazzjoni tad-dejta se ssir fil-forma ta 'mistoqsija li tinbidel fuq is-sors.
Fl-istampa hawn taħt, naraw mapping ottimizzat fuq il-BDM, u mistoqsija definita mill-ġdid fuq is-sors.
Ir-rwol ta 'Hadoop f'din il-konfigurazzjoni se jitnaqqas għall-ġestjoni tal-fluss tad-dejta - orkestrazzjoni tagħha. Ir-riżultat tal-mistoqsija se jintbagħat lil Hadoop. Ladarba l-qari jitlesta, il-fajl minn Hadoop jinkiteb fis-sink.
Tip ta 'pushdown - sħiħ
Meta tagħżel it-tip sħiħ, l-immappjar jinbidel kompletament f'mistoqsija tad-database. U r-riżultat tat-talba se jintbagħat lil Hadoop. Dijagramma ta' proċess bħal dan hija ppreżentata hawn taħt.
Setup eżempju huwa muri hawn taħt.
Bħala riżultat, aħna se tikseb mapping ottimizzat simili għal dak preċedenti. L-unika differenza hija li l-loġika kollha hija trasferita lir-riċevitur fil-forma ta 'jibqa' l-inserzjoni tiegħu. Eżempju ta 'mapping ottimizzat huwa ppreżentat hawn taħt.
Hawnhekk, bħal fil-każ preċedenti, Hadoop għandu r-rwol ta 'konduttur. Iżda hawnhekk is-sors jinqara fl-intier tiegħu, u mbagħad il-loġika tal-ipproċessar tad-dejta titwettaq fil-livell tar-riċevitur.
It-tip ta' pushdown huwa null
Ukoll, l-aħħar għażla hija t-tip pushdown, li fih l-immappjar tagħna jinbidel fi skript Hadoop.
L-immappjar ottimizzat issa se jidher bħal dan:
Hawnhekk id-dejta mill-fajls tas-sors l-ewwel tinqara fuq Hadoop. Imbagħad, bl-użu tal-mezzi tiegħu stess, dawn iż-żewġ fajls se jingħaqdu. Wara dan, id-dejta tiġi kkonvertita u tittella fid-database.
Billi tifhem il-prinċipji tal-ottimizzazzjoni pushdown, tista 'torganizza b'mod effettiv ħafna ħafna proċessi biex taħdem ma' data kbira. Għalhekk, pjuttost reċentement, kumpanija kbira waħda, fi ftit ġimgħat biss, niżżlet data kbira mill-ħażna f'Hadoop, li qabel kienet ġabret għal diversi snin.
Sors: www.habr.com