Kepiye carane mindhah, ngunggah lan nggabungake data sing gedhe banget kanthi murah lan cepet? Apa optimasi pushdown?

Sembarang operasi data gedhe mbutuhake akeh daya komputasi. A pamindhahan khas data saka database kanggo Hadoop bisa njupuk minggu utawa biaya minangka akeh minangka swiwi pesawat. Ora pengin ngenteni lan mbuwang dhuwit? Balance beban ing macem-macem platform. Salah sawijining cara yaiku optimasi pushdown.

Aku takon pelatih utama Rusia kanggo pangembangan lan administrasi produk Informatica, Alexey Ananyev, kanggo ngomong babagan fungsi optimasi pushdown ing Informatica Big Data Management (BDM). Apa sampeyan wis sinau nggarap produk Informatica? Paling kamungkinan, Alexey sing ngandhani dhasar PowerCenter lan nerangake carane nggawe pemetaan.

Alexey Ananyev, kepala pelatihan ing Grup DIS

Apa pushdown?

Akeh sing wis kenal karo Informatica Big Data Management (BDM). Produk kasebut bisa nggabungake data gedhe saka macem-macem sumber, mindhah ing antarane sistem sing beda, nyedhiyakake akses sing gampang, ngidini sampeyan nggawe profil, lan liya-liyane.
Ing tangan tengen, BDM bisa nindakake kamulyan: tugas bakal rampung cepet lan karo sumber daya komputer minimal.

Apa sampeyan pengin uga? Sinau nggunakake fitur pushdown ing BDM kanggo nyebarake beban komputasi ing macem-macem platform. Teknologi pushdown ngidini sampeyan ngowahi pemetaan dadi skrip lan milih lingkungan sing bakal ditindakake skrip iki. Pilihan iki ngidini sampeyan nggabungake kekuwatan platform sing beda-beda lan entuk kinerja maksimal.

Kanggo ngatur lingkungan eksekusi skrip, sampeyan kudu milih jinis pushdown. Skrip bisa mbukak kabeh ing Hadoop utawa disebarake sebagian ing antarane sumber lan sink. Ana 4 jinis pushdown sing bisa ditindakake. Pemetaan ora perlu diowahi dadi naskah (native). Pemetaan bisa ditindakake kanthi maksimal ing sumber (sumber) utawa rampung ing sumber (lengkap). Pemetaan uga bisa diowahi dadi skrip Hadoop (ora ana).

Optimasi pushdown

Jinis 4 sing kadhaptar bisa digabung kanthi cara sing beda - pushdown bisa dioptimalake kanggo kabutuhan sistem tartamtu. Contone, asring luwih cocok kanggo ngekstrak data saka basis data kanthi nggunakake kapabilitas dhewe. Lan data bakal diowahi nggunakake Hadoop, supaya ora overload database dhewe.

Ayo nimbang kasus nalika sumber lan tujuan ana ing basis data, lan platform eksekusi transformasi bisa dipilih: gumantung saka setelan kasebut, bakal dadi Informatica, server database, utawa Hadoop. Conto kasebut bakal ngidini sampeyan ngerti kanthi akurat babagan teknis operasi mekanisme iki. Alami, ing urip nyata, kahanan iki ora muncul, nanging paling cocog kanggo nuduhake fungsi.

Ayo njupuk pemetaan kanggo maca rong tabel ing database Oracle siji. Lan supaya asil maca direkam ing tabel ing database padha. Skema pemetaan bakal kaya iki:

Kepiye carane mindhah, ngunggah lan nggabungake data sing gedhe banget kanthi murah lan cepet? Apa optimasi pushdown?

Ing wangun pemetaan ing Informatica BDM 10.2.1 katon kaya iki:

Kepiye carane mindhah, ngunggah lan nggabungake data sing gedhe banget kanthi murah lan cepet? Apa optimasi pushdown?

Tipe pushdown - asli

Yen kita milih jinis asli pushdown, banjur pemetaan bakal ditindakake ing server Informatica. Data kasebut bakal diwaca saka server Oracle, ditransfer menyang server Informatica, diowahi ana lan ditransfer menyang Hadoop. Ing tembung liyane, kita bakal entuk proses ETL normal.

Jinis pushdown - sumber

Nalika milih jinis sumber, kita entuk kesempatan kanggo nyebarake proses antarane server database (DB) lan Hadoop. Nalika proses dieksekusi nganggo setelan iki, panjalukan kanggo njupuk data saka tabel bakal dikirim menyang database. Lan liyane bakal dileksanakake ing wangun langkah ing Hadoop.
Diagram eksekusi bakal katon kaya iki:

Kepiye carane mindhah, ngunggah lan nggabungake data sing gedhe banget kanthi murah lan cepet? Apa optimasi pushdown?

Ing ngisor iki conto nyetel lingkungan runtime.

Kepiye carane mindhah, ngunggah lan nggabungake data sing gedhe banget kanthi murah lan cepet? Apa optimasi pushdown?

Ing kasus iki, pemetaan bakal dileksanakake ing rong langkah. Ing setelan kasebut, kita bakal weruh manawa wis dadi skrip sing bakal dikirim menyang sumber kasebut. Kajaba iku, nggabungake tabel lan ngowahi data bakal dileksanakake ing wangun query overridden ing sumber.
Ing gambar ing ngisor iki, kita ndeleng pemetaan sing dioptimalake ing BDM, lan pitakon sing wis ditemtokake maneh ing sumber kasebut.

Kepiye carane mindhah, ngunggah lan nggabungake data sing gedhe banget kanthi murah lan cepet? Apa optimasi pushdown?

Peran Hadoop ing konfigurasi iki bakal dikurangi kanggo ngatur aliran data - ngatur. Asil pitakon bakal dikirim menyang Hadoop. Sawise maca rampung, file saka Hadoop bakal ditulis menyang sink.

Tipe pushdown - lengkap

Nalika sampeyan milih jinis lengkap, pemetaan bakal rampung dadi query database. Lan asil panyuwunan bakal dikirim menyang Hadoop. Diagram proses kasebut ditampilake ing ngisor iki.

Kepiye carane mindhah, ngunggah lan nggabungake data sing gedhe banget kanthi murah lan cepet? Apa optimasi pushdown?

Conto persiyapan kapacak ing ngisor iki.

Kepiye carane mindhah, ngunggah lan nggabungake data sing gedhe banget kanthi murah lan cepet? Apa optimasi pushdown?

AkibatΓ©, kita bakal entuk pemetaan sing dioptimalake padha karo sing sadurunge. Bentenipun mung sing kabeh logika ditransfer menyang panrima ing wangun overriding sisipan sawijining. Conto pemetaan sing dioptimalake ditampilake ing ngisor iki.

Kepiye carane mindhah, ngunggah lan nggabungake data sing gedhe banget kanthi murah lan cepet? Apa optimasi pushdown?

Ing kene, kaya ing kasus sadurunge, Hadoop dadi konduktor. Nanging ing kene sumber diwaca kabeh, banjur logika pangolahan data ditindakake ing tingkat panrima.

Jinis pushdown iku null

Ya, pilihan pungkasan yaiku jinis pushdown, ing ngendi pemetaan kita bakal dadi skrip Hadoop.

Pemetaan sing dioptimalake saiki bakal katon kaya iki:

Kepiye carane mindhah, ngunggah lan nggabungake data sing gedhe banget kanthi murah lan cepet? Apa optimasi pushdown?

Ing kene data saka file sumber bakal diwaca dhisik ing Hadoop. Banjur, nggunakake cara dhewe, loro file iki bakal digabungake. Sawise iki, data bakal diowahi lan diunggah menyang database.

Kanthi mangerteni prinsip optimasi pushdown, sampeyan bisa kanthi efektif ngatur akeh proses kanggo nggarap data gedhe. Mangkono, bubar, siji perusahaan gedhe, mung sawetara minggu, ndownload data gedhe saka panyimpenan menyang Hadoop, sing sadurunge diklumpukake sawetara taun.

Source: www.habr.com

Add a comment