Kumaha cara mindahkeun, unggah sareng ngahijikeun data anu ageung pisan murah sareng gancang? Naon optimasi pushdown?

Sagala operasi data badag merlukeun loba daya komputasi. Mindahkeun data khas tina pangkalan data ka Hadoop tiasa nyandak sababaraha minggu atanapi hargana saloba jangjang pesawat. Henteu hoyong ngantosan sareng ngaluarkeun artos? Saimbang beban dina platform anu béda. Salah sahiji cara nyaéta optimasi pushdown.

Kuring nanya ka palatih ngarah Rusia pikeun ngembangkeun sarta administrasi produk Informatica, Alexey Ananyev, ngobrol ngeunaan fungsi optimasi pushdown di Informatica Big Data Management (BDM). Naha anjeun kantos diajar damel sareng produk Informatica? Paling dipikaresep, éta Alexey anu nyarioskeun ka anjeun dasar-dasar PowerCenter sareng ngajelaskeun kumaha carana ngawangun pemetaan.

Alexey Ananyev, kapala palatihan di Grup DIS

Naon pushdown?

Seueur anjeun anu parantos akrab sareng Informatica Big Data Management (BDM). Produk tiasa ngahijikeun data ageung tina sumber anu béda, mindahkeun éta antara sistem anu béda, nyayogikeun aksés gampang kana éta, ngamungkinkeun anjeun pikeun profilna, sareng seueur deui.
Dina panangan anu leres, BDM tiasa damel keajaiban: tugas bakal réngsé gancang sareng sumber daya komputasi minimal.

Naha anjeun hoyong éta ogé? Diajar nganggo fitur pushdown dina BDM pikeun ngadistribusikaeun beban komputasi dina platform anu béda. Téknologi pushdown ngamungkinkeun anjeun ngarobih pemetaan kana naskah sareng milih lingkungan dimana naskah ieu bakal dijalankeun. Pilihan ieu ngamungkinkeun anjeun pikeun ngagabungkeun kakuatan platform anu béda-béda sareng ngahontal prestasi maksimalna.

Pikeun ngonpigurasikeun lingkungan palaksanaan naskah, anjeun kedah milih jinis pushdown. Skrip tiasa dijalankeun sadayana dina Hadoop atanapi sawaréh disebarkeun antara sumber sareng tilelep. Aya 4 kamungkinan jinis pushdown. Pemetaan teu kudu dirobah jadi naskah (asli). Mapping bisa dipigawé saloba mungkin dina sumber (sumber) atawa sagemblengna dina sumber (pinuh). Mapping ogé bisa dirobah jadi Aksara Hadoop (euweuh).

Optimasi pushdown

4 jinis anu didaptarkeun tiasa digabungkeun dina sababaraha cara - pushdown tiasa dioptimalkeun pikeun kabutuhan khusus sistem. Contona, éta mindeng leuwih hade nimba data tina database ngagunakeun kamampuhan sorangan. Sareng datana bakal dirobih nganggo Hadoop, supados henteu kaleuleuwihan pangkalan data éta sorangan.

Hayu urang nganggap kasus nalika sumber sareng tujuanana aya dina pangkalan data, sareng platform palaksanaan transformasi tiasa dipilih: gumantung kana setélan, éta bakal Informatica, server database, atanapi Hadoop. conto misalna bakal ngidinan Anjeun pikeun paling akurat ngartos sisi teknis operasi mékanisme ieu. Alami, dina kahirupan nyata, kaayaan ieu teu timbul, tapi éta pangalusna cocog pikeun demonstrating fungsionalitas.

Hayu urang nyandak pemetaan pikeun maca dua tabel dina database Oracle tunggal. Sarta ngantep hasil bacaan dirékam dina tabel dina database sarua. Skéma pemetaan bakal sapertos kieu:

Kumaha cara mindahkeun, unggah sareng ngahijikeun data anu ageung pisan murah sareng gancang? Naon optimasi pushdown?

Dina bentuk pemetaan dina Informatica BDM 10.2.1 sigana kieu:

Kumaha cara mindahkeun, unggah sareng ngahijikeun data anu ageung pisan murah sareng gancang? Naon optimasi pushdown?

Jenis pushdown - asli

Upami urang milih jinis asli pushdown, maka pemetaan bakal dilakukeun dina server Informatica. Data bakal dibaca tina server Oracle, ditransfer ka server Informatica, dirobih di dinya sareng ditransfer ka Hadoop. Dina basa sejen, urang bakal meunang prosés ETL normal.

Jenis pushdown - sumber

Lamun milih tipe sumber, urang meunang kasempetan pikeun ngadistribusikaeun prosés urang antara server database (DB) jeung Hadoop. Nalika prosés dieksekusi sareng setelan ieu, pamundut pikeun nyandak data tina tabel bakal dikirim ka pangkalan data. Sareng sésana bakal dilakukeun dina bentuk léngkah dina Hadoop.
Diagram palaksanaan bakal katingali sapertos kieu:

Kumaha cara mindahkeun, unggah sareng ngahijikeun data anu ageung pisan murah sareng gancang? Naon optimasi pushdown?

Di handap ieu conto nyetel lingkungan runtime.

Kumaha cara mindahkeun, unggah sareng ngahijikeun data anu ageung pisan murah sareng gancang? Naon optimasi pushdown?

Dina hal ieu, pemetaan bakal dilakukeun dina dua léngkah. Dina setélanna urang bakal ningali yén éta parantos janten naskah anu bakal dikirim ka sumberna. Sumawona, ngagabungkeun tabel sareng ngarobih data bakal dilakukeun dina bentuk pamundut anu ditimpa dina sumberna.
Dina gambar di handap, urang tingali hiji pemetaan dioptimalkeun dina BDM, sarta query redefined on sumberna.

Kumaha cara mindahkeun, unggah sareng ngahijikeun data anu ageung pisan murah sareng gancang? Naon optimasi pushdown?

Peran Hadoop dina konfigurasi ieu bakal diréduksi jadi ngatur aliran data - orchestrating eta. Hasil tina pamundut bakal dikirim ka Hadoop. Sakali bacaan réngsé, file ti Hadoop bakal ditulis kana tilelep.

Jenis pushdown - pinuh

Lamun anjeun milih tipe pinuh, pemetaan sagemblengna bakal robah jadi query database. Sareng hasil pamundut bakal dikirim ka Hadoop. Diagram prosés sapertos ieu dipidangkeun di handap.

Kumaha cara mindahkeun, unggah sareng ngahijikeun data anu ageung pisan murah sareng gancang? Naon optimasi pushdown?

Hiji conto setelan ditémbongkeun di handap.

Kumaha cara mindahkeun, unggah sareng ngahijikeun data anu ageung pisan murah sareng gancang? Naon optimasi pushdown?

Hasilna, urang bakal nampi pemetaan anu dioptimalkeun sami sareng anu sateuacana. Hijina bédana nyaéta yén sakabéh logika ditransferkeun ka panarima dina bentuk overriding sisipan na. Conto pemetaan dioptimalkeun dibere handap.

Kumaha cara mindahkeun, unggah sareng ngahijikeun data anu ageung pisan murah sareng gancang? Naon optimasi pushdown?

Di dieu, sakumaha dina kasus saméméhna, Hadoop maénkeun peran konduktor. Tapi di dieu sumberna dibaca sacara lengkep, teras logika ngolah data dilaksanakeun dina tingkat panarima.

Jenis pushdown nyaeta null

Nya, pilihan terakhir nyaéta jinis pushdown, dimana pemetaan urang bakal janten skrip Hadoop.

Pemetaan anu dioptimalkeun ayeuna bakal katingali sapertos kieu:

Kumaha cara mindahkeun, unggah sareng ngahijikeun data anu ageung pisan murah sareng gancang? Naon optimasi pushdown?

Di dieu data tina file sumber bakal dibaca heula dina Hadoop. Lajeng, ngagunakeun hartosna sorangan, dua file ieu bakal digabungkeun. Saatos ieu, data bakal dirobih sareng diunggah kana pangkalan data.

Ku ngartos prinsip optimasi pushdown, anjeun tiasa sacara efektif ngatur seueur prosés pikeun damel sareng data ageung. Ku kituna, rada anyar, hiji pausahaan badag, dina ngan sababaraha minggu, diundeur data badag ti gudang kana Hadoop, nu saméméhna geus dikumpulkeun salila sababaraha taun.

sumber: www.habr.com

Tambahkeun komentar