Como mover, cargar e integrar datos moi grandes de forma barata e rápida? Que é a optimización pushdown?

Calquera operación de big data require moita potencia informática. Un movemento típico de datos dunha base de datos a Hadoop pode levar semanas ou custar tanto como unha á de avión. Non queres esperar e gastar cartos? Equilibra a carga en diferentes plataformas. Unha forma é a optimización pushdown.

Pedinlle ao adestrador líder de Rusia para o desenvolvemento e administración de produtos de Informatica, Alexey Ananyev, que falase sobre a función de optimización pushdown en Informatica Big Data Management (BDM). Aprendeches algunha vez a traballar con produtos de Informatica? O máis probable é que fose Alexey quen che contou os conceptos básicos de PowerCenter e explicou como crear mapeamentos.

Alexey Ananyev, xefe de formación do Grupo DIS

Que é pushdown?

Moitos de vostedes xa están familiarizados con Informatica Big Data Management (BDM). O produto pode integrar grandes datos de diferentes fontes, movelos entre diferentes sistemas, proporciona un fácil acceso a eles, permíteche crear un perfil e moito máis.
Nas mans correctas, BDM pode facer marabillas: as tarefas completaranse rapidamente e cun mínimo de recursos informáticos.

Queres iso tamén? Aprende a usar a función pushdown en BDM para distribuír a carga informática en diferentes plataformas. A tecnoloxía pushdown permítelle converter o mapeo nun script e seleccionar o ambiente no que se executará este script. Esta elección permítelle combinar os puntos fortes de diferentes plataformas e acadar o seu máximo rendemento.

Para configurar o ambiente de execución do script, cómpre seleccionar o tipo de pushdown. O script pódese executar enteiramente en Hadoop ou distribuirse parcialmente entre a fonte e o receptor. Hai 4 tipos de empuxe posibles. O mapeo non necesita ser convertido nun script (nativo). O mapeamento pódese realizar o máximo posible na fonte (fonte) ou completamente na fonte (completa). A asignación tamén se pode converter nun script Hadoop (ningunha).

Optimización pushdown

Os 4 tipos enumerados pódense combinar de diferentes xeitos: o pushdown pódese optimizar para as necesidades específicas do sistema. Por exemplo, moitas veces é máis apropiado extraer datos dunha base de datos utilizando as súas propias capacidades. E os datos converteranse mediante Hadoop, para non sobrecargar a propia base de datos.

Consideremos o caso en que tanto a orixe como o destino están na base de datos e se pode seleccionar a plataforma de execución de transformacións: dependendo da configuración, será Informatica, un servidor de bases de datos ou Hadoop. Tal exemplo permitirache comprender con máis precisión o lado técnico do funcionamento deste mecanismo. Por suposto, na vida real, esta situación non se produce, pero é o máis adecuado para demostrar a funcionalidade.

Tomemos a cartografía para ler dúas táboas nunha única base de datos Oracle. E deixar que os resultados da lectura se rexistren nunha táboa na mesma base de datos. O esquema de mapeo será o seguinte:

Como mover, cargar e integrar datos moi grandes de forma barata e rápida? Que é a optimización pushdown?

En forma de mapeo en Informatica BDM 10.2.1, ten o seguinte aspecto:

Como mover, cargar e integrar datos moi grandes de forma barata e rápida? Que é a optimización pushdown?

Tipo pushdown: nativo

Se seleccionamos o tipo nativo pushdown, a asignación realizarase no servidor de Informatica. Os datos leranse desde o servidor de Oracle, transferiranse ao servidor de Informatica, transformaranse alí e transferiranse a Hadoop. Noutras palabras, obteremos un proceso ETL normal.

Tipo de empuxe - fonte

Ao escoller o tipo de orixe, temos a oportunidade de distribuír o noso proceso entre o servidor de base de datos (DB) e Hadoop. Cando se executa un proceso con esta configuración, as solicitudes para recuperar datos das táboas enviaranse á base de datos. E o resto realizarase en forma de pasos en Hadoop.
O diagrama de execución terá o seguinte aspecto:

Como mover, cargar e integrar datos moi grandes de forma barata e rápida? Que é a optimización pushdown?

A continuación móstrase un exemplo de configuración do ambiente de execución.

Como mover, cargar e integrar datos moi grandes de forma barata e rápida? Que é a optimización pushdown?

Neste caso, a cartografía realizarase en dous pasos. Na súa configuración veremos que se converteu nun script que se enviará á fonte. Ademais, a combinación de táboas e a transformación de datos realizarase en forma de consulta anulada na fonte.
Na imaxe de abaixo, vemos un mapeo optimizado no BDM e unha consulta redefinida na fonte.

Como mover, cargar e integrar datos moi grandes de forma barata e rápida? Que é a optimización pushdown?

O papel de Hadoop nesta configuración reducirase a xestionar o fluxo de datos, orquestrándoo. O resultado da consulta enviarase a Hadoop. Unha vez completada a lectura, o ficheiro de Hadoop escribirase no lavabo.

Tipo de empuxe: completo

Cando seleccione o tipo completo, a asignación converterase completamente nunha consulta de base de datos. E o resultado da solicitude enviarase a Hadoop. A continuación preséntase un diagrama deste proceso.

Como mover, cargar e integrar datos moi grandes de forma barata e rápida? Que é a optimización pushdown?

A continuación móstrase un exemplo de configuración.

Como mover, cargar e integrar datos moi grandes de forma barata e rápida? Que é a optimización pushdown?

Como resultado, obteremos un mapeo optimizado similar ao anterior. A única diferenza é que toda a lóxica transfírese ao receptor en forma de anular a súa inserción. A continuación preséntase un exemplo de mapeo optimizado.

Como mover, cargar e integrar datos moi grandes de forma barata e rápida? Que é a optimización pushdown?

Aquí, como no caso anterior, Hadoop fai o papel de director. Pero aquí a fonte é lida na súa totalidade, e despois a lóxica de procesamento de datos realízase a nivel do receptor.

O tipo de pushdown é nulo

Ben, a última opción é o tipo pushdown, dentro do cal o noso mapeo converterase nun script Hadoop.

A cartografía optimizada terá agora o seguinte aspecto:

Como mover, cargar e integrar datos moi grandes de forma barata e rápida? Que é a optimización pushdown?

Aquí os datos dos ficheiros fonte leranse primeiro en Hadoop. Despois, utilizando os seus propios medios, combinaranse estes dous ficheiros. Despois diso, os datos converteranse e cargaranse na base de datos.

Ao comprender os principios da optimización pushdown, podes organizar de forma moi eficaz moitos procesos para traballar con big data. Así, recentemente, unha gran empresa, en poucas semanas, descargou grandes datos do almacenamento en Hadoop, que recollera previamente durante varios anos.

Fonte: www.habr.com

Engadir un comentario