¿Cómo mover, cargar e integrar datos de gran tamaño de forma económica y rápida? ¿Qué es la optimización pushdown?

Cualquier operación de big data requiere mucha potencia informática. Un traslado típico de datos desde una base de datos a Hadoop puede llevar semanas o costar tanto como el ala de un avión. ¿No quieres esperar y gastar dinero? Equilibra la carga entre diferentes plataformas. Una forma es la optimización pushdown.

Le pedí al principal formador de Rusia para el desarrollo y administración de productos de Informatica, Alexey Ananyev, que hablara sobre la función de optimización pushdown en Informatica Big Data Management (BDM). ¿Alguna vez ha aprendido a trabajar con productos de Informatica? Lo más probable es que haya sido Alexey quien le contó los conceptos básicos de PowerCenter y le explicó cómo crear asignaciones.

Alexey Ananyev, jefe de formación del Grupo DIS

¿Qué es el pushdown?

Muchos de ustedes ya están familiarizados con Informatica Big Data Management (BDM). El producto puede integrar big data de diferentes fuentes, moverlos entre diferentes sistemas, proporcionar un fácil acceso a ellos, permitirle crear perfiles y mucho más.
En las manos adecuadas, BDM puede hacer maravillas: las tareas se completarán rápidamente y con recursos informáticos mínimos.

¿Quieres eso también? Aprenda a utilizar la función pushdown en BDM para distribuir la carga informática entre diferentes plataformas. La tecnología Pushdown le permite convertir el mapeo en un script y seleccionar el entorno en el que se ejecutará este script. Esta elección le permite combinar los puntos fuertes de diferentes plataformas y lograr su máximo rendimiento.

Para configurar el entorno de ejecución del script, debe seleccionar el tipo de pushdown. El script se puede ejecutar completamente en Hadoop o distribuirse parcialmente entre el origen y el receptor. Hay 4 tipos posibles de pushdown. No es necesario convertir el mapeo en un script (nativo). El mapeo se puede realizar tanto como sea posible en la fuente (fuente) o completamente en la fuente (completo). El mapeo también se puede convertir en un script Hadoop (ninguno).

Optimización de pushdown

Los 4 tipos enumerados se pueden combinar de diferentes maneras: el pushdown se puede optimizar para las necesidades específicas del sistema. Por ejemplo, suele ser más apropiado extraer datos de una base de datos utilizando sus propias capacidades. Y los datos se convertirán usando Hadoop, para no sobrecargar la base de datos.

Consideremos el caso en el que tanto el origen como el destino están en la base de datos y se puede seleccionar la plataforma de ejecución de la transformación: según la configuración, será Informatica, un servidor de base de datos o Hadoop. Este ejemplo le permitirá comprender con mayor precisión el aspecto técnico del funcionamiento de este mecanismo. Naturalmente, en la vida real esta situación no ocurre, pero es más adecuada para demostrar la funcionalidad.

Tomemos el mapeo para leer dos tablas en una única base de datos Oracle. Y dejar que los resultados de la lectura se registren en una tabla en la misma base de datos. El esquema de mapeo será así:

¿Cómo mover, cargar e integrar datos de gran tamaño de forma económica y rápida? ¿Qué es la optimización pushdown?

En forma de mapeo en Informatica BDM 10.2.1 se ve así:

¿Cómo mover, cargar e integrar datos de gran tamaño de forma económica y rápida? ¿Qué es la optimización pushdown?

Tipo pushdown – nativo

Si seleccionamos el tipo nativo pushdown, entonces el mapeo se realizará en el servidor de Informatica. Los datos se leerán del servidor de Oracle, se transferirán al servidor de Informatica, se transformarán allí y se transferirán a Hadoop. En otras palabras, obtendremos un proceso ETL normal.

Tipo de pushdown – fuente

Al elegir el tipo de fuente, tenemos la oportunidad de distribuir nuestro proceso entre el servidor de base de datos (DB) y Hadoop. Cuando se ejecuta un proceso con esta configuración, las solicitudes para recuperar datos de las tablas se enviarán a la base de datos. Y el resto se realizará en forma de pasos en Hadoop.
El diagrama de ejecución se verá así:

¿Cómo mover, cargar e integrar datos de gran tamaño de forma económica y rápida? ¿Qué es la optimización pushdown?

A continuación se muestra un ejemplo de configuración del entorno de ejecución.

¿Cómo mover, cargar e integrar datos de gran tamaño de forma económica y rápida? ¿Qué es la optimización pushdown?

En este caso, el mapeo se realizará en dos pasos. En su configuración veremos que se ha convertido en un script que será enviado a la fuente. Además, la combinación de tablas y la transformación de datos se realizarán en forma de una consulta anulada en la fuente.
En la imagen siguiente, vemos un mapeo optimizado en BDM y una consulta redefinida en la fuente.

¿Cómo mover, cargar e integrar datos de gran tamaño de forma económica y rápida? ¿Qué es la optimización pushdown?

El papel de Hadoop en esta configuración se reducirá a gestionar el flujo de datos, orquestándolo. El resultado de la consulta se enviará a Hadoop. Una vez que se complete la lectura, el archivo de Hadoop se escribirá en el receptor.

Tipo pushdown – completo

Cuando selecciona el tipo completo, el mapeo se convertirá completamente en una consulta de base de datos. Y el resultado de la solicitud se enviará a Hadoop. A continuación se presenta un diagrama de dicho proceso.

¿Cómo mover, cargar e integrar datos de gran tamaño de forma económica y rápida? ¿Qué es la optimización pushdown?

A continuación se muestra un ejemplo de configuración.

¿Cómo mover, cargar e integrar datos de gran tamaño de forma económica y rápida? ¿Qué es la optimización pushdown?

Como resultado obtendremos un mapeo optimizado similar al anterior. La única diferencia es que toda la lógica se transfiere al receptor anulando su inserción. A continuación se presenta un ejemplo de mapeo optimizado.

¿Cómo mover, cargar e integrar datos de gran tamaño de forma económica y rápida? ¿Qué es la optimización pushdown?

Aquí, como en el caso anterior, Hadoop desempeña el papel de conductor. Pero aquí la fuente se lee en su totalidad y luego la lógica de procesamiento de datos se realiza en el nivel del receptor.

El tipo de pushdown es nulo

Bueno, la última opción es el tipo pushdown, dentro del cual nuestro mapeo se convertirá en un script Hadoop.

El mapeo optimizado ahora se verá así:

¿Cómo mover, cargar e integrar datos de gran tamaño de forma económica y rápida? ¿Qué es la optimización pushdown?

Aquí los datos de los archivos fuente se leerán primero en Hadoop. Luego, utilizando sus propios medios, se combinarán estos dos archivos. Después de esto, los datos se convertirán y se cargarán en la base de datos.

Al comprender los principios de la optimización pushdown, podrá organizar de manera muy efectiva muchos procesos para trabajar con big data. Así, recientemente, una gran empresa descargó en unas pocas semanas big data del almacenamiento en Hadoop, que había recopilado durante varios años.

Fuente: habr.com

Añadir un comentario