Çox böyük məlumatları ucuz və tez necə köçürmək, yükləmək və inteqrasiya etmək olar? Pushdown optimallaşdırma nədir?

Böyük verilənlərlə istənilən əməliyyat böyük hesablama gücü tələb edir. Məlumatların verilənlər bazasından Hadoop-a tipik daşınması həftələr çəkə və ya təyyarə qanadı qədər baha başa gələ bilər. Gözləmək və sərf etmək istəmirsiniz? Müxtəlif platformalarda yükü tarazlayın. Bir yol pushdown optimallaşdırmasıdır.

Informatica məhsullarının inkişafı və idarə edilməsi üzrə aparıcı rusiyalı təlimçi Aleksey Ananyevdən Informatica Big Data Management (BDM) proqramında aşağı endirilən optimallaşdırma funksiyası haqqında danışmağı xahiş etdim. Informatica məhsulları ilə işləməyi heç öyrənmisinizmi? Çox güman ki, sizə PowerCenter-in əsaslarını danışan və xəritələrin necə qurulacağını izah edən Aleksey idi.

Aleksey Ananiev, Təlim DIS Qrupunun rəhbəri

Pushdown nədir?

Bir çoxlarınız Informatica Big Data Management (BDM) ilə artıq tanışsınız. Məhsul müxtəlif mənbələrdən böyük verilənləri inteqrasiya edə bilir, onu müxtəlif sistemlər arasında köçürür, ona asan girişi təmin edir, onu profilləşdirməyə imkan verir və s.
Doğru əllərdə BDM möcüzələr yarada bilər: tapşırıqlar tez və minimal hesablama resursları ilə tamamlanacaq.

Siz də bunu istəyirsiniz? Hesablama iş yükünü müxtəlif platformalara yaymaq üçün BDM-in aşağı salınma funksiyasından necə istifadə edəcəyinizi öyrənin. Pushdown texnologiyası xəritəni skriptə çevirməyə və bu skriptin işləyəcəyi mühiti seçməyə imkan verir. Belə bir seçim imkanı müxtəlif platformaların güclü tərəflərini birləşdirməyə və onların maksimum performansına nail olmağa imkan verir.

Skriptin icra mühitini konfiqurasiya etmək üçün aşağı itələmə növünü seçməlisiniz. Skript tamamilə Hadoop-da işlədilə bilər və ya mənbə və hədəf arasında qismən paylana bilər. 4 mümkün pushdown növü var. Xəritəçəkmə skriptə çevrilə bilməz (doğma). Xəritəçəkmə mümkün qədər mənbədə (mənbədə) və ya tamamilə mənbədə (tam) həyata keçirilə bilər. Xəritəçəkmə həmçinin Hadoop skriptinə çevrilə bilər (heç biri).

Pushdown optimallaşdırılması

Sadalanan 4 növ müxtəlif yollarla birləşdirilə bilər - sistemin xüsusi ehtiyacları üçün itələməni optimallaşdırmaq. Məsələn, öz imkanlarından istifadə edərək verilənlər bazasından məlumat almaq çox vaxt daha məqsədəuyğundur. Məlumatları çevirmək üçün - Hadoop qüvvələri tərəfindən verilənlər bazası özü yüklənməməsi üçün.

Həm mənbənin, həm də təyinatın verilənlər bazasında olduğu və transformasiyaların yerinə yetirilməsi üçün platformanın seçilə biləcəyi halı nəzərdən keçirək: parametrlərdən asılı olaraq, bu, Informatica, verilənlər bazası serveri və ya Hadoop olacaqdır. Belə bir nümunə bu mexanizmin işləməsinin texniki tərəfini ən dəqiq şəkildə başa düşəcəkdir. Təbii ki, real həyatda bu vəziyyət yaranmır, lakin funksionallığı nümayiş etdirmək üçün ən uyğundur.

Tək Oracle verilənlər bazasında iki cədvəli oxumaq üçün xəritə çəkək. Və oxunuş nəticələri eyni verilənlər bazasındakı cədvələ yazılsın. Xəritəçəkmə sxemi belə olacaq:

Çox böyük məlumatları ucuz və tez necə köçürmək, yükləmək və inteqrasiya etmək olar? Pushdown optimallaşdırma nədir?

Informatica BDM 10.2.1-də xəritəçəkmə şəklində bu belə görünür:

Çox böyük məlumatları ucuz və tez necə köçürmək, yükləmək və inteqrasiya etmək olar? Pushdown optimallaşdırma nədir?

pushdown növü - yerli

Əgər biz pushdown yerli tipini seçsək, onda xəritəçəkmə Informatica serverində həyata keçiriləcək. Məlumatlar Oracle serverindən oxunacaq, Informatica serverinə ötürüləcək, orada transformasiya ediləcək və Hadoop-a ötürüləcək. Başqa sözlə, biz normal ETL prosesi əldə edəcəyik.

pushdown mənbəyini yazın

Mənbə növünü seçərkən, prosesimizi verilənlər bazası serveri (DB) və Hadoop arasında yaymaq imkanı əldə edirik. Proses bu parametrlə yerinə yetirildikdə, cədvəllərdən məlumat əldə etmək üçün sorğular verilənlər bazasına göndəriləcək. Qalanları Hadoop-da addımlar kimi ediləcək.
İcra sxemi belə görünəcək:

Çox böyük məlumatları ucuz və tez necə köçürmək, yükləmək və inteqrasiya etmək olar? Pushdown optimallaşdırma nədir?

Aşağıda iş vaxtı mühitinin qurulması nümunəsi verilmişdir.

Çox böyük məlumatları ucuz və tez necə köçürmək, yükləmək və inteqrasiya etmək olar? Pushdown optimallaşdırma nədir?

Bu halda, xəritəçəkmə iki mərhələdə həyata keçiriləcək. Onun parametrlərində mənbəyə göndəriləcək bir skriptə çevrildiyini görəcəyik. Bundan əlavə, cədvəllərin birləşdirilməsi və verilənlərin çevrilməsi mənbədə ləğv edilmiş sorğu şəklində həyata keçiriləcək.
Aşağıdakı şəkildə biz BDM-də optimallaşdırılmış xəritələşdirməni və mənbədə yenidən təyin edilmiş sorğunu görürük.

Çox böyük məlumatları ucuz və tez necə köçürmək, yükləmək və inteqrasiya etmək olar? Pushdown optimallaşdırma nədir?

Bu konfiqurasiyada Hadoop-un rolu məlumat axınının idarə edilməsinə - onları təşkil etməyə qədər azalacaq. Sorğunun nəticəsi Hadoop-a göndəriləcək. Oxuma tamamlandıqdan sonra Hadoop-dan fayl qəbulediciyə yazılacaq.

pushdown növü - dolu

Tam növü seçdiyiniz zaman xəritələşdirmə tamamilə verilənlər bazası sorğusuna çevriləcək. Və sorğunun nəticəsi Hadoop-a göndəriləcək. Belə bir prosesin diaqramı aşağıda təqdim olunur.

Çox böyük məlumatları ucuz və tez necə köçürmək, yükləmək və inteqrasiya etmək olar? Pushdown optimallaşdırma nədir?

Misal quraşdırma aşağıda göstərilmişdir.

Çox böyük məlumatları ucuz və tez necə köçürmək, yükləmək və inteqrasiya etmək olar? Pushdown optimallaşdırma nədir?

Nəticədə, əvvəlkinə bənzər optimallaşdırılmış xəritələmə əldə edəcəyik. Yeganə fərq ondadır ki, bütün məntiq qəbulediciyə onun daxil edilməsini yenidən müəyyən etmək şəklində ötürülür. Optimallaşdırılmış xəritəçəkmə nümunəsi aşağıda göstərilmişdir.

Çox böyük məlumatları ucuz və tez necə köçürmək, yükləmək və inteqrasiya etmək olar? Pushdown optimallaşdırma nədir?

Burada, əvvəlki halda olduğu kimi, Hadoop dirijor rolunu oynayır. Amma burada mənbə bütünlüklə oxunur və sonra verilənlərin emalı məntiqi qəbuledici səviyyəsində icra edilir.

pushdown növü sıfırdır

Yaxşı, son seçim, xəritələşdirməmiz Hadoop skriptinə çevriləcək pushdown növüdür.

Optimallaşdırılmış xəritələşdirmə indi belə görünəcək:

Çox böyük məlumatları ucuz və tez necə köçürmək, yükləmək və inteqrasiya etmək olar? Pushdown optimallaşdırma nədir?

Burada mənbə fayllarından alınan məlumatlar əvvəlcə Hadoop tərəfindən oxunacaq. Sonra öz vasitəsi ilə bu iki fayl birləşdiriləcək. Bundan sonra məlumatlar çevriləcək və verilənlər bazasına yüklənəcək.

Pushdown optimallaşdırma prinsiplərini başa düşərək, böyük verilənlərlə işləməyin bir çox prosesini çox səmərəli təşkil edə bilərsiniz. Beləliklə, bu yaxınlarda bir böyük şirkət əvvəllər bir neçə il ərzində toplanmış böyük məlumatları bir neçə həftə ərzində saxlama yerindən Hadoop-a yüklədi.

Mənbə: www.habr.com

Добавить комментарий