Өте үлкен деректерді қалай арзан әрі жылдам жылжытуға, жүктеп салуға және біріктіруге болады? Басып шығаруды оңтайландыру дегеніміз не?

Кез келген үлкен деректер операциясы үлкен есептеу қуатын қажет етеді. Дерекқордан Hadoop-қа әдеттегідей деректерді көшіру апталарды алуы немесе ұшақ қанаты сияқты қымбат болуы мүмкін. Күтіп, ақша жұмсағыңыз келмей ме? Әр түрлі платформалардағы жүктемені теңестіріңіз. Оның бір жолы - төмен қарай оңтайландыру.

Мен Ресейдің Informatica өнімдерін әзірлеу және басқару жөніндегі жетекші жаттықтырушы Алексей Ананьевтен Informatica Big Data Management (BDM) жүйесіндегі ығысуды оңтайландыру функциясы туралы айтуды сұрадым. Сіз Informatica өнімдерімен жұмыс істеуді үйрендіңіз бе? Сізге PowerCenter негіздерін айтып, салыстыруды қалай құру керектігін түсіндірген Алексей болса керек.

Алексей Ананьев, DIS Group оқу бөлімінің басшысы

Басу дегеніміз не?

Көпшілігіңіз Informatica Big Data Management (BDM) бағдарламасымен бұрыннан таныссыз. Өнім әртүрлі көздерден алынған үлкен деректерді біріктіре алады, оны әртүрлі жүйелер арасында жылжытады, оған оңай қол жеткізуді қамтамасыз етеді, оны профильдеуге мүмкіндік береді және т.б.
Тиісті қолдарда BDM ғажайыптар жасай алады: тапсырмалар тез және ең аз есептеу ресурстарымен орындалады.

Сіз де соны қалайсыз ба? Есептеу жүктемесін әртүрлі платформалар бойынша тарату үшін BDM жүйесіндегі итеру мүмкіндігін пайдалануды үйреніңіз. Pushdown технологиясы салыстыруды сценарийге айналдыруға және осы сценарий іске қосылатын ортаны таңдауға мүмкіндік береді. Бұл таңдау әртүрлі платформалардың күшті жақтарын біріктіруге және олардың максималды өнімділігіне қол жеткізуге мүмкіндік береді.

Сценарийдің орындалу ортасын конфигурациялау үшін итеру түрін таңдау керек. Сценарий толығымен Hadoop-та іске қосылуы немесе дереккөз бен раковина арасында жартылай таратылуы мүмкін. 4 ықтимал түрткі бар. Карталауды сценарийге (туған) айналдырудың қажеті жоқ. Карталау мүмкіндігінше көзде (көзде) немесе толығымен көзде (толық) орындалуы мүмкін. Сондай-ақ, салыстыруды Hadoop сценарийіне айналдыруға болады (жоқ).

Тығынды оңтайландыру

Көрсетілген 4 түрді әртүрлі тәсілдермен біріктіруге болады - итеруді жүйенің нақты қажеттіліктері үшін оңтайландыруға болады. Мысалы, өз мүмкіндіктерін пайдалана отырып, дерекқордан деректерді шығару жиі орынды. Дерекқордың өзін шамадан тыс жүктемеу үшін деректер Hadoop көмегімен түрлендіріледі.

Дереккөздің де, тағайындалған жердің де дерекқорда болғанын және трансформацияны орындау платформасын таңдауға болатын жағдайды қарастырайық: параметрлерге байланысты ол Informatica, дерекқор сервері немесе Hadoop болады. Мұндай мысал сізге осы механизмнің жұмысының техникалық жағын дәл түсінуге мүмкіндік береді. Әрине, нақты өмірде мұндай жағдай туындамайды, бірақ ол функционалдылықты көрсету үшін ең қолайлы.

Бір Oracle дерекқорындағы екі кестені оқу үшін салыстыруды алайық. Ал оқу нәтижелері сол дерекқордағы кестеге жазылсын. Картаның схемасы келесідей болады:

Өте үлкен деректерді қалай арзан әрі жылдам жылжытуға, жүктеп салуға және біріктіруге болады? Басып шығаруды оңтайландыру дегеніміз не?

Informatica BDM 10.2.1-де карталау түрінде ол келесідей көрінеді:

Өте үлкен деректерді қалай арзан әрі жылдам жылжытуға, жүктеп салуға және біріктіруге болады? Басып шығаруды оңтайландыру дегеніміз не?

Басылатын түрі – жергілікті

Егер біз итерілетін жергілікті түрін таңдасақ, онда салыстыру Informatica серверінде орындалады. Деректер Oracle серверінен оқылады, Informatica серверіне жіберіледі, сол жерде түрленеді және Hadoop-қа жіберіледі. Басқаша айтқанда, біз қалыпты ETL процесін аламыз.

Тығыздау түрі – көз

Дереккөз түрін таңдаған кезде біз өз процесті дерекқор сервері (ДҚ) мен Hadoop арасында тарату мүмкіндігін аламыз. Процесс осы параметрмен орындалғанда, кестелерден деректерді алуға сұраулар дерекқорға жіберіледі. Ал қалғандары Hadoop-та қадамдар түрінде орындалады.
Орындау диаграммасы келесідей болады:

Өте үлкен деректерді қалай арзан әрі жылдам жылжытуға, жүктеп салуға және біріктіруге болады? Басып шығаруды оңтайландыру дегеніміз не?

Төменде орындалу ортасын орнатудың мысалы берілген.

Өте үлкен деректерді қалай арзан әрі жылдам жылжытуға, жүктеп салуға және біріктіруге болады? Басып шығаруды оңтайландыру дегеніміз не?

Бұл жағдайда салыстыру екі қадаммен орындалады. Оның параметрлерінде біз оның дереккөзге жіберілетін сценарийге айналғанын көреміз. Сонымен қатар, кестелерді біріктіру және деректерді түрлендіру көзде қайта анықталған сұрау түрінде орындалады.
Төмендегі суретте біз BDM-де оңтайландырылған салыстыруды және көзде қайта анықталған сұрауды көреміз.

Өте үлкен деректерді қалай арзан әрі жылдам жылжытуға, жүктеп салуға және біріктіруге болады? Басып шығаруды оңтайландыру дегеніміз не?

Бұл конфигурациядағы Hadoop рөлі деректер ағынын басқаруға - оны ұйымдастыруға дейін төмендейді. Сұрау нәтижесі Hadoop-қа жіберіледі. Оқу аяқталғаннан кейін Hadoop файлы раковинаға жазылады.

Тығыздау түрі – толық

Толық түрді таңдаған кезде, салыстыру толығымен дерекқор сұрауына айналады. Ал сұраудың нәтижесі Hadoop-қа жіберіледі. Мұндай процестің диаграммасы төменде келтірілген.

Өте үлкен деректерді қалай арзан әрі жылдам жылжытуға, жүктеп салуға және біріктіруге болады? Басып шығаруды оңтайландыру дегеніміз не?

Мысал орнату төменде көрсетілген.

Өте үлкен деректерді қалай арзан әрі жылдам жылжытуға, жүктеп салуға және біріктіруге болады? Басып шығаруды оңтайландыру дегеніміз не?

Нәтижесінде біз алдыңғыға ұқсас оңтайландырылған картаны аламыз. Жалғыз айырмашылық - барлық логика қабылдағышқа оның кірістірілуін қайта анықтау түрінде беріледі. Оңтайландырылған картаның мысалы төменде берілген.

Өте үлкен деректерді қалай арзан әрі жылдам жылжытуға, жүктеп салуға және біріктіруге болады? Басып шығаруды оңтайландыру дегеніміз не?

Мұнда, алдыңғы жағдайдағыдай, Hadoop дирижер рөлін атқарады. Бірақ бұл жерде дереккөз толығымен оқылады, содан кейін мәліметтерді өңдеу логикасы қабылдағыш деңгейінде орындалады.

Тығыздау түрі нөл

Ал, соңғы опция - бұл төмен түсіру түрі, оның ішінде біздің салыстыруымыз Hadoop сценарийіне айналады.

Оңтайландырылған карта енді келесідей болады:

Өте үлкен деректерді қалай арзан әрі жылдам жылжытуға, жүктеп салуға және біріктіруге болады? Басып шығаруды оңтайландыру дегеніміз не?

Мұнда бастапқы файлдардағы деректер алдымен Hadoop-та оқылады. Содан кейін, өз құралдарын пайдалана отырып, бұл екі файл біріктіріледі. Осыдан кейін деректер түрлендіріліп, дерекқорға жүктеледі.

Төмендетуді оңтайландыру принциптерін түсіну арқылы үлкен деректермен жұмыс істеу үшін көптеген процестерді өте тиімді ұйымдастыруға болады. Осылайша, жақында бір ірі компания бірнеше аптаның ішінде үлкен деректерді сақтаудан Hadoop-қа жүктеп алды, оны бірнеше жыл бойы жинады.

Ақпарат көзі: www.habr.com

пікір қалдыру