Өтө чоң маалыматтарды кантип арзан жана тез көчүрүү, жүктөө жана интеграциялоо керек? Pushdown оптималдаштыруу деген эмне?

Ар кандай чоң маалымат операциясы көп эсептөө күчүн талап кылат. Маалыматтар базасынан Hadoopко типтүү көчүрүү бир нече жумага созулушу же учактын канатындай кымбат болушу мүмкүн. Күтүп, акча коротууну каалабайсызбы? Ар кандай платформалардагы жүктү тең салмактаңыз. Мунун бир жолу - төмөндөө оптималдаштыруу.

Мен Россиянын Informatica өнүмдөрүн иштеп чыгуу жана башкаруу боюнча алдыңкы тренери Алексей Ананьевден Informatica Big Data Management (BDM) программасында pushdown оптималдаштыруу функциясы жөнүндө айтып берүүсүн сурандым. Сиз Informatica өнүмдөрү менен иштөөнү үйрөндүңүз беле? Кыязы, Алексей сизге PowerCenterдин негиздерин айтып берип, карталарды кантип курууну түшүндүргөн.

Алексей Ананьев, DIS Group компаниясынын окутуу бөлүмүнүн башчысы

Pushdown деген эмне?

Көпчүлүгүңүздөр Informatica Big Data Management (BDM) менен таанышсыңар. Продукт ар кандай булактардан алынган чоң маалыматтарды интеграциялай алат, аны ар кандай системалардын ортосунда жылдырат, ага оңой жетүүнү камсыздайт, аны профилдештирүү мүмкүнчүлүгүн берет жана башкалар.
Туура колдордо, BDM кереметтерди жасай алат: тапшырмалар тез жана минималдуу эсептөө ресурстары менен аткарылат.

Сен да ошону каалайсыңбы? Эсептөө жүгүн ар кандай платформалар боюнча бөлүштүрүү үчүн BDMде төмөндөтүү мүмкүнчүлүгүн колдонууну үйрөнүңүз. Pushdown технологиясы картаны скриптке айлантууга жана бул скрипт иштей турган чөйрөнү тандоого мүмкүндүк берет. Бул тандоо ар кандай платформалардын күчтүү жактарын айкалыштырууга жана алардын максималдуу иштешине жетишүүгө мүмкүндүк берет.

Скриптти аткаруу чөйрөсүн конфигурациялоо үчүн, сиз түртүүчү түрдү тандооңуз керек. Скрипт толугу менен Hadoopто иштетилет же булак менен чөгөрүүчүнүн ортосунда жарым-жартылай бөлүштүрүлүшү мүмкүн. 4 мүмкүн түртүүчү түрү бар. Карталоону скриптке айландыруунун кереги жок (түпкүлүктүү). Карталоо мүмкүн болушунча булакта (булакта) же толугу менен булакта (толук) аткарылышы мүмкүн. Карталарды Hadoop скриптине айландырса болот (эч бири).

Ылдый оптималдаштыруу

Сандалган 4 түрү ар кандай жолдор менен айкалыштырылышы мүмкүн - pushdown системасынын өзгөчө муктаждыктары үчүн оптималдаштырылган болушу мүмкүн. Мисалы, көбүнчө өз мүмкүнчүлүктөрүн колдонуу менен маалымат базасынан маалыматтарды алуу ылайыктуу. Ал эми маалыматтар базанын өзүн ашыкча жүктөбөш үчүн Hadoop аркылуу конвертацияланат.

Келгиле, булак да, көздөгөн жер да маалымат базасында болгон жана трансформацияны аткаруу платформасы тандалган жагдайды карап көрөлү: орнотууларга жараша, ал Informatica, маалымат базасы сервери же Hadoop болот. Мындай мисал бул механизмдин иштешинин техникалык жагын эң так түшүнүүгө мүмкүндүк берет. Албетте, чыныгы жашоодо, бул жагдай пайда болбойт, бирок ал иш-милдеттерин көрсөтүү үчүн абдан ылайыктуу болуп саналат.

Бир Oracle маалымат базасында эки таблицаны окуу үчүн картаны алалы. Жана окуунун натыйжалары ошол эле базадагы таблицага жазылсын. Карта түзүү схемасы төмөнкүдөй болот:

Өтө чоң маалыматтарды кантип арзан жана тез көчүрүү, жүктөө жана интеграциялоо керек? Pushdown оптималдаштыруу деген эмне?

Informatica BDM 10.2.1 боюнча карта түзүү түрүндө ал төмөнкүдөй көрүнөт:

Өтө чоң маалыматтарды кантип арзан жана тез көчүрүү, жүктөө жана интеграциялоо керек? Pushdown оптималдаштыруу деген эмне?

Түртүү түрү – жергиликтүү

Эгерде биз pushdown жергиликтүү түрүн тандасак, анда карта түзүү Informatica серверинде аткарылат. Маалыматтар Oracle серверинен окулат, Informatica серверине которулат, ал жерде трансформацияланат жана Hadoopко өткөрүлөт. Башкача айтканда, биз кадимки ETL процессин алабыз.

Pushdown түрү – булак

Булактын түрүн тандоодо биз процессибизди маалымат базасы сервери (МБ) жана Hadoop ортосунда бөлүштүрүүгө мүмкүнчүлүк алабыз. Бул жөндөө менен процесс аткарылганда, таблицалардан маалыматтарды алуу үчүн сурамдар маалымат базасына жөнөтүлөт. Ал эми калгандары Hadoop боюнча кадамдар түрүндө аткарылат.
Аткаруу диаграммасы төмөнкүдөй болот:

Өтө чоң маалыматтарды кантип арзан жана тез көчүрүү, жүктөө жана интеграциялоо керек? Pushdown оптималдаштыруу деген эмне?

Төмөндө иштөө чөйрөсүн орнотуунун мисалы келтирилген.

Өтө чоң маалыматтарды кантип арзан жана тез көчүрүү, жүктөө жана интеграциялоо керек? Pushdown оптималдаштыруу деген эмне?

Бул учурда, карта түзүү эки кадам менен аткарылат. Анын жөндөөлөрүнөн биз ал булакка жөнөтүлө турган скриптке айланганын көрөбүз. Мындан тышкары, таблицаларды бириктирүү жана маалыматтарды өзгөртүү булакта жокко чыгарылган суроо түрүндө аткарылат.
Төмөнкү сүрөттө биз BDMде оптималдаштырылган картаны жана булакта кайра аныкталган суроону көрөбүз.

Өтө чоң маалыматтарды кантип арзан жана тез көчүрүү, жүктөө жана интеграциялоо керек? Pushdown оптималдаштыруу деген эмне?

Бул конфигурацияда Hadoopдун ролу маалыматтардын агымын башкарууга - аны уюштурууга чейин кыскарат. Суроонун натыйжасы Hadoopко жөнөтүлөт. Окуу аяктагандан кийин, Hadoop файлы раковинага жазылат.

Түртүү түрү – толук

Толук түрүн тандаганыңызда, карта түзүү толугу менен маалымат базасынын суроосуна айланат. Ал эми сурамдын натыйжасы Hadoopко жөнөтүлөт. Мындай процесстин диаграммасы төмөндө келтирилген.

Өтө чоң маалыматтарды кантип арзан жана тез көчүрүү, жүктөө жана интеграциялоо керек? Pushdown оптималдаштыруу деген эмне?

Мисал орнотуу төмөндө көрсөтүлгөн.

Өтө чоң маалыматтарды кантип арзан жана тез көчүрүү, жүктөө жана интеграциялоо керек? Pushdown оптималдаштыруу деген эмне?

Натыйжада, биз мурункуга окшош оптималдаштырылган картаны алабыз. Бир гана айырмасы, бардык логика анын киргизүүнү жокко чыгаруу түрүндө кабыл алуучуга өткөрүлүп берилет. Төмөндө оптималдаштырылган картанын мисалы келтирилген.

Өтө чоң маалыматтарды кантип арзан жана тез көчүрүү, жүктөө жана интеграциялоо керек? Pushdown оптималдаштыруу деген эмне?

Бул жерде мурункудай эле, Hadoop дирижердун ролун ойнойт. Бирок бул жерде булак толугу менен окулат, андан кийин маалыматтарды иштетүү логикасы кабыл алуучунун деңгээлинде аткарылат.

Түртүү түрү нөл

Ооба, акыркы вариант - төмөндөтүү түрү, анын ичинде биздин карта Hadoop скриптине айланат.

Оптимизацияланган карта эми төмөнкүдөй болот:

Өтө чоң маалыматтарды кантип арзан жана тез көчүрүү, жүктөө жана интеграциялоо керек? Pushdown оптималдаштыруу деген эмне?

Бул жерде булак файлдарынан алынган маалыматтар алгач Hadoopдо окулат. Андан кийин, өзүнүн каражаттарын колдонуу менен, бул эки файл бириктирилет. Андан кийин, маалыматтар конвертацияланат жана маалымат базасына жүктөлөт.

Pushdown оптималдаштыруу принциптерин түшүнүү менен, сиз чоң маалыматтар менен иштөө үчүн көптөгөн процесстерди абдан натыйжалуу уюштура аласыз. Ошентип, жакында эле бир чоң компания бир нече жуманын ичинде сактагычтан чоң маалыматтарды Hadoopко жүктөдү, аны мурда бир нече жыл бою чогулткан.

Source: www.habr.com

Комментарий кошуу