Чӣ тавр интиқол, боргузорӣ ва ҳамгироии маълумоти хеле калонро арзон ва зуд бояд кард? Оптимизатсияи pushdown чист?

Ҳар як амалиёти бузурги додаҳо қувваи зиёди ҳисоббарориро талаб мекунад. Интиқоли маъмулии маълумот аз пойгоҳи додаҳо ба Hadoop метавонад ҳафтаҳо тӯл кашад ё ба қадри қаноти ҳавопаймо арзиш дорад. Оё намехоҳед интизор шавед ва пул сарф кунед? Сарборӣ дар платформаҳои гуногунро мувозинат кунед. Яке аз роҳҳо оптимизатсияи поён аст.

Ман аз тренери пешбари Русия оид ба таҳия ва идоракунии маҳсулоти Informatica Алексей Ананьев хоҳиш кардам, ки дар бораи функсияи оптимизатсияи фишор дар Informatica Big Data Management (BDM) сӯҳбат кунад. Оё шумо ягон бор кор карданро бо маҳсулоти Informatica омӯхтаед? Эҳтимол, ин Алексей буд, ки ба шумо асосҳои PowerCenter-ро нақл кард ва тарзи сохтани харитаҳоро фаҳмонд.

Алексей Ананьев, роҳбари тренинги DIS Group

Pushdown чист?

Бисёре аз шумо аллакай бо Informatica Big Data Management (BDM) шинос ҳастед. Маҳсулот метавонад маълумоти калонро аз манбаъҳои гуногун муттаҳид созад, онро дар байни системаҳои гуногун интиқол диҳад, дастрасии осонро ба он таъмин кунад, ба шумо имкон медиҳад профили он ва ғайра.
Дар дасти рост, BDM метавонад мӯъҷизот эҷод кунад: вазифаҳо зуд ва бо ҳадди ақали захираҳои ҳисоббарорӣ анҷом дода мешаванд.

Оё шумо ҳам инро мехоҳед? Истифодаи хусусияти поёнро дар BDM омӯзед, то сарбории компютериро дар платформаҳои гуногун тақсим кунед. Технологияи Pushdown ба шумо имкон медиҳад, ки харитасозиро ба скрипт табдил диҳед ва муҳитеро, ки ин скрипт дар он кор мекунад, интихоб кунед. Ин интихоб ба шумо имкон медиҳад, ки ҷиҳатҳои пурқуввати платформаҳои гуногунро муттаҳид кунед ва ба ҳадди аксар ноил шавед.

Барои танзим кардани муҳити иҷрои скрипт, шумо бояд навъи поёнро интихоб кунед. Скрипт метавонад пурра дар Hadoop иҷро карда шавад ё қисман байни манбаъ ва танӯр тақсим карда шавад. 4 намуди имконпазири пахшкунӣ вуҷуд дорад. Харитасозӣ набояд ба скрипт табдил дода шавад (модарӣ). Харитасозӣ метавонад то ҳадди имкон дар сарчашма (манбаъ) ё пурра дар манбаъ (пурра) анҷом дода шавад. Харитасозӣ инчунин метавонад ба скрипти Hadoop табдил дода шавад (ҳеҷ).

Оптимизатсияи поён

4 намуди номбаршударо метавон бо роҳҳои гуногун муттаҳид кард - pushdown метавонад барои эҳтиёҷоти мушаххаси система оптимизатсия карда шавад. Масалан, аксар вақт аз пойгоҳи додаҳо бо истифода аз имкониятҳои худ истихроҷ кардани маълумот мувофиқтар аст. Ва маълумот бо истифода аз Hadoop табдил дода мешавад, то худи махзани маълумотро аз ҳад зиёд бор накунад.

Биёед мисолеро дида бароем, ки ҳам манбаъ ва ҳам макони таъинот дар пойгоҳи додаҳо ҳастанд ва платформаи иҷрои трансформатсияро интихоб кардан мумкин аст: вобаста ба танзимот, он Informatica, сервери пойгоҳи додаҳо ё Hadoop хоҳад буд. Чунин мисол ба шумо имкон медиҳад, ки ҷанбаи техникии кори ин механизмро дақиқтар фаҳмед. Табиист, ки дар ҳаёти воқеӣ, ин вазъият ба вуҷуд намеояд, аммо он барои намоиш додани функсия беҳтарин мувофиқ аст.

Биёед харитасозӣ кунем, то ду ҷадвалро дар як пойгоҳи додаҳои Oracle хонем. Ва бигзор натиљањои хониш дар љадвал дар як базаи маълумот сабт карда шаванд. Нақшаи харитасозӣ чунин хоҳад буд:

Чӣ тавр интиқол, боргузорӣ ва ҳамгироии маълумоти хеле калонро арзон ва зуд бояд кард? Оптимизатсияи pushdown чист?

Дар шакли харитасозӣ дар Informatica BDM 10.2.1 чунин менамояд:

Чӣ тавр интиқол, боргузорӣ ва ҳамгироии маълумоти хеле калонро арзон ва зуд бояд кард? Оптимизатсияи pushdown чист?

Навъи поён - модарӣ

Агар мо навъи аслии pushdown-ро интихоб кунем, он гоҳ харитасозӣ дар сервери Informatica анҷом дода мешавад. Маълумот аз сервери Oracle хонда мешавад, ба сервери Informatica интиқол дода мешавад, дар он ҷо табдил дода мешавад ва ба Hadoop интиқол дода мешавад. Ба ибораи дигар, мо раванди муқаррарии ETL мегирем.

Навъи поён - сарчашма

Ҳангоми интихоби навъи манбаъ, мо имконият пайдо мекунем, ки раванди худро байни сервери пойгоҳи додаҳо (DB) ва Hadoop тақсим кунем. Вақте ки раванд бо ин танзимот иҷро мешавад, дархостҳо барои гирифтани маълумот аз ҷадвалҳо ба пойгоҳи додаҳо фиристода мешаванд. Ва боқимонда дар шакли қадамҳо дар Hadoop иҷро карда мешаванд.
Диаграммаи иҷро чунин хоҳад буд:

Чӣ тавр интиқол, боргузорӣ ва ҳамгироии маълумоти хеле калонро арзон ва зуд бояд кард? Оптимизатсияи pushdown чист?

Дар зер намунаи ташкили муҳити корӣ оварда шудааст.

Чӣ тавр интиқол, боргузорӣ ва ҳамгироии маълумоти хеле калонро арзон ва зуд бояд кард? Оптимизатсияи pushdown чист?

Дар ин ҳолат, харитасозӣ дар ду марҳила анҷом дода мешавад. Дар танзимоти он мо мебинем, ки он ба скрипт табдил ёфтааст, ки ба манбаъ фиристода мешавад. Ғайр аз он, омезиши ҷадвалҳо ва табдил додани додаҳо дар шакли дархости бекоршуда дар манбаъ анҷом дода мешавад.
Дар расми зер, мо харитасозии оптимизатсияшуда дар BDM ва дархости дубора муайяншударо дар манбаъ мебинем.

Чӣ тавр интиқол, боргузорӣ ва ҳамгироии маълумоти хеле калонро арзон ва зуд бояд кард? Оптимизатсияи pushdown чист?

Нақши Hadoop дар ин конфигуратсия ба идоракунии ҷараёни додаҳо - ташкили он кам карда мешавад. Натиҷаи пурсиш ба Hadoop фиристода мешавад. Пас аз ба итмом расидани хониш, файл аз Hadoop ба танӯр навишта мешавад.

Навъи поён - пур

Вақте ки шумо навъи пурраро интихоб мекунед, харитасозӣ пурра ба дархости пойгоҳи додаҳо табдил меёбад. Ва натиҷаи дархост ба Hadoop фиристода мешавад. Диаграммаи чунин раванд дар зер оварда шудааст.

Чӣ тавр интиқол, боргузорӣ ва ҳамгироии маълумоти хеле калонро арзон ва зуд бояд кард? Оптимизатсияи pushdown чист?

Намунаи танзим дар зер нишон дода шудааст.

Чӣ тавр интиқол, боргузорӣ ва ҳамгироии маълумоти хеле калонро арзон ва зуд бояд кард? Оптимизатсияи pushdown чист?

Дар натиҷа, мо харитасозии оптимизатсияшуда ба харитаи қаблӣ монандро мегирем. Ягона тафовут дар он аст, ки тамоми мантиқ ба қабулкунанда дар шакли барҳам додани воридкунии он интиқол дода мешавад. Намунаи харитасозии оптимизатсияшуда дар зер оварда шудааст.

Чӣ тавр интиқол, боргузорӣ ва ҳамгироии маълумоти хеле калонро арзон ва зуд бояд кард? Оптимизатсияи pushdown чист?

Дар ин ҷо, чун дар ҳолати қаблӣ, Hadoop нақши дирижёрро мебозад. Аммо дар ин ҷо сарчашма пурра хонда мешавад ва баъд мантиқи коркарди додаҳо дар сатҳи қабулкунанда иҷро карда мешавад.

Навъи зеркашида нул аст

Хуб, варианти охирин навъи pushdown аст, ки дар доираи он харитасозии мо ба скрипти Hadoop табдил меёбад.

Харитаи оптимизатсияшуда ҳоло чунин хоҳад буд:

Чӣ тавр интиқол, боргузорӣ ва ҳамгироии маълумоти хеле калонро арзон ва зуд бояд кард? Оптимизатсияи pushdown чист?

Дар ин ҷо маълумот аз файлҳои манбаъ аввал дар Hadoop хонда мешавад. Сипас, бо истифода аз воситаҳои худ, ин ду файл якҷоя карда мешаванд. Пас аз ин, маълумот табдил дода мешавад ва ба пойгоҳи додаҳо бор карда мешавад.

Бо фаҳмидани принсипҳои оптимизатсияи pushdown, шумо метавонед бисёр равандҳоро барои кор бо додаҳои калон хеле самаранок ташкил кунед. Ҳамин тариқ, ба наздикӣ, як ширкати бузург, дар тӯли чанд ҳафта, маълумоти калонро аз нигоҳдорӣ ба Hadoop, ки қаблан дар тӯли якчанд сол ҷамъоварӣ карда буд, зеркашӣ кард.

Манбаъ: will.com

Илова Эзоҳ