ඉතා විශාල දත්ත ලාභදායීව සහ ඉක්මනින් ගෙනයාම, උඩුගත කිරීම සහ ඒකාබද්ධ කරන්නේ කෙසේද? pushdown optimization යනු කුමක්ද?

ඕනෑම විශාල දත්ත මෙහෙයුමක් සඳහා විශාල පරිගණක බලයක් අවශ්‍ය වේ. සාමාන්‍ය දත්ත ගබඩාවක සිට Hadoop වෙත දත්ත ගෙනයාමක් සඳහා සති ගණනක් හෝ ගුවන් යානයක තටුවක් තරම් මුදලක් වැය විය හැක. බලාගෙන ඉඳලා සල්ලි වියදම් කරන්න ඕන නැද්ද? විවිධ වේදිකා හරහා බර සමතුලිත කරන්න. එක් ක්රමයක් වන්නේ pushdown ප්රශස්තකරණයයි.

Informatica නිෂ්පාදන සංවර්ධනය සහ පරිපාලනය සඳහා රුසියාවේ ප්‍රමුඛ පුහුණුකරු Alexey Ananyev ගෙන් Informatica Big Data Management (BDM) හි pushdown ප්‍රශස්තිකරණ කාර්යය ගැන කතා කරන ලෙස මම ඉල්ලා සිටියෙමි. ඔබ කවදා හෝ Informatica නිෂ්පාදන සමඟ වැඩ කිරීමට ඉගෙන ගෙන තිබේද? බොහෝ දුරට ඉඩ ඇත්තේ Alexey විසින් PowerCenter හි මූලික කරුණු ඔබට පැවසූ අතර සිතියම් නිර්මාණය කරන්නේ කෙසේද යන්න පැහැදිලි කළේය.

Alexey Ananyev, DIS Group හි පුහුණු ප්රධානියා

pushdown යනු කුමක්ද?

ඔබගෙන් බොහෝ දෙනෙක් දැනටමත් Informatica Big Data Management (BDM) ගැන හුරුපුරුදුය. නිෂ්පාදනයට විවිධ ප්‍රභවයන්ගෙන් විශාල දත්ත ඒකාබද්ධ කිරීමට, විවිධ පද්ධති අතර එය ගෙන යාමට, එයට පහසු ප්‍රවේශයක් ලබා දීමට, ඔබට එය පැතිකඩ කිරීමට සහ තවත් බොහෝ දේ කළ හැකිය.
දකුණු අතේ, BDM හට අරුමපුදුම දේ කළ හැකිය: කාර්යයන් ඉක්මනින් සහ අවම පරිගණක සම්පත් සමඟ අවසන් වනු ඇත.

ඔබටත් එය අවශ්‍යද? විවිධ වේදිකා හරහා පරිගණක භාරය බෙදා හැරීමට BDM හි pushdown විශේෂාංගය භාවිතා කිරීමට ඉගෙන ගන්න. Pushdown තාක්ෂණය මඟින් ඔබට සිතියම්ගත කිරීම ස්ක්‍රිප්ට් එකක් බවට පත් කිරීමට සහ මෙම ස්ක්‍රිප්ට් ක්‍රියාත්මක වන පරිසරය තෝරා ගැනීමට ඉඩ සලසයි. මෙම තේරීම ඔබට විවිධ වේදිකාවල ශක්තීන් ඒකාබද්ධ කිරීමට සහ ඔවුන්ගේ උපරිම කාර්ය සාධනය ලබා ගැනීමට ඉඩ සලසයි.

ස්ක්‍රිප්ට් ක්‍රියාත්මක කිරීමේ පරිසරය වින්‍යාස කිරීම සඳහා, ඔබ තල්ලු කිරීමේ වර්ගය තෝරාගත යුතුය. ස්ක්‍රිප්ට් එක සම්පුර්ණයෙන්ම Hadoop මත ධාවනය කළ හැක හෝ මූලාශ්‍රය සහ සින්ක් අතර අර්ධ වශයෙන් බෙදා හැරිය හැක. හැකි pushdown වර්ග 4ක් ඇත. සිතියම්ගත කිරීම ස්ක්‍රිප්ට් (දේශීය) බවට හැරවිය යුතු නැත. සිතියම්ගත කිරීම මූලාශ්‍රය (මූලාශ්‍රය) හෝ සම්පූර්ණයෙන්ම මූලාශ්‍රය (සම්පූර්ණ) මත හැකිතාක් සිදු කළ හැක. සිතියම්ගත කිරීම Hadoop පිටපතක් බවට පත් කළ හැක (කිසිවක් නැත).

පුෂ්ඩවුන් ප්‍රශස්තකරණය

ලැයිස්තුගත කර ඇති වර්ග 4 විවිධ ආකාරවලින් ඒකාබද්ධ කළ හැකිය - පද්ධතියේ නිශ්චිත අවශ්යතා සඳහා pushdown ප්රශස්ත කළ හැක. උදාහරණයක් ලෙස, බොහෝ විට දත්ත සමුදායකින් දත්ත උකහා ගැනීම වඩාත් සුදුසු වන්නේ එහිම හැකියාවන් භාවිතා කරමිනි. තවද දත්ත සමුදාය අධික ලෙස පැටවීම නොකිරීමට Hadoop භාවිතයෙන් දත්ත පරිවර්තනය කරනු ලැබේ.

මූලාශ්‍රය සහ ගමනාන්තය යන දෙකම දත්ත ගබඩාවේ ඇති විට, පරිවර්තන ක්‍රියාත්මක කිරීමේ වේදිකාව තෝරාගත හැකි අවස්ථාව සලකා බලමු: සැකසීම් මත පදනම්ව, එය Informatica, දත්ත සමුදා සේවාදායකයක් හෝ Hadoop වේ. එවැනි උදාහරණයක් මෙම යාන්ත්‍රණයේ ක්‍රියාකාරිත්වයේ තාක්ෂණික පැත්ත වඩාත් නිවැරදිව තේරුම් ගැනීමට ඔබට ඉඩ සලසයි. ස්වාභාවිකවම, සැබෑ ජීවිතයේ දී, මෙම තත්වය පැනනගින්නේ නැත, නමුත් එය ක්රියාකාරිත්වය විදහා දැක්වීම සඳහා වඩාත් සුදුසු වේ.

අපි තනි Oracle දත්ත ගබඩාවක වගු දෙකක් කියවීමට සිතියම්ගත කරමු. කියවීමේ ප්‍රතිඵල එකම දත්ත ගබඩාවේ වගුවක සටහන් කිරීමට ඉඩ දෙන්න. සිතියම්ගත කිරීමේ යෝජනා ක්රමය මේ වගේ වනු ඇත:

ඉතා විශාල දත්ත ලාභදායීව සහ ඉක්මනින් ගෙනයාම, උඩුගත කිරීම සහ ඒකාබද්ධ කරන්නේ කෙසේද? pushdown optimization යනු කුමක්ද?

Informatica BDM 10.2.1 සිතියම්ගත කිරීමේ ස්වරූපයෙන් එය මෙසේ පෙනේ:

ඉතා විශාල දත්ත ලාභදායීව සහ ඉක්මනින් ගෙනයාම, උඩුගත කිරීම සහ ඒකාබද්ධ කරන්නේ කෙසේද? pushdown optimization යනු කුමක්ද?

පුෂ්ඩවුන් වර්ගය - ස්වදේශීය

අපි pushdown ස්වදේශීය වර්ගය තෝරා ගන්නේ නම්, සිතියම්ගත කිරීම Informatica සේවාදායකයේ සිදු කෙරේ. දත්ත Oracle සේවාදායකයෙන් කියවා Informatica සේවාදායකයට මාරු කර එහි පරිවර්තනය කර Hadoop වෙත මාරු කරනු ලැබේ. වෙනත් වචන වලින් කිවහොත්, අපට සාමාන්‍ය ETL ක්‍රියාවලියක් ලැබෙනු ඇත.

Pushdown වර්ගය - මූලාශ්රය

මූලාශ්‍ර වර්ගය තෝරාගැනීමේදී, දත්ත සමුදා සේවාදායකය (DB) සහ Hadoop අතර අපගේ ක්‍රියාවලිය බෙදා හැරීමට අපට අවස්ථාව ලැබේ. මෙම සැකසුම සමඟ ක්‍රියාවලියක් ක්‍රියාත්මක කරන විට, වගු වලින් දත්ත ලබා ගැනීමට ඉල්ලීම් දත්ත සමුදාය වෙත යවනු ලැබේ. ඉතිරිය Hadoop මත පියවර ආකාරයෙන් සිදු කරනු ලැබේ.
ක්රියාත්මක කිරීමේ රූප සටහන මේ ආකාරයෙන් පෙනෙනු ඇත:

ඉතා විශාල දත්ත ලාභදායීව සහ ඉක්මනින් ගෙනයාම, උඩුගත කිරීම සහ ඒකාබද්ධ කරන්නේ කෙසේද? pushdown optimization යනු කුමක්ද?

පහත දැක්වෙන්නේ ධාවන කාල පරිසරය සැකසීමේ උදාහරණයකි.

ඉතා විශාල දත්ත ලාභදායීව සහ ඉක්මනින් ගෙනයාම, උඩුගත කිරීම සහ ඒකාබද්ධ කරන්නේ කෙසේද? pushdown optimization යනු කුමක්ද?

මෙම අවස්ථාවේදී, සිතියම්ගත කිරීම පියවර දෙකකින් සිදු කෙරේ. එහි සැකසුම් තුළ එය මූලාශ්‍රය වෙත යවනු ලබන ස්ක්‍රිප්ට් එකක් බවට පත් වී ඇති බව අපට පෙනෙනු ඇත. එපමනක් නොව, වගු ඒකාබද්ධ කිරීම සහ දත්ත පරිවර්තනය කිරීම මූලාශ්‍රය මත අභිබවා ගිය විමසුමක ආකාරයෙන් සිදු කෙරේ.
පහත පින්තූරයේ, අපි BDM මත ප්‍රශස්ත සිතියම්ගත කිරීමක් සහ මූලාශ්‍රය මත නැවත අර්ථ දක්වා ඇති විමසුමක් දකිමු.

ඉතා විශාල දත්ත ලාභදායීව සහ ඉක්මනින් ගෙනයාම, උඩුගත කිරීම සහ ඒකාබද්ධ කරන්නේ කෙසේද? pushdown optimization යනු කුමක්ද?

මෙම වින්‍යාසය තුළ Hadoop හි කාර්යභාරය දත්ත ප්‍රවාහය කළමනාකරණය කිරීම දක්වා අඩු කරනු ඇත - එය සංවිධානය කිරීම. විමසුමේ ප්‍රතිඵලය Hadoop වෙත යවනු ලැබේ. කියවීම අවසන් වූ පසු, Hadoop වෙතින් ගොනුව සින්ක් වෙත ලියා ඇත.

තල්ලු කිරීමේ වර්ගය - සම්පූර්ණයි

ඔබ සම්පූර්ණ වර්ගය තේරූ විට, සිතියම්කරණය සම්පූර්ණයෙන්ම දත්ත සමුදා විමසුමක් බවට පත්වේ. ඉල්ලීමේ ප්‍රතිඵලය Hadoop වෙත යවනු ලැබේ. එවැනි ක්රියාවලියක රූප සටහනක් පහත දැක්වේ.

ඉතා විශාල දත්ත ලාභදායීව සහ ඉක්මනින් ගෙනයාම, උඩුගත කිරීම සහ ඒකාබද්ධ කරන්නේ කෙසේද? pushdown optimization යනු කුමක්ද?

උදාහරණයක් සැකසුම පහත දැක්වේ.

ඉතා විශාල දත්ත ලාභදායීව සහ ඉක්මනින් ගෙනයාම, උඩුගත කිරීම සහ ඒකාබද්ධ කරන්නේ කෙසේද? pushdown optimization යනු කුමක්ද?

එහි ප්‍රතිඵලයක් වශයෙන්, පෙර එකට සමාන ප්‍රශස්ත සිතියම්කරණයක් අපට ලැබෙනු ඇත. එකම වෙනස වන්නේ එහි ඇතුළත් කිරීම අභිබවා යන ආකාරයෙන් සියලුම තර්ක ග්‍රාහකයා වෙත මාරු කිරීමයි. ප්‍රශස්ත සිතියම්කරණයේ උදාහරණයක් පහත දැක්වේ.

ඉතා විශාල දත්ත ලාභදායීව සහ ඉක්මනින් ගෙනයාම, උඩුගත කිරීම සහ ඒකාබද්ධ කරන්නේ කෙසේද? pushdown optimization යනු කුමක්ද?

මෙහිදී පෙර අවස්ථාවේ දී මෙන්, Hadoop විසින් කොන්දොස්තරවරයාගේ භූමිකාව ඉටු කරයි. නමුත් මෙහිදී මූලාශ්‍රය සම්පුර්ණයෙන්ම කියවන අතර පසුව දත්ත සැකසුම් තර්කනය ග්‍රාහක මට්ටමින් සිදු කෙරේ.

තල්ලු කිරීමේ වර්ගය ශුන්‍ය වේ

හොඳයි, අවසාන විකල්පය වන්නේ pushdown වර්ගයයි, එය තුළ අපගේ සිතියම්කරණය Hadoop පිටපතක් බවට පත්වේ.

ප්‍රශස්ත සිතියම්කරණය දැන් මේ ආකාරයෙන් පෙනෙනු ඇත:

ඉතා විශාල දත්ත ලාභදායීව සහ ඉක්මනින් ගෙනයාම, උඩුගත කිරීම සහ ඒකාබද්ධ කරන්නේ කෙසේද? pushdown optimization යනු කුමක්ද?

මෙහිදී මූලාශ්‍ර ගොනු වල දත්ත මුලින්ම කියවනු ලබන්නේ Hadoop මත ය. එවිට, ඔහුගේම මාර්ග භාවිතා කරමින්, මෙම ගොනු දෙක ඒකාබද්ධ කරනු ඇත. මෙයින් පසු, දත්ත පරිවර්තනය කර දත්ත ගබඩාවට උඩුගත කරනු ලැබේ.

pushdown ප්‍රශස්තකරණයේ මූලධර්ම අවබෝධ කර ගැනීමෙන්, විශාල දත්ත සමඟ වැඩ කිරීම සඳහා ඔබට බොහෝ ක්‍රියාවලීන් ඉතා ඵලදායි ලෙස සංවිධානය කළ හැකිය. මේ අනුව, ඉතා මෑතකදී, එක් විශාල සමාගමක්, සති කිහිපයකින්, ගබඩාවෙන් විශාල දත්ත Hadoop වෙත බාගත කර ඇත, එය මීට පෙර වසර ගණනාවක් තිස්සේ එකතු කර ඇත.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න