எந்தவொரு பெரிய தரவுச் செயல்பாட்டிற்கும் அதிக கணினி சக்தி தேவைப்படுகிறது. ஒரு தரவுத்தளத்திலிருந்து ஹடூப்பிற்கு ஒரு பொதுவான தரவை நகர்த்துவதற்கு வாரங்கள் ஆகலாம் அல்லது விமானத்தின் இறக்கைக்கு எவ்வளவு செலவாகும். காத்திருந்து பணம் செலவழிக்க வேண்டாமா? வெவ்வேறு தளங்களில் சுமையை சமநிலைப்படுத்தவும். ஒரு வழி புஷ் டவுன் ஆப்டிமைசேஷன்.
Informatica தயாரிப்புகளின் மேம்பாடு மற்றும் நிர்வாகத்திற்கான ரஷ்யாவின் முன்னணி பயிற்சியாளர் Alexey Ananyev என்பவரிடம், Informatica Big Data Management (BDM) இல் உள்ள புஷ் டவுன் ஆப்டிமைசேஷன் செயல்பாட்டைப் பற்றி பேசுமாறு கேட்டேன். இன்ஃபர்மேட்டிகா தயாரிப்புகளுடன் பணிபுரிய நீங்கள் எப்போதாவது கற்றுக்கொண்டீர்களா? பெரும்பாலும், அலெக்ஸி தான் பவர்சென்டரின் அடிப்படைகளை உங்களுக்குச் சொன்னார் மற்றும் மேப்பிங்கை எவ்வாறு உருவாக்குவது என்பதை விளக்கினார்.
Alexey Ananyev, DIS குழுமத்தின் பயிற்சித் தலைவர்
புஷ் டவுன் என்றால் என்ன?
உங்களில் பலர் ஏற்கனவே Informatica Big Data Management (BDM) பற்றி நன்கு அறிந்தவர்கள். தயாரிப்பு வெவ்வேறு மூலங்களிலிருந்து பெரிய தரவை ஒருங்கிணைக்க முடியும், வெவ்வேறு அமைப்புகளுக்கு இடையில் அதை நகர்த்தலாம், அதை எளிதாக அணுகலாம், அதை சுயவிவரப்படுத்த உங்களை அனுமதிக்கிறது மற்றும் பல.
சரியான கைகளில், பேடிஎம் அதிசயங்களைச் செய்ய முடியும்: பணிகள் விரைவாகவும், குறைந்தபட்ச கணினி ஆதாரங்களுடன் முடிக்கப்படும்.
அதுவும் வேண்டுமா? வெவ்வேறு தளங்களில் கம்ப்யூட்டிங் சுமையை விநியோகிக்க பேடிஎம்மில் புஷ் டவுன் அம்சத்தைப் பயன்படுத்த கற்றுக்கொள்ளுங்கள். புஷ் டவுன் தொழில்நுட்பம் மேப்பிங்கை ஸ்கிரிப்டாக மாற்றவும், இந்த ஸ்கிரிப்ட் இயங்கும் சூழலைத் தேர்ந்தெடுக்கவும் உங்களை அனுமதிக்கிறது. இந்தத் தேர்வு, பல்வேறு தளங்களின் பலங்களை ஒன்றிணைத்து அவற்றின் அதிகபட்ச செயல்திறனை அடைய உங்களை அனுமதிக்கிறது.
ஸ்கிரிப்ட் செயல்படுத்தும் சூழலை உள்ளமைக்க, நீங்கள் புஷ் டவுன் வகையைத் தேர்ந்தெடுக்க வேண்டும். ஸ்கிரிப்டை முழுவதுமாக ஹடூப்பில் இயக்கலாம் அல்லது மூலத்திற்கும் மடுவிற்கும் இடையில் ஓரளவு விநியோகிக்கலாம். 4 சாத்தியமான புஷ் டவுன் வகைகள் உள்ளன. மேப்பிங்கை ஸ்கிரிப்டாக (சொந்தமாக) மாற்ற வேண்டிய அவசியமில்லை. மேப்பிங் முடிந்தவரை மூலத்தில் (மூலத்தில்) அல்லது முழுமையாக மூலத்தில் (முழுமையாக) செய்யப்படலாம். மேப்பிங்கை ஹடூப் ஸ்கிரிப்டாகவும் மாற்றலாம் (எதுவும் இல்லை).
புஷ்டவுன் தேர்வுமுறை
பட்டியலிடப்பட்ட 4 வகைகளை வெவ்வேறு வழிகளில் இணைக்கலாம் - கணினியின் குறிப்பிட்ட தேவைகளுக்கு புஷ் டவுன் உகந்ததாக இருக்கும். எடுத்துக்காட்டாக, ஒரு தரவுத்தளத்திலிருந்து அதன் சொந்த திறன்களைப் பயன்படுத்தி தரவைப் பிரித்தெடுப்பது மிகவும் பொருத்தமானது. தரவுத்தளத்தை ஓவர்லோட் செய்யாமல் இருக்க, ஹடூப்பைப் பயன்படுத்தி தரவு மாற்றப்படும்.
ஆதாரம் மற்றும் இலக்கு இரண்டும் தரவுத்தளத்தில் இருக்கும்போது, மாற்றம் செயல்படுத்தும் தளத்தைத் தேர்ந்தெடுக்கலாம்: அமைப்புகளைப் பொறுத்து, இது இன்ஃபர்மேட்டிகா, தரவுத்தள சேவையகம் அல்லது ஹடூப் ஆக இருக்கும். அத்தகைய உதாரணம் இந்த பொறிமுறையின் செயல்பாட்டின் தொழில்நுட்ப பக்கத்தை மிகவும் துல்லியமாக புரிந்துகொள்ள உங்களை அனுமதிக்கும். இயற்கையாகவே, நிஜ வாழ்க்கையில், இந்த சூழ்நிலை ஏற்படாது, ஆனால் இது செயல்பாட்டை நிரூபிக்க மிகவும் பொருத்தமானது.
ஒரே ஆரக்கிள் தரவுத்தளத்தில் இரண்டு அட்டவணைகளைப் படிக்க மேப்பிங்கை எடுத்துக்கொள்வோம். மற்றும் வாசிப்பு முடிவுகளை அதே தரவுத்தளத்தில் ஒரு அட்டவணையில் பதிவு செய்யட்டும். மேப்பிங் திட்டம் இப்படி இருக்கும்:
Informatica BDM 10.2.1 இல் மேப்பிங் வடிவில் இது போல் தெரிகிறது:
புஷ் டவுன் வகை - சொந்த
புஷ் டவுன் நேட்டிவ் வகையைத் தேர்ந்தெடுத்தால், மேப்பிங் இன்பர்மேட்டிகா சர்வரில் செய்யப்படும். தரவு ஆரக்கிள் சேவையகத்திலிருந்து படிக்கப்பட்டு, இன்ஃபர்மேட்டிகா சேவையகத்திற்கு மாற்றப்பட்டு, அங்கு மாற்றப்பட்டு ஹடூப்பிற்கு மாற்றப்படும். வேறு வார்த்தைகளில் கூறுவதானால், நாம் ஒரு சாதாரண ETL செயல்முறையைப் பெறுவோம்.
புஷ் டவுன் வகை - ஆதாரம்
மூல வகையைத் தேர்ந்தெடுக்கும்போது, தரவுத்தள சேவையகம் (DB) மற்றும் ஹடூப் இடையே எங்கள் செயல்முறையை விநியோகிப்பதற்கான வாய்ப்பைப் பெறுகிறோம். இந்த அமைப்பில் ஒரு செயல்முறை செயல்படுத்தப்படும் போது, அட்டவணையில் இருந்து தரவை மீட்டெடுப்பதற்கான கோரிக்கைகள் தரவுத்தளத்திற்கு அனுப்பப்படும். மீதமுள்ளவை ஹடூப்பில் படிகளின் வடிவத்தில் நிகழ்த்தப்படும்.
செயல்படுத்தல் வரைபடம் இப்படி இருக்கும்:
இயக்க நேர சூழலை அமைப்பதற்கான எடுத்துக்காட்டு கீழே உள்ளது.
இந்த வழக்கில், மேப்பிங் இரண்டு படிகளில் செய்யப்படும். அதன் அமைப்புகளில் அது மூலத்திற்கு அனுப்பப்படும் ஸ்கிரிப்டாக மாறியிருப்பதைக் காண்போம். மேலும், அட்டவணைகளை இணைத்தல் மற்றும் தரவை மாற்றுதல் ஆகியவை மூலத்தில் மேலெழுதப்பட்ட வினவல் வடிவில் செய்யப்படும்.
கீழே உள்ள படத்தில், பேடிஎம்மில் மேம்படுத்தப்பட்ட மேப்பிங்கையும், மூலத்தில் மறுவரையறை செய்யப்பட்ட வினவலையும் பார்க்கிறோம்.
இந்த உள்ளமைவில் ஹடூப்பின் பங்கு தரவு ஓட்டத்தை நிர்வகிப்பதற்கு குறைக்கப்படும் - அதை ஒழுங்குபடுத்துகிறது. வினவலின் முடிவு ஹடூப்பிற்கு அனுப்பப்படும். வாசிப்பு முடிந்ததும், ஹடூப்பில் இருந்து கோப்பு மடுவில் எழுதப்படும்.
புஷ் டவுன் வகை - முழு
நீங்கள் முழு வகையைத் தேர்ந்தெடுக்கும்போது, மேப்பிங் முற்றிலும் தரவுத்தள வினவலாக மாறும். மேலும் கோரிக்கையின் முடிவு ஹடூப்பிற்கு அனுப்பப்படும். அத்தகைய செயல்முறையின் வரைபடம் கீழே கொடுக்கப்பட்டுள்ளது.
ஒரு எடுத்துக்காட்டு அமைப்பு கீழே காட்டப்பட்டுள்ளது.
இதன் விளைவாக, முந்தையதைப் போன்ற உகந்த மேப்பிங்கைப் பெறுவோம். ஒரே வித்தியாசம் என்னவென்றால், அனைத்து தர்க்கங்களும் பெறுநருக்கு அதன் செருகலை மீறும் வடிவத்தில் மாற்றப்படும். உகந்த மேப்பிங்கின் எடுத்துக்காட்டு கீழே கொடுக்கப்பட்டுள்ளது.
இங்கே, முந்தைய வழக்கைப் போலவே, ஹடூப் நடத்துனராக நடிக்கிறார். ஆனால் இங்கே மூலமானது முழுமையாகப் படிக்கப்படுகிறது, பின்னர் தரவு செயலாக்க தர்க்கம் பெறுநரின் மட்டத்தில் செய்யப்படுகிறது.
புஷ் டவுன் வகை பூஜ்யமானது
சரி, கடைசி விருப்பம் புஷ் டவுன் வகையாகும், அதற்குள் எங்கள் மேப்பிங் ஹடூப் ஸ்கிரிப்டாக மாறும்.
மேம்படுத்தப்பட்ட மேப்பிங் இப்போது இப்படி இருக்கும்:
இங்கே மூலக் கோப்புகளின் தரவு முதலில் ஹடூப்பில் வாசிக்கப்படும். பின்னர், அவரது சொந்த வழிகளைப் பயன்படுத்தி, இந்த இரண்டு கோப்புகளும் இணைக்கப்படும். அதன் பிறகு, தரவு மாற்றப்பட்டு தரவுத்தளத்தில் பதிவேற்றப்படும்.
புஷ் டவுன் ஆப்டிமைசேஷன் கொள்கைகளைப் புரிந்துகொள்வதன் மூலம், பெரிய தரவுகளுடன் பணிபுரிவதற்கான பல செயல்முறைகளை நீங்கள் மிகவும் திறம்பட ஒழுங்கமைக்கலாம். எனவே, மிக சமீபத்தில், ஒரு பெரிய நிறுவனம், ஒரு சில வாரங்களில், சேமிப்பகத்திலிருந்து பெரிய தரவை ஹடூப்பில் பதிவிறக்கம் செய்தது, அது முன்பு பல ஆண்டுகளாக சேகரித்தது.
ஆதாரம்: www.habr.com