மிகப் பெரிய தரவை மலிவாகவும் விரைவாகவும் நகர்த்துவது, பதிவேற்றுவது மற்றும் ஒருங்கிணைப்பது எப்படி? புஷ் டவுன் ஆப்டிமைசேஷன் என்றால் என்ன?

எந்தவொரு பெரிய தரவுச் செயல்பாட்டிற்கும் அதிக கணினி சக்தி தேவைப்படுகிறது. ஒரு தரவுத்தளத்திலிருந்து ஹடூப்பிற்கு ஒரு பொதுவான தரவை நகர்த்துவதற்கு வாரங்கள் ஆகலாம் அல்லது விமானத்தின் இறக்கைக்கு எவ்வளவு செலவாகும். காத்திருந்து பணம் செலவழிக்க வேண்டாமா? வெவ்வேறு தளங்களில் சுமையை சமநிலைப்படுத்தவும். ஒரு வழி புஷ் டவுன் ஆப்டிமைசேஷன்.

Informatica தயாரிப்புகளின் மேம்பாடு மற்றும் நிர்வாகத்திற்கான ரஷ்யாவின் முன்னணி பயிற்சியாளர் Alexey Ananyev என்பவரிடம், Informatica Big Data Management (BDM) இல் உள்ள புஷ் டவுன் ஆப்டிமைசேஷன் செயல்பாட்டைப் பற்றி பேசுமாறு கேட்டேன். இன்ஃபர்மேட்டிகா தயாரிப்புகளுடன் பணிபுரிய நீங்கள் எப்போதாவது கற்றுக்கொண்டீர்களா? பெரும்பாலும், அலெக்ஸி தான் பவர்சென்டரின் அடிப்படைகளை உங்களுக்குச் சொன்னார் மற்றும் மேப்பிங்கை எவ்வாறு உருவாக்குவது என்பதை விளக்கினார்.

Alexey Ananyev, DIS குழுமத்தின் பயிற்சித் தலைவர்

புஷ் டவுன் என்றால் என்ன?

உங்களில் பலர் ஏற்கனவே Informatica Big Data Management (BDM) பற்றி நன்கு அறிந்தவர்கள். தயாரிப்பு வெவ்வேறு மூலங்களிலிருந்து பெரிய தரவை ஒருங்கிணைக்க முடியும், வெவ்வேறு அமைப்புகளுக்கு இடையில் அதை நகர்த்தலாம், அதை எளிதாக அணுகலாம், அதை சுயவிவரப்படுத்த உங்களை அனுமதிக்கிறது மற்றும் பல.
சரியான கைகளில், பேடிஎம் அதிசயங்களைச் செய்ய முடியும்: பணிகள் விரைவாகவும், குறைந்தபட்ச கணினி ஆதாரங்களுடன் முடிக்கப்படும்.

அதுவும் வேண்டுமா? வெவ்வேறு தளங்களில் கம்ப்யூட்டிங் சுமையை விநியோகிக்க பேடிஎம்மில் புஷ் டவுன் அம்சத்தைப் பயன்படுத்த கற்றுக்கொள்ளுங்கள். புஷ் டவுன் தொழில்நுட்பம் மேப்பிங்கை ஸ்கிரிப்டாக மாற்றவும், இந்த ஸ்கிரிப்ட் இயங்கும் சூழலைத் தேர்ந்தெடுக்கவும் உங்களை அனுமதிக்கிறது. இந்தத் தேர்வு, பல்வேறு தளங்களின் பலங்களை ஒன்றிணைத்து அவற்றின் அதிகபட்ச செயல்திறனை அடைய உங்களை அனுமதிக்கிறது.

ஸ்கிரிப்ட் செயல்படுத்தும் சூழலை உள்ளமைக்க, நீங்கள் புஷ் டவுன் வகையைத் தேர்ந்தெடுக்க வேண்டும். ஸ்கிரிப்டை முழுவதுமாக ஹடூப்பில் இயக்கலாம் அல்லது மூலத்திற்கும் மடுவிற்கும் இடையில் ஓரளவு விநியோகிக்கலாம். 4 சாத்தியமான புஷ் டவுன் வகைகள் உள்ளன. மேப்பிங்கை ஸ்கிரிப்டாக (சொந்தமாக) மாற்ற வேண்டிய அவசியமில்லை. மேப்பிங் முடிந்தவரை மூலத்தில் (மூலத்தில்) அல்லது முழுமையாக மூலத்தில் (முழுமையாக) செய்யப்படலாம். மேப்பிங்கை ஹடூப் ஸ்கிரிப்டாகவும் மாற்றலாம் (எதுவும் இல்லை).

புஷ்டவுன் தேர்வுமுறை

பட்டியலிடப்பட்ட 4 வகைகளை வெவ்வேறு வழிகளில் இணைக்கலாம் - கணினியின் குறிப்பிட்ட தேவைகளுக்கு புஷ் டவுன் உகந்ததாக இருக்கும். எடுத்துக்காட்டாக, ஒரு தரவுத்தளத்திலிருந்து அதன் சொந்த திறன்களைப் பயன்படுத்தி தரவைப் பிரித்தெடுப்பது மிகவும் பொருத்தமானது. தரவுத்தளத்தை ஓவர்லோட் செய்யாமல் இருக்க, ஹடூப்பைப் பயன்படுத்தி தரவு மாற்றப்படும்.

ஆதாரம் மற்றும் இலக்கு இரண்டும் தரவுத்தளத்தில் இருக்கும்போது, ​​​​மாற்றம் செயல்படுத்தும் தளத்தைத் தேர்ந்தெடுக்கலாம்: அமைப்புகளைப் பொறுத்து, இது இன்ஃபர்மேட்டிகா, தரவுத்தள சேவையகம் அல்லது ஹடூப் ஆக இருக்கும். அத்தகைய உதாரணம் இந்த பொறிமுறையின் செயல்பாட்டின் தொழில்நுட்ப பக்கத்தை மிகவும் துல்லியமாக புரிந்துகொள்ள உங்களை அனுமதிக்கும். இயற்கையாகவே, நிஜ வாழ்க்கையில், இந்த சூழ்நிலை ஏற்படாது, ஆனால் இது செயல்பாட்டை நிரூபிக்க மிகவும் பொருத்தமானது.

ஒரே ஆரக்கிள் தரவுத்தளத்தில் இரண்டு அட்டவணைகளைப் படிக்க மேப்பிங்கை எடுத்துக்கொள்வோம். மற்றும் வாசிப்பு முடிவுகளை அதே தரவுத்தளத்தில் ஒரு அட்டவணையில் பதிவு செய்யட்டும். மேப்பிங் திட்டம் இப்படி இருக்கும்:

மிகப் பெரிய தரவை மலிவாகவும் விரைவாகவும் நகர்த்துவது, பதிவேற்றுவது மற்றும் ஒருங்கிணைப்பது எப்படி? புஷ் டவுன் ஆப்டிமைசேஷன் என்றால் என்ன?

Informatica BDM 10.2.1 இல் மேப்பிங் வடிவில் இது போல் தெரிகிறது:

மிகப் பெரிய தரவை மலிவாகவும் விரைவாகவும் நகர்த்துவது, பதிவேற்றுவது மற்றும் ஒருங்கிணைப்பது எப்படி? புஷ் டவுன் ஆப்டிமைசேஷன் என்றால் என்ன?

புஷ் டவுன் வகை - சொந்த

புஷ் டவுன் நேட்டிவ் வகையைத் தேர்ந்தெடுத்தால், மேப்பிங் இன்பர்மேட்டிகா சர்வரில் செய்யப்படும். தரவு ஆரக்கிள் சேவையகத்திலிருந்து படிக்கப்பட்டு, இன்ஃபர்மேட்டிகா சேவையகத்திற்கு மாற்றப்பட்டு, அங்கு மாற்றப்பட்டு ஹடூப்பிற்கு மாற்றப்படும். வேறு வார்த்தைகளில் கூறுவதானால், நாம் ஒரு சாதாரண ETL செயல்முறையைப் பெறுவோம்.

புஷ் டவுன் வகை - ஆதாரம்

மூல வகையைத் தேர்ந்தெடுக்கும்போது, ​​தரவுத்தள சேவையகம் (DB) மற்றும் ஹடூப் இடையே எங்கள் செயல்முறையை விநியோகிப்பதற்கான வாய்ப்பைப் பெறுகிறோம். இந்த அமைப்பில் ஒரு செயல்முறை செயல்படுத்தப்படும் போது, ​​அட்டவணையில் இருந்து தரவை மீட்டெடுப்பதற்கான கோரிக்கைகள் தரவுத்தளத்திற்கு அனுப்பப்படும். மீதமுள்ளவை ஹடூப்பில் படிகளின் வடிவத்தில் நிகழ்த்தப்படும்.
செயல்படுத்தல் வரைபடம் இப்படி இருக்கும்:

மிகப் பெரிய தரவை மலிவாகவும் விரைவாகவும் நகர்த்துவது, பதிவேற்றுவது மற்றும் ஒருங்கிணைப்பது எப்படி? புஷ் டவுன் ஆப்டிமைசேஷன் என்றால் என்ன?

இயக்க நேர சூழலை அமைப்பதற்கான எடுத்துக்காட்டு கீழே உள்ளது.

மிகப் பெரிய தரவை மலிவாகவும் விரைவாகவும் நகர்த்துவது, பதிவேற்றுவது மற்றும் ஒருங்கிணைப்பது எப்படி? புஷ் டவுன் ஆப்டிமைசேஷன் என்றால் என்ன?

இந்த வழக்கில், மேப்பிங் இரண்டு படிகளில் செய்யப்படும். அதன் அமைப்புகளில் அது மூலத்திற்கு அனுப்பப்படும் ஸ்கிரிப்டாக மாறியிருப்பதைக் காண்போம். மேலும், அட்டவணைகளை இணைத்தல் மற்றும் தரவை மாற்றுதல் ஆகியவை மூலத்தில் மேலெழுதப்பட்ட வினவல் வடிவில் செய்யப்படும்.
கீழே உள்ள படத்தில், பேடிஎம்மில் மேம்படுத்தப்பட்ட மேப்பிங்கையும், மூலத்தில் மறுவரையறை செய்யப்பட்ட வினவலையும் பார்க்கிறோம்.

மிகப் பெரிய தரவை மலிவாகவும் விரைவாகவும் நகர்த்துவது, பதிவேற்றுவது மற்றும் ஒருங்கிணைப்பது எப்படி? புஷ் டவுன் ஆப்டிமைசேஷன் என்றால் என்ன?

இந்த உள்ளமைவில் ஹடூப்பின் பங்கு தரவு ஓட்டத்தை நிர்வகிப்பதற்கு குறைக்கப்படும் - அதை ஒழுங்குபடுத்துகிறது. வினவலின் முடிவு ஹடூப்பிற்கு அனுப்பப்படும். வாசிப்பு முடிந்ததும், ஹடூப்பில் இருந்து கோப்பு மடுவில் எழுதப்படும்.

புஷ் டவுன் வகை - முழு

நீங்கள் முழு வகையைத் தேர்ந்தெடுக்கும்போது, ​​மேப்பிங் முற்றிலும் தரவுத்தள வினவலாக மாறும். மேலும் கோரிக்கையின் முடிவு ஹடூப்பிற்கு அனுப்பப்படும். அத்தகைய செயல்முறையின் வரைபடம் கீழே கொடுக்கப்பட்டுள்ளது.

மிகப் பெரிய தரவை மலிவாகவும் விரைவாகவும் நகர்த்துவது, பதிவேற்றுவது மற்றும் ஒருங்கிணைப்பது எப்படி? புஷ் டவுன் ஆப்டிமைசேஷன் என்றால் என்ன?

ஒரு எடுத்துக்காட்டு அமைப்பு கீழே காட்டப்பட்டுள்ளது.

மிகப் பெரிய தரவை மலிவாகவும் விரைவாகவும் நகர்த்துவது, பதிவேற்றுவது மற்றும் ஒருங்கிணைப்பது எப்படி? புஷ் டவுன் ஆப்டிமைசேஷன் என்றால் என்ன?

இதன் விளைவாக, முந்தையதைப் போன்ற உகந்த மேப்பிங்கைப் பெறுவோம். ஒரே வித்தியாசம் என்னவென்றால், அனைத்து தர்க்கங்களும் பெறுநருக்கு அதன் செருகலை மீறும் வடிவத்தில் மாற்றப்படும். உகந்த மேப்பிங்கின் எடுத்துக்காட்டு கீழே கொடுக்கப்பட்டுள்ளது.

மிகப் பெரிய தரவை மலிவாகவும் விரைவாகவும் நகர்த்துவது, பதிவேற்றுவது மற்றும் ஒருங்கிணைப்பது எப்படி? புஷ் டவுன் ஆப்டிமைசேஷன் என்றால் என்ன?

இங்கே, முந்தைய வழக்கைப் போலவே, ஹடூப் நடத்துனராக நடிக்கிறார். ஆனால் இங்கே மூலமானது முழுமையாகப் படிக்கப்படுகிறது, பின்னர் தரவு செயலாக்க தர்க்கம் பெறுநரின் மட்டத்தில் செய்யப்படுகிறது.

புஷ் டவுன் வகை பூஜ்யமானது

சரி, கடைசி விருப்பம் புஷ் டவுன் வகையாகும், அதற்குள் எங்கள் மேப்பிங் ஹடூப் ஸ்கிரிப்டாக மாறும்.

மேம்படுத்தப்பட்ட மேப்பிங் இப்போது இப்படி இருக்கும்:

மிகப் பெரிய தரவை மலிவாகவும் விரைவாகவும் நகர்த்துவது, பதிவேற்றுவது மற்றும் ஒருங்கிணைப்பது எப்படி? புஷ் டவுன் ஆப்டிமைசேஷன் என்றால் என்ன?

இங்கே மூலக் கோப்புகளின் தரவு முதலில் ஹடூப்பில் வாசிக்கப்படும். பின்னர், அவரது சொந்த வழிகளைப் பயன்படுத்தி, இந்த இரண்டு கோப்புகளும் இணைக்கப்படும். அதன் பிறகு, தரவு மாற்றப்பட்டு தரவுத்தளத்தில் பதிவேற்றப்படும்.

புஷ் டவுன் ஆப்டிமைசேஷன் கொள்கைகளைப் புரிந்துகொள்வதன் மூலம், பெரிய தரவுகளுடன் பணிபுரிவதற்கான பல செயல்முறைகளை நீங்கள் மிகவும் திறம்பட ஒழுங்கமைக்கலாம். எனவே, மிக சமீபத்தில், ஒரு பெரிய நிறுவனம், ஒரு சில வாரங்களில், சேமிப்பகத்திலிருந்து பெரிய தரவை ஹடூப்பில் பதிவிறக்கம் செய்தது, அது முன்பு பல ஆண்டுகளாக சேகரித்தது.

ஆதாரம்: www.habr.com

கருத்தைச் சேர்