விநியோகிக்கப்பட்ட கம்ப்யூட்டிங் மற்றும் பெரிய தரவுகளுக்கான சந்தை, படி
சாதாரண வணிகத்தில் விநியோகிக்கப்பட்ட கணினி ஏன் தேவை? எல்லாம் எளிமையானது மற்றும் அதே நேரத்தில் சிக்கலானது. எளிமையானது - ஏனென்றால் பெரும்பாலான சந்தர்ப்பங்களில் நாம் ஒரு யூனிட் தகவலுக்கு ஒப்பீட்டளவில் எளிமையான கணக்கீடுகளைச் செய்கிறோம். கடினம் - ஏனென்றால் இதுபோன்ற தகவல்கள் நிறைய உள்ளன. நிறைய. இதன் விளைவாக, ஒருவர் செய்ய வேண்டும்
சமீபத்திய உதாரணம்: டோடோ பிஸ்ஸா
இன்னும் ஒரு எடுத்துக்காட்டு:
கருவி தேர்வு
இந்த வகையான கம்ப்யூட்டிங்கிற்கான தொழில் தரநிலை ஹடூப் ஆகும். ஏன்? ஹடூப் ஒரு சிறந்த, நன்கு ஆவணப்படுத்தப்பட்ட கட்டமைப்பாக இருப்பதால் (அதே ஹப்ர் இந்த தலைப்பில் பல விரிவான கட்டுரைகளை வழங்குகிறது), இது முழு அளவிலான பயன்பாடுகள் மற்றும் நூலகங்களுடன் உள்ளது. உள்ளீடாக கட்டமைக்கப்பட்ட மற்றும் கட்டமைக்கப்படாத தரவுகளின் பெரிய தொகுப்புகளை நீங்கள் சமர்ப்பிக்கலாம், மேலும் கணினியே அவற்றை கணினி சக்திக்கு இடையில் விநியோகிக்கும். மேலும், இதே திறன்களை எந்த நேரத்திலும் அதிகரிக்கலாம் அல்லது முடக்கலாம் - செயல்பாட்டில் அதே கிடைமட்ட அளவிடுதல்.
2017 இல், செல்வாக்குமிக்க ஆலோசனை நிறுவனம் கார்ட்னர்
ஹடூப் பல தூண்களில் தங்கியுள்ளது, அவற்றில் மிகவும் குறிப்பிடத்தக்கவை MapReduce தொழில்நுட்பங்கள் (சேவையகங்களுக்கு இடையே கணக்கீடுகளுக்கான தரவை விநியோகிக்கும் அமைப்பு) மற்றும் HDFS கோப்பு முறைமை. பிந்தையது குறிப்பாக கிளஸ்டர் முனைகளுக்கு இடையில் விநியோகிக்கப்படும் தகவலைச் சேமிப்பதற்காக வடிவமைக்கப்பட்டுள்ளது: ஒரு நிலையான அளவிலான ஒவ்வொரு தொகுதியும் பல முனைகளில் வைக்கப்படலாம், மேலும் நகலெடுப்பதற்கு நன்றி, கணினி தனிப்பட்ட முனைகளின் தோல்விகளுக்கு எதிர்ப்புத் தெரிவிக்கிறது. கோப்பு அட்டவணைக்கு பதிலாக, NameNode எனப்படும் சிறப்பு சேவையகம் பயன்படுத்தப்படுகிறது.
MapReduce எவ்வாறு செயல்படுகிறது என்பதை கீழே உள்ள படம் காட்டுகிறது. முதல் கட்டத்தில், தரவு ஒரு குறிப்பிட்ட பண்புக்கு ஏற்ப பிரிக்கப்படுகிறது, இரண்டாவது கட்டத்தில் அது கணினி சக்தியால் விநியோகிக்கப்படுகிறது, மூன்றாவது கட்டத்தில் கணக்கீடு நடைபெறுகிறது.
MapReduce முதலில் அதன் தேடலின் தேவைகளுக்காக Google ஆல் உருவாக்கப்பட்டது. பின்னர் MapReduce இலவச குறியீட்டிற்குச் சென்றது, மேலும் அப்பாச்சி திட்டத்தை எடுத்துக் கொண்டது. சரி, Google படிப்படியாக மற்ற தீர்வுகளுக்கு இடம்பெயர்ந்தது. ஒரு சுவாரஸ்யமான நுணுக்கம்: இந்த நேரத்தில், கூகிள் கூகிள் கிளவுட் டேட்டாஃப்ளோ என்ற திட்டத்தைக் கொண்டுள்ளது, இது ஹடூப்பிற்கு அடுத்த படியாக அதன் விரைவான மாற்றாக நிலைநிறுத்தப்பட்டுள்ளது.
கூகிள் கிளவுட் டேட்டாஃப்ளோ அப்பாச்சி பீமின் மாறுபாட்டை அடிப்படையாகக் கொண்டது என்பதை ஒரு நெருக்கமான பார்வை காட்டுகிறது, அதே சமயம் அப்பாச்சி பீம் நன்கு ஆவணப்படுத்தப்பட்ட அப்பாச்சி ஸ்பார்க் கட்டமைப்பை உள்ளடக்கியது, இது தீர்வு செயல்படுத்தலின் அதே வேகத்தைப் பற்றி பேச அனுமதிக்கிறது. சரி, அப்பாச்சி ஸ்பார்க் HDFS கோப்பு முறைமையில் நன்றாக வேலை செய்கிறது, இது ஹடூப் சர்வர்களில் பயன்படுத்த அனுமதிக்கிறது.
கூகிள் கிளவுட் டேட்டாஃப்ளோவிற்கு எதிராக ஹடூப் மற்றும் ஸ்பார்க்கிற்கான ஆவணங்கள் மற்றும் ஆயத்த தீர்வுகளின் அளவை இங்கே சேர்க்கவும், மேலும் கருவியின் தேர்வு தெளிவாகிறது. மேலும், பொறியாளர்கள் எந்த குறியீட்டை - ஹடூப் அல்லது ஸ்பார்க்கின் கீழ் - பணி, அனுபவம் மற்றும் தகுதிகளை மையமாகக் கொண்டு செயல்படுத்துவார்கள் என்பதைத் தாங்களே தீர்மானிக்க முடியும்.
கிளவுட் அல்லது உள்ளூர் சர்வர்
மேகக்கணிக்கான பொதுவான மாற்றத்திற்கான போக்கு ஹடூப்-ஆஸ்-எ-சேவை போன்ற ஒரு சுவாரஸ்யமான சொல்லை உருவாக்கியுள்ளது. அத்தகைய சூழ்நிலையில், இணைக்கப்பட்ட சேவையகங்களின் நிர்வாகம் மிகவும் முக்கியமானது. ஏனெனில், ஐயோ, அதன் புகழ் இருந்தபோதிலும், தூய ஹடூப் கட்டமைக்க மிகவும் கடினமான கருவியாகும், ஏனெனில் நீங்கள் கையால் நிறைய செய்ய வேண்டும். எடுத்துக்காட்டாக, நீங்கள் சேவையகங்களை தனித்தனியாக உள்ளமைக்கலாம், அவற்றின் செயல்திறனைக் கண்காணிக்கலாம் மற்றும் பல அளவுருக்களை நன்றாக மாற்றலாம். பொதுவாக, ஒரு அமெச்சூர் வேலை மற்றும் எங்காவது திருக அல்லது ஏதாவது இழக்க ஒரு பெரிய வாய்ப்பு உள்ளது.
எனவே, பல்வேறு விநியோகங்கள் மிகவும் பிரபலமாகிவிட்டன, அவை ஆரம்பத்தில் வசதியான வரிசைப்படுத்தல் மற்றும் நிர்வாக கருவிகளுடன் பொருத்தப்பட்டுள்ளன. Spark ஐ ஆதரிக்கும் மற்றும் விஷயங்களை எளிதாக்கும் மிகவும் பிரபலமான விநியோகங்களில் ஒன்று Cloudera ஆகும். இது கட்டண மற்றும் இலவச பதிப்புகள் இரண்டையும் கொண்டுள்ளது - மேலும் பிந்தையவற்றில், அனைத்து முக்கிய செயல்பாடுகளும் கிடைக்கின்றன, மேலும் முனைகளின் எண்ணிக்கையை கட்டுப்படுத்தாமல்.
அமைவின் போது, Cloudera Manager SSH வழியாக உங்கள் சேவையகங்களுடன் இணைக்கப்படும். ஒரு சுவாரஸ்யமான புள்ளி: நிறுவும் போது, அது அழைக்கப்படுபவர்களால் மேற்கொள்ளப்படுவதைக் குறிப்பிடுவது நல்லது பார்சல்கள்: சிறப்பு தொகுப்புகள், ஒவ்வொன்றும் ஒன்றுக்கொன்று வேலை செய்ய கட்டமைக்கப்பட்ட தேவையான அனைத்து கூறுகளையும் கொண்டுள்ளது. உண்மையில், இது தொகுப்பு மேலாளரின் மேம்படுத்தப்பட்ட பதிப்பாகும்.
நிறுவிய பின், நாங்கள் ஒரு கிளஸ்டர் மேனேஜ்மென்ட் கன்சோலைப் பெறுகிறோம், அங்கு நீங்கள் கிளஸ்டர்களுக்கான டெலிமெட்ரி, நிறுவப்பட்ட சேவைகளைப் பார்க்கலாம், மேலும் நீங்கள் ஆதாரங்களைச் சேர்க்கலாம் / அகற்றலாம் மற்றும் கிளஸ்டர் உள்ளமைவைத் திருத்தலாம்.
இதன் விளைவாக, அந்த ராக்கெட்டின் வெட்டு உங்கள் முன் தோன்றுகிறது, இது உங்களை பிக்டேட்டாவின் பிரகாசமான எதிர்காலத்திற்கு அழைத்துச் செல்லும். ஆனால் "போகலாம்" என்று சொல்வதற்கு முன், பேட்டைக்குக் கீழே வேகமாக முன்னேறுவோம்.
வன்பொருள் தேவைகள்
அவர்களின் இணையதளத்தில், Cloudera பல்வேறு சாத்தியமான உள்ளமைவுகளைக் குறிப்பிடுகிறது. அவை கட்டமைக்கப்பட்ட பொதுவான கொள்கைகள் விளக்கப்படத்தில் காட்டப்பட்டுள்ளன:
MapReduce இந்த நம்பிக்கையான படத்தை மங்கலாக்கும். முந்தைய பிரிவில் உள்ள வரைபடத்தை மீண்டும் பார்க்கும்போது, கிட்டத்தட்ட எல்லா நிகழ்வுகளிலும், வட்டு அல்லது நெட்வொர்க்கில் இருந்து தரவைப் படிக்கும் போது MapReduce வேலை ஒரு இடையூறாக இருக்கும் என்பது தெளிவாகிறது. இது Cloudera வலைப்பதிவிலும் குறிப்பிடப்பட்டுள்ளது. இதன் விளைவாக, நிகழ்நேரக் கணக்கீடுகளுக்குப் பயன்படுத்தப்படும் ஸ்பார்க் உட்பட எந்த வேகமான கணக்கீடுகளுக்கும், I/O வேகம் மிகவும் முக்கியமானது. எனவே, ஹடூப்பைப் பயன்படுத்தும் போது, சீரான மற்றும் வேகமான இயந்திரங்கள் கிளஸ்டருக்குள் நுழைவது மிகவும் முக்கியம், இது லேசாகச் சொல்வதானால், கிளவுட் உள்கட்டமைப்பில் எப்போதும் வழங்கப்படுவதில்லை.
ஆற்றல்மிக்க மல்டி-கோர் CPUகள் கொண்ட சர்வர்களில் Openstack மெய்நிகராக்கத்தைப் பயன்படுத்துவதன் மூலம் சுமை விநியோகத்தில் சமநிலை அடையப்படுகிறது. தரவு முனைகளுக்கு அவற்றின் சொந்த செயலி வளங்கள் மற்றும் சில வட்டுகள் ஒதுக்கப்படுகின்றன. எங்கள் முடிவில் அடோஸ் கோடெக்ஸ் டேட்டா லேக் எஞ்சின் பரந்த மெய்நிகராக்கம் அடையப்படுகிறது, அதனால்தான் செயல்திறன் (நெட்வொர்க் உள்கட்டமைப்பின் தாக்கம் குறைக்கப்படுகிறது) மற்றும் TCO (கூடுதல் இயற்பியல் சேவையகங்கள் அகற்றப்படுகின்றன) ஆகிய இரண்டிலும் நாங்கள் வெற்றி பெறுகிறோம்.
BullSequana S200 சேவையகங்களைப் பயன்படுத்தும் விஷயத்தில், சில இடையூறுகள் இல்லாமல் மிகவும் சீரான சுமையைப் பெறுகிறோம். குறைந்தபட்ச உள்ளமைவில் 3 BullSequana S200 சேவையகங்கள் உள்ளன, ஒவ்வொன்றும் இரண்டு JBODகள் மற்றும் நான்கு தரவு முனைகளைக் கொண்ட கூடுதல் S200கள் விருப்பமாக இணைக்கப்பட்டுள்ளன. TeraGen சோதனையில் ஏற்ற ஒரு எடுத்துக்காட்டு இங்கே:
வெவ்வேறு தரவு தொகுதிகள் மற்றும் பிரதி மதிப்புகள் கொண்ட சோதனைகள் கிளஸ்டர் முனைகளில் சுமை விநியோகத்தின் அடிப்படையில் அதே முடிவுகளைக் காட்டுகின்றன. செயல்திறன் சோதனைகள் மூலம் வட்டு அணுகலின் விநியோகத்தின் வரைபடம் கீழே உள்ளது.
கணக்கீடுகள் 3 BullSequana S200 சேவையகங்களின் குறைந்தபட்ச உள்ளமைவை அடிப்படையாகக் கொண்டவை. இது 9 தரவு முனைகள் மற்றும் 3 முதன்மை முனைகள் மற்றும் OpenStack மெய்நிகராக்கத்தின் அடிப்படையில் பாதுகாப்பைப் பயன்படுத்தினால் ஒதுக்கப்பட்ட மெய்நிகர் இயந்திரங்களை உள்ளடக்கியது. TeraSort சோதனை முடிவு: 512 MB தொகுதி அளவு 23,1 நிமிடங்கள் என்க்ரிப்ஷனுடன் மூன்றின் பிரதி காரணி.
அமைப்பை எவ்வாறு விரிவுபடுத்துவது? டேட்டா லேக் எஞ்சினுக்கு பல்வேறு வகையான நீட்டிப்புகள் உள்ளன:
- தரவு முனைகள்: ஒவ்வொரு 40 TB பயன்படுத்தக்கூடிய இடத்துக்கும்
- GPU ஐ நிறுவும் திறன் கொண்ட பகுப்பாய்வு முனைகள்
- வணிகத் தேவைகளைப் பொறுத்து பிற விருப்பத்தேர்வுகள் (உதாரணமாக, உங்களுக்கு காஃப்கா மற்றும் போன்றவை தேவைப்பட்டால்)
அடோஸ் கோடெக்ஸ் டேட்டா லேக் என்ஜின் வளாகமானது, சேவையகங்கள் மற்றும் முன்பே நிறுவப்பட்ட மென்பொருளை உள்ளடக்கியது, இதில் உரிமம் கொண்ட கிளவுடரா கிட் உட்பட; ஹடூப், RedHat Enterprise Linux கர்னல், தரவு பிரதி மற்றும் காப்பு அமைப்புகள் (ஒரு காப்பு முனை மற்றும் Cloudera BDR - காப்பு மற்றும் பேரழிவு மீட்பு உட்பட) அடிப்படையிலான மெய்நிகர் இயந்திரங்களுடன் OpenStack. அடோஸ் கோடெக்ஸ் டேட்டா லேக் எஞ்சின் சான்றளிக்கப்பட்ட முதல் மெய்நிகராக்க தீர்வாகும்
நீங்கள் விவரங்களில் ஆர்வமாக இருந்தால், கருத்துகளில் எங்கள் கேள்விகளுக்கு பதிலளிப்பதில் நாங்கள் மகிழ்ச்சியடைவோம்.
ஆதாரம்: www.habr.com