கிளவுடராவின் சிறப்பு என்ன, அதை எப்படி சமைக்க வேண்டும்

விநியோகிக்கப்பட்ட கம்ப்யூட்டிங் மற்றும் பெரிய தரவுகளுக்கான சந்தை, படி புள்ளிவிவரங்கள், ஆண்டுக்கு 18-19% வளர்ந்து வருகிறது. இந்த நோக்கங்களுக்காக மென்பொருளைத் தேர்ந்தெடுப்பதில் சிக்கல் பொருத்தமானதாகவே உள்ளது என்பதே இதன் பொருள். இந்த இடுகையில், விநியோகிக்கப்பட்ட கம்ப்யூட்டிங் ஏன் தேவை என்பதைத் தொடங்குவோம், மென்பொருளைத் தேர்ந்தெடுப்பது பற்றி மேலும் விரிவாகப் பேசுவோம், கிளவுடெராவுடன் ஹடூப்பைப் பயன்படுத்துவது பற்றி பேசுவோம், இறுதியாக வன்பொருள் தேர்வு மற்றும் செயல்திறனை எவ்வாறு பாதிக்கிறது என்பதைப் பற்றி பேசுவோம். வேவ்வேறான வழியில்.

கிளவுடராவின் சிறப்பு என்ன, அதை எப்படி சமைக்க வேண்டும்
சாதாரண வணிகத்தில் விநியோகிக்கப்பட்ட கணினி ஏன் தேவை? எல்லாம் எளிமையானது மற்றும் அதே நேரத்தில் சிக்கலானது. எளிமையானது - ஏனென்றால் பெரும்பாலான சந்தர்ப்பங்களில் நாம் ஒரு யூனிட் தகவலுக்கு ஒப்பீட்டளவில் எளிமையான கணக்கீடுகளைச் செய்கிறோம். கடினம் - ஏனென்றால் இதுபோன்ற தகவல்கள் நிறைய உள்ளன. நிறைய. இதன் விளைவாக, ஒருவர் செய்ய வேண்டும் 1000 நூல்களில் டெராபைட் தரவுகளைச் செயலாக்குகிறது. எனவே, பயன்பாட்டு நிகழ்வுகள் மிகவும் உலகளாவியவை: இன்னும் பெரிய தரவு வரிசையில் அதிக எண்ணிக்கையிலான அளவீடுகளை கணக்கில் எடுத்துக்கொள்வது தேவைப்படும் இடங்களில் கணக்கீடுகள் பயன்படுத்தப்படலாம்.

சமீபத்திய உதாரணம்: டோடோ பிஸ்ஸா வரையறுக்கப்பட்டது வாடிக்கையாளர் ஆர்டர் தளத்தின் பகுப்பாய்வின் அடிப்படையில், தன்னிச்சையான டாப்பிங்ஸுடன் பீட்சாவைத் தேர்ந்தெடுக்கும்போது, ​​பயனர்கள் வழக்கமாக ஆறு அடிப்படைப் பொருட்கள் மற்றும் ஓரிரு சீரற்ற பொருட்களுடன் மட்டுமே செயல்படுவார்கள். அதன்படி, பிஸ்ஸேரியா வாங்குதல்களை சரிசெய்தது. கூடுதலாக, ஆர்டர் கட்டத்தில் வழங்கப்படும் கூடுதல் தயாரிப்புகளை பயனர்களுக்கு சிறப்பாக பரிந்துரைக்க முடிந்தது, இது லாபத்தை அதிகரித்தது.

இன்னும் ஒரு எடுத்துக்காட்டு: பகுப்பாய்வு விற்பனை அளவைப் பராமரிக்கும் போது, ​​தனிப்பட்ட கடைகளில் வகைப்படுத்தலை 40% குறைக்க H&M அனுமதித்தது. மோசமாக விற்பனையாகும் நிலைகளைத் தவிர்த்து இது அடையப்பட்டது, மேலும் கணக்கீடுகளில் பருவநிலை கணக்கில் எடுத்துக்கொள்ளப்பட்டது.

கருவி தேர்வு

இந்த வகையான கம்ப்யூட்டிங்கிற்கான தொழில் தரநிலை ஹடூப் ஆகும். ஏன்? ஹடூப் ஒரு சிறந்த, நன்கு ஆவணப்படுத்தப்பட்ட கட்டமைப்பாக இருப்பதால் (அதே ஹப்ர் இந்த தலைப்பில் பல விரிவான கட்டுரைகளை வழங்குகிறது), இது முழு அளவிலான பயன்பாடுகள் மற்றும் நூலகங்களுடன் உள்ளது. உள்ளீடாக கட்டமைக்கப்பட்ட மற்றும் கட்டமைக்கப்படாத தரவுகளின் பெரிய தொகுப்புகளை நீங்கள் சமர்ப்பிக்கலாம், மேலும் கணினியே அவற்றை கணினி சக்திக்கு இடையில் விநியோகிக்கும். மேலும், இதே திறன்களை எந்த நேரத்திலும் அதிகரிக்கலாம் அல்லது முடக்கலாம் - செயல்பாட்டில் அதே கிடைமட்ட அளவிடுதல்.

2017 இல், செல்வாக்குமிக்க ஆலோசனை நிறுவனம் கார்ட்னர் முடிவுக்கு வந்ததுஹடூப் விரைவில் காலாவதியாகிவிடும். காரணம் மிகவும் சாதாரணமானது: கம்ப்யூட்டிங் சக்தியின் பயன்பாட்டின் அடிப்படையில் அவர்கள் பணம் செலுத்த முடியும் என்பதால், நிறுவனங்கள் பெருமளவில் மேகக்கணிக்கு இடம்பெயர்ந்துவிடும் என்று ஆய்வாளர்கள் நம்புகின்றனர். ஹடூப்பை "புதைக்க" முடியும் என்று கூறப்படும் இரண்டாவது முக்கியமான காரணி வேலையின் வேகம். ஏனெனில் Apache Spark அல்லது Google Cloud DataFlow போன்ற விருப்பங்கள் MapReduce அடிப்படையிலான Hadoop ஐ விட வேகமாக இருக்கும்.

ஹடூப் பல தூண்களில் தங்கியுள்ளது, அவற்றில் மிகவும் குறிப்பிடத்தக்கவை MapReduce தொழில்நுட்பங்கள் (சேவையகங்களுக்கு இடையே கணக்கீடுகளுக்கான தரவை விநியோகிக்கும் அமைப்பு) மற்றும் HDFS கோப்பு முறைமை. பிந்தையது குறிப்பாக கிளஸ்டர் முனைகளுக்கு இடையில் விநியோகிக்கப்படும் தகவலைச் சேமிப்பதற்காக வடிவமைக்கப்பட்டுள்ளது: ஒரு நிலையான அளவிலான ஒவ்வொரு தொகுதியும் பல முனைகளில் வைக்கப்படலாம், மேலும் நகலெடுப்பதற்கு நன்றி, கணினி தனிப்பட்ட முனைகளின் தோல்விகளுக்கு எதிர்ப்புத் தெரிவிக்கிறது. கோப்பு அட்டவணைக்கு பதிலாக, NameNode எனப்படும் சிறப்பு சேவையகம் பயன்படுத்தப்படுகிறது.

MapReduce எவ்வாறு செயல்படுகிறது என்பதை கீழே உள்ள படம் காட்டுகிறது. முதல் கட்டத்தில், தரவு ஒரு குறிப்பிட்ட பண்புக்கு ஏற்ப பிரிக்கப்படுகிறது, இரண்டாவது கட்டத்தில் அது கணினி சக்தியால் விநியோகிக்கப்படுகிறது, மூன்றாவது கட்டத்தில் கணக்கீடு நடைபெறுகிறது.

கிளவுடராவின் சிறப்பு என்ன, அதை எப்படி சமைக்க வேண்டும்
MapReduce முதலில் அதன் தேடலின் தேவைகளுக்காக Google ஆல் உருவாக்கப்பட்டது. பின்னர் MapReduce இலவச குறியீட்டிற்குச் சென்றது, மேலும் அப்பாச்சி திட்டத்தை எடுத்துக் கொண்டது. சரி, Google படிப்படியாக மற்ற தீர்வுகளுக்கு இடம்பெயர்ந்தது. ஒரு சுவாரஸ்யமான நுணுக்கம்: இந்த நேரத்தில், கூகிள் கூகிள் கிளவுட் டேட்டாஃப்ளோ என்ற திட்டத்தைக் கொண்டுள்ளது, இது ஹடூப்பிற்கு அடுத்த படியாக அதன் விரைவான மாற்றாக நிலைநிறுத்தப்பட்டுள்ளது.

கூகிள் கிளவுட் டேட்டாஃப்ளோ அப்பாச்சி பீமின் மாறுபாட்டை அடிப்படையாகக் கொண்டது என்பதை ஒரு நெருக்கமான பார்வை காட்டுகிறது, அதே சமயம் அப்பாச்சி பீம் நன்கு ஆவணப்படுத்தப்பட்ட அப்பாச்சி ஸ்பார்க் கட்டமைப்பை உள்ளடக்கியது, இது தீர்வு செயல்படுத்தலின் அதே வேகத்தைப் பற்றி பேச அனுமதிக்கிறது. சரி, அப்பாச்சி ஸ்பார்க் HDFS கோப்பு முறைமையில் நன்றாக வேலை செய்கிறது, இது ஹடூப் சர்வர்களில் பயன்படுத்த அனுமதிக்கிறது.

கூகிள் கிளவுட் டேட்டாஃப்ளோவிற்கு எதிராக ஹடூப் மற்றும் ஸ்பார்க்கிற்கான ஆவணங்கள் மற்றும் ஆயத்த தீர்வுகளின் அளவை இங்கே சேர்க்கவும், மேலும் கருவியின் தேர்வு தெளிவாகிறது. மேலும், பொறியாளர்கள் எந்த குறியீட்டை - ஹடூப் அல்லது ஸ்பார்க்கின் கீழ் - பணி, அனுபவம் மற்றும் தகுதிகளை மையமாகக் கொண்டு செயல்படுத்துவார்கள் என்பதைத் தாங்களே தீர்மானிக்க முடியும்.

கிளவுட் அல்லது உள்ளூர் சர்வர்

மேகக்கணிக்கான பொதுவான மாற்றத்திற்கான போக்கு ஹடூப்-ஆஸ்-எ-சேவை போன்ற ஒரு சுவாரஸ்யமான சொல்லை உருவாக்கியுள்ளது. அத்தகைய சூழ்நிலையில், இணைக்கப்பட்ட சேவையகங்களின் நிர்வாகம் மிகவும் முக்கியமானது. ஏனெனில், ஐயோ, அதன் புகழ் இருந்தபோதிலும், தூய ஹடூப் கட்டமைக்க மிகவும் கடினமான கருவியாகும், ஏனெனில் நீங்கள் கையால் நிறைய செய்ய வேண்டும். எடுத்துக்காட்டாக, நீங்கள் சேவையகங்களை தனித்தனியாக உள்ளமைக்கலாம், அவற்றின் செயல்திறனைக் கண்காணிக்கலாம் மற்றும் பல அளவுருக்களை நன்றாக மாற்றலாம். பொதுவாக, ஒரு அமெச்சூர் வேலை மற்றும் எங்காவது திருக அல்லது ஏதாவது இழக்க ஒரு பெரிய வாய்ப்பு உள்ளது.

எனவே, பல்வேறு விநியோகங்கள் மிகவும் பிரபலமாகிவிட்டன, அவை ஆரம்பத்தில் வசதியான வரிசைப்படுத்தல் மற்றும் நிர்வாக கருவிகளுடன் பொருத்தப்பட்டுள்ளன. Spark ஐ ஆதரிக்கும் மற்றும் விஷயங்களை எளிதாக்கும் மிகவும் பிரபலமான விநியோகங்களில் ஒன்று Cloudera ஆகும். இது கட்டண மற்றும் இலவச பதிப்புகள் இரண்டையும் கொண்டுள்ளது - மேலும் பிந்தையவற்றில், அனைத்து முக்கிய செயல்பாடுகளும் கிடைக்கின்றன, மேலும் முனைகளின் எண்ணிக்கையை கட்டுப்படுத்தாமல்.

கிளவுடராவின் சிறப்பு என்ன, அதை எப்படி சமைக்க வேண்டும்

அமைவின் போது, ​​Cloudera Manager SSH வழியாக உங்கள் சேவையகங்களுடன் இணைக்கப்படும். ஒரு சுவாரஸ்யமான புள்ளி: நிறுவும் போது, ​​அது அழைக்கப்படுபவர்களால் மேற்கொள்ளப்படுவதைக் குறிப்பிடுவது நல்லது பார்சல்கள்: சிறப்பு தொகுப்புகள், ஒவ்வொன்றும் ஒன்றுக்கொன்று வேலை செய்ய கட்டமைக்கப்பட்ட தேவையான அனைத்து கூறுகளையும் கொண்டுள்ளது. உண்மையில், இது தொகுப்பு மேலாளரின் மேம்படுத்தப்பட்ட பதிப்பாகும்.

நிறுவிய பின், நாங்கள் ஒரு கிளஸ்டர் மேனேஜ்மென்ட் கன்சோலைப் பெறுகிறோம், அங்கு நீங்கள் கிளஸ்டர்களுக்கான டெலிமெட்ரி, நிறுவப்பட்ட சேவைகளைப் பார்க்கலாம், மேலும் நீங்கள் ஆதாரங்களைச் சேர்க்கலாம் / அகற்றலாம் மற்றும் கிளஸ்டர் உள்ளமைவைத் திருத்தலாம்.

கிளவுடராவின் சிறப்பு என்ன, அதை எப்படி சமைக்க வேண்டும்

இதன் விளைவாக, அந்த ராக்கெட்டின் வெட்டு உங்கள் முன் தோன்றுகிறது, இது உங்களை பிக்டேட்டாவின் பிரகாசமான எதிர்காலத்திற்கு அழைத்துச் செல்லும். ஆனால் "போகலாம்" என்று சொல்வதற்கு முன், பேட்டைக்குக் கீழே வேகமாக முன்னேறுவோம்.

வன்பொருள் தேவைகள்

அவர்களின் இணையதளத்தில், Cloudera பல்வேறு சாத்தியமான உள்ளமைவுகளைக் குறிப்பிடுகிறது. அவை கட்டமைக்கப்பட்ட பொதுவான கொள்கைகள் விளக்கப்படத்தில் காட்டப்பட்டுள்ளன:

கிளவுடராவின் சிறப்பு என்ன, அதை எப்படி சமைக்க வேண்டும்
MapReduce இந்த நம்பிக்கையான படத்தை மங்கலாக்கும். முந்தைய பிரிவில் உள்ள வரைபடத்தை மீண்டும் பார்க்கும்போது, ​​கிட்டத்தட்ட எல்லா நிகழ்வுகளிலும், வட்டு அல்லது நெட்வொர்க்கில் இருந்து தரவைப் படிக்கும் போது MapReduce வேலை ஒரு இடையூறாக இருக்கும் என்பது தெளிவாகிறது. இது Cloudera வலைப்பதிவிலும் குறிப்பிடப்பட்டுள்ளது. இதன் விளைவாக, நிகழ்நேரக் கணக்கீடுகளுக்குப் பயன்படுத்தப்படும் ஸ்பார்க் உட்பட எந்த வேகமான கணக்கீடுகளுக்கும், I/O வேகம் மிகவும் முக்கியமானது. எனவே, ஹடூப்பைப் பயன்படுத்தும் போது, ​​சீரான மற்றும் வேகமான இயந்திரங்கள் கிளஸ்டருக்குள் நுழைவது மிகவும் முக்கியம், இது லேசாகச் சொல்வதானால், கிளவுட் உள்கட்டமைப்பில் எப்போதும் வழங்கப்படுவதில்லை.

ஆற்றல்மிக்க மல்டி-கோர் CPUகள் கொண்ட சர்வர்களில் Openstack மெய்நிகராக்கத்தைப் பயன்படுத்துவதன் மூலம் சுமை விநியோகத்தில் சமநிலை அடையப்படுகிறது. தரவு முனைகளுக்கு அவற்றின் சொந்த செயலி வளங்கள் மற்றும் சில வட்டுகள் ஒதுக்கப்படுகின்றன. எங்கள் முடிவில் அடோஸ் கோடெக்ஸ் டேட்டா லேக் எஞ்சின் பரந்த மெய்நிகராக்கம் அடையப்படுகிறது, அதனால்தான் செயல்திறன் (நெட்வொர்க் உள்கட்டமைப்பின் தாக்கம் குறைக்கப்படுகிறது) மற்றும் TCO (கூடுதல் இயற்பியல் சேவையகங்கள் அகற்றப்படுகின்றன) ஆகிய இரண்டிலும் நாங்கள் வெற்றி பெறுகிறோம்.

கிளவுடராவின் சிறப்பு என்ன, அதை எப்படி சமைக்க வேண்டும்
BullSequana S200 சேவையகங்களைப் பயன்படுத்தும் விஷயத்தில், சில இடையூறுகள் இல்லாமல் மிகவும் சீரான சுமையைப் பெறுகிறோம். குறைந்தபட்ச உள்ளமைவில் 3 BullSequana S200 சேவையகங்கள் உள்ளன, ஒவ்வொன்றும் இரண்டு JBODகள் மற்றும் நான்கு தரவு முனைகளைக் கொண்ட கூடுதல் S200கள் விருப்பமாக இணைக்கப்பட்டுள்ளன. TeraGen சோதனையில் ஏற்ற ஒரு எடுத்துக்காட்டு இங்கே:

கிளவுடராவின் சிறப்பு என்ன, அதை எப்படி சமைக்க வேண்டும்

வெவ்வேறு தரவு தொகுதிகள் மற்றும் பிரதி மதிப்புகள் கொண்ட சோதனைகள் கிளஸ்டர் முனைகளில் சுமை விநியோகத்தின் அடிப்படையில் அதே முடிவுகளைக் காட்டுகின்றன. செயல்திறன் சோதனைகள் மூலம் வட்டு அணுகலின் விநியோகத்தின் வரைபடம் கீழே உள்ளது.

கிளவுடராவின் சிறப்பு என்ன, அதை எப்படி சமைக்க வேண்டும்

கணக்கீடுகள் 3 BullSequana S200 சேவையகங்களின் குறைந்தபட்ச உள்ளமைவை அடிப்படையாகக் கொண்டவை. இது 9 தரவு முனைகள் மற்றும் 3 முதன்மை முனைகள் மற்றும் OpenStack மெய்நிகராக்கத்தின் அடிப்படையில் பாதுகாப்பைப் பயன்படுத்தினால் ஒதுக்கப்பட்ட மெய்நிகர் இயந்திரங்களை உள்ளடக்கியது. TeraSort சோதனை முடிவு: 512 MB தொகுதி அளவு 23,1 நிமிடங்கள் என்க்ரிப்ஷனுடன் மூன்றின் பிரதி காரணி.

அமைப்பை எவ்வாறு விரிவுபடுத்துவது? டேட்டா லேக் எஞ்சினுக்கு பல்வேறு வகையான நீட்டிப்புகள் உள்ளன:

  • தரவு முனைகள்: ஒவ்வொரு 40 TB பயன்படுத்தக்கூடிய இடத்துக்கும்
  • GPU ஐ நிறுவும் திறன் கொண்ட பகுப்பாய்வு முனைகள்
  • வணிகத் தேவைகளைப் பொறுத்து பிற விருப்பத்தேர்வுகள் (உதாரணமாக, உங்களுக்கு காஃப்கா மற்றும் போன்றவை தேவைப்பட்டால்)

கிளவுடராவின் சிறப்பு என்ன, அதை எப்படி சமைக்க வேண்டும்

அடோஸ் கோடெக்ஸ் டேட்டா லேக் என்ஜின் வளாகமானது, சேவையகங்கள் மற்றும் முன்பே நிறுவப்பட்ட மென்பொருளை உள்ளடக்கியது, இதில் உரிமம் கொண்ட கிளவுடரா கிட் உட்பட; ஹடூப், RedHat Enterprise Linux கர்னல், தரவு பிரதி மற்றும் காப்பு அமைப்புகள் (ஒரு காப்பு முனை மற்றும் Cloudera BDR - காப்பு மற்றும் பேரழிவு மீட்பு உட்பட) அடிப்படையிலான மெய்நிகர் இயந்திரங்களுடன் OpenStack. அடோஸ் கோடெக்ஸ் டேட்டா லேக் எஞ்சின் சான்றளிக்கப்பட்ட முதல் மெய்நிகராக்க தீர்வாகும் கிளவுட்ரா.

நீங்கள் விவரங்களில் ஆர்வமாக இருந்தால், கருத்துகளில் எங்கள் கேள்விகளுக்கு பதிலளிப்பதில் நாங்கள் மகிழ்ச்சியடைவோம்.

ஆதாரம்: www.habr.com

கருத்தைச் சேர்