தரவு மையங்களில் ஏற்படும் விபத்துகளுக்கு முக்கிய காரணம் கணினிக்கும் நாற்காலிக்கும் இடையே உள்ள கேஸ்கெட்டாகும்

நவீன தரவு மையங்களில் பெரிய விபத்துக்கள் என்ற தலைப்பு முதல் கட்டுரையில் பதிலளிக்கப்படாத கேள்விகளை எழுப்புகிறது - நாங்கள் அதை உருவாக்க முடிவு செய்தோம்.

தரவு மையங்களில் ஏற்படும் விபத்துகளுக்கு முக்கிய காரணம் கணினிக்கும் நாற்காலிக்கும் இடையே உள்ள கேஸ்கெட்டாகும்

அப்டைம் இன்ஸ்டிடியூட் புள்ளிவிபரங்களின்படி, தரவு மையங்களில் பெரும்பாலான சம்பவங்கள் மின் விநியோக அமைப்பு தோல்விகளுடன் தொடர்புடையவை - அவை 39% சம்பவங்களுக்கு காரணமாகின்றன. அவற்றைப் பின்தொடரும் மனித காரணி, மேலும் 24% விபத்துக்களுக்குக் காரணமாகிறது. மூன்றாவது மிக முக்கியமான காரணம் (15%) ஏர் கண்டிஷனிங் அமைப்பின் தோல்வி, மற்றும் நான்காவது இடத்தில் (12%) இயற்கை பேரழிவுகள். மற்ற பிரச்சனைகளின் மொத்த பங்கு 10% மட்டுமே. மரியாதைக்குரிய நிறுவனத்தின் தரவைக் கேள்வி கேட்காமல், வெவ்வேறு விபத்துகளில் பொதுவான ஒன்றை நாங்கள் முன்னிலைப்படுத்துவோம், மேலும் அவை தவிர்க்கப்பட்டிருக்க முடியுமா என்பதைப் புரிந்துகொள்ள முயற்சிப்போம். ஸ்பாய்லர்: பெரும்பாலான சந்தர்ப்பங்களில் இது சாத்தியமாகும்.

தொடர்புகளின் அறிவியல்

எளிமையாகச் சொல்வதானால், மின்சாரம் வழங்குவதில் இரண்டு சிக்கல்கள் மட்டுமே உள்ளன: ஒன்று அது இருக்க வேண்டிய இடத்தில் தொடர்பு இல்லை, அல்லது தொடர்பு இல்லாத இடத்தில் தொடர்பு உள்ளது. நவீன தடையில்லா மின்சாரம் வழங்கும் அமைப்புகளின் நம்பகத்தன்மை பற்றி நீங்கள் நீண்ட நேரம் பேசலாம், ஆனால் அவை எப்போதும் உங்களை காப்பாற்றாது. தாய் நிறுவனமான இன்டர்நேஷனல் ஏர்லைன்ஸ் குழுமத்திற்குச் சொந்தமான பிரிட்டிஷ் ஏர்வேஸ் பயன்படுத்தும் தரவு மையத்தின் உயர்மட்ட வழக்கை எடுத்துக் கொள்ளுங்கள். ஹீத்ரோ விமான நிலையத்திற்கு அருகில் இதுபோன்ற இரண்டு சொத்துக்கள் உள்ளன - போடிசியா ஹவுஸ் மற்றும் காமெட் ஹவுஸ். இவற்றில் முதலாவதாக, மே 27, 2017 அன்று, தற்செயலான மின் தடை ஏற்பட்டது, இது அதிக சுமை மற்றும் யுபிஎஸ் அமைப்பின் தோல்விக்கு வழிவகுத்தது. இதன் விளைவாக, சில தகவல் தொழில்நுட்ப சாதனங்கள் உடல் ரீதியாக சேதமடைந்தன, மேலும் சமீபத்திய பேரழிவு தீர்க்க மூன்று நாட்கள் ஆனது.

விமான நிறுவனம் ஆயிரத்துக்கும் மேற்பட்ட விமானங்களை ரத்து செய்யவோ அல்லது மாற்றியமைக்கவோ வேண்டியிருந்தது, சுமார் 75 ஆயிரம் பயணிகள் சரியான நேரத்தில் பறக்க முடியவில்லை - 128 மில்லியன் டாலர் இழப்பீடு செலுத்துவதற்காக செலவிடப்பட்டது, தரவு மையங்களின் செயல்பாட்டை மீட்டெடுக்க தேவையான செலவுகளை கணக்கிடவில்லை. மின்தடைக்கான காரணங்களின் வரலாறு தெளிவாக இல்லை. இன்டர்நேஷனல் ஏர்லைன்ஸ் குழுமத்தின் தலைமை நிர்வாக அதிகாரி வில்லி வால்ஷ் அறிவித்த உள் விசாரணையின் முடிவுகளை நீங்கள் நம்பினால், அது பொறியாளர்களின் பிழை காரணமாகும். இருப்பினும், தடையில்லா மின்சாரம் வழங்கல் அமைப்பு அத்தகைய பணிநிறுத்தத்தைத் தாங்க வேண்டியிருந்தது - அதனால்தான் அது நிறுவப்பட்டது. தரவு மையம் அவுட்சோர்சிங் நிறுவனமான CBRE நிர்வகிக்கப்பட்ட சேவைகளின் நிபுணர்களால் நிர்வகிக்கப்பட்டது, எனவே பிரிட்டிஷ் ஏர்வேஸ் லண்டன் நீதிமன்றத்தின் மூலம் சேதத்தின் அளவை மீட்டெடுக்க முயற்சித்தது.

தரவு மையங்களில் ஏற்படும் விபத்துகளுக்கு முக்கிய காரணம் கணினிக்கும் நாற்காலிக்கும் இடையே உள்ள கேஸ்கெட்டாகும்

இதேபோன்ற சூழ்நிலைகளில் மின் தடை ஏற்படுகிறது: முதலில் மின்சாரம் வழங்குபவரின் தவறு காரணமாக மின்தடை ஏற்படுகிறது, சில நேரங்களில் மோசமான வானிலை அல்லது உள் பிரச்சனைகள் (மனித பிழைகள் உட்பட) காரணமாக, பின்னர் தடையற்ற மின்சாரம் அமைப்பு சுமை அல்லது குறுகிய காலத்தை சமாளிக்க முடியாது. - சைன் அலையின் கால குறுக்கீடு பல சேவைகளின் தோல்விகளை ஏற்படுத்துகிறது, இதனால் மறுசீரமைப்புக்கு நிறைய நேரம் மற்றும் பணம் தேவைப்படுகிறது. இதுபோன்ற விபத்துகளைத் தவிர்க்க முடியுமா? சந்தேகத்திற்கு இடமின்றி. நீங்கள் கணினியை சரியாக வடிவமைத்தால், பெரிய தரவு மையங்களை உருவாக்கியவர்கள் கூட தவறுகளில் இருந்து விடுபட மாட்டார்கள்.

மனித காரணி

ஒரு சம்பவத்தின் உடனடி காரணம் தரவு மைய பணியாளர்களின் தவறான செயல்களாக இருக்கும் போது, ​​சிக்கல்கள் பெரும்பாலும் (ஆனால் எப்போதும் இல்லை) IT உள்கட்டமைப்பின் மென்பொருள் பகுதியை பாதிக்கிறது. பெரிய நிறுவனங்களில் கூட இதுபோன்ற விபத்துகள் நடக்கின்றன. பிப்ரவரி 2017 இல், தரவு மையங்களில் ஒன்றின் தொழில்நுட்ப செயல்பாட்டுக் குழுவில் தவறாகப் பணியமர்த்தப்பட்ட குழு உறுப்பினர் காரணமாக, Amazon Web Services சர்வர்களின் ஒரு பகுதி முடக்கப்பட்டது. Amazon Simple Storage Service (S3) கிளவுட் ஸ்டோரேஜ் வாடிக்கையாளர்களுக்கான பில்லிங் செயல்முறையை பிழைத்திருத்தம் செய்யும் போது பிழை ஏற்பட்டது. பில்லிங் அமைப்பால் பயன்படுத்தப்படும் பல மெய்நிகர் சேவையகங்களை ஒரு ஊழியர் நீக்க முயன்றார், ஆனால் ஒரு பெரிய கிளஸ்டரைத் தாக்கினார்.

தரவு மையங்களில் ஏற்படும் விபத்துகளுக்கு முக்கிய காரணம் கணினிக்கும் நாற்காலிக்கும் இடையே உள்ள கேஸ்கெட்டாகும்

பொறியாளர் பிழையின் விளைவாக, முக்கியமான அமேசான் கிளவுட் ஸ்டோரேஜ் மென்பொருள் தொகுதிகள் இயங்கும் சர்வர்கள் நீக்கப்பட்டன. US-EAST-3 அமெரிக்க பிராந்தியத்தில் உள்ள அனைத்து S1 பொருள்களின் மெட்டாடேட்டா மற்றும் இருப்பிடம் பற்றிய தகவலைக் கொண்ட அட்டவணைப்படுத்தல் துணை அமைப்பு முதலில் பாதிக்கப்பட்டது. இந்தச் சம்பவம் தரவுகளை ஹோஸ்ட் செய்வதற்கும் சேமிப்பிற்காகக் கிடைக்கும் இடத்தை நிர்வகிப்பதற்கும் பயன்படுத்தப்படும் துணை அமைப்பையும் பாதித்தது. மெய்நிகர் இயந்திரங்களை நீக்கிய பிறகு, இந்த இரண்டு துணை அமைப்புகளுக்கும் முழுமையான மறுதொடக்கம் தேவைப்பட்டது, பின்னர் அமேசான் பொறியாளர்கள் ஆச்சரியத்தில் இருந்தனர் - நீண்ட காலமாக, பொது கிளவுட் சேமிப்பகத்தால் வாடிக்கையாளர் கோரிக்கைகளுக்கு சேவை செய்ய முடியவில்லை.

பல பெரிய வளங்கள் Amazon S3 ஐப் பயன்படுத்துவதால், தாக்கம் பரவலாக இருந்தது. செயலிழப்புகள் Trello, Coursera, IFTTT மற்றும், மிகவும் விரும்பத்தகாத வகையில், S&P 500 பட்டியலில் இருந்து முக்கிய Amazon கூட்டாளர்களின் சேவைகளை பாதித்தன. இது போன்ற சந்தர்ப்பங்களில் சேதம் கணக்கிட கடினமாக உள்ளது, ஆனால் அது நூற்றுக்கணக்கான மில்லியன் அமெரிக்க டாலர்கள் பிராந்தியத்தில் இருந்தது. நீங்கள் பார்க்க முடியும் என, மிகப்பெரிய கிளவுட் தளத்தின் சேவையை முடக்க ஒரு தவறான கட்டளை போதுமானது. இது ஒரு தனிமைப்படுத்தப்பட்ட வழக்கு அல்ல; மே 16, 2019 அன்று, பராமரிப்புப் பணியின் போது, ​​Yandex.Cloud சேவை நீக்கப்பட்டது ru-central1-c மண்டலத்தில் உள்ள பயனர்களின் மெய்நிகர் இயந்திரங்கள் ஒருமுறையாவது இடைநீக்கம் செய்யப்பட்ட நிலையில் இருந்தன. வாடிக்கையாளர் தரவு ஏற்கனவே இங்கு சேதமடைந்துள்ளது, அவற்றில் சில மீளமுடியாமல் இழந்தன. நிச்சயமாக, மக்கள் முழுமையற்றவர்கள், ஆனால் நவீன தகவல் பாதுகாப்பு அமைப்புகள் அவர்கள் உள்ளிட்ட கட்டளைகளை செயல்படுத்துவதற்கு முன்பு சலுகை பெற்ற பயனர்களின் செயல்களை நீண்ட காலமாக கண்காணிக்க முடிந்தது. இத்தகைய தீர்வுகள் யாண்டெக்ஸ் அல்லது அமேசானில் செயல்படுத்தப்பட்டால், இதுபோன்ற சம்பவங்களைத் தவிர்க்கலாம்.

தரவு மையங்களில் ஏற்படும் விபத்துகளுக்கு முக்கிய காரணம் கணினிக்கும் நாற்காலிக்கும் இடையே உள்ள கேஸ்கெட்டாகும்

உறைந்த குளிர்ச்சி

ஜனவரி 2017 இல், மெகாஃபோன் நிறுவனத்தின் டிமிட்ரோவ் தரவு மையத்தில் ஒரு பெரிய விபத்து ஏற்பட்டது. பின்னர் மாஸ்கோ பிராந்தியத்தில் வெப்பநிலை −35 ° C ஆகக் குறைந்தது, இது வசதியின் குளிரூட்டும் முறையின் தோல்விக்கு வழிவகுத்தது. சம்பவத்திற்கான காரணங்களைப் பற்றி ஆபரேட்டரின் பத்திரிகை சேவை குறிப்பாகப் பேசவில்லை - ரஷ்ய நிறுவனங்கள் தங்களுக்குச் சொந்தமான வசதிகளில் விபத்துகளைப் பற்றி பேச மிகவும் தயக்கம் காட்டுகின்றன; விளம்பரத்தைப் பொறுத்தவரை, நாங்கள் மேற்கு நாடுகளில் மிகவும் பின்தங்கியுள்ளோம். தெருவில் போடப்பட்ட குழாய்களில் குளிரூட்டியை உறைய வைப்பது மற்றும் எத்திலீன் கிளைகோல் கசிவு போன்ற ஒரு பதிப்பு சமூக வலைப்பின்னல்களில் பரவியது. அவரது கூற்றுப்படி, நீண்ட விடுமுறை காரணமாக அறுவை சிகிச்சை சேவையால் 30 டன் குளிரூட்டியை விரைவாகப் பெற முடியவில்லை மற்றும் மேம்பட்ட வழிமுறைகளைப் பயன்படுத்தி வெளியேறியது, கணினியை இயக்குவதற்கான விதிகளை மீறி மேம்படுத்தப்பட்ட இலவச குளிரூட்டலை ஏற்பாடு செய்தது. கடுமையான குளிர் சிக்கலை மோசமாக்கியது - ஜனவரியில், குளிர்காலம் திடீரென்று ரஷ்யாவைத் தாக்கியது, இருப்பினும் யாரும் அதை எதிர்பார்க்கவில்லை. இதன் விளைவாக, ஊழியர்கள் சர்வர் ரேக்குகளின் ஒரு பகுதிக்கு மின்சாரத்தை நிறுத்த வேண்டியிருந்தது, இதனால் சில ஆபரேட்டர் சேவைகள் இரண்டு நாட்களுக்கு கிடைக்கவில்லை.

தரவு மையங்களில் ஏற்படும் விபத்துகளுக்கு முக்கிய காரணம் கணினிக்கும் நாற்காலிக்கும் இடையே உள்ள கேஸ்கெட்டாகும்

அநேகமாக, நாம் இங்கே வானிலை ஒழுங்கின்மை பற்றி பேசலாம், ஆனால் அத்தகைய உறைபனிகள் தலைநகர் பிராந்தியத்திற்கு அசாதாரணமானது அல்ல. மாஸ்கோ பிராந்தியத்தில் குளிர்காலத்தில் வெப்பநிலை குறைந்த மட்டத்திற்கு குறையக்கூடும், எனவே தரவு மையங்கள் -42 ° C இல் நிலையான செயல்பாட்டின் எதிர்பார்ப்புடன் கட்டப்பட்டுள்ளன. பெரும்பாலும், குளிர்ந்த காலநிலையில் குளிரூட்டும் முறைகள் தோல்வியடைகின்றன, ஏனெனில் குளிரூட்டும் கரைசலில் கிளைகோல்கள் மற்றும் அதிகப்படியான நீர் போதுமான அளவு அதிக அளவில் இல்லை. குழாய்களை நிறுவுவதில் சிக்கல்கள் அல்லது கணினியின் வடிவமைப்பு மற்றும் சோதனையில் தவறான கணக்கீடுகள் உள்ளன, முக்கியமாக பணத்தை சேமிக்கும் விருப்பத்துடன் தொடர்புடையது. இதன் விளைவாக, ஒரு பெரிய விபத்து நீல நிறத்தில் ஏற்படுகிறது, இது தடுக்கப்பட்டிருக்கலாம்.

இயற்கை பேரழிவுகள்

பெரும்பாலும், இடியுடன் கூடிய மழை மற்றும்/அல்லது சூறாவளி தரவு மையத்தின் பொறியியல் உள்கட்டமைப்பை சீர்குலைக்கிறது, இது சேவை குறுக்கீடுகள் மற்றும்/அல்லது உபகரணங்களுக்கு உடல் சேதத்திற்கு வழிவகுக்கிறது. மோசமான வானிலையால் ஏற்படும் சம்பவங்கள் அடிக்கடி நிகழ்கின்றன. 2012 ஆம் ஆண்டில், சாண்டி சூறாவளி அமெரிக்காவின் மேற்குக் கடற்கரையை பலத்த மழையுடன் வீசியது. பியர் 1 தரவு மையமான லோயர் மன்ஹாட்டனில் உள்ள ஒரு உயரமான கட்டிடத்தில் அமைந்துள்ளது வெளிப்புற மின்சாரம் இழந்தது, உப்பு கடல் நீர் அடித்தளங்களை வெள்ளம் பிறகு. இந்த வசதியின் அவசர ஜெனரேட்டர்கள் 18வது மாடியில் அமைந்திருந்தன, அவற்றின் எரிபொருள் விநியோகம் குறைவாகவே இருந்தது - 9/11 பயங்கரவாதத் தாக்குதலுக்குப் பிறகு நியூயார்க்கில் அறிமுகப்படுத்தப்பட்ட விதிகள் மேல் தளங்களில் அதிக அளவு எரிபொருளைச் சேமிப்பதைத் தடை செய்கின்றன.

எரிபொருள் பம்ப் செயலிழந்ததால், ஊழியர்கள் பல நாட்கள் ஜெனரேட்டர்களுக்கு டீசலை கையால் இழுத்து வந்தனர். அணியின் வீரம் தரவு மையத்தை ஒரு கடுமையான விபத்தில் இருந்து காப்பாற்றியது, ஆனால் அது உண்மையில் அவசியமா? நைட்ரஜன்-ஆக்ஸிஜன் வளிமண்டலம் மற்றும் நிறைய தண்ணீர் கொண்ட ஒரு கிரகத்தில் நாம் வாழ்கிறோம். இடியுடன் கூடிய மழை மற்றும் சூறாவளி இங்கு (குறிப்பாக கடலோர பகுதிகளில்) பொதுவானது. வடிவமைப்பாளர்கள் இதில் உள்ள அபாயங்களைக் கருத்தில் கொண்டு பொருத்தமான தடையில்லா மின்சாரம் வழங்கும் அமைப்பை உருவாக்குவது நல்லது. அல்லது குறைந்த பட்சம் ஒரு தீவில் உள்ள உயரமான இடத்தை விட தரவு மையத்திற்கு மிகவும் பொருத்தமான இடத்தை தேர்வு செய்யவும்.

மற்றவை எல்லாம்

அப்டைம் இன்ஸ்டிடியூட் இந்த வகையில் பல்வேறு சம்பவங்களை அடையாளம் காட்டுகிறது, அவற்றில் வழக்கமான ஒன்றைத் தேர்ந்தெடுப்பது கடினம். செப்பு கேபிள்கள் திருட்டு, தரவு மையங்களில் கார்கள் மோதியது, மின் இணைப்புகள் மற்றும் மின்மாற்றி துணை மின்நிலையங்கள், தீ, அகழ்வாராய்ச்சி ஆபரேட்டர்கள் ஒளியியல், கொறித்துண்ணிகள் (எலிகள், முயல்கள் மற்றும் வோம்பாட்கள், உண்மையில் மார்சுபியல்கள்), அத்துடன் துப்பாக்கிச் சூடு பயிற்சி செய்ய விரும்புபவர்கள். கம்பிகள் - மெனு விரிவானது. மின் தடைகள் கூட ஏற்படலாம் திருடுதல் மின்சாரம் சட்டவிரோதமான கஞ்சா தோட்டம். பெரும்பாலான சந்தர்ப்பங்களில், குறிப்பிட்ட நபர்கள் சம்பவத்தின் குற்றவாளிகளாக மாறுகிறார்கள், அதாவது, பிரச்சனைக்கு ஒரு பெயர் மற்றும் குடும்பப்பெயர் இருக்கும்போது நாம் மீண்டும் மனித காரணியைக் கையாளுகிறோம். முதல் பார்வையில் விபத்து தொழில்நுட்ப கோளாறு அல்லது இயற்கை பேரழிவுகளுடன் தொடர்புடையதாக இருந்தாலும் கூட, வசதி சரியாக வடிவமைக்கப்பட்டு சரியாக இயக்கப்பட்டிருந்தால், அதைத் தவிர்க்கலாம். விதிவிலக்குகள் தரவு மையத்தின் உள்கட்டமைப்புக்கு முக்கியமான சேதம் அல்லது இயற்கை பேரழிவு காரணமாக கட்டிடங்கள் மற்றும் கட்டமைப்புகளை அழித்தது. இவை உண்மையிலேயே சக்தி வாய்ந்த சூழ்நிலைகள், மற்றும் மற்ற எல்லா சிக்கல்களும் கணினி மற்றும் நாற்காலிக்கு இடையில் உள்ள கேஸ்கெட்டால் ஏற்படுகின்றன - ஒருவேளை இது எந்தவொரு சிக்கலான அமைப்பிலும் மிகவும் நம்பமுடியாத பகுதியாகும்.

ஆதாரம்: www.habr.com

கருத்தைச் சேர்