දත්ත මධ්‍යස්ථානවල සිදුවන අනතුරුවලට ප්‍රධාන හේතුව පරිගණකය සහ පුටුව අතර ඇති ගෑස්කට් එකයි

නවීන දත්ත මධ්යස්ථානවල ප්රධාන අනතුරු පිළිබඳ මාතෘකාව පළමු ලිපියේ පිළිතුරු නොලැබූ ප්රශ්න මතු කරයි - අපි එය සංවර්ධනය කිරීමට තීරණය කළා.

දත්ත මධ්‍යස්ථානවල සිදුවන අනතුරුවලට ප්‍රධාන හේතුව පරිගණකය සහ පුටුව අතර ඇති ගෑස්කට් එකයි

Uptime ආයතනයේ සංඛ්‍යාලේඛනවලට අනුව, දත්ත මධ්‍යස්ථානවල සිදුවීම්වලින් බහුතරයක් බල සැපයුම් පද්ධති අසමත්වීම් හා සම්බන්ධ වේ - ඒවා සිදුවීම්වලින් 39% ක් සඳහා දායක වේ. අනතුරු වලින් තවත් 24%කට හේතු වන මානව සාධකය ඔවුන් අනුගමනය කරයි. තෙවැනි වැදගත්ම හේතුව (15%) වායු සමීකරණ පද්ධතියේ අසාර්ථකත්වය වන අතර, සිව්වන ස්ථානයේ (12%) ස්වභාවික විපත් විය. අනෙකුත් කරදරවල මුළු කොටස 10% ක් පමණි. ගෞරවනීය සංවිධානයක දත්ත ප්‍රශ්න නොකර, අපි විවිධ අනතුරු වලදී පොදු දෙයක් ඉස්මතු කර ඒවා වළක්වා ගත හැකිද යන්න තේරුම් ගැනීමට උත්සාහ කරමු. ස්පොයිලර්: බොහෝ අවස්ථාවලදී එය කළ හැකිය.

සම්බන්ධතා විද්‍යාව

සරලව කිවහොත්, බල සැපයුමේ ඇත්තේ ගැටළු දෙකක් පමණි: එක්කෝ එය තිබිය යුතු ස්ථානයේ ස්පර්ශයක් නොමැත, නැතහොත් ස්පර්ශය නොතිබිය යුතු ස්ථානයේ ස්පර්ශයක් ඇත. නවීන අඛණ්ඩ බල සැපයුම් පද්ධතිවල විශ්වසනීයත්වය ගැන ඔබට දිගු කලක් කතා කළ හැකිය, නමුත් ඔවුන් සැමවිටම ඔබව සුරැකෙන්නේ නැත. මව් සමාගම වන ඉන්ටර්නැෂනල් එයාර්ලයින්ස් සමූහයට අයත් බ්‍රිතාන්‍ය එයාර්වේස් විසින් භාවිතා කරන ලද දත්ත මධ්‍යස්ථානයේ ඉහළ පෙළේ සිද්ධිය ගන්න. හීත්‍රෝ ගුවන්තොටුපළ අසල එවැනි දේපල දෙකක් තිබේ - බෝඩිසියා හවුස් සහ කොමට් හවුස්. මෙයින් පළමුවැන්න නම්, 27 මැයි 2017 වන දින, හදිසි විදුලිය ඇනහිටීමක් සිදු වූ අතර, එය UPS පද්ධතියේ අධික බරක් හා අසාර්ථක වීමට හේතු විය. එහි ප්‍රතිඵලයක් වශයෙන්, සමහර තොරතුරු තාක්ෂණ උපකරණ භෞතිකව හානි වී ඇති අතර, නවතම ව්‍යසනය විසඳීමට දින තුනක් ගත විය.

ගුවන් සමාගමට ගුවන් ගමන් දහසකට වඩා අවලංගු කිරීමට හෝ නැවත කාලසටහන් කිරීමට සිදු විය, මගීන් 75 ක් පමණ නියමිත වේලාවට පියාසර කිරීමට නොහැකි විය - ඩොලර් මිලියන 128 ක් වන්දි ගෙවීම සඳහා වියදම් කරන ලදී, දත්ත මධ්‍යස්ථානවල ක්‍රියාකාරිත්වය යථා තත්වයට පත් කිරීමට අවශ්‍ය වියදම් ගණන් නොගනී. කළුවරට හේතු වූ ඉතිහාසය අපැහැදිලි ය. ඉන්ටර්නැෂනල් එයාර්ලයින්ස් සමූහයේ ප්‍රධාන විධායක නිලධාරී විලී වොල්ෂ් විසින් ප්‍රකාශයට පත් කරන ලද අභ්‍යන්තර විමර්ශනයේ ප්‍රතිඵල ඔබ විශ්වාස කරන්නේ නම්, එය ඉංජිනේරුවන්ගේ දෝෂයක් නිසා විය. කෙසේ වෙතත්, අඛණ්ඩ බල සැපයුම් පද්ධතියට එවැනි වසා දැමීමකට ඔරොත්තු දීමට සිදු විය - එය ස්ථාපනය කර ඇත්තේ එබැවිනි. දත්ත මධ්‍යස්ථානය කළමනාකරණය කරනු ලැබුවේ CBRE කළමනාකරන සේවා බාහිරින් සපයන ආයතනයේ විශේෂඥයින් විසිනි, එබැවින් බ්‍රිතාන්‍ය එයාර්වේස් ලන්ඩන් උසාවිය හරහා හානි ප්‍රමාණය අයකර ගැනීමට උත්සාහ කළේය.

දත්ත මධ්‍යස්ථානවල සිදුවන අනතුරුවලට ප්‍රධාන හේතුව පරිගණකය සහ පුටුව අතර ඇති ගෑස්කට් එකයි

විදුලිය ඇනහිටීම් සමාන අවස්ථා වලදී සිදු වේ: පළමුව විදුලි සැපයුම්කරුගේ දෝෂය හේතුවෙන්, සමහර විට අයහපත් කාලගුණය හෝ අභ්‍යන්තර ගැටළු (මානව දෝෂ ඇතුළුව) හේතුවෙන් විදුලිය විසන්ධි වීමක් සිදු වේ, පසුව අඛණ්ඩ බල සැපයුම් පද්ධතියට බර හෝ කෙටි කාලයක් සමඟ සාර්ථකව කටයුතු කළ නොහැක. - සයින් තරංගයේ කාලීන බාධා කිරීම් බොහෝ සේවාවන් අසාර්ථක වීමට හේතු වන අතර එය යථා තත්ත්වයට පත් කිරීමට විශාල කාලයක් හා මුදල් වැය වේ. එවැනි අනතුරු වළක්වා ගත හැකිද? සැකයකින් තොරව. ඔබ පද්ධතිය නිවැරදිව සැලසුම් කරන්නේ නම්, විශාල දත්ත මධ්‍යස්ථානවල නිර්මාතෘවරුන් පවා වැරදි වලින් නිදහස් නොවේ.

මානව සාධකය

සිදුවීමකට ආසන්නතම හේතුව දත්ත මධ්‍යස්ථාන සේවකයින්ගේ වැරදි ක්‍රියා වන විට, ගැටළු බොහෝ විට (නමුත් සෑම විටම නොවේ) තොරතුරු තාක්ෂණ යටිතල ව්‍යුහයේ මෘදුකාංග කොටසට බලපායි. එවැනි අනතුරු විශාල සමාගම්වල පවා සිදු වේ. 2017 පෙබරවාරි මාසයේදී, එක් දත්ත මධ්‍යස්ථානයක තාක්ෂණික මෙහෙයුම් කණ්ඩායමේ වැරදි ලෙස බඳවාගත් කණ්ඩායම් සාමාජිකයෙකු හේතුවෙන්, Amazon වෙබ් සේවා සේවාදායකයන්ගෙන් කොටසක් අක්‍රීය විය. Amazon Simple Storage Service (S3) cloud storage පාරිභෝගිකයන් සඳහා බිල්පත් ක්‍රියාවලිය නිදොස් කිරීමේදී දෝෂයක් ඇති විය. සේවකයෙකු බිල්පත් පද්ධතිය භාවිතා කරන අතථ්‍ය සේවාදායක ගණනාවක් මකා දැමීමට උත්සාහ කළ නමුත් විශාල පොකුරකට පහර දුන්නේය.

දත්ත මධ්‍යස්ථානවල සිදුවන අනතුරුවලට ප්‍රධාන හේතුව පරිගණකය සහ පුටුව අතර ඇති ගෑස්කට් එකයි

ඉංජිනේරු දෝෂයක ප්‍රතිඵලයක් ලෙස, වැදගත් Amazon cloud storage මෘදුකාංග මොඩියුල ක්‍රියාත්මක වන සේවාදායකයන් මකා දමන ලදී. පළමු බලපෑම වූයේ US-EAST-3 ඇමරිකානු කලාපයේ සියලුම S1 වස්තු වල පාර-දත්ත සහ පිහිටීම පිළිබඳ තොරතුරු අඩංගු සුචිගත උප පද්ධතියයි. මෙම සිද්ධිය දත්ත සංග්‍රහ කිරීමට සහ ගබඩා කිරීම සඳහා පවතින ඉඩ කළමනාකරණය කිරීමට භාවිතා කරන උප පද්ධතියට ද බලපෑවේය. අතථ්‍ය යන්ත්‍ර මකා දැමීමෙන් පසු, මෙම උප පද්ධති දෙකට සම්පූර්ණ නැවත ආරම්භයක් අවශ්‍ය වූ අතර, පසුව Amazon ඉංජිනේරුවන් පුදුමයට පත් විය - දිගු කාලයක් සඳහා, පොදු වලාකුළු ආචයනය පාරිභෝගික ඉල්ලීම් සඳහා සේවය කිරීමට නොහැකි විය.

බොහෝ විශාල සම්පත් Amazon S3 භාවිතා කරන බැවින් බලපෑම පුළුල් විය. ඇනහිටීම් Trello, Coursera, IFTTT සහ වඩාත් අප්‍රසන්න ලෙස, S&P 500 ලැයිස්තුවේ ප්‍රධාන Amazon හවුල්කරුවන්ගේ සේවාවන්ට බලපෑවේය.එවැනි අවස්ථාවන්හි හානිය ගණනය කිරීමට අපහසු නමුත් එය ඇමරිකානු ඩොලර් මිලියන සිය ගණනක කලාපයේ විය. ඔබට පෙනෙන පරිදි, විශාලතම වලාකුළු වේදිකාවේ සේවාව අක්රිය කිරීමට එක් වැරදි විධානයක් ප්රමාණවත් වේ. මෙය හුදකලා අවස්ථාවක් නොවේ; 16 මැයි 2019 වන දින, නඩත්තු කටයුතු අතරතුර, Yandex.Cloud සේවාව මකා දමන ලදි ru-central1-c කලාපයේ පරිශීලකයින්ගේ අතථ්‍ය යන්ත්‍ර අවම වශයෙන් එක් වරක්වත් අත්හිටුවන ලද තත්වයේ තිබුණි. සේවාලාභී දත්ත දැනටමත් මෙහි හානි වී ඇති අතර, ඒවායින් සමහරක් ආපසු හැරවිය නොහැකි ලෙස නැති වී ඇත. ඇත්ත වශයෙන්ම, මිනිසුන් අසම්පූර්ණයි, නමුත් නවීන තොරතුරු ආරක්ෂණ පද්ධති ඔවුන් ඇතුළත් කළ විධානයන් ක්රියාත්මක කිරීමට පෙර වරප්රසාද ලත් පරිශීලකයින්ගේ ක්රියාවන් නිරීක්ෂණය කිරීමට දිගු කලක් සමත් වී ඇත. එවැනි විසඳුම් Yandex හෝ Amazon හි ක්රියාත්මක කරන්නේ නම්, එවැනි සිදුවීම් වළක්වා ගත හැකිය.

දත්ත මධ්‍යස්ථානවල සිදුවන අනතුරුවලට ප්‍රධාන හේතුව පරිගණකය සහ පුටුව අතර ඇති ගෑස්කට් එකයි

ශීත කළ සිසිලනය

2017 ජනවාරි මාසයේදී Megafon සමාගමේ Dmitrov දත්ත මධ්යස්ථානයේ විශාල අනතුරක් සිදු විය. එවිට මොස්කව් කලාපයේ උෂ්ණත්වය -35 ° C දක්වා පහත වැටුණු අතර එය පහසුකමේ සිසිලන පද්ධතියේ අසාර්ථකත්වයට හේතු විය. ක්‍රියාකරුගේ පුවත්පත් සේවාව සිද්ධියට හේතු ගැන විශේෂයෙන් කතා කළේ නැත - රුසියානු සමාගම් තමන්ට අයත් පහසුකම්වල සිදුවන අනතුරු ගැන කතා කිරීමට අතිශයින් මැලි වෙති; ප්‍රචාරණය සම්බන්ධයෙන් ගත් කල, අපි බටහිරට වඩා බොහෝ පසුගාමී ය. වීදි දිගේ තබා ඇති පයිප්පවල සිසිලනකාරකය කැටි කිරීම සහ එතිලීන් ග්ලයිකෝල් කාන්දු වීම පිළිබඳ අනුවාදයක් සමාජ ජාල වල සංසරණය විය. ඇයට අනුව, මෙහෙයුම් සේවාවට දිගු නිවාඩුවක් හේතුවෙන් ටොන් 30 ක සිසිලනකාරකයක් ඉක්මනින් ලබා ගැනීමට නොහැකි වූ අතර, පද්ධතිය ක්‍රියාත්මක කිරීමේ නීති රීති උල්ලංඝනය කරමින් වැඩිදියුණු කළ නිදහස් සිසිලනය සංවිධානය කරමින් වැඩිදියුණු කළ ක්‍රම භාවිතා කරමින් පිටතට ගියේය. දැඩි සීතල ගැටලුව තවත් උග්‍ර කළේය - ජනවාරි මාසයේදී ශීත ඍතුව හදිසියේම රුසියාවට පහර දුන්නේ කිසිවෙකු එය අපේක්ෂා නොකළද ය. එහි ප්‍රතිඵලයක් ලෙස, කාර්ය මණ්ඩලයට සේවාදායක රාක්කවල කොටසක විදුලිය විසන්ධි කිරීමට සිදු වූ අතර, එම නිසා සමහර ක්‍රියාකරු සේවාවන් දින දෙකක් නොතිබුණි.

දත්ත මධ්‍යස්ථානවල සිදුවන අනතුරුවලට ප්‍රධාන හේතුව පරිගණකය සහ පුටුව අතර ඇති ගෑස්කට් එකයි

බොහෝ විට, අපට මෙහි කාලගුණ විෂමතාවයක් ගැන කතා කළ හැකිය, නමුත් එවැනි ඉෙමොලිමන්ට් අගනුවරට අසාමාන්ය දෙයක් නොවේ. මොස්කව් කලාපයේ ශීත ඍතුවේ දී උෂ්ණත්වය පහළ මට්ටම් දක්වා පහත වැටිය හැක, එබැවින් දත්ත මධ්යස්ථාන -42 ° C හි ස්ථායී ක්රියාකාරිත්වය අපේක්ෂාවෙන් ගොඩනගා ඇත. බොහෝ විට, සිසිලන ද්‍රාවණයේ ඇති ග්ලයිකෝල් සහ අතිරික්ත ජලය ප්‍රමාණවත් තරම් ඉහළ සාන්ද්‍රණයක් හේතුවෙන් ශීත කාලගුණය තුළ සිසිලන පද්ධති අසමත් වේ. පයිප්ප සවි කිරීම හෝ පද්ධතියේ සැලසුම් සහ පරීක්ෂා කිරීමේදී වැරදි ගණනය කිරීම් සමඟ ගැටළු ද ඇත, ප්රධාන වශයෙන් මුදල් ඉතිරි කිරීමට ඇති ආශාව සමඟ සම්බන්ධ වේ. මේ නිසා වැළැක්විය හැකිව තිබූ බරපතළ අනතුරක් සිදුවේ.

ස්වභාවික විපත්

බොහෝ විට, ගිගුරුම් සහිත වැසි සහ/හෝ සුළි කුණාටු දත්ත මධ්‍යස්ථානයක ඉංජිනේරු යටිතල ව්‍යුහයට බාධා කරයි, සේවා බාධා කිරීම් සහ/හෝ උපකරණවලට භෞතික හානි සිදු කරයි. අයහපත් කාලගුණය නිසා ඇතිවන සිදුවීම් බොහෝ විට සිදු වේ. 2012 දී සැන්ඩි සුළි කුණාටුව අධික වර්ෂාපතනයක් සමඟ එක්සත් ජනපදයේ බටහිර වෙරළ තීරය හරහා හමා ගියේය. Peer 1 දත්ත මධ්‍යස්ථානය වන පහළ මෑන්හැටන් හි උස් ගොඩනැගිල්ලක පිහිටා ඇත බාහිර බල සැපයුම අහිමි විය, ලුණු සහිත මුහුදු ජලය පහළම මාලය ගංවතුරෙන් පසු. මෙම පහසුකමෙහි හදිසි උත්පාදක යන්ත්‍ර 18 වන මහලේ පිහිටා තිබූ අතර ඒවායේ ඉන්ධන සැපයුම සීමිත විය - 9/11 ත්‍රස්ත ප්‍රහාරයෙන් පසු නිව් යෝර්ක් හි හඳුන්වා දුන් නීති ඉහළ මහලෙහි විශාල ඉන්ධන ප්‍රමාණයක් ගබඩා කිරීම තහනම් කරයි.

ඉන්ධන පොම්පයද ක්‍රියා විරහිත වූ නිසා කාර්ය මණ්ඩලය දින කිහිපයක්ම අතින් විදුලි ජනක යන්ත්‍රවලට ඩීසල් ඇදී ගියේය. කණ්ඩායමේ වීරත්වය දත්ත මධ්‍යස්ථානය බරපතල අනතුරකින් බේරා ගත් නමුත් එය සැබවින්ම අවශ්‍යද? අප ජීවත් වන්නේ නයිට්‍රජන්-ඔක්සිජන් වායුගෝලයක් සහ ජලය විශාල ප්‍රමාණයක් සහිත ග්‍රහලෝකයක ය. ගිගුරුම් සහිත වැසි සහ සුළි කුණාටු මෙහි (විශේෂයෙන් වෙරළබඩ ප්‍රදේශවල) බහුලව දක්නට ලැබේ. නිර්මාණකරුවන් බොහෝ දුරට අවදානම් සලකා බලා සුදුසු අඛණ්ඩ බල සැපයුම් පද්ධතියක් ගොඩනඟා ගැනීම හොඳය. නැතහොත් අඩුම තරමින් දත්ත මධ්‍යස්ථානය සඳහා දිවයිනක උස් ස්ථානයකට වඩා සුදුසු ස්ථානයක් තෝරා ගන්න.

අනෙක් සියල්ල

Uptime Institute මෙම කාණ්ඩයේ විවිධ සිදුවීම් හඳුනා ගනී, ඒවා අතර සාමාන්‍ය එකක් තෝරා ගැනීම අපහසුය. තඹ කේබල් සොරකම් කිරීම, මෝටර් රථ දත්ත මධ්‍යස්ථානවලට කඩා වැටීම, විදුලි රැහැන් ආධාරක සහ ට්‍රාන්ස්ෆෝමර් උපපොළවල්, ගිනි ගැනීම්, කැණීම් යන්ත්‍ර ක්‍රියාකරුවන් දෘෂ්‍ය විද්‍යාවට හානි කිරීම, මීයන් (මීයන්, හාවන් සහ වොම්බට්, ඇත්ත වශයෙන්ම මාෂුපියල්) මෙන්ම වෙඩි තැබීමට ප්‍රිය කරන අය වයර් - මෙනුව පුළුල් වේ . විදුලිය බිඳවැටීම් පවා ඇති විය හැක සොරකම් කරනවා විදුලිය නීති විරෝධී මරිජුවානා වගාව. බොහෝ අවස්ථාවන්හීදී, විශේෂිත පුද්ගලයින් සිද්ධියේ වැරදිකරුවන් බවට පත්වේ, එනම්, ගැටලුවට නමක් සහ වාසගමක් ඇති විට අපි නැවතත් මානව සාධකය සමඟ කටයුතු කරමු. බැලූ බැල්මට අනතුර තාක්ෂණික දෝෂයක් හෝ ස්වාභාවික විපත් සමඟ සම්බන්ධ වුවද, පහසුකම නිසි ලෙස සැලසුම් කර නිවැරදිව ක්‍රියාත්මක වන්නේ නම් එය වළක්වා ගත හැකිය. එකම ව්‍යතිරේකය වන්නේ දත්ත මධ්‍යස්ථාන යටිතල ව්‍යුහයට බරපතල හානි සිදුවීම හෝ ස්වාභාවික විපතක් හේතුවෙන් ගොඩනැගිලි සහ ව්‍යුහයන් විනාශ වීම පමණි. මේවා සැබවින්ම බලහත්කාර තත්වයන් වන අතර අනෙක් සියලුම ගැටළු ඇති වන්නේ පරිගණකය සහ පුටුව අතර ගෑස්කට් එක මගිනි - සමහර විට මෙය ඕනෑම සංකීර්ණ පද්ධතියක වඩාත්ම විශ්වාස කළ නොහැකි කොටස විය හැකිය.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න