දත්ත මධ්‍යස්ථානයේ දුම් පරීක්ෂාව ගිනි ගත්තොත් සර්වර් නිවා දැමිය යුතුද?

එක් කදිම ගිම්හාන දිනයක් ඔබේ උපකරණ සහිත දත්ත මධ්‍යස්ථානය මේ ආකාරයෙන් දිස් වුවහොත් ඔබට කෙසේ හැඟේවිද?

දත්ත මධ්‍යස්ථානයේ දුම් පරීක්ෂාව ගිනි ගත්තොත් සර්වර් නිවා දැමිය යුතුද?

ආයුබෝවන් සියල්ලටම! මගේ නම දිමිත්‍රි සැම්සොනොව්, මම ප්‍රමුඛ පද්ධති පරිපාලකයෙකු ලෙස සේවය කරමි "පංතියේ ළමයින්" ඡායාරූපයේ දැක්වෙන්නේ අපගේ ව්‍යාපෘතියට සේවා සපයන උපකරණ ස්ථාපනය කර ඇති දත්ත මධ්‍යස්ථාන හතරෙන් එකක්. මෙම බිත්ති පිටුපස උපකරණ කෑලි 4 ක් පමණ ඇත: සේවාදායක, දත්ත ගබඩා පද්ධති, ජාල උපකරණ, ආදිය. - අපගේ සියලුම උපකරණ වලින් පාහේ ⅓.
බොහෝ සේවාදායකයන් Linux වේ. වින්ඩෝස් (MS SQL) හි සේවාදායකයන් දුසිම් කිහිපයක් ද ඇත - අපගේ උරුමය, අපි වසර ගණනාවක් තිස්සේ ක්‍රමානුකූලව අතහැර දමා ඇත.
ඉතින්, 5 ජූනි 2019 වෙනිදා 14:35 ට, අපේ එක් දත්ත මධ්‍යස්ථානයක ඉංජිනේරුවන් ගිනි අනතුරු ඇඟවීමක් වාර්තා කළා.

ප්රතික්ෂේප කිරීම

14:45. දත්ත මධ්‍යස්ථානවල සිදුවන සුළු දුමාර සිදුවීම් ඔබ සිතනවාට වඩා බහුලව දක්නට ලැබේ. ශාලා තුළ ඇති දර්ශක සාමාන්‍ය විය, එබැවින් අපගේ පළමු ප්‍රතික්‍රියාව සාපේක්ෂව සන්සුන් විය: ඔවුන් නිෂ්පාදනය සමඟ වැඩ කිරීම තහනම් කළේය, එනම්, ඕනෑම වින්‍යාස වෙනස් කිරීම්, නව අනුවාදයන් පෙරළීම යනාදිය, යමක් සවි කිරීමට අදාළ වැඩ හැර.

කෝපය

ඔබ කවදා හෝ ගිනි නිවන භටයන්ගෙන් වහලයේ ගින්න ඇති වූයේ කොතැනකදැයි සොයා ගැනීමට හෝ තත්වය තක්සේරු කිරීමට ඔබම දැවෙන වහලකට නැගීමට උත්සාහ කර තිබේද? පුද්ගලයන් පස් දෙනෙකු හරහා ලැබෙන තොරතුරු පිළිබඳ විශ්වාසයේ තරම කොපමණද?

14: 50. ගින්න සිසිලන පද්ධතියට ආසන්න වෙමින් පවතින බවට තොරතුරු ලැබී තිබෙනවා. ඒත් එයිද? රාජකාරියේ යෙදී සිටින පද්ධති පරිපාලකයා මෙම දත්ත මධ්‍යස්ථානයේ ඉදිරිපසින් බාහිර ගමනාගමනය ඉවත් කරයි.

මේ මොහොතේ, අපගේ සියලුම සේවාවන්හි පෙරමුණු දත්ත මධ්‍යස්ථාන තුනක අනුපිටපත් කර ඇත, සමතුලිත කිරීම DNS මට්ටමින් භාවිතා කරයි, එමඟින් එක් දත්ත මධ්‍යස්ථානයක ලිපින DNS වෙතින් ඉවත් කිරීමට අපට ඉඩ සලසයි, එමඟින් පරිශීලකයින් සේවා වෙත ප්‍රවේශ වීමේ ගැටළු වලින් ආරක්ෂා කරයි. . දත්ත මධ්යස්ථානයේ ගැටළු දැනටමත් සිදුවී ඇත්නම්, එය ස්වයංක්රීයව භ්රමණයෙන් පිටවෙයි. ඔබට මෙහි වැඩිදුර කියවිය හැකිය: Odnoklassniki හි පැටවුම් තුලනය සහ වැරදි ඉවසීම.

ගින්න තවමත් අපට කිසිදු ආකාරයකින් බලපා නැත - පරිශීලකයින්ට හෝ උපකරණවලට හානි සිදුවී නොමැත. මෙය හදිසි අනතුරක්ද? "අනතුරු ක්‍රියා සැලැස්ම" ලේඛනයේ පළමු කොටස "අනතුර" යන සංකල්පය නිර්වචනය කරයි, සහ කොටස අවසන් වන්නේ මෙසේ ය:
«අනතුරක් සිදුවේද නැද්ද යන්න සැකයක් ඇත්නම්, එය අනතුරක් වේ!»

14:53. හදිසි සම්බන්ධීකාරක පත් කරනු ලැබේ.

සම්බන්ධීකාරක යනු සියලුම සහභාගිවන්නන් අතර සන්නිවේදනය පාලනය කරන, අනතුරේ පරිමාණය තක්සේරු කරන, හදිසි ක්‍රියාකාරී සැලැස්ම භාවිතා කරන, අවශ්‍ය පුද්ගලයින් ආකර්ෂණය කර, අලුත්වැඩියාව සම්පූර්ණ කිරීම අධීක්ෂණය කරන සහ වඩාත්ම වැදගත් ලෙස ඕනෑම කාර්යයක් පැවරෙන පුද්ගලයා වේ. වෙනත් වචන වලින් කිවහොත්, සම්පූර්ණ හදිසි ප්‍රතිචාර ක්‍රියාවලිය කළමනාකරණය කරන පුද්ගලයා මෙයයි.

කේවල් කරන්න

15:01. අපි නිෂ්පාදනයට සම්බන්ධ නොවන සේවාදායකයන් අක්රිය කිරීමට පටන් ගනිමු.
15:03. අපි සියලුම වෙන් කර ඇති සේවාවන් නිවැරදිව අක්‍රිය කරමු.
මෙයට පෙරමුනු (මෙම අවස්ථාව වන විට පරිශීලකයින් තවදුරටත් ප්‍රවේශ නොවන) සහ ඒවායේ සහායක සේවා (ව්‍යාපාර තර්කනය, හැඹිලි, ආදිය) පමණක් නොව, අනුකරණ සාධකය 2 හෝ ඊට වැඩි විවිධ දත්ත සමුදායන් ද ඇතුළත් වේ (කැසන්ඩ්රා, ද්විමය දත්ත ගබඩා කිරීම, ශීත ගබඩා, NewSQL ආදිය).
15: 06. එක් දත්ත මධ්‍යස්ථාන ශාලාවකට ගින්නක් තර්ජනයක් වෙමින් පවතින බවට තොරතුරු ලැබී තිබෙනවා. මෙම කාමරය තුළ අපට උපකරණ නොමැත, නමුත් ගින්න වහලයේ සිට ශාලා දක්වා පැතිර යා හැකි බව සිදුවෙමින් පවතින දේ පිළිබඳ පින්තූරය බෙහෙවින් වෙනස් කරයි.
(පසුකාලීනව පෙනී ගියේ එය වහලයේ සිට හර්මෙටික් ලෙස මුද්‍රා තබා ඇති බැවින් ශාලාවට භෞතික තර්ජනයක් නොමැති බවයි. තර්ජනය වූයේ මෙම ශාලාවේ සිසිලන පද්ධතියට පමණි.)
15:07. අමතර චෙක්පත් නොමැතිව වේගවත් ප්‍රකාරයේදී සේවාදායකයන් මත විධාන ක්‍රියාත්මක කිරීමට අපි ඉඩ දෙමු (අපගේ ප්රියතම කැල්ක්යුලේටරය නොමැතිව).
15:08. ශාලා වල උෂ්ණත්වය සාමාන්ය සීමාවන් තුළ පවතී.
15: 12. ශාලා තුළ උෂ්ණත්වය ඉහළ යාමක් වාර්තා විය.
15:13. දත්ත මධ්‍යස්ථානයේ සේවාදායකයන්ගෙන් අඩකට වඩා ක්‍රියා විරහිත කර ඇත. අපි දිගටම කරගෙන යමු.
15:16. සියලුම උපකරණ අක්රිය කිරීමට තීරණයක් ගන්නා ලදී.
15:21. යෙදුම සහ මෙහෙයුම් පද්ධතිය නිවැරදිව වසා දැමීමකින් තොරව අපි අස්ථායී සේවාදායකයන් වෙත බලය අක්රිය කිරීමට පටන් ගනිමු.
15:23. MS SQL සඳහා වගකිව යුතු පුද්ගලයින් කණ්ඩායමක් වෙන් කර ඇත (ඔවුන්ගෙන් ස්වල්ප දෙනෙක් සිටිති, ඔවුන් මත සේවා රඳා පැවතීම විශාල නොවේ, නමුත් ක්‍රියාකාරීත්වය යථා තත්ත්වයට පත් කිරීමේ ක්‍රියා පටිපාටිය වැඩි කාලයක් ගත වන අතර උදාහරණයක් ලෙස කැසැන්ඩ්‍රාට වඩා සංකීර්ණ වේ).

අවපාතය

15: 25. ශාලා 16න් (අංක 6, 7, 8, 9) ශාලා හතරක විදුලිය විසන්ධි කිරීම පිළිබඳව තොරතුරු ලැබිණි. අපගේ උපකරණ ශාලා 7 සහ 8 හි පිහිටා ඇත. අපේ ශාලා දෙක (අංක 1 සහ 3) ගැන කිසිම තොරතුරක් නැහැ.
සාමාන්‍යයෙන්, ගිනි ගැනීම් වලදී, බල සැපයුම වහාම ක්‍රියා විරහිත කර ඇත, නමුත් මේ අවස්ථාවේ දී, ගිනි නිවන භටයින්ගේ සහ දත්ත මධ්‍යස්ථානයේ තාක්ෂණික නිලධාරීන්ගේ සම්බන්ධීකරණ කාර්යයට ස්තූතිවන්ත වන අතර, එය සෑම තැනකම අක්‍රිය නොකළ අතර වහාම නොව අවශ්‍ය පරිදි.
(8 සහ 9 ශාලා වල විදුලිය විසන්ධි කර නොමැති බව පසුව අනාවරණය විය.)
15:28. අපි වෙනත් දත්ත මධ්‍යස්ථානවල උපස්ථ වලින් MS SQL දත්ත සමුදායන් යෙදවීමට පටන් ගනිමු.
එයට කොපමණ වේලාවක් ගතවේ ද? සම්පූර්ණ මාර්ගය සඳහා ප්‍රමාණවත් ජාල ධාරිතාවක් තිබේද?
15: 37. ජාලයේ සමහර කොටස් වසා දැමීමක් සටහන් විය.
කළමනාකරණය සහ නිෂ්පාදන ජාලය එකිනෙකාගෙන් භෞතිකව හුදකලා වේ. නිෂ්පාදන ජාලය තිබේ නම්, ඔබට සේවාදායකයට ගොස් යෙදුම නතර කර මෙහෙයුම් පද්ධතිය අක්‍රිය කළ හැකිය. එය නොමැති නම්, ඔබට IPMI හරහා ලොග් වී, යෙදුම නතර කර මෙහෙයුම් පද්ධතිය අක්‍රිය කළ හැකිය. ජාල කිසිවක් නොමැති නම්, ඔබට කිසිවක් කළ නොහැක. "ස්තූතියි, කැප්!", ඔබ සිතනු ඇත.
"සහ පොදුවේ, කැලඹීම් ගොඩක් තිබේ," ඔබ ද සිතනු ඇත.
කාරණය නම්, ගින්නක් නොමැතිව පවා සේවාදායකයන් විශාල තාපයක් ජනනය කිරීමයි. වඩාත් නිවැරදිව, සිසිලනය ඇති විට, ඔවුන් තාපය ජනනය කරයි, සහ සිසිලනය නොමැති විට, ඔවුන් නිරයේ අපායක් නිර්මාණය කරයි, එය හොඳම ලෙස, උපකරණයේ කොටසක් උණු කර තවත් කොටසක් නිවා දමනු ඇත, සහ නරකම ... ශාලාව තුළ ගින්නක්, එය සියල්ල විනාශ කිරීමට පාහේ සහතික වේ.

දත්ත මධ්‍යස්ථානයේ දුම් පරීක්ෂාව ගිනි ගත්තොත් සර්වර් නිවා දැමිය යුතුද?

15:39. අපි conf දත්ත ගබඩාවේ ගැටළු නිරාකරණය කරමු.

conf දත්ත සමුදාය එකම නමේ සේවාව සඳහා පසුබිම් වේ, එය සියලු නිෂ්පාදන යෙදුම් ඉක්මනින් සිටුවම් වෙනස් කිරීමට භාවිතා කරයි. මෙම පදනම නොමැතිව, අපට ද්වාරයෙහි ක්‍රියාකාරිත්වය පාලනය කළ නොහැක, නමුත් ද්වාරයටම ක්‍රියා කළ හැකිය.

15:41. Core ජාල උපකරණවල උෂ්ණත්ව සංවේදක උපරිම අවසරයට ආසන්න කියවීම් වාර්තා කරයි. මෙය සම්පූර්ණ රාක්කයක් අල්ලාගෙන දත්ත මධ්‍යස්ථානය තුළ ඇති සියලුම ජාල වල ක්‍රියාකාරිත්වය සහතික කරන පෙට්ටියකි.

දත්ත මධ්‍යස්ථානයේ දුම් පරීක්ෂාව ගිනි ගත්තොත් සර්වර් නිවා දැමිය යුතුද?

15:42. නිකුතු ට්රැකර් සහ විකි නොමැත, පොරොත්තු වෙත මාරු වන්න.
මෙය නිෂ්පාදනයක් නොවේ, නමුත් හදිසි අනතුරකදී, ඕනෑම දැනුම් පදනමක් තිබීම තීරණාත්මක විය හැකිය.
15:50. එක් නිරීක්ෂණ පද්ධතියක් ක්‍රියා විරහිත කර ඇත.
ඒවායින් කිහිපයක් ඇති අතර, සේවාවන්හි විවිධ අංශ සඳහා ඔවුන් වගකිව යුතුය. ඒවායින් සමහරක් එක් එක් දත්ත මධ්‍යස්ථානය තුළ ස්වයංක්‍රීයව ක්‍රියා කිරීමට වින්‍යාස කර ඇත (එනම්, ඔවුන් තම දත්ත මධ්‍යස්ථානය පමණක් නිරීක්ෂණය කරයි), අනෙක් ඒවා ඕනෑම දත්ත මධ්‍යස්ථානයක් අහිමි වීමෙන් විනිවිදභාවයෙන් බේරෙන බෙදා හරින ලද සංරචක වලින් සමන්විත වේ.
මෙම අවස්ථාවේ දී, එය වැඩ කිරීම නතර විය ව්‍යාපාර තාර්කික දර්ශක විෂමතා හඳුනාගැනීමේ පද්ධතිය, master-standby ආකාරයෙන් ක්‍රියාත්මක වේ. ස්ටෑන්ඩ්බයි එකට මාරු උනා.

දරුකමට හදා ගැනීම

15:51. MS SQL හැර අනෙකුත් සියලුම සේවාදායකයන් නිවැරදිව වසා දැමීමකින් තොරව IPMI හරහා අක්‍රිය කර ඇත.
අවශ්ය නම් IPMI හරහා දැවැන්ත සේවාදායක කළමනාකරණය සඳහා ඔබ සූදානම්ද?

මෙම අදියරේදී දත්ත මධ්යස්ථානයේ උපකරණ ගලවා ගැනීම අවසන් වූ මොහොතේම. කරන්න පුළුවන් හැමදේම කරලා ඉවරයි. සමහර සගයන්ට විවේක ගත හැකිය.
16: 13. වායුසමීකරණ යන්ත්‍රවලින් ෆ්‍රෝන් පයිප්ප වහලය මත පුපුරා යන බවට තොරතුරු ලැබී ඇත - මෙය ගින්න ඉවත් කිරීමෙන් පසු දත්ත මධ්‍යස්ථානය දියත් කිරීම ප්‍රමාද කරයි.
16:19. දත්ත මධ්යස්ථානයේ තාක්ෂණික කාර්ය මණ්ඩලයෙන් ලැබුණු දත්ත වලට අනුව, ශාලා තුළ උෂ්ණත්වය ඉහළ යාම නතර වී ඇත.
17:10. conf දත්ත සමුදාය ප්‍රතිසාධනය කර ඇත. දැන් අපට යෙදුම් සැකසුම් වෙනස් කළ හැකිය.
සෑම දෙයක්ම වරදට ඔරොත්තු දෙන සහ එක් දත්ත මධ්‍යස්ථානයක් නොමැතිව පවා ක්‍රියා කරන්නේ නම් මෙය එතරම් වැදගත් වන්නේ ඇයි?
පළමුව, සෑම දෙයක්ම වැරදි ඉවසීමක් නොවේ. දත්ත මධ්‍යස්ථාන අසාර්ථක වීමකින් තවමත් නොනැසී පවතින විවිධ ද්විතීයික සේවා ඇති අතර ප්‍රධාන-පොරොත්තු මාදිලියේ දත්ත සමුදායන් ඇත. සැකසුම් කළමනාකරණය කිරීමේ හැකියාව දුෂ්කර තත්වයන් තුළ පවා පරිශීලකයින්ට අනතුරක ප්රතිවිපාකවල බලපෑම අවම කිරීම සඳහා අවශ්ය සෑම දෙයක්ම කිරීමට ඔබට ඉඩ සලසයි.
දෙවනුව, ඉදිරි පැය කිහිපය තුළ දත්ත මධ්‍යස්ථානයේ ක්‍රියාකාරිත්වය සම්පූර්ණයෙන්ම යථා තත්ත්වයට පත් නොවනු ඇති බව පැහැදිලි විය, එබැවින් දිගු කාලීන අනුරූ ලබා ගත නොහැකි වීම සම්පූර්ණ තැටි වැනි අමතර කරදරවලට තුඩු නොදෙන බවට සහතික වීමට පියවර ගැනීම අවශ්‍ය විය. ඉතිරි දත්ත මධ්යස්ථාන.
17:29. පීසා කාලය! අපි සේවයේ යොදවන්නේ මිනිසුන් මිස රොබෝවරුන් නොවේ.

දත්ත මධ්‍යස්ථානයේ දුම් පරීක්ෂාව ගිනි ගත්තොත් සර්වර් නිවා දැමිය යුතුද?

පුනරුත්ථාපනය

18:02. ශාලා අංක 8 (අපගේ), 9, 10 සහ 11 ශාලා තුළ උෂ්ණත්වය ස්ථාවර වී ඇත. නොබැඳිව පවතින (අංක 7) එකක අපගේ උපකරණ ගබඩා කර ඇති අතර එහි උෂ්ණත්වය දිගටම ඉහළ යයි.
18:31. ශාලා අංක 1 සහ 3 හි උපකරණ ආරම්භ කිරීමට ඔවුන් අවසර ලබා දුන්නේය - මෙම ශාලා ගින්නෙන් පීඩාවට පත් නොවීය.

දැනට, ශාලා අංක 1, 3, 8, වඩාත්ම තීරණාත්මක ඒවා වලින් ආරම්භ වන සේවාදායකයන් දියත් කෙරේ. ධාවනය වන සියලුම සේවාවන්හි නිවැරදි ක්‍රියාකාරිත්වය පරීක්ෂා කරනු ලැබේ. ශාලා අංක 7 සම්බන්ධයෙන් තවමත් ගැටලු පවතී.

18:44. දත්ත මධ්‍යස්ථානයේ තාක්ෂණික කාර්ය මණ්ඩලය විසින් කාමරයේ අංක 7 (අපගේ උපකරණ පමණක් පිහිටා ඇති) බොහෝ සේවාදායකයන් අක්‍රිය කර නොමැති බව සොයා ගන්නා ලදී. අපගේ දත්ත වලට අනුව, සේවාදායකයන් 26 ක් එහි සබැඳිව පවතී. දෙවන පරීක්ෂාවකින් පසුව, අපි සේවාදායකයන් 58 ක් සොයා ගනිමු.
20:18. දත්ත මධ්‍යස්ථාන කාර්මික ශිල්පීන් ශාලා හරහා දිවෙන ජංගම නාලිකා හරහා වායුසමීකරණය නොකළ කාමරයක් හරහා වාතය හමා යයි.
23:08. මුල් ඇඩ්මින් ගෙදර යැව්වා. හෙට වැඩ කරගෙන යාමට යමෙකුට රාත්‍රියේ නිදා ගැනීමට අවශ්‍ය වේ. ඊළඟට, අපි තවත් පරිපාලකයින් සහ සංවර්ධකයින් කිහිප දෙනෙකු නිදහස් කරන්නෙමු.
02:56. දියත් කළ හැකි සියල්ල අපි දියත් කළා. අපි ස්වයංක්‍රීය පරීක්ෂණ භාවිතයෙන් සියලුම සේවාවන් බොහෝ පරීක්ෂා කරන්නෙමු.

දත්ත මධ්‍යස්ථානයේ දුම් පරීක්ෂාව ගිනි ගත්තොත් සර්වර් නිවා දැමිය යුතුද?

03:02. පසුගිය, 7 වන ශාලාවේ වායු සමීකරණය යථා තත්ත්වයට පත් කර ඇත.
03:36. අපි දත්ත මධ්‍යස්ථානයේ ඉදිරිපස DNS හි භ්‍රමණයට ගෙනාවා. මේ මොහොතේ සිට පරිශීලක ගමනාගමනය පැමිණීමට පටන් ගනී.
අපි පරිපාලන කණ්ඩායමේ බොහෝ දෙනෙක් ගෙදර යවනවා. නමුත් අපි මිනිස්සු ටිකක් දාලා යනවා.

කුඩා නිතර අසන පැන:
ප්‍ර: 18:31 සිට 02:56 දක්වා මොකද වුණේ?
A: “ආපදා ක්‍රියාකාරී සැලැස්ම” අනුගමනය කරමින්, අපි ඉතා වැදගත් ඒවායින් පටන් ගෙන සියලුම සේවාවන් දියත් කරමු. මෙම අවස්ථාවෙහිදී, චැට් හි සම්බන්ධීකාරක නොමිලේ පරිපාලකයෙකුට සේවාව නිකුත් කරයි, ඔහු OS සහ යෙදුම ආරම්භ කර තිබේද, කිසියම් දෝෂයක් තිබේද, සහ දර්ශක සාමාන්යද යන්න පරීක්ෂා කරයි. දියත් කිරීම අවසන් වූ පසු, ඔහු නිදහස් බව කතාබස් වෙත වාර්තා කරන අතර සම්බන්ධීකාරකගෙන් නව සේවාවක් ලබා ගනී.
අසාර්ථක දෘඪාංග මගින් ක්රියාවලිය තවදුරටත් මන්දගාමී වේ. OS එක නවත්තලා servers shutdown කරලා හරි ගියත් සමහර servers වල disk, memory, chassis එකපාරටම ෆේල් වීම නිසා ආපහු එන්නේ නැහැ. බලය නැති වූ විට, අසමත් වීමේ අනුපාතය වැඩි වේ.
ප්‍ර: ඔබට සියල්ල එකවර ක්‍රියාත්මක කර පසුව නිරීක්‍ෂණයේදී එන දේ නිවැරදි කළ නොහැක්කේ ඇයි?
A: සේවා අතර පරායත්තතා පවතින නිසා සෑම දෙයක්ම ක්රමයෙන් සිදු කළ යුතුය. නිරීක්ෂණ සඳහා බලා නොසිට සෑම දෙයක්ම වහාම පරීක්ෂා කළ යුතුය - මන්ද ඒවා නරක අතට හැරෙන තෙක් බලා නොසිට වහාම ගැටළු සමඟ කටයුතු කිරීම වඩා හොඳය.

7:40. අන්තිම ඇඩ්මින් (සම්බන්ධීකාරක) ඇඳට ගියා. පළමු දිනයේ වැඩ අවසන්.
8:09. පළමු සංවර්ධකයින්, දත්ත මධ්‍යස්ථාන ඉංජිනේරුවන් සහ පරිපාලකයින් (නව සම්බන්ධීකාරක ඇතුළුව) ප්‍රතිසංස්කරණ කටයුතු ආරම්භ කළහ.
09:37. අපි ශාලාව අංක 7 (අන්තිම එක) ඉහළ නැංවීමට පටන් ගත්තා.
ඒ අතරම, අපි අනෙකුත් කාමරවල සවි කර නොතිබූ දේ නැවත යථා තත්ත්වයට පත් කිරීම දිගටම කරගෙන යන්නෙමු: තැටි / මතකය / සේවාදායකයන් ප්‍රතිස්ථාපනය කිරීම, අධීක්ෂණයේදී “දැවෙන” සියල්ල සවි කිරීම, ප්‍රධාන පොරොත්තු යෝජනා ක්‍රමවල භූමිකාවන් ආපසු මාරු කිරීම සහ ඒවායින් ඇති අනෙකුත් කුඩා දේවල්. කෙසේ වෙතත් බොහෝ දේ.
17:08. අපි නිෂ්පාදනය සමඟ සියලුම නිත්‍ය වැඩවලට ඉඩ දෙන්නෙමු.
21:45. දෙවෙනි දවසේ වැඩ ඉවරයි.
09:45. අද සිකුරාදාය. නිරීක්ෂණය කිරීමේදී තවමත් කුඩා ගැටළු කිහිපයක් තිබේ. සති අන්තය ඉදිරියෙන් ඇත, සෑම කෙනෙකුටම විවේක ගැනීමට අවශ්‍යයි. අපට හැකි සෑම දෙයක්ම විශාල වශයෙන් අලුත්වැඩියා කිරීමට අපි දිගටම කටයුතු කරන්නෙමු. කල් දැමිය හැකි සාමාන්‍ය පරිපාලක කාර්යයන් කල් දැමිණි. සම්බන්ධීකාරක අලුත්.
15:40. හදිසියේ තවත් දත්ත මධ්‍යස්ථානයක ඇති Core ජාල උපකරණ තොගයෙන් අඩක් නැවත ආරම්භ විය. අවදානම් අවම කිරීම සඳහා පෙරමුනු භ්‍රමණයෙන් ඉවත් කරන ලදී. පරිශීලකයින්ට කිසිදු බලපෑමක් නැත. එය දෝෂ සහිත චැසියක් බව පසුව පෙනී ගියේය. එකවර අනතුරු දෙකක් අලුත්වැඩියා කිරීමට සම්බන්ධීකාරක කටයුතු කරයි.
17:17. වෙනත් දත්ත මධ්‍යස්ථානයක ජාල ක්‍රියාකාරිත්වය ප්‍රතිසාධනය කර ඇත, සියල්ල පරීක්ෂා කර ඇත. දත්ත මධ්‍යස්ථානය භ්‍රමණයට දමා ඇත.
18:29. තුන්වන දින වැඩ සහ, සාමාන්යයෙන්, අනතුරෙන් පසු ප්රතිෂ්ඨාපනය අවසන් කර ඇත.

පසු පදය

04.04.2013 404 දෝෂය සිදුවූ දිනයේ, "පංතියේ මිතුරන්" ලොකුම අනතුරෙන් බේරුණා - දින තුනක් සඳහා ද්වාරය සම්පූර්ණයෙන්ම හෝ අර්ධ වශයෙන් නොතිබුණි. මෙම මුළු කාලය පුරාවටම, විවිධ නගරවලින්, විවිධ සමාගම්වලින් (නැවතත් බොහෝම ස්තූතියි!), දුරස්ථව සහ සෘජුවම දත්ත මධ්‍යස්ථානවල, අතින් සහ ස්වයංක්‍රීයව, 100කට අධික පිරිසක් සේවාදායක දහස් ගණනක් අලුත්වැඩියා කළහ.
අපි නිගමනවලට එළඹිලා තියෙනවා. නැවත එවැන්නක් සිදු නොවීමට අපි අද දක්වා පුළුල් වැඩකටයුතු සිදු කර ගෙන යනවා.

වත්මන් අනතුර සහ 404 අතර ඇති ප්‍රධාන වෙනස්කම් මොනවාද?

  • අපට "අනතුරු ක්‍රියාකාරී සැලැස්මක්" ඇත. කාර්තුවකට වරක්, අපි අභ්‍යාස පවත්වමු - අපි හදිසි තත්වයක් භූමිකාවක් රඟ දක්වමු, පරිපාලකයින් කණ්ඩායමක් (සියල්ලම) “හදිසි ක්‍රියාකාරී සැලැස්ම” භාවිතයෙන් ඉවත් කළ යුතුය. ප්‍රමුඛ පද්ධති පරිපාලකයින් මාරුවෙන් මාරුවට සම්බන්ධීකාරක භූමිකාව ඉටු කරයි.
  • කාර්තුමය වශයෙන්, පරීක්ෂණ මාදිලියේදී, අපි LAN සහ WAN ජාල හරහා දත්ත මධ්‍යස්ථාන (සියල්ලම) හුදකලා කරමු, එමඟින් අපට බාධාවන් ක්ෂණිකව හඳුනා ගැනීමට ඉඩ සලසයි.
  • අපි ප්‍රමිතීන් දැඩි කර ඇති නිසා හානියට පත් තැටි අඩුයි: අඩු මෙහෙයුම් පැය, S.M.A.R.T. සඳහා දැඩි එළිපත්ත අගයන්,
  • සේවාදායකය නැවත ආරම්භ කිරීමෙන් පසු ප්‍රකෘතිමත් වීමට බොහෝ කාලයක් අවශ්‍ය වන පැරණි සහ අස්ථායී දත්ත සමුදායක් වන BerkeleyDB අපි සම්පූර්ණයෙන්ම අත්හැරියෙමු.
  • අපි MS SQL සමඟ සේවාදායක ගණන අඩු කර ඉතිරි ඒවා මත යැපීම අඩු කළෙමු.
  • අපිට අපේම කියලා තියෙනවා වලාකුළු - එක් වලාකුළක්, අපි දැන් වසර දෙකක සිට සියලුම සේවාවන් ක්‍රියාකාරීව සංක්‍රමණය කරමින් සිටිමු. වලාකුළ යෙදුම සමඟ වැඩ කිරීමේ සමස්ත චක්‍රය බෙහෙවින් සරල කරන අතර හදිසි අනතුරකදී එය වැනි අද්විතීය මෙවලම් සපයයි:
    • එක් ක්ලික් කිරීමකින් සියලුම යෙදුම් නිවැරදි නතර කිරීම;
    • අසාර්ථක සේවාදායකයන්ගෙන් යෙදුම් පහසුවෙන් සංක්රමණය කිරීම;
    • ස්වයංක්‍රීය ශ්‍රේණිගත (සේවාවල ප්‍රමුඛතා අනුපිළිවෙල අනුව) සම්පූර්ණ දත්ත මධ්‍යස්ථානයක් දියත් කිරීම.

මෙම ලිපියේ විස්තර කර ඇති අනතුර 404 වන දිනට පසුව සිදු වූ විශාලතම අනතුරයි. ඇත්ත වශයෙන්ම, සෑම දෙයක්ම සුමටව සිදු නොවීය. උදාහරණයක් ලෙස, වෙනත් දත්ත මධ්‍යස්ථානයක ගින්නෙන් හානියට පත් දත්ත මධ්‍යස්ථානයක් නොමැති විට, එක් සේවාදායකයක තැටියක් අසාර්ථක විය, එනම්, කැසැන්ඩ්‍රා පොකුරේ අනුරූ තුනෙන් එකක් පමණක් ප්‍රවේශ විය හැකි විය, ඒ නිසා ජංගම දුරකථන වලින් 4,2% කි. යෙදුම් භාවිතා කරන්නන්ට ලොග් විය නොහැක . ඒ අතරම, දැනටමත් සම්බන්ධිත පරිශීලකයින් දිගටම වැඩ කළහ. සමස්තයක් වශයෙන්, අනතුරේ ප්‍රති result ලයක් ලෙස, ගැටළු 30 කට වඩා හඳුනාගෙන ඇත - සාමාන්‍ය දෝෂ සිට සේවා ගෘහ නිර්මාණ ශිල්පයේ අඩුපාඩු දක්වා.

නමුත් වර්තමාන අනතුර සහ 404 වන අනතුර අතර ඇති වැදගත්ම වෙනස නම්, අප ගින්නේ ප්‍රතිවිපාක ඉවත් කරන අතරතුර, පරිශීලකයින් තවමත් කෙටි පණිවිඩ යැවීම සහ වීඩියෝ ඇමතුම් ලබා ගැනීමයි. ටැම්ටම්, ක්‍රීඩා කළා, සංගීතයට සවන් දුන්නා, එකිනෙකාට තෑගි දුන්නා, වීඩියෝ බැලුවා, රූපවාහිනී කතා මාලා සහ රූපවාහිනී නාලිකා බැලුවා හරි, සහ ප්‍රවාහය ද ඇත හරි සජීවීව.

ඔබේ අනතුරු සිදු වන්නේ කෙසේද?

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න