AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

ආයුබෝවන්, Habr පාඨකයින්! පසුගිය ලිපියෙන් අපි AERODISK ENGINE ගබඩා පද්ධතිවල ආපදා ප්‍රතිසාධනය කිරීමේ සරල ක්‍රමයක් ගැන කතා කළෙමු - අනුකරණය. මෙම ලිපියෙන්, අපි වඩාත් සංකීර්ණ හා සිත්ගන්නා මාතෘකාවක් වෙත කිමිදෙමු - මෙට්‍රොක්ලස්ටර්, එනම් දත්ත මධ්‍යස්ථාන දෙකක් සඳහා ස්වයංක්‍රීය ආපදා ආරක්ෂණ මාධ්‍යයක්, දත්ත මධ්‍යස්ථාන ක්‍රියාකාරී-ක්‍රියාකාරී ආකාරයෙන් ක්‍රියාත්මක වීමට ඉඩ සලසයි. අපි ඔබට කියන්නම්, ඔබට පෙන්වන්න, එය කඩා එය නිවැරදි කරන්න.

සුපුරුදු පරිදි, න්යාය පළමුව

මෙට්‍රොක්ලස්ටර් යනු නගරයක් හෝ ප්‍රදේශයක් තුළ ස්ථාන කිහිපයක් පුරා පැතිරී ඇති පොකුරකි. "පොකුරු" යන වචනය අපට පැහැදිලිව ඉඟි කරන්නේ සංකීර්ණය ස්වයංක්‍රීය වන බවයි, එනම්, අසාර්ථක වූ විට පොකුරු නෝඩ් මාරු කිරීම ස්වයංක්‍රීයව සිදු වේ.

මෙට්‍රොක්ලස්ටර් සහ සාමාන්‍ය ප්‍රතිනිර්මාණය අතර ප්‍රධාන වෙනස පවතින්නේ මෙහිදීය. මෙහෙයුම් ස්වයංක්‍රීයකරණය. එනම්, යම් යම් සිද්ධීන් (දත්ත මධ්‍යස්ථාන අසමත් වීම, කැඩුණු නාලිකා ආදිය) වලදී, දත්ත ලබා ගැනීමේ හැකියාව පවත්වා ගැනීම සඳහා ගබඩා පද්ධතිය ස්වාධීනව අවශ්‍ය ක්‍රියා සිදු කරනු ඇත. සාමාන්‍ය අනුපිටපත් භාවිතා කරන විට, මෙම ක්‍රියා පරිපාලක විසින් සම්පූර්ණයෙන්ම හෝ අර්ධ වශයෙන් අතින් සිදු කරනු ලැබේ.

මෙය කුමක් සඳහා ද?

සමහර මෙට්‍රොක්ලස්ටර් ක්‍රියාත්මක කිරීම් භාවිතා කරන විට පාරිභෝගිකයින් අනුගමනය කරන ප්‍රධාන ඉලක්කය වන්නේ RTO (ප්‍රතිසාධන කාල අරමුණ) අවම කිරීමයි. එනම්, අසාර්ථක වීමෙන් පසු තොරතුරු තාක්ෂණ සේවාවන් යථා තත්ත්වයට පත් කිරීමේ කාලය අවම කිරීමයි. ඔබ සාමාන්‍ය අනුකරණය භාවිතා කරන්නේ නම්, ප්‍රතිසාධන කාලය සෑම විටම මෙට්‍රොක්ලස්ටර් සමඟ ප්‍රතිසාධන කාලයට වඩා දිගු වේ. ඇයි? හරිම සරලයි. පරිපාලකයා ඔහුගේ මේසයේ සිටිය යුතු අතර අතින් පිටපත් කිරීම මාරු කළ යුතු අතර, metrocluster මෙය ස්වයංක්‍රීයව සිදු කරයි.

ඔබ නිදා නොගන්නා, ආහාර නොගන්නා, දුම් නොබොන හෝ අසනීප වන සහ දවසේ පැය 24 පුරාම ගබඩා පද්ධතියේ තත්වය නරඹන කැපවූ පරිපාලකයෙකු රාජකාරියේ නොමැති නම්, පරිපාලකයා එසේ කරන බවට සහතික වීමට ක්‍රමයක් නොමැත. අසමත් වීමකදී අතින් මාරු කිරීම සඳහා ලබා ගත හැක.

ඒ අනුව, පරිපාලක රාජකාරි සේවාවේ 99 වන මට්ටමේ මෙට්‍රොක්ලස්ටර් හෝ අමරණීය පරිපාලකයෙකු නොමැති විට RTO සියලු පද්ධතිවල මාරුවීමේ වේලාවේ එකතුවට සහ පරිපාලකයාට වැඩ ආරම්භ කිරීමට සහතික වන උපරිම කාල සීමාවට සමාන වේ. ගබඩා පද්ධති සහ අදාළ පද්ධති සමඟ.

මේ අනුව, RTO සඳහා අවශ්‍ය වන්නේ පැය හෝ දින නොව මිනිත්තු නම් මෙට්‍රොක්ලස්ටර් භාවිතා කළ යුතු බව අපි පැහැදිලි නිගමනයකට එළඹෙමු.එනම්, නරකම දත්ත මධ්‍යස්ථාන අසාර්ථක වූ විට, තොරතුරු තාක්ෂණ දෙපාර්තමේන්තුව ව්‍යාපාරයට කාලය ලබා දිය යුතුය. තොරතුරු තාක්ෂණ සේවා වෙත ප්‍රවේශය මිනිත්තු කිහිපයක් හෝ තත්පර කිහිපයකින් ප්‍රතිස්ථාපනය කිරීමට.

එය ක්රියාත්මක වන්නේ කෙසේද?

පහළ මට්ටමේ දී, මෙට්‍රොක්ලස්ටර් සමමුහුර්ත දත්ත අනුකරණය සඳහා යාන්ත්‍රණයක් භාවිතා කරයි, එය අප පෙර ලිපියේ විස්තර කර ඇත (බලන්න. සබැඳිය) අනුකරණය සමමුහුර්ත වන බැවින්, ඒ සඳහා අවශ්‍යතා අනුරූප වේ, නැතහොත් ඒ වෙනුවට:

  • දෘශ්‍ය තන්තු භෞතික විද්‍යාව ලෙස, 10 gigabit Ethernet (හෝ ඊට වැඩි);
  • දත්ත මධ්යස්ථාන අතර දුර කිලෝමීටර 40 ට වඩා වැඩි නොවේ;
  • දත්ත මධ්‍යස්ථාන (ගබඩා පද්ධති අතර) අතර ප්‍රකාශ නාලිකා ප්‍රමාදය මිලි තත්පර 5ක් දක්වා වේ (ප්‍රශස්ත ලෙස 2).

මෙම සියලු අවශ්‍යතා උපදේශාත්මක ස්වභාවයකි, එනම්, මෙම අවශ්‍යතා සපුරාලන්නේ නැති වුවද මෙට්‍රොක්ලස්ටර් ක්‍රියා කරනු ඇත, නමුත් මෙම අවශ්‍යතා වලට අනුකූල නොවීමේ ප්‍රතිවිපාක ගබඩා පද්ධති දෙකේම ක්‍රියාකාරිත්වය මන්දගාමී වීමට සමාන බව අප තේරුම් ගත යුතුය. metrocluster.

එබැවින්, ගබඩා පද්ධති අතර දත්ත මාරු කිරීම සඳහා සමමුහුර්ත අනුරුවක් භාවිතා කරන අතර, අනුරූ ස්වයංක්‍රීයව මාරු වන්නේ කෙසේද සහ වඩාත් වැදගත් ලෙස මොළය බෙදීම වළක්වා ගන්නේ කෙසේද? මෙය සිදු කිරීම සඳහා, ඉහළ මට්ටමක දී, අතිරේක ආයතනයක් භාවිතා කරනු ලැබේ - බේරුම්කරුවෙකු.

බේරුම්කරුවෙකු ක්රියා කරන්නේ කෙසේද සහ ඔහුගේ කාර්යය කුමක්ද?

බේරුම්කරු යනු කුඩා අථත්‍ය යන්ත්‍රයක් හෝ දෘඪාංග පොකුරක් වන අතර එය තෙවන වෙබ් අඩවියක (උදාහරණයක් ලෙස කාර්යාලයක) දියත් කළ යුතු අතර ICMP සහ SSH හරහා ගබඩා පද්ධතියට ප්‍රවේශය සැපයිය යුතුය. දියත් කිරීමෙන් පසු, බේරුම්කරු විසින් IP සැකසිය යුතු අතර, පසුව ගබඩා පැත්තේ සිට එහි ලිපිනය සඳහන් කළ යුතු අතර, මෙට්‍රොක්ලස්ටරයට සහභාගී වන දුරස්ථ පාලකයන්ගේ ලිපිනයන් සඳහන් කරන්න. මෙයින් පසු, විනිසුරු වැඩ කිරීමට සූදානම්.

බේරුම්කරු මෙට්‍රොක්ලස්ටර් හි ඇති සියලුම ගබඩා පද්ධති නිරන්තරයෙන් අධීක්ෂණය කරන අතර විශේෂිත ගබඩා පද්ධතියක් නොමැති නම්, පොකුරේ වෙනත් සාමාජිකයෙකුගෙන් (“සජීවී” ගබඩා පද්ධති වලින් එකක්) නොමැති බව තහවුරු කිරීමෙන් පසු, අනුරූ නීති මාරු කිරීමේ ක්‍රියා පටිපාටිය දියත් කිරීමට ඔහු තීරණය කරයි. සහ සිතියම්ගත කිරීම.

ඉතා වැදගත් කරුණක්. බේරුම්කරු සෑම විටම ගබඩා පද්ධති පිහිටා ඇති වෙබ් අඩවියට වඩා වෙනස් වෙබ් අඩවියක, එනම්, ගබඩා පද්ධති 1 ස්ථාපනය කර ඇති දත්ත මධ්‍යස්ථාන 1 හි හෝ ගබඩා පද්ධති 2 ස්ථාපනය කර ඇති දත්ත මධ්‍යස්ථාන 2 හි හෝ ස්ථානගත නොකළ යුතුය.

ඇයි? මක්නිසාද යත්, බේරුම්කරුවෙකුට ඉතිරිව ඇති ගබඩා පද්ධතිවලින් එකක ආධාරයෙන්, ගබඩා පද්ධති ස්ථාපනය කර ඇති අඩවි දෙකෙන් ඕනෑම ස්ථානයක වැටීම නිසැකව හා නිවැරදිව තීරණය කළ හැකි එකම මාර්ගය මෙය වන බැවිනි. බේරුම්කරුවෙකු තැබීමේ වෙනත් ඕනෑම ක්‍රමයක් මොළය බෙදීමට හේතු විය හැක.

දැන් අපි බේරුම්කරුගේ කාර්යයේ විස්තර වෙත කිමිදෙමු.

බේරුම්කරු විසින් සියලුම ගබඩා පාලකයන් නිරන්තරයෙන් විමසන සේවා කිහිපයක් ක්‍රියාත්මක කරයි. ඡන්ද ප්‍රතිඵලය පෙර ප්‍රතිඵලයට වඩා වෙනස් නම් (ලබා ගත හැකි/නොලබන), එවිට එය කුඩා දත්ත ගබඩාවක සටහන් වේ, එය බේරුම්කරු මතද ක්‍රියා කරයි.

බේරුම්කරුගේ කාර්යයේ තර්කනය වඩාත් විස්තරාත්මකව බලමු.

පියවර 1: නොමැති බව තීරණය කරන්න. ගබඩා පද්ධති අසාර්ථක සිදුවීමක් යනු තත්පර 5ක් ඇතුළත එකම ගබඩා පද්ධතියේ පාලක දෙකෙන්ම ping නොමැති වීමයි.

පියවර 2. මාරු කිරීමේ ක්රියා පටිපාටිය ආරම්භ කරන්න. එක් ගබඩා පද්ධතියක් නොමැති බව බේරුම්කරු තේරුම් ගත් පසු, ඔහු "සජීවී" ගබඩා පද්ධතියට ඉල්ලීමක් යවන්නේ "මිය ගිය" ගබඩා පද්ධතිය සැබවින්ම මිය ගොස් ඇති බව තහවුරු කර ගැනීම සඳහා ය.

බේරුම්කරුගෙන් එවැනි විධානයක් ලැබීමෙන් පසු, දෙවන (සජීවී) ගබඩා පද්ධතිය අතිරේකව වැටී ඇති පළමු ගබඩා පද්ධතියේ තිබේද යන්න පරීක්ෂා කරන අතර, එය නොමැති නම්, ඔහුගේ අනුමානයේ බේරුම්කරු වෙත තහවුරු කිරීමක් යවයි. ගබඩා පද්ධතිය ඇත්ත වශයෙන්ම නොමැත.

එවැනි තහවුරු කිරීමක් ලැබීමෙන් පසු, බේරුම්කරු වැටුණු ගබඩා පද්ධතියේ සක්‍රීය (ප්‍රාථමික) අනුරූවල අනුරූ මාරු කිරීම සහ සිතියම්ගත කිරීම ඉහළ නැංවීම සඳහා දුරස්ථ ක්‍රියා පටිපාටියක් දියත් කරන අතර, මෙම අනුරූ ද්විතියික සිට ප්‍රාථමික සහ ප්‍රාථමික දක්වා වෙනස් කිරීමට දෙවන ගබඩා පද්ධතියට විධානයක් යවයි. සිතියම්ගත කිරීම ඉහල නැංවීම. හොඳයි, දෙවන ගබඩා පද්ධතිය, ඒ අනුව, මෙම ක්‍රියා පටිපාටි සිදු කරයි, පසුව නැතිවූ LUN වෙත ප්‍රවේශය ලබා දෙයි.

අමතර සත්‍යාපනයක් අවශ්‍ය වන්නේ ඇයි? ගණපූරණය සඳහා. එනම්, පොකුරු සාමාජිකයින්ගේ මුළු ඔත්තේ (3) සංඛ්‍යාවෙන් බහුතරයක් පොකුරු නෝඩ් එකක වැටීම තහවුරු කළ යුතුය. එවිට පමණක් මෙම තීරණය නියත වශයෙන්ම නිවැරදි වනු ඇත. වැරදි ලෙස මාරු වීම වැළැක්වීම සඳහා මෙය අවශ්ය වන අතර, ඒ අනුව, මොළයේ බෙදීම්.

කාල පියවර 2 ආසන්න වශයෙන් තත්පර 5 - 10 ක් ගතවේ, මේ අනුව, නොමැති බව තීරණය කිරීමට අවශ්‍ය කාලය (තත්පර 5) සැලකිල්ලට ගනිමින්, අනතුරෙන් තත්පර 10 - 15 ක් ඇතුළත, වැටී ඇති ගබඩා පද්ධතියේ LUN සජීවීව සමඟ වැඩ කිරීමට ස්වයංක්‍රීයව ලබා ගත හැකිය. ගබඩා පද්ධතිය.

ධාරක සමඟ සම්බන්ධතා නැතිවීම වළක්වා ගැනීම සඳහා, ධාරකවල කාල සීමාවන් නිවැරදිව වින්‍යාස කිරීමටද ඔබ සැලකිලිමත් විය යුතු බව පැහැදිලිය. නිර්දේශිත කල් ඉකුත්වීම අවම වශයෙන් තත්පර 30 කි. මෙය ආපදාවකදී බඩු මාරු කිරීමේදී ගබඩා පද්ධතියට සම්බන්ධය විසන්ධි කිරීම වළක්වන අතර I/O බාධා කිරීම් නොමැති බව සහතික කළ හැක.

තත්පරයක් රැඳී සිටින්න, මෙට්‍රොක්ලස්ටර් සමඟ සෑම දෙයක්ම ඉතා හොඳ නම්, අපට සාමාන්‍ය අනුකරණයක් අවශ්‍ය වන්නේ ඇයි?

යථාර්ථයේ දී, සෑම දෙයක්ම එතරම් සරල නැත.

මෙට්‍රොක්ලස්ටරයේ වාසි සහ අවාසි සලකා බලමු

එබැවින්, සාම්ප්‍රදායික අනුකරණයට සාපේක්ෂව මෙට්‍රොක්ලස්ටර්හි පැහැදිලි වාසි වන්නේ:

  • පූර්ණ ස්වයංක්‍රීයකරණය, ආපදාවකදී අවම ප්‍රතිසාධන කාලය සහතික කිරීම;
  • එච්චරයි :-).

දැන්, අවධානය, අවාසි:

  • විසඳුමේ පිරිවැය. Aerodisk පද්ධතිවල metrocluster සඳහා අමතර බලපත්‍රයක් අවශ්‍ය නොවන නමුත් (අනුරුව සඳහා එම බලපත්‍රයම භාවිතා වේ), විසඳුමේ පිරිවැය තවමත් සමමුහුර්ත ප්‍රතිනිර්මාණය භාවිතා කිරීමට වඩා වැඩි වනු ඇත. ඔබට සමමුහුර්ත අනුරුවක් සඳහා අවශ්‍යතා සියල්ල ක්‍රියාත්මක කිරීමට අවශ්‍ය වනු ඇත, අමතර මාරුවීම් සහ අතිරේක වෙබ් අඩවියට සම්බන්ධ මෙට්‍රොක්ලස්ටර් සඳහා අවශ්‍යතා (මෙට්‍රොක්ලස්ටර් සැලසුම් බලන්න);
  • විසඳුමේ සංකීර්ණත්වය. මෙට්‍රොක්ලස්ටර් සාමාන්‍ය අනුරුවකට වඩා බෙහෙවින් සංකීර්ණ වන අතර, සැලසුම් කිරීම, වින්‍යාස කිරීම සහ ප්‍රලේඛනය සඳහා වැඩි අවධානයක් සහ උත්සාහයක් අවශ්‍ය වේ.

අවසානයේ. Metrocluster නිසැකව ම ඉතා තාක්‍ෂණිකව දියුණු සහ ඔබට තත්පර කිහිපයකින් හෝ මිනිත්තු කිහිපයකින් RTO සැපයීමට අවශ්‍ය වූ විට හොඳ විසඳුමකි. නමුත් එවැනි කාර්යයක් නොමැති නම් සහ පැය ගණනක RTO ව්‍යාපාර සඳහා හරි නම්, කාලතුවක්කුවකින් ගේ කුරුල්ලන්ට වෙඩි තැබීමේ තේරුමක් නැත. මෙට්‍රෝ පොකුරක් අමතර වියදම් සහ තොරතුරු තාක්ෂණ යටිතල ව්‍යුහයේ සංකූලතා ඇති කරන බැවින් සාමාන්‍ය කම්කරු-ගොවි අනුකරණය ප්‍රමාණවත් වේ.

මෙට්රොක්ලස්ටර් සැලසුම් කිරීම

මෙම කොටස මෙට්‍රොක්ලස්ටර් නිර්මාණය සඳහා විස්තීර්ණ මාර්ගෝපදේශයක් ලෙස ප්‍රකාශ නොකරයි, නමුත් ඔබ එවැනි පද්ධතියක් තැනීමට තීරණය කරන්නේ නම් වැඩ කළ යුතු ප්‍රධාන දිශාවන් පමණක් පෙන්වයි. එබැවින්, ඇත්ත වශයෙන්ම metrocluster ක්‍රියාත්මක කිරීමේදී, උපදේශන සඳහා ගබඩා පද්ධති නිෂ්පාදකයා (එනම්, අප) සහ අනෙකුත් අදාළ පද්ධති සම්බන්ධ කර ගැනීමට වග බලා ගන්න.

ක්‍රීඩා පිටි

ඉහත සඳහන් කළ පරිදි, metrocluster සඳහා අවම වශයෙන් අඩවි තුනක් අවශ්ය වේ. ගබඩා පද්ධති සහ අදාළ පද්ධති ක්‍රියාත්මක වන දත්ත මධ්‍යස්ථාන දෙකක් මෙන්ම බේරුම්කරු ක්‍රියා කරන තුන්වන අඩවියක්.

දත්ත මධ්‍යස්ථාන අතර නිර්දේශිත දුර කිලෝමීටර 40 කට වඩා වැඩි නොවේ. විශාල දුරක් අතිරේක ප්‍රමාදයන් ඇති කිරීමට බොහෝ දුරට ඉඩ ඇති අතර, මෙට්‍රොක්ලස්ටර් සම්බන්ධයෙන් එය අතිශයින්ම නුසුදුසු ය. ප්‍රමාදයන් මිලි තත්පර 5ක් දක්වා විය යුතු නමුත් ඒවා 2ක් තුළ තබා ගැනීම සුදුසු බව අපි ඔබට මතක් කරමු.

සැලසුම් ක්‍රියාවලියේදී ප්‍රමාදයන් ද පරීක්ෂා කිරීම නිර්දේශ කෙරේ. දත්ත මධ්‍යස්ථාන අතර ඔප්ටිකල් ෆයිබර් සපයන ඕනෑම වැඩි හෝ අඩු පරිණත සැපයුම්කරුවෙකුට තත්ත්ව පරීක්ෂාවක් ඉතා ඉක්මනින් සංවිධානය කළ හැක.

බේරුම්කරුට පෙර ප්‍රමාදයන් සම්බන්ධයෙන් (එනම්, තෙවන වෙබ් අඩවිය සහ පළමු දෙක අතර), නිර්දේශිත ප්‍රමාද සීමාව මිලි තත්පර 200 දක්වා වේ, එනම් අන්තර්ජාලය හරහා සාමාන්‍ය ආයතනික VPN සම්බන්ධතාවයක් සුදුසු වේ.

මාරු කිරීම සහ ජාලකරණය

විවිධ අඩවි වලින් ගබඩා පද්ධති සම්බන්ධ කිරීමට ප්‍රමාණවත් වන ප්‍රතිනිර්මාණ ක්‍රමය මෙන් නොව, මෙට්‍රොක්ලස්ටර් යෝජනා ක්‍රමයට විවිධ අඩවි වල ගබඩා පද්ධති දෙකම සමඟ ධාරක සම්බන්ධ කිරීම අවශ්‍ය වේ. වෙනස කුමක්ද යන්න පැහැදිලි කිරීම සඳහා, යෝජනා ක්රම දෙකම පහත දැක්වේ.

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

රූප සටහනෙන් පෙනෙන පරිදි, අපගේ අඩවි 1 සත්කාරක ගබඩා පද්ධති 1 සහ ගබඩා පද්ධතිය 2 යන දෙකම දෙස බලයි. එසේම, ඊට ප්‍රතිවිරුද්ධව, අඩවි 2 සත්කාරක ගබඩා පද්ධති 2 සහ ගබඩා පද්ධති 1 යන දෙකම දෙස බලයි. එනම්, එක් එක් සත්කාරක ගබඩා පද්ධති දෙකම දකියි. මෙට්‍රොක්ලස්ටර් ක්‍රියාකාරිත්වය සඳහා මෙය පූර්ව අවශ්‍යතාවයකි.

ඇත්ත වශයෙන්ම, එක් එක් ධාරකය දෘශ්‍ය ලණුවකින් වෙනත් දත්ත මධ්‍යස්ථානයකට සම්බන්ධ කිරීමට අවශ්‍ය නොවේ; වරායක් හෝ රැහැන් ප්‍රමාණවත් නොවේ. මෙම සියලු සම්බන්ධතා Ethernet 10G+ හෝ FibreChannel 8G+ ස්විච හරහා සිදු කළ යුතුය (FC යනු IO සඳහා ධාරක සහ ගබඩා පද්ධති සම්බන්ධ කිරීම සඳහා පමණි, අනුවර්තන නාලිකාව දැනට ලබා ගත හැක්කේ IP (Ethernet 10G+) හරහා පමණි.

දැන් ජාල ස්ථලකය ගැන වචන කිහිපයක්. වැදගත් කරුණක් වන්නේ උපජාලවල නිවැරදි වින්‍යාසයයි. පහත සඳහන් ආකාරයේ ගමනාගමනය සඳහා උපජාල කිහිපයක් වහාම නිර්වචනය කිරීම අවශ්‍ය වේ:

  • ගබඩා පද්ධති අතර දත්ත සමමුහුර්ත කරනු ලබන අනුජාල අනුජාලය. ඒවායින් කිහිපයක් තිබිය හැකිය, මේ අවස්ථාවේ දී එය වැදගත් නොවේ, ඒ සියල්ල වත්මන් (දැනටමත් ක්රියාත්මක) ජාල ස්ථලකය මත රඳා පවතී. ඒවායින් දෙකක් තිබේ නම්, පැහැදිලිවම මාර්ගගත කිරීම ඒවා අතර වින්‍යාසගත කළ යුතුය;
  • ධාරක විසින් ගබඩා සම්පත් වෙත ප්‍රවේශ වන ගබඩා උපජාල (එය iSCSI නම්). සෑම දත්ත මධ්‍යස්ථානයකම එවැනි උප ජාලයක් තිබිය යුතුය;
  • උපජාල පාලනය කරන්න, එනම් ගබඩා පද්ධති කළමනාකරණය කරන අඩවි තුනක මාර්ගගත කළ හැකි උපජාල තුනක් සහ බේරුම්කරු ද එහි පිහිටා ඇත.

අපි මෙහි සත්කාරක සම්පත් වෙත ප්‍රවේශ වීම සඳහා උපජාල සලකන්නේ නැත, මන්ද ඒවා කාර්යයන් මත බෙහෙවින් රඳා පවතින බැවිනි.

විවිධ උපජාලවලට විවිධ ගමනාගමනය වෙන් කිරීම අතිශයින් වැදගත් වේ (I/O වෙතින් අනුරුව වෙන් කිරීම විශේෂයෙන් වැදගත් වේ), මන්ද ඔබ සියලු ගමනාගමනය එක් “ඝන” උප ජාලයකට මිශ්‍ර කළහොත්, මෙම ගමනාගමනය කළමනාකරණය කිරීමට නොහැකි වනු ඇත. දත්ත මධ්‍යස්ථාන දෙකක කොන්දේසි මෙය තවමත් විවිධ ජාල ගැටුම් විකල්ප ඇති කළ හැක. මෙම ලිපියේ රාමුව තුළ අපි මෙම ගැටළුව ගැඹුරින් සොයා නොයන්නෙමු, මන්ද මෙය ඉතා විස්තරාත්මකව විස්තර කර ඇති ජාල උපකරණ නිෂ්පාදකයින්ගේ සම්පත් මත දත්ත මධ්‍යස්ථාන අතර විහිදෙන ජාලයක් සැලසුම් කිරීම ගැන ඔබට කියවිය හැකිය.

බේරුම්කරු වින්යාසය

බේරුම්කරු ICMP සහ SSH ප්‍රොටෝකෝල හරහා ගබඩා පද්ධතියේ සියලුම කළමනාකරණ අතුරුමුහුණත් වෙත ප්‍රවේශය සැපයිය යුතුය. බේරුම්කරුගේ අසාර්ථක ආරක්ෂාව ගැනද ඔබ සිතා බැලිය යුතුය. මෙහි සූක්ෂ්මතාවයක් ඇත.

බේරුම්කරු අසමත් වීම ඉතා යෝග්‍යයි, නමුත් අවශ්‍ය නොවේ. විනිසුරු වැරදි වේලාවක කඩා වැටුණහොත් කුමක් සිදුවේද?

  • සාමාන්‍ය මාදිලියේ මෙට්‍රොක්ලස්ටර් ක්‍රියාකාරිත්වය වෙනස් නොවනු ඇත, මන්ද arbtir සාමාන්‍ය මාදිලියේ මෙට්‍රොක්ලස්ටර් ක්‍රියාකාරිත්වයට කිසිසේත්ම බලපාන්නේ නැත (එහි කාර්යය වන්නේ දත්ත මධ්‍යස්ථාන අතර බර කාලෝචිත ලෙස මාරු කිරීමයි)
  • එපමණක් නොව, බේරුම්කරු එක් හේතුවක් හෝ වෙනත් හේතුවක් නිසා දත්ත මධ්‍යස්ථානයේ අනතුරක් සිදුවී “නින්ද” ගියහොත්, කිසිදු මාරුවීමක් සිදු නොවනු ඇත, මන්ද අවශ්‍ය මාරුවීම් විධාන ලබා දීමට සහ ගණපූරණයක් සංවිධානය කිරීමට කිසිවෙකු නොසිටිනු ඇත. මෙම අවස්ථාවෙහිදී, මෙට්‍රොක්ලස්ටර් ප්‍රතිනිර්මාණය සමඟ සාමාන්‍ය යෝජනා ක්‍රමයක් බවට පත්වනු ඇත, එය ආපදාවකදී අතින් මාරු කිරීමට සිදුවනු ඇත, එය RTO වෙත බලපානු ඇත.

මෙයින් පහත දැක්වෙන්නේ කුමක්ද? ඔබට අවම RTO සහතිකයක් සහතික කිරීමට අවශ්‍ය නම්, ඔබ බේරුම්කරු වරදට ඔරොත්තු දෙන බව සහතික කළ යුතුය. මේ සඳහා විකල්ප දෙකක් තිබේ:

  • දෝෂ-ඉවසන හයිපර්වයිසර් මත බේරුම්කරුවෙකු සමඟ අතථ්‍ය යන්ත්‍රයක් දියත් කරන්න, වාසනාවකට මෙන් සියලුම වැඩිහිටි අධිවිද්‍යාඥයින් දෝෂ ඉවසීමට සහය දක්වයි;
  • තෙවන වෙබ් අඩවියේ (සාම්ප්‍රදායික කාර්යාලයක) ඔබ සාමාන්‍ය පොකුරක් ස්ථාපනය කිරීමට කම්මැලි නම් සහ දැනට පවතින හයිපර්වෝසර් පොකුරක් නොමැති නම්, අපි සාමාන්‍ය දෙකක් ඇති 2U පෙට්ටියක සාදා ඇති බේරුම්කරුගේ දෘඩාංග අනුවාදයක් ලබා දී ඇත. x-86 සේවාදායකයන් ක්‍රියා කරන අතර දේශීය අසාර්ථකත්වයකින් බේරිය හැක.

මෙට්‍රොක්ලස්ටර්ට සාමාන්‍ය ප්‍රකාරයේදී එය අවශ්‍ය නොවන බව තිබියදීත්, බේරුම්කරුගේ දෝෂ ඉවසීම සහතික කිරීම අපි තරයේ නිර්දේශ කරමු. නමුත් න්‍යාය සහ ප්‍රායෝගික දෙකම පෙන්නුම් කරන පරිදි, ඔබ සැබවින්ම විශ්වාසදායක ආපදා-ප්‍රතිරෝධී යටිතල පහසුකම් ගොඩනඟන්නේ නම්, එය ආරක්ෂිතව ක්‍රීඩා කිරීම වඩා හොඳය. ඔබ සහ ඔබේ ව්‍යාපාරය “නීචකමේ නීතියෙන්”, එනම් බේරුම්කරු සහ ගබඩා පද්ධතිය පිහිටා ඇති එක් වෙබ් අඩවියක අසාර්ථක වීමෙන් ආරක්ෂා කර ගැනීම වඩා හොඳය.

විසඳුම් ගෘහ නිර්මාණ ශිල්පය

ඉහත අවශ්‍යතා සැලකිල්ලට ගනිමින්, අපට පහත දැක්වෙන සාමාන්‍ය විසඳුම් ගෘහ නිර්මාණ ශිල්පය ලැබේ.

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

දැඩි අධි බර පැටවීම වැළැක්වීම සඳහා LUN අඩවි දෙකක් හරහා ඒකාකාරව බෙදා හැරිය යුතුය. ඒ අතරම, දත්ත මධ්‍යස්ථාන දෙකෙහිම ප්‍රමාණ කිරීමේදී, ඔබ විසින් ද්විත්ව පරිමාවක් (ගබඩා පද්ධති දෙකක එකවර දත්ත ගබඩා කිරීමට අවශ්‍ය වන) පමණක් නොව, IOPS සහ MB/s හි යෙදුම් පිරිහීම වැළැක්වීම සඳහා ද්විත්ව කාර්ය සාධනයක් ද ඇතුළත් කළ යුතුය. දත්ත මධ්‍යස්ථානවලින් එකක් අසාර්ථක වීමේ සිදුවීම.

වෙනමම, අපි සටහන් කරන්නේ ප්‍රමාණයට නිසි ප්‍රවේශයක් සමඟින් (එනම්, අපි IOPS සහ MB/s හි නිසි ඉහළ සීමාවන් මෙන්ම අවශ්‍ය CPU සහ RAM සම්පත් සපයා ඇති බව සපයා ඇති පරිදි), ගබඩා පද්ධති වලින් එකක් නම් මෙට්‍රෝ පොකුර අසාර්ථක වේ, එක් ගබඩා පද්ධතියක තාවකාලික වැඩ කොන්දේසි යටතේ කාර්ය සාධනයේ බරපතල පහත වැටීමක් සිදු නොවේ.

එක් එක් ගනුදෙනුව ගබඩා පද්ධති දෙකකට (RAID-1/10 ට සමාන) ලිවිය යුතු බැවින්, අඩවි දෙකක් එකවර ක්‍රියාත්මක වන විට, සමමුහුර්ත පිටපත් කිරීම ලිවීමේ කාර්ය සාධනයෙන් අඩක් "කනවා" යන කාරනයෙන් මෙය පැහැදිලි වේ. එබැවින්, එක් ගබඩා පද්ධතියක් අසමත් වුවහොත්, තාවකාලිකව (අසාර්ථක ගබඩා පද්ධතිය යථා තත්ත්වයට පත් වන තුරු) අනුකරණයේ බලපෑම අතුරුදහන් වන අතර, ලිවීමේ කාර්ය සාධනයේ දෙගුණයක වැඩි වීමක් අපට ලැබේ. අසාර්ථක වූ ගබඩා පද්ධතියේ LUN ක්‍රියාකාරී ගබඩා පද්ධතියේ නැවත ආරම්භ කිරීමෙන් පසුව, අනෙක් ගබඩා පද්ධතියේ LUN වලින් පැටවීම දිස්වන නිසා මෙම දෙගුණ වැඩිවීම අතුරුදහන් වන අතර, අපි පෙර තිබූ කාර්ය සාධන මට්ටමටම නැවත පැමිණෙමු. "වැටීම", නමුත් එක් වෙබ් අඩවියක රාමුව තුළ පමණි.

දක්ෂ ප්‍රමාණකරණයේ ආධාරයෙන්, පරිශීලකයින්ට සම්පූර්ණ ගබඩා පද්ධතියේ අසාර්ථකත්වය කිසිසේත් දැනෙන්නේ නැති කොන්දේසි සහතික කළ හැකිය. නමුත් අපි නැවත වරක් පුනරුච්චාරණය කරමු, මෙය ඉතා ප්රවේශමෙන් ප්රමාණ කිරීම අවශ්ය වේ, ඒ සඳහා, මාර්ගය වන විට, ඔබට නොමිලේ අප හා සම්බන්ධ විය හැකිය :-).

metrocluster පිහිටුවීම

මෙට්‍රොක්ලස්ටරයක් ​​පිහිටුවීම සාමාන්‍ය ප්‍රතිනිර්මාණය සැකසීමට බොහෝ සෙයින් සමාන වේ, එය අප විස්තර කර ඇත පෙර ලිපිය. එබැවින්, වෙනස්කම් කෙරෙහි පමණක් අවධානය යොමු කරමු. අපි ඉහත ගෘහනිර්මාණ ශිල්පය මත පදනම්ව රසායනාගාරයේ බංකුවක් පිහිටුවමු, අවම අනුවාදයකින් පමණි: 10G ඊතර්නෙට් හරහා සම්බන්ධ කළ ගබඩා පද්ධති දෙකක්, 10G ස්විච දෙකක් සහ 10G වරායන් සහිත ගබඩා පද්ධති දෙකෙහිම ස්විච හරහා බලන එක් ධාරකයක්. බේරුම්කරු අථත්‍ය යන්ත්‍රයක් මත ක්‍රියාත්මක වේ.

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

අනුරුවක් සඳහා අතථ්‍ය IP (VIPs) වින්‍යාස කිරීමේදී, ඔබ VIP වර්ගය තෝරාගත යුතුය - metrocluster සඳහා.

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

අපි LUN දෙකක් සඳහා අනුකරණ සබැඳි දෙකක් සාදා ඒවා ගබඩා පද්ධති දෙකක් හරහා බෙදා හැරියෙමු: LUN TEST Primary on storage system 1 (METRO link), LUN TEST2 Primary for storage system 2 (METRO2 link).

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

ඔවුන් සඳහා, අපි සමාන ඉලක්ක දෙකක් වින්‍යාස කළෙමු (අපගේ නඩුවේදී iSCSI, නමුත් FC ද සහය දක්වයි, සැකසුම් තර්කනය සමාන වේ).

ගබඩා පද්ධතිය 1:

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

ගබඩා පද්ධතිය 2:

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

අනුකරණ සම්බන්ධතා සඳහා, එක් එක් ගබඩා පද්ධතිය මත සිතියම්ගත කිරීම් සිදු කරන ලදී.

ගබඩා පද්ධතිය 1:

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

ගබඩා පද්ධතිය 2:

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

අපි multipath සකසා එය සත්කාරක සමාගමට ඉදිරිපත් කළෙමු.

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

බේරුම්කරුවෙකු පිහිටුවීම

ඔබ බේරුම්කරු සමඟම විශේෂ කිසිවක් කිරීමට අවශ්‍ය නැත; ඔබට එය තුන්වන වෙබ් අඩවියේ සක්‍රීය කිරීම, එයට IP එකක් ලබා දීම සහ ICMP සහ SSH හරහා එයට ප්‍රවේශය වින්‍යාස කිරීම අවශ්‍ය වේ. සැකසුම ගබඩා පද්ධති වලින්ම සිදු කෙරේ. මෙම අවස්ථාවේදී, මෙට්‍රොක්ලස්ටර්හි ඕනෑම ගබඩා පාලකයක බේරුම්කරු එක් වරක් වින්‍යාස කිරීම ප්‍රමාණවත් වේ; මෙම සිටුවම් ස්වයංක්‍රීයව සියලුම පාලකයන් වෙත බෙදා හරිනු ලැබේ.

Remote replication>> Metrocluster (ඕනෑම පාලකයක)>> කොටසේ “Configure” බොත්තම.

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

අපි බේරුම්කරුගේ IP, මෙන්ම දුරස්ථ ගබඩා පාලක දෙකක පාලන අතුරුමුහුණත් ඇතුළත් කරන්නෙමු.

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

මෙයින් පසු, ඔබ සියලු සේවාවන් සක්රිය කළ යුතුය ("සියල්ල නැවත ආරම්භ කරන්න" බොත්තම). අනාගතයේදී නැවත වින්‍යාස කළහොත්, සිටුවම් බලපැවැත්වීම සඳහා සේවා නැවත ආරම්භ කළ යුතුය.

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

සියලුම සේවාවන් ක්රියාත්මක වන බව අපි පරීක්ෂා කරමු.

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

මෙය මෙට්‍රොක්ලස්ටර් සැකසුම සම්පූර්ණ කරයි.

බිඳවැටීමේ පරීක්ෂණය

අපගේ නඩුවේ බිඳවැටීමේ පරීක්ෂණය තරමක් සරල සහ වේගවත් වනු ඇත, මන්ද අනුවර්තන ක්‍රියාකාරිත්වය (මාරු කිරීම, අනුකූලතාව, ආදිය) සාකච්ඡා කර ඇත. අවසාන ලිපියයි. එබැවින්, metrocluster හි විශ්වසනීයත්වය පරීක්ෂා කිරීම සඳහා, අසමත් වීම හඳුනාගැනීමේ ස්වයංක්රීයකරණය, මාරු කිරීම සහ වාර්තා කිරීමේ පාඩු නොමැති වීම (I / O නැවතුම්) පරීක්ෂා කිරීම ප්රමාණවත් වේ.

මෙය සිදු කිරීම සඳහා, අපි එහි පාලක දෙකම භෞතිකව අක්‍රිය කිරීමෙන් එක් ගබඩා පද්ධතියක සම්පූර්ණ අසාර්ථකත්වය අනුකරණය කරමු, පළමුව විශාල ගොනුවක් LUN වෙත පිටපත් කිරීම ආරම්භ කර ඇති අතර, එය අනෙක් ගබඩා පද්ධතියෙන් සක්‍රිය කළ යුතුය.

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

එක් ගබඩා පද්ධතියක් අක්රිය කරන්න. දෙවන ගබඩා පද්ධතියේ අසල්වැසි පද්ධතිය සමඟ සම්බන්ධතාවය නැති වී ඇති බවට ලොග් වල අනතුරු ඇඟවීම් සහ පණිවිඩ අපි දකිමු. SMTP හෝ SNMP අධීක්ෂණය හරහා දැනුම්දීම් වින්‍යාස කර ඇත්නම්, පරිපාලකයාට අනුරූප දැනුම්දීම් ලැබෙනු ඇත.

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

හරියටම තත්පර 10කට පසුව (තිරපිටපත් දෙකෙහිම දෘශ්‍යමාන වේ), METRO අනුකරණ සම්බන්ධතාව (අසාර්ථක ගබඩා පද්ධතියේ ප්‍රාථමික වූ එක) ස්වයංක්‍රීයව ක්‍රියාකාරී ගබඩා පද්ධතියේ ප්‍රාථමික බවට පත් විය. පවතින සිතියම්ගත කිරීම භාවිතා කරමින්, LUN TEST සත්කාරක සමාගමට ලබා ගත හැකි විය, පටිගත කිරීම මඳක් අඩු විය (පොරොන්දු වූ සියයට 10 තුළ), නමුත් බාධා නොකළේය.

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

AERODISK එන්ජිම: ආපදා ප්රතිරෝධය. 2 කොටස. Metrocluster

පරීක්ෂණය සාර්ථකව නිම කරන ලදී.

සාරාංශ කිරීමට

AERODISK Engine N-series ගබඩා පද්ධතිවල මෙට්‍රොක්ලස්ටර් ක්‍රියාත්මක කිරීම මඟින් තොරතුරු තාක්ෂණ සේවා සඳහා අක්‍රිය කාලය ඉවත් කිරීම හෝ අවම කිරීම සහ අවම ශ්‍රම පිරිවැයක් සහිතව 24/7/365 ක්‍රියාකාරීත්වය සහතික කිරීම අවශ්‍ය වන ගැටළු විසඳීමට සම්පූර්ණයෙන්ම ඉඩ සලසයි.

ඇත්ත වශයෙන්ම, මේ සියල්ල න්‍යාය, පරමාදර්ශී රසායනාගාර තත්වයන් සහ යනාදිය බව අපට පැවසිය හැකිය. ආපදා-ප්‍රතිරෝධී වින්‍යාසය තුළ ගබඩා පද්ධති දෙකක් පමණක් භාවිතා කරන අපගේ තරමක් ප්‍රසිද්ධ පාරිභෝගිකයෙකු, ව්‍යාපෘතිය පිළිබඳ තොරතුරු ප්‍රකාශයට පත් කිරීමට දැනටමත් එකඟ වී ඇත, එබැවින් ඊළඟ කොටසේදී අපි සටන් ක්‍රියාත්මක කිරීම ගැන කතා කරමු.

ස්තූතියි, අපි ඵලදායී සාකච්ඡාවක් බලාපොරොත්තු වෙමු.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න