د دوه نوډونو کلستر - شیطان په توضیحاتو کې دی

اې حبره! زه ستاسو پام ته د مقالې ژباړه وړاندې کوم "دوه نوډونه - شیطان په توضیحاتو کې دی" د اندریو بیخوف لخوا.

ډیری خلک دوه نوډ کلسترونه غوره کوي ځکه چې دوی په مفهوم ساده ښکاري او د دوی د درې نوډ همکارانو په پرتله 33٪ ارزانه دي. که څه هم دا خورا ممکنه ده چې د دوو نوډونو یو ښه کلستر یوځای کړئ، په ډیری قضیو کې، د غیر پام وړ سناریوګانو له امله، دا ډول ترتیب به ډیری ناڅرګندې ستونزې رامینځته کړي.

د لوړ شتون سیسټم رامینځته کولو لپاره لومړی ګام د ناکامۍ انفرادي ټکو موندلو او له مینځه وړو لپاره هڅه کول دي چې ډیری وختونه په لنډ ډول ویل کیږي. د ‏‎SPOF (د ناکامۍ یو ټکی).

دا د یادولو وړ ده چې په هر سیسټم کې د وخت د ټولو احتمالي خطرونو له منځه وړل ناممکن دي. دا د دې حقیقت څخه رامینځته کیږي چې د خطر پروړاندې یو عادي دفاع د ځینې بې ځایه کیدو معرفي کول دي ، کوم چې د سیسټم پیچلتیا او د ناکامۍ نوي ټکي رامینځته کیدو لامل کیږي. له همدې امله، موږ په پیل کې یو جوړجاړی کوو او د ناکامۍ د انفرادي ټکو سره تړلو پیښو باندې تمرکز کوو، نه د اړوندو زنځیرونو او له همدې امله، په زیاتیدونکي توګه لږ احتمالي پیښو باندې.

د سوداګرۍ بندونو ته په پام سره، موږ نه یوازې د SPOF په لټه کې یو، بلکې د خطرونو او پایلو توازن هم په پام کې نیسو، په پایله کې د کومې پایلې پایلې چې مهم دي او څه ندي ممکن د هرې ګمارنې لپاره توپیر ولري.

هرڅوک د خپلواک بریښنا لینونو سره بدیل بریښنا چمتو کونکو ته اړتیا نلري. که څه هم پارونیا لږترلږه یو پیرودونکي ته پیسې ورکړې کله چې د دوی نظارت یو غلط ټرانسفارمر وموندل. پیرودونکي تلیفون وکړ چې هڅه یې کوله د بریښنا شرکت ته خبر ورکړي تر هغه چې غلط ټرانسفارمر چاودنه وکړي.

طبیعي پیل ټکی دا دی چې په سیسټم کې له یو څخه ډیر نوډونه ولري. په هرصورت، مخکې له دې چې سیسټم د ناکامۍ وروسته ژوندي پاتې شوي نوډ ته خدمات انتقال کړي، دا عموما اړتیا لري چې ډاډ ترلاسه کړي چې هغه خدمتونه چې لیږدول کیږي بل چیرې فعال ندي.

د دوه نوډ کلستر ته هیڅ زیان نشته که چیرې د ناکامۍ پایله دواړه نوډونه د ورته جامد ویب پاڼې خدمت کوي. په هرصورت، شیان بدلیږي که پایله دا وي چې دواړه خواوې په خپلواکه توګه د ګډ کار کتار اداره کوي یا د نقل شوي ډیټابیس یا شریک فایل سیسټم ته غیر همغږي لیک لاسرسی چمتو کوي.

له همدې امله، د یو واحد نوډ ناکامۍ په پایله کې د معلوماتو فساد مخنیوي لپاره - موږ په یو څه تکیه کوو "انځورول" (قطار).

د جلا کولو اصول

د جلا کولو د اصولو په زړه کې پوښتنه دا ده: ایا سیالي کوونکی نوډ د معلوماتو فساد لامل کیدی شي؟ په هغه صورت کې چې د معلوماتو فساد احتمالي سناریو وي، ښه حل به دا وي چې نوډ د دواړو راتلونکو غوښتنو او دوامداره ذخیره کولو څخه جلا کړئ. د جلا کولو ترټولو عام لاره د غلطو نوډونو غیر فعال کول دي.

د جلا کولو میتودونو دوه کټګورۍ شتون لري، کوم چې زه به یې ووایم مستقیم и غیر مستقیم، مګر دوی په مساوي ډول ویل کیدی شي فعال и غیر فعال. په مستقیم میتودونو کې د ژوندي پاتې همکارانو په برخه کې کړنې شاملې دي، لکه د IPMI (د هوښیار پلیټ فارم مدیریت انٹرفیس) یا iLO (دوی ته د فزیکي لاسرسي په نشتوالي کې د سرورونو اداره کولو میکانیزم) وسیله سره تعامل ، پداسې حال کې چې غیر مستقیم میتودونه په ناکامۍ تکیه کوي نوډ د یو څه پیژندلو لپاره چې دا په غیر صحي حالت کې دی (یا لږترلږه د نورو غړو د رغیدو مخه نیسي) او سیګنال د هارډویر څارونکی د ناکامه نوډ منحل کولو اړتیا په اړه.

کورم مرسته کوي کله چې دواړه مستقیم او غیر مستقیم میتودونه کاروي.

مستقیم جلا کول

د مستقیم جلا کیدو په حالت کې، موږ کولی شو د شبکې د ناکامۍ په صورت کې د جلا کولو ریسونو مخنیوي لپاره د کورم څخه کار واخلو.

د کورم مفکورې سره، په سیسټم کې کافي معلومات شتون لري (حتی د خپلو همکارانو سره د نښلولو پرته) د نوډونو لپاره په اتوماتيک ډول پوه شي چې ایا دوی باید جلا کول او / یا بیا رغونه پیل کړي.

د نصاب پرته، د شبکې ویش دواړه اړخونه به په سمه توګه فکر وکړي چې بل اړخ مړ دی او د بل د جلا کولو هڅه کوي. په بدترین حالت کې، دواړه خواوې اداره کوي چې ټول کلستر بند کړي. یو بدیل سناریو د مرګ میچ دی ، د نوډونو نه ختمیدونکی لوپ سپون کوي ​​، د دوی ملګري نه ګوري ، دوی ریبوټ کوي ، او بیا رغونه یوازې د ریبوټ لپاره پیل کوي کله چې د دوی ملګری ورته منطق تعقیب کړي.

د جلا کیدو سره ستونزه دا ده چې ډیری عام کارول شوي وسایل د ورته ناکامۍ پیښو له امله شتون نلري چې موږ یې د بیا رغونې لپاره په نښه کول غواړو. ډیری IPMI او iLO کارتونه په هغه کوربه کې نصب شوي چې دوی یې کنټرولوي او په ډیفالټ ډول ورته شبکه کاروي، کوم چې د هدف کوربه د دې لامل کیږي چې نور کوربه آفلاین وي.

له بده مرغه، د IPMI او iLo وسیلو عملیاتي ځانګړتیاوې په ندرت سره د تجهیزاتو پیرودلو په وخت کې په پام کې نیول کیږي.

غیر مستقیم جلا کول

کورم د غیر مستقیم جلا کولو اداره کولو لپاره هم مهم دی؛ که په سمه توګه ترسره شي، کورم کولی شي ژغورونکو ته اجازه ورکړي چې ګومان وکړي چې ورک شوي نوډونه به د یوې ټاکلې مودې وروسته خوندي حالت ته انتقال کړي.

د دې ترتیب سره، د هارډویر واچ ډاګ ټایمر په هر N ثانیو کې بیا تنظیم کیږي که چیرې کورم له لاسه ورنکړل شي. که چیرې ټایمر (معمولا د N څو ضرب) پای ته ورسیږي، نو وسیله یو بې رحمه بریښنا بندوي (نه بندول).

دا طریقه ډیره اغیزمنه ده، مګر د کورم پرته په کلستر کې د دې اداره کولو لپاره کافي معلومات شتون نلري. د شبکې بندیدو او د پیر نوډ ناکامۍ ترمینځ توپیر ویل اسانه ندي. د دې مسلې دلیل دا دی چې د دوه قضیو ترمینځ د توپیر کولو وړتیا پرته ، تاسو مجبور یاست چې په دواړو قضیو کې ورته چلند غوره کړئ.

د یو موډ غوره کولو کې ستونزه دا ده چې د عمل کوم کورس شتون نلري چې شتون اعظمي کړي او د معلوماتو له لاسه ورکولو مخه ونیسي.

  • که تاسو دا غوره کړئ چې فرض کړئ چې د پیر نوډ فعال دی مګر په حقیقت کې ناکام شو، کلستر به په غیر ضروري ډول هغه خدمات ودروي چې د ناکام پیر نوډ څخه د خدماتو د ضایع کیدو جبران لپاره به روان وي.
  • که تاسو پریکړه وکړئ چې فرض کړئ نوډ ښکته دی ، مګر دا یوازې د شبکې ناکامي وه او په حقیقت کې ریموټ نوډ فعال دی ، نو په غوره توګه تاسو د پایلې ډاټا سیټونو ځینې راتلونکي لارښود پخلاینې لپاره لاسلیک کوئ.

پرته لدې چې تاسو کوم هیوریسټیک کاروئ ، دا د ناکامۍ رامینځته کول کوچني دي چې یا به دواړه خواوې د ناکامۍ لامل شي یا کلسټر د ژوندي پاتې نوډونو بندولو لامل شي. د کورم نه کارول په ریښتیا سره په خپل آرسنال کې د یو خورا پیاوړې وسیلې کلستر بې برخې کوي.

که بل بدیل نه وي، غوره لاره د شتون قرباني کول دي (دلته لیکوال د CAP تیورم ته اشاره کوي). د فاسد ډیټا لوړ شتون د هیچا سره مرسته نه کوي ، او په لاسي ډول د مختلف ډیټا سیټونو سره پخلا کول هم ساتیري ندي.

کورم

کورم ښه ښکاري، سمه ده؟

یوازینی نیمګړتیا دا ده چې د دې لپاره چې دا د N غړو سره په کلستر کې ولرئ، تاسو اړتیا لرئ چې ستاسو د پاتې پاتې نوډونو N/2+1 ترمنځ اړیکه ولرئ. کوم چې د یو نوډ ناکامیدو وروسته په دوه نوډ کلستر کې امکان نلري.

کوم چې په پای کې موږ د دوو نوډونو سره بنسټیزې ستونزې ته راوړي:
کورم په دوه نوډ کلسترونو کې معنی نه لري، او له دې پرته دا ناشونې ده چې په معتبر ډول د عمل کورس وټاکي چې شتون یې اعظمي کوي او د معلوماتو ضایع کیدو مخه نیسي.
حتی د دوه نوډونو سیسټم کې چې د کراس اوور کیبل لخوا وصل شوي ، دا ناشونې ده چې د شبکې بندیدو او د بل نوډ ناکامۍ ترمینځ په دقیق ډول توپیر وکړو. د یوې پای غیر فعال کول (د هغه احتمال چې البته، د نوډونو تر مینځ د فاصلې متناسب دی) به د هرې انګیرنې باطلولو لپاره کافي وي چې د لینک روغتیا د ملګري نوډ روغتیا سره مساوي وي.

د دوه نوډ کلستر جوړول

ځینې ​​​​وختونه پیرودونکي نشي کولی یا نه غواړي دریم نوډ واخلي، او موږ مجبور یو چې د بدیل په لټه کې شو.

1 اختیار - د جلا کولو طریقه نقل کړئ

د نوډ iLO یا IPMI وسیله د ناکامۍ نقطه څرګندوي ځکه چې که دا ناکامه شي، ژوندي پاتې شوي نشي کولی د نوډ خوندي حالت ته راوړي. د 3 یا ډیرو نوډونو په کلستر کې، موږ کولی شو دا د کورم محاسبه کولو او د هارډویر څارونکي په کارولو سره کم کړو (د غیر مستقیم جلا کولو میکانیزم، لکه څنګه چې مخکې بحث شوی). د دوه نوډونو په حالت کې، موږ باید د شبکې بریښنا ویش واحدونه (PDUs) پرځای کاروو.

د ناکامۍ وروسته، ژغورونکی لومړی هڅه کوي چې د ابتدايي جلا کولو وسیله سره اړیکه ونیسي (ایمبیډډ iLO یا IPMI). که دا بریالی وي، بیا رغونه د معمول په څیر دوام لري. یوازې که د iLO/IPMI وسیله ناکامه شي PDU ته لاسرسی لري؛ که لاسرسی بریالی وي، بیا رغونه دوام کولی شي.

ډاډ ترلاسه کړئ چې PDU د کلستر ترافیک په پرتله په مختلف شبکه کې ځای په ځای کړئ ، که نه نو د یوې شبکې ناکامي به دواړه جلا کولو وسیلو ته لاسرسی بند کړي او د خدماتو بیا رغونه بنده کړي.

دلته تاسو پوښتنه کولی شئ - ایا PDU د ناکامۍ یو واحد ټکی دی؟ د کوم ځواب چې وي، البته دا دی.

که دا خطر ستاسو لپاره مهم وي، تاسو یوازې نه یاست: دواړه نوډونه دوه PDUs سره وصل کړئ او د کلسترینګ سافټویر ته ووایاست چې د نوډونو د فعالولو او بندولو په وخت کې دواړه وکاروئ. کلسټر اوس فعاله پاتې کیږي که چیرې یو PDU مړ شي، او د بل PDU یا IPMI وسیلې دوهم ناکامي به د بیا رغونې مخه ونیسي.

2 اختیار - د آربیټر اضافه کول

په ځینو سناریوګانو کې، په داسې حال کې چې د نقل د جلا کولو طریقه له تخنیکي پلوه ممکنه ده، دا په سیاسي توګه ستونزمنه ده. ډیری شرکتونه د مدیرانو او غوښتنلیک مالکینو ترمنځ یو څه جلا کول خوښوي، او د امنیت په اړه د شبکې مدیران تل د چا سره د PDU لاسرسي ترتیبات شریکولو لپاره لیواله ندي.

په دې حالت کې، وړاندیز شوی بدیل دا دی چې یو بې طرفه دریم اړخ رامینځته کړي چې کولی شي د نصاب محاسبه بشپړ کړي.

د ناکامۍ په حالت کې، نوډ باید د دې وړتیا ولري چې د خدماتو بیا رغولو لپاره د خپل ملګري یا ثالث هوایی څپې وګوري. په ثالث کې د جلا کولو فعالیت هم شامل دی که چیرې دواړه نوډونه آربیټر وګوري مګر یو بل نشي لیدلی.

دا اختیار باید د غیر مستقیم جلا کولو میتود سره په ګډه وکارول شي ، لکه د هارډویر واچ ډاگ ټایمر ، کوم چې د ماشین وژلو لپاره تنظیم شوی که چیرې دا د خپل پیر او آربیټر نوډ سره اړیکه له لاسه ورکړي. په دې توګه، یو ژغورونکی کولی شي په معقول ډول فکر وکړي چې د هغې د پییر نوډ به په خوندي حالت کې وي وروسته له دې چې د هارډویر څارونکي ټیمر پای ته ورسیږي.

د ثالث او دریم نوډ ترمنځ عملي توپیر دا دی چې یو ثالث د کار کولو لپاره خورا لږو سرچینو ته اړتیا لري او په بالقوه توګه له یو څخه ډیر کلستر خدمت کولی شي.

3 اختیار - د انسان فکتور

وروستۍ لاره د ژوندي پاتې کیدو لپاره دا ده چې هر هغه خدماتو ته دوام ورکړي چې دوی دمخه پرمخ وړي ، مګر نوي پیل نه کوي تر هغه چې ستونزه پخپله حل نشي (د شبکې بیا رغونه ، نوډ ریبوټ) یا یو څوک په لاسي ډول د تصدیق کولو مسؤلیت په غاړه اخلي چې بل اړخ مړ دی.

د بونس اختیار

ایا ما یادونه وکړه چې تاسو دریم نوډ اضافه کولی شئ؟

دوه ریکونه

د استدلال لپاره، اجازه راکړئ چې ما تاسو ته د دریم نوډ په وړتیا قانع کړي، اوس موږ باید د نوډونو فزیکي ترتیب په پام کې ونیسو. که دوی په ورته ریک کې ځای په ځای شوي (او ځواکمن شوي)، دا هم SPOF تشکیلوي، او یو چې د دویم ریک په اضافه کولو سره حل کیدی نشي.

که دا د حیرانتیا وړ وي، په پام کې ونیسئ چې څه به پیښ شي که چیرې د دوو نوډونو سره ریک ناکام شي، او څنګه ژوندي پاتې شوي نوډ به د دې او د شبکې ناکامۍ ترمنځ توپیر وکړي.

لنډ ځواب دا دی چې دا امکان نلري، او بیا موږ د دوه نوډ قضیه کې د ټولو ستونزو سره معامله کوو. یا ژغورونکی:

  • کورم له پامه غورځوي او په غلطه توګه هڅه کوي چې د شبکې بندیدو پرمهال بیا رغونه پیل کړي (د بشپړولو وړتیا یوه بله کیسه ده او پدې پورې اړه لري چې ایا PDU پکې ښکیل دی او ایا دوی د کوم ریک سره ځواک شریکوي) یا
  • د کورم درناوی کوي او د وخت څخه مخکې خپل ځان منقطع کوي کله چې د هغه ملګري نوډ ناکام شي

په هر حالت کې، دوه ریکونه له یو څخه غوره ندي، او نوډونه باید یا هم د بریښنا خپلواکه تجهیزات ترلاسه کړي یا په دریو (یا ډیرو، په دې پورې اړه لري چې تاسو څومره نوډونه لرئ) ریکونو کې وویشل شي.

دوه د معلوماتو مرکزونه

په دې وخت کې، هغه لوستونکي چې نور د خطر څخه ډډه کوي ممکن د ناورین بیا رغونه په پام کې ونیسي. څه پیښیږي کله چې یو ستوری زموږ د دریو نوډونو سره ورته ډیټا مرکز سره ټکر کوي په دریو مختلف ریکونو کې خپریږي؟ په ښکاره ډول بد شیان ، مګر ستاسو اړتیاو پورې اړه لري ، د دوهم ډیټا مرکز اضافه کول ممکن کافي نه وي.

که په سمه توګه ترسره شي، د معلوماتو دویم مرکز تاسو ته (او په معقول ډول) ستاسو د خدماتو او د دوی معلوماتو تازه او دوامداره کاپي چمتو کوي. په هرصورت، لکه څنګه چې په دوه نوډ، دوه ریک سناریو کې، په سیسټم کې کافي معلومات شتون نلري ترڅو د اعظمي شتون ډاډ ترلاسه کړي او د فساد مخه ونیسي (یا د معلوماتو ترتیب توپیرونه). حتی د دریو نوډونو (یا ریکونو) سره ، د دوی یوازې دوه ډیټا مرکزونو کې توزیع کول سیسټم نشي کولی د (اوس ډیر احتمال) پیښې په صورت کې چې دواړه خواوې نشي کولی اړیکه ونیسي په سمه توګه سمه پریکړه وکړي.

دا پدې معنی ندي چې د دوه اړخیز ډیټا مرکز حل هیڅکله مناسب ندي. شرکتونه اکثرا غواړي یو څوک د بیک اپ ډیټا مرکز ته د حرکت کولو غیر معمولي ګام اخیستو دمخه خبر وي. یوازې په یاد ولرئ چې که تاسو غواړئ د بندیدو اتومات کول غواړئ، نو تاسو به یا د کورم لپاره دریم ډیټا مرکز ته اړتیا ولرئ ترڅو معنی ولري (یا په مستقیم ډول یا د ثالث له لارې)، یا تاسو به د ټول ډیټا په معتبر ډول بندولو لپاره لاره ومومئ. مرکز

سرچینه: www.habr.com

Add a comment