خبرتیاوې چې هدف یې د یو شخص لخوا د بریښنالیک یا بل ډول ترلاسه کول دي ، کوم چې ممکن د غلطیو یا د غوښتنې په کتار کې د زیاتوالي په پایله کې رامینځته شي. خبرتیاوې په دې ډول طبقه بندي شوي دي: ټکټونه، بریښنالیک خبرتیاوې او د رسول پیغامونه.
اصلي لامل (اصلي لامل)
د سافټویر نیمګړتیا یا انساني تېروتنه چې کله سم شي، باید بیا واقع نشي. ستونزه کیدای شي ډیری اصلي لاملونه ولري: د پروسې ناکافي اتومات، د سافټویر نیمګړتیا، د غوښتنلیک منطق ناکافي مطالعه. د دې فکتورونو څخه هر یو اصلي لامل کیدی شي، او هر یو باید له منځه یوړل شي.
نوډ او ماشین (نوډ او ماشین)
د تبادلې وړ شرایط په فزیکي سرور، مجازی ماشین، یا کانټینر کې د چلولو غوښتنلیک یو واحد مثال ته اشاره کوي. په یو ماشین کې ډیری خدمتونه کیدی شي. خدمتونه کیدی شي:
د یو بل سره تړاو لري: د بیلګې په توګه، د کیچ سرور او ویب سرور؛
په ورته هارډویر کې غیر اړونده خدمات: د مثال په توګه، د کوډ ذخیره او د ترتیب کولو سیسټم لپاره وزرډ، لکه ګوډاګی او یا مشر.
ټیله کول
د سافټویر ترتیب کې کوم بدلون.
ولې څارنې ته اړتیا ده
ډیری دلیلونه شتون لري چې ولې غوښتنلیکونه باید وڅیړل شي:
د اوږد مهاله رجحاناتو تحلیل
ډیټابیس څومره لوی دی او څومره چټک وده کوي؟ د کاروونکو ورځني شمیر څنګه بدلیږي؟
نظارت او خبرتیا سیسټم ته اجازه ورکوي چې ووایی کله چې مات شوی یا د ماتیدو په حال کې دی. کله چې یو سیسټم نشي کولی په اوتومات ډول خپل ځان ترمیم کړي، موږ یو انسان غواړو چې خبرتیا تحلیل کړي، معلومه کړي چې ستونزه لاهم شتون لري، دا حل کړي، او د هغې اصلي لامل وټاکي. که تاسو د سیسټم اجزاو پلټنه نه کوئ، تاسو به هیڅکله خبرتیا ترلاسه نه کړئ ځکه چې "یو څه لږ عجیب ښکاري."
د انساني خبرتیاو بارول د کارمند د وخت خورا ګران کار دی. که کارمند کار کوي، خبرتیا د کار جریان مداخله کوي. که چیرې کارمند په کور کې وي، خبرتیا د شخصي وخت او احتمالي خوب سره مداخله کوي. کله چې خبرتیاوې په مکرر ډول پیښیږي ، کارمندان د راتلونکو خبرتیاو څخه ډډه کوي ، ځنډوي یا له پامه غورځوي. د وخت په تیریدو سره دوی اصلي خبرتیا له پامه غورځوي، کوم چې د شور پیښو لخوا پوښل شوی. د خدماتو مداخلې د اوږدې مودې لپاره دوام کولی شي ځکه چې د شور پیښې د ګړندۍ ستونزې تشخیص او حل مخه نیسي. د عامه پتې اغیزمن سیسټمونه د غږ څخه تر غږ پورې ښه سیګنال لري.
د څارنې له سیستم څخه د معقولو توقعاتو معلومول
د پیچلي غوښتنلیک لپاره د نظارت تنظیم کول پخپله یو پیچلي انجینري دنده ده. حتی د راټولولو، ښودلو، او خبرتیا وسیلو د پام وړ زیربنا سره، د 10-12 غړو Google SRE ټیم په عموم ډول یو یا دوه کسان شامل دي چې اصلي موخه یې د څارنې سیسټم جوړول او ساتل دي. دا شمیره د وخت په تیریدو سره کمه شوې ده ځکه چې موږ د څارنې زیربنا عمومي او مرکزي کوو، مګر د SRE هر ټیم معمولا لږ تر لږه د څارنې یوازینی کارمند لري. دا باید وویل شي چې پداسې حال کې چې د نظارت سیسټم ډشبورډونو لیدل خورا په زړه پوري دي ، د SRE ټیمونه په احتیاط سره د داسې شرایطو مخه نیسي چې څوک اړتیا لري د ستونزو نظارت کولو لپاره سکرین ته وګوري.
په عموم کې، ګوګل د واقعیت څخه وروسته د تحلیلي وسیلو سره ساده او چټک څارنې سیسټمونو ته لیږدول شوی. موږ د "جادو" سیسټمونو څخه مخنیوی کوو چې هڅه کوي د حدونو وړاندوینه وکړي یا په اتوماتيک ډول د اصلي لامل کشف کړي. هغه سینسرونه چې د کارونکي په پای کې غوښتنې کې غیر ارادي مینځپانګې کشف کوي یوازینۍ بیلګه ده؛ تر هغه چې دا سینسر ساده پاتې شي، دوی کولی شي په چټکۍ سره د جدي عوارضو لاملونه ومومي. د څارنې ډیټا کارولو لپاره نور فارمیټونه لکه د ظرفیت پلان کول یا د ترافیک وړاندوینه ، ډیر ننګونې دي. د ډیر اوږد وخت (میاشتو یا کلونو) لپاره د ټیټ نمونې نرخ (ساعتونو یا ورځو) کې مشاهده به اوږدمهاله رجحان څرګند کړي.
د ګوګل SRE ټیم د پیچلي انحصاري درجې سره د بریالیتوب مختلف درجې سره کار کړی. موږ په ندرت سره مقررات کاروو لکه "که زه پوه شم چې ډیټابیس ورو شوی، زه د ډیټابیس سست خبرتیا ترلاسه کوم، که نه نو زه د سایټ سست خبرتیا ترلاسه کوم." د انحصار پر بنسټ مقررات معمولا زموږ د سیسټم نه بدلیدونکي برخو ته راجع کیږي، لکه د ډیټا مرکز ته د کاروونکي ترافیک فلټر کولو سیسټم. د مثال په توګه، "که چیرې د ډیټا مرکز ترافیک فلټر کول تنظیم شوي وي، ما د کاروونکو غوښتنو پروسس کولو کې د ځنډ په اړه خبرداری مه ورکوئ" د ډیټا مرکز خبرتیاو لپاره یو عام قاعده ده. په ګوګل کې لږ ټیمونه د پیچلي انحصار درجه بندي مالتړ کوي ځکه چې زموږ زیربنا د دوامداره بیاکتنې دوامداره نرخ لري.
په دې فصل کې بیان شوي ځینې نظرونه لاهم ریښتیا دي: تل د نښې څخه اصلي لامل ته د ګړندي حرکت کولو لاره شتون لري ، په ځانګړي توګه په تل بدلیدونکي سیسټمونو کې. له همدې امله، پداسې حال کې چې دا څپرکی د څارنې سیسټمونو لپاره ځینې اهداف په ګوته کوي او دا اهداف څنګه ترلاسه کوي، دا مهمه ده چې د څارنې سیسټمونه ساده او په ټیم کې د هرچا لپاره د پوهیدو وړ وي.
په ورته ډول، د شور کچه ټیټه او د سیګنال کچه لوړه ساتلو لپاره، د څارنې څیزونو ته چې خبرداری ورکول کیږي باید خورا ساده او د باور وړ وي. هغه قواعد چې د انسانانو لپاره اخطارونه رامینځته کوي باید د پوهیدو لپاره اسانه وي او روښانه ستونزه وړاندې کړي.
نښې او لاملونه
ستاسو د څارنې سیسټم باید دوه پوښتنې ځواب کړي: "څه مات شوی" او "ولې مات شوی".
"څه مات شو" نښې ته اشاره کوي، او "ولې مات شوی" علت ته اشاره کوي. لاندې جدول د داسې لینکونو مثالونه ښیې.
علامه دليل
د HTTP تېروتنه 500 یا 404 ترلاسه کول
د ډیټابیس سرورونه اړیکې ردوي
ورو ورو سرور ځوابونه
د لوړ CPU کارول یا خراب شوی ایترنیټ کیبل
په انټارکټیکا کې کاروونکي د پیشو GIFs نه ترلاسه کوي
ستاسو CDN د ساینس پوهانو او فیلین څخه نفرت کوي، نو ځینې IPs تور لیست شوي دي
په ګوګل کې، د میتریکونو بنسټیز راټولول او راټولول، د خبرتیاو او ډشبورډونو سره یوځای، د نسبتا ځان لرونکي سیسټم په توګه ښه کار کوي (د ګوګل د څارنې سیسټم په حقیقت کې په څو فرعي سیسټمونو ویشل شوی، مګر معمولا خلک د دې فرعي سیسټمونو ټولو اړخونو څخه خبر دي). دا د پیچلو سیسټمونو ازموینې نورو میتودونو سره د نظارت ترکیب کولو لپاره هڅول کیدی شي: د سیسټم تفصيلي پروفایل کول ، د پروسې ډیبګ کول ، د استثنا یا ناکامۍ توضیحات تعقیب کول ، د بار ازموینه ، د ننوتلو راټولول او تحلیل ، یا د ترافیک تفتیش. پداسې حال کې چې ډیری دا شیان د لومړني څارنې سره مشترکات شریکوي، د دوی مخلوط کول به ډیرې پایلې ولري او یو پیچلي او خراب سیسټم رامینځته کړي. لکه څنګه چې د سافټویر پراختیا د ډیری نورو اړخونو سره، د واضح، ساده، په نرمۍ سره یوځای شوي یوځای کولو نقطو سره د مختلف سیسټمونو مالتړ غوره ستراتیژي ده (د مثال په توګه، د ویب API کارول ترڅو د لنډیز ډیټا په بڼه ترلاسه کړي چې د اوږدې مودې لپاره ثابت پاتې کیدی شي. ).
د اصولو سره یوځای کول
په دې فصل کې بحث شوي اصول د څارنې او خبرتیا فلسفه کې یوځای کیدی شي چې د ګوګل SRE ټیمونو لخوا تایید او تعقیب کیږي. د دې څارنې فلسفې ته غاړه ایښودل د پام وړ دي، دا د خبرتیا میتودولوژی رامینځته کولو یا بیاکتنې لپاره یو ښه پیل ټکی دی، او کولی شي تاسو سره مرسته وکړي چې ستاسو د سازمان اندازې یا د خدماتو یا سیسټم پیچلتیا په پام کې نیولو پرته د عملیاتو لپاره سمې پوښتنې وپوښتئ.
کله چې د څارنې او خبرتیا قواعد رامینځته کړئ، د لاندې پوښتنو پوښتنه کولی شي تاسو سره د غلط مثبت او غیر ضروري خبرتیاو څخه مخنیوي کې مرسته وکړي:
ایا دا قاعده د بل ډول نه پیژندل کیدونکي سیسټم حالت کشف کوي چې عاجل دی ، عمل ته زنګ وهي ، او په لازمي ډول کارونکي اغیزه کوي؟
ایا زه کولی شم دا خبرتیا له پامه غورځولی شم چې پوهیدم دا بې ساري دی؟ کله او ولې کولی شم دا خبرداری له پامه غورځولی شم او څنګه کولی شم له دې سناریو څخه مخنیوی وکړم؟
ایا دا خبرتیا پدې معنی ده چې کاروونکي په منفي توګه اغیزمن کیږي؟ ایا داسې شرایط شتون لري چیرې چې کاروونکي په منفي ډول اغیزه نلري، د بیلګې په توګه، د ټرافيکي فلټر کولو له امله یا کله چې د ازموینې سیسټمونه کاروي، خبرتیاوې چې باید فلټر شي؟
ایا زه کولی شم د دې خبرتیا په ځواب کې اقدام وکړم؟ ایا دا اقدامات بیړني دي یا دوی کولی شي تر سهار پورې انتظار وکړي؟ ایا د عمل اتومات کول خوندي دي؟ ایا دا عمل به اوږدمهاله حل وي که لنډمهاله حل؟
ځینې خلک د دې مسلې لپاره ډیری خبرتیاوې ترلاسه کوي، نو ایا دا ممکنه ده چې شمیر کم کړي؟
دا پوښتنې د خبرتیا او خبرتیا سیسټمونو بنسټیز فلسفه منعکس کوي:
د خبرتیا هر ځواب باید د انسان مداخلې ته اړتیا ولري. که چیرې خبرتیا په اتوماتيک ډول پروسس شي، نو دا باید راشي.
خبرتیاوې باید د یوې نوې مسلې یا پیښې په اړه وي چې مخکې نه وي پیښ شوي.
دا طریقه ځینې توپیرونه روښانه کوي: که یو خبرتیا پخوانی څلور شرایط پوره کړي، دا مهمه نده چې خبرداری د سپینې بکس څارنې سیسټم یا بلیک بکس څخه لیږل شوی وي. دا طریقه هم ځینې توپیرونه پیاوړي کوي: دا غوره ده چې د علتونو په پرتله د نښو پیژندلو لپاره ډیرې هڅې مصرف کړئ. کله چې د لاملونو خبره راځي، تاسو یوازې د ناگزیر لاملونو په اړه اندیښنه ته اړتیا لرئ.
د اوږدې مودې څارنه
د نن ورځې تولید چاپیریال کې، د څارنې سیسټمونه د سافټویر جوړښت، د بار ځانګړتیاوو، او د فعالیت اهدافو بدلولو سره د تل پاتې تولید سیسټم څارنه کوي. خبرتیاوې، چې اوس مهال اتومات کول ستونزمن دي، ممکن عام شي، شاید حتی د حل کولو وړ وي. په دې وخت کې، یو څوک باید د ستونزې اصلي لاملونه ومومي او حل کړي؛ که دا ډول حل ممکن نه وي، د خبرتیا غبرګون بشپړ اتومات ته اړتیا لري.
دا مهمه ده چې د څارنې پریکړې د اوږدې مودې اهدافو په پام کې نیولو سره ترسره شي. هر خبرتیا چې نن ورځ کیږي یو سړی د سبا سیسټم له ښه کولو څخه لیرې کوي، نو ډیری وختونه د یو تولیدي سیسټم شتون یا فعالیت کې د هغه وخت لپاره کموالی راځي چې دا په اوږد مهال کې د څارنې سیسټم ښه کولو لپاره اخلي. راځئ چې دوه مثالونه وګورو چې دا پدیده روښانه کوي.
د دې ستونزې د حل لپاره، Gmail SRE یوه وسیله جوړه کړه ترڅو د شیډولر ډیبګ کولو کې مرسته وکړي څومره چې ممکنه وي ترڅو په کاروونکو باندې اغیز کم کړي. ټیم د دې په اړه څو خبرې اترې درلودې چې ایا په ساده ډول د ستونزې موندلو څخه د حل کولو لپاره ټوله دوره اتومات کړي تر څو چې اوږدمهاله حل وموندل شي ، مګر ځینې اندیښمن و چې دا ډول حل به د ستونزې ریښتیني حل وځنډوي.
دا ډول تاو تریخوالی په ټیم کې عام و او ډیری وختونه د ځان انضباط بې باوري منعکس کوي: پداسې حال کې چې د ټیم ځینې غړي غواړي د سم حل لپاره وخت ورکړي، نور اندیښنه لري چې وروستی حل به هیر شي او لنډمهاله حل به د تل لپاره ونیسي. دا ستونزه د پاملرنې وړ ده، ځکه چې د دایمي حل کولو پرځای د لنډمهاله ستونزو حل کول خورا اسانه دي. مدیران او تخنیکي کارمندان د احتمالي اوږدمهاله اوږدمهاله فکسونو مالتړ او لومړیتوب ورکولو سره د اوږدمهاله اصلاحاتو پلي کولو کې کلیدي رول لوبوي حتی کله چې لومړني درد کم شي.
منظم تکراري خبرتیاوې او الګوریتمیک عکس العملونه باید سور بیرغ وي. د دې خبرتیاو اتومات کولو لپاره ستاسو د ټیم لیوالتیا پدې معنی ده چې ټیم باور نلري چې دوی کولی شي په الګوریتم باور وکړي. دا یوه جدي ستونزه ده چې باید حل شي.
اوږده موده
یو عام موضوع د Bigtable او Gmail مثالونو سره اړیکه لري: د لنډ مهاله او اوږد مهاله شتون ترمنځ سیالي. ډیری وختونه قوي هڅې کولی شي د یو نازک سیسټم سره د لوړ شتون په ترلاسه کولو کې مرسته وکړي، مګر دا لاره معمولا لنډمهاله وي، د ټیم سوځیدلو څخه ډک وي او د ورته اتل ټیم په لږ شمیر غړو پورې تړاو لري.