په Kubernetes کې د DNS سره ستونزې. عامه پوسټ مارټم

نوټ ژباړه: دا د شرکت انجینري بلاګ څخه د عامه پوسټ مارټم ژباړه ده چمتو. دا د کبرنیټس کلستر کې د کانټریک سره ستونزه تشریح کوي ، کوم چې د ځینې تولید خدماتو جزوي ځنډیدو لامل شوی.

دا مقاله ممکن د هغو کسانو لپاره ګټوره وي چې غواړي د پوسټ مارټم په اړه لږ څه زده کړي یا په راتلونکي کې د ځینې احتمالي DNS ستونزو مخه ونیسي.

په Kubernetes کې د DNS سره ستونزې. عامه پوسټ مارټم
دا DNS ندی
دا DNS نشي کیدی
دا DNS وه

په پریپلی کې د پوسټ مارټم او پروسو په اړه لږ څه

پوسټ مارټم په تولید کې خرابوالی یا ځینې پیښې بیانوي. په پوسټ مارټم کې د پیښو مهال ویش، د کارونکي اغیزې توضیحات، اصلي لامل، ترسره شوي اقدامات، او زده شوي درسونه شامل دي.

د SRE په لټه کې

د پیزا سره په اونۍ کې غونډو کې، د تخنیکي ټیم په منځ کې، موږ مختلف معلومات شریکوو. د داسې غونډو یوه مهمه برخه د پوسټ مارټمونه دي، چې ډیری وختونه د سلایډونو سره د پریزنټشن او د پیښې ژور تحلیل سره وي. که څه هم موږ د پوسټ مارټم وروسته تالی نه وهو، موږ هڅه کوو د "نه ملامت" کلتور رامینځته کړو (بې ګناه کلتور). موږ باور لرو چې د پوسټ مارټم لیکل او وړاندې کول کولی شي زموږ (او نورو) سره په راتلونکي کې د ورته پیښو مخنیوي کې مرسته وکړي ، له همدې امله موږ یې شریک کوو.

هغه کسان چې په پیښه کې ښکیل دي باید احساس وکړي چې دوی کولی شي په تفصیل سره خبرې وکړي پرته له دې چې د مجازاتو یا عذاب څخه ویره ولري. هیڅ ملامت نه! د پوسټ مارټم لیکل مجازات ندي ، مګر د ټول شرکت لپاره د زده کړې فرصت دی.

CALMS او DevOps وساتئ: S د شریکولو لپاره دی

په Kubernetes کې د DNS سره ستونزې. پوسټ مارټم

نېټه: 28.02.2020

لیکوالان: امیت یو، اندری ایس، ایګور کی، الیکسی پی.

دريځ: ختم شو

لنډه: د Kubernetes کلستر کې د ځینو خدماتو لپاره د جزوي DNS نشتوالی (26 دقیقې).

نفوذ: د A، B او C خدماتو لپاره 15000 پیښې له لاسه ورکړې

عمده لامل: کیوب پراکسي نشي کولی په سمه توګه د کانټریک میز څخه یو زوړ ننوت لرې کړي، نو ځینې خدمتونه لاهم هڅه کوي چې غیر موجود پوډونو سره وصل شي

E0228 20:13:53.795782       1 proxier.go:610] Failed to delete kube-system/kube-dns:dns endpoint connections, error: error deleting conntrack entries for UDP peer {100.64.0.10, 100.110.33.231}, error: conntrack command returned: ...

محرک: د Kubernetes کلستر دننه د ټیټ بار له امله، CoreDNS-autoscaler په ګمارنه کې د پوډونو شمیر له دریو څخه دوه ته راکم کړ.

د حل لاره: د غوښتنلیک بل ځای پرځای کول د نوي نوډونو رامینځته کول پیل کړل، CoreDNS-autoscaler کلستر ته د خدمت کولو لپاره نور پوډونه اضافه کړل، کوم چې د کانټریک میز بیا لیکلو ته هڅول.

کشف: د پرومیتیوس څارنې د A، B او C خدماتو لپاره د 5xx لوی شمیر غلطۍ کشف کړې او د دندې انجینرانو ته یې زنګ وهلی دی

په Kubernetes کې د DNS سره ستونزې. عامه پوسټ مارټم
په کبانا کې 5xx تېروتنې

کړنې

اغېز
ډول
مسؤل
موخه

د CoreDNS لپاره اتوماتیک غیر فعال کړئ
مخنیوی
امیت یو.
DEVOPS-695

د کیشینګ DNS سرور تنظیم کړئ
کمول
ماکس وی.
DEVOPS-665

د کانټریک نظارت تنظیم کړئ
مخنیوی
امیت یو.
DEVOPS-674

درسونه زده کړل

څه ښه شول:

  • نظارت ښه کار وکړ. ځواب ګړندی او منظم و
  • موږ په نوډونو کې هیڅ محدودیت نه دی مات کړی

څه غلط وو:

  • لا تر اوسه نامعلوم اصلي اصلي لامل، ورته ورته ځانګړی بګ په مقابل کې
  • ټولې کړنې یوازې پایلې سموي، نه اصلي لامل (بګ)
  • موږ پوهیږو چې ژر یا وروسته موږ ممکن د DNS سره ستونزې ولرو، مګر موږ کارونو ته لومړیتوب نه ورکوو

چیرته چې موږ بختور شو:

  • راتلونکی ګمارنه د CoreDNS-autoscaler لخوا پیل شوې وه، کوم چې د کانټریک جدول له سره لیکلی و
  • دې بګ یوازې ځینې خدمات اغیزمن کړي

مهال ویش (EET)

Время
اغېز

22:13
CoreDNS-autoscaler د پوډونو شمیر له دریو څخه دوه ته راکم کړ

22:18
انجنیرانو په دنده کې د څارنې سیسټم څخه تلیفونونه ترلاسه کول پیل کړل

22:21
انجنیرانو د دندې پر مهال د تېروتنې د لامل په موندلو پیل وکړ.

22:39
انجینرانو په دنده کې یو له وروستي خدماتو څخه پخوانۍ نسخې ته بیرته راګرځول پیل کړل

22:40
د 5xx تېروتنې څرګندیدل بند شوي، وضعیت ثبات لري

  • د کشف وخت: 4 min
  • د عمل دمخه وخت: 21 min
  • د سمولو وخت: 1 min

اضافي معلومات

د CPU کارول کمولو لپاره، د لینکس کرنل یو څه کاروي چې د کانټریک په نوم یادیږي. په لنډه توګه، دا یو افادیت دی چې د NAT ریکارډونو لیست لري چې په ځانګړي جدول کې زیرمه شوي. کله چې راتلونکی کڅوړه د پخوا په څیر ورته پوډ څخه ورته پوډ ته راشي، وروستی IP پته به بیا نه حسابیږي، مګر د کانټریک میز څخه به اخیستل کیږي.
په Kubernetes کې د DNS سره ستونزې. عامه پوسټ مارټم
کنټریک څنګه کار کوي

پایلې

دا زموږ د پوسټ مارټم یوه بیلګه وه چې د ځینې ګټورو لینکونو سره. په ځانګړې توګه پدې مقاله کې، موږ هغه معلومات شریکوو چې ممکن د نورو شرکتونو لپاره ګټور وي. له همدې امله موږ له تېروتنې نه ډارېږو او له همدې امله موږ خپل پوسټ مارټمونه عامه کوو. دلته ځینې نور په زړه پوري عامه پوسټ مارټمونه دي:

سرچینه: www.habr.com

Add a comment