نوٽ ترجمو: هي ڪمپني جي انجنيئرنگ بلاگ مان هڪ عوامي پوسٽ مارٽم جو ترجمو آهي شروعاتي طور. اهو هڪ Kubernetes ڪلستر ۾ conntrack سان هڪ مسئلو بيان ڪري ٿو، جنهن جي نتيجي ۾ ڪجهه پيداوار جي خدمتن جي جزوي وقت ختم ٿي وئي.
ھي مضمون انھن لاءِ ڪارآمد ٿي سگھي ٿو جيڪي پوسٽ مارٽم بابت ڪجھ وڌيڪ سکڻ چاھين ٿا يا مستقبل ۾ ڪجھ امڪاني DNS مسئلن کي روڪڻ چاھين ٿا.
هي DNS نه آهي
اهو DNS نٿو ٿي سگهي
اهو DNS هو
پوسٽ مارٽم ۽ پروسيس بابت ٿورڙو اڳ ۾
پوسٽ مارٽم هڪ خرابي يا پيداوار ۾ ڪجهه واقعا بيان ڪري ٿو. پوسٽ مارٽم ۾ واقعن جي ٽائم لائن، استعمال ڪندڙ جو اثر، بنيادي سبب، ڪيل عمل، ۽ سکيا جا سبق شامل آھن.
پيزا سان هفتيوار گڏجاڻين ۾، ٽيڪنيڪل ٽيم جي وچ ۾، اسان مختلف معلومات حصيداري ڪندا آهيون. اهڙين ملاقاتن جو هڪ اهم حصو پوسٽ مارٽم آهي، جيڪي گهڻو ڪري سلائيڊز سان گڏ پيش ڪيل پيشڪش سان گڏ هوندا آهن ۽ واقعي جي وڌيڪ تفصيلي تجزيي سان. جيتوڻيڪ اسين پوسٽ مارٽم کان پوءِ تاڙيون وڄائي نٿا سگهون، اسان ڪوشش ڪندا آهيون ته ”ڪو به الزام نه“ وارو ڪلچر پيدا ڪيو (بي عيب ثقافت). اسان سمجهون ٿا ته پوسٽ مارٽم لکڻ ۽ پيش ڪرڻ اسان کي (۽ ٻيا) مستقبل ۾ اهڙن واقعن کي روڪڻ ۾ مدد ڪري سگھن ٿا، ان ڪري اسان انهن کي شيئر ڪري رهيا آهيون.
ڪنهن واقعي ۾ ملوث فردن کي محسوس ڪرڻ گهرجي ته هو سزا يا انتقام جي خوف کان سواءِ تفصيل سان ڳالهائي سگهن ٿا. ڪو به الزام نه آهي! پوسٽ مارٽم لکڻ ڪا سزا ناهي، پر سڄي ڪمپني لاءِ سکيا جو موقعو آهي.
مختصر طور: ڪبرنيٽس ڪلستر ۾ ڪجھ خدمتن لاءِ جزوي DNS جي دستيابي (26 منٽ).
وائليني: A، B ۽ C خدمتن لاءِ 15000 واقعا گم ٿي ويا
بنيادي سبب: Kube-proxy صحيح طريقي سان ڪانٽريڪ ٽيبل تان پراڻي انٽري کي ختم ڪرڻ جي قابل نه هئي، تنهنڪري ڪجهه خدمتون اڃا تائين غير موجود پوڊز سان ڳنڍڻ جي ڪوشش ڪري رهيا هئا.
محرڪ: ڪبرنيٽس ڪلستر جي اندر گھٽ لوڊ ٿيڻ جي ڪري، CoreDNS-autoscaler جي تعينات ۾ پوڊ جو تعداد ٽن کان ٻن تائين گھٽائي ڇڏيو.
حل: ايپليڪيشن جي ايندڙ تعیناتي نئين نوڊس جي پيدائش جي شروعات ڪئي، CoreDNS-autoscaler ڪلسٽر جي خدمت ڪرڻ لاءِ وڌيڪ پوڊ شامل ڪيا، جن کي ڪانٽريڪ ٽيبل جي ٻيهر لکڻ جو سبب بڻيو.
پتو لڳائڻ: Prometheus مانيٽرنگ سروسز A، B ۽ C لاءِ وڏي تعداد ۾ 5xx غلطيون معلوم ڪيون ۽ آن ڊيوٽي انجنيئرن کي ڪال شروع ڪئي