ProHoster > Blog > Rianachd > Duilgheadasan le DNS ann an Kubernetes. Post mortem poblach
Duilgheadasan le DNS ann an Kubernetes. Post mortem poblach
Thoir an aire eadar-theangachadh: Is e seo eadar-theangachadh de phostmortem poblach bho bhlog innleadaireachd na companaidh Gu dearbh. Tha e a’ toirt cunntas air duilgheadas le conntrack ann an cruinneachadh Kubernetes, a lean gu ùine downt cuid de sheirbheisean cinneasachaidh.
Is dòcha gum bi an artaigil seo feumail dhaibhsan a tha airson beagan a bharrachd ionnsachadh mu dheidhinn postmortems no casg a chuir air cuid de dhuilgheadasan DNS san àm ri teachd.
Chan e DNS a tha seo
Chan urrainn dha a bhith DNS
B 'e DNS a bh' ann
Beagan mu dheidhinn postmortems agus pròiseasan ann an Preply
Tha postmortem a’ toirt cunntas air mì-ghnàthachadh no tachartas air choireigin ann an cinneasachadh. Tha am postmortem a’ toirt a-steach loidhne-tìm de thachartasan, buaidh luchd-cleachdaidh, adhbhar bunaiteach, gnìomhan a chaidh a ghabhail, agus leasanan a chaidh ionnsachadh.
Aig coinneamhan seachdaineil le pizza, am measg an sgioba theicnigeach, bidh sinn a 'roinn diofar fiosrachaidh. Is e aon de na pàirtean as cudromaiche de choinneamhan mar sin post-mortem, a bhios gu tric an cois taisbeanadh le sleamhnagan agus mion-sgrùdadh nas doimhne air an tachartas. Eadhon ged nach bi sinn a’ bualadh às deidh post-mortem, bidh sinn a’ feuchainn ri cultar “gun choire” a leasachadh (cultar gun choire). Tha sinn den bheachd gun cuidich sgrìobhadh agus taisbeanadh postmortem sinn (agus feadhainn eile) gus casg a chuir air tachartasan coltach ris san àm ri teachd, agus is e sin as coireach gu bheil sinn gan roinn.
Bu chòir do dhaoine a tha an sàs ann an tachartas a bhith a’ faireachdainn gun urrainn dhaibh bruidhinn gu mionaideach gun eagal a bhith orra mu pheanas no dìoghaltas. Gun choire! Chan e peanas a th’ ann an sgrìobhadh postmortem, ach cothrom ionnsachaidh don chompanaidh gu lèir.
Duilgheadasan le DNS ann an Kubernetes. Post mortem
Ceann-latha: 28.02.2020
Ùghdaran: Amet U., Andrey S., Igor K., Alexey P.
Inbhe: Crìochnaichte
Goirid: Pàirt DNS nach eil ri fhaighinn (26 mion) airson cuid de sheirbheisean ann am buidheann Kubernetes
Buaidh: Chaill 15000 tachartas airson seirbheisean A, B agus C
Adhbhar bunaiteach: Cha b’ urrainn do Kube-proxy seann inntrigeadh a thoirt air falbh bhon chlàr conntrack, agus mar sin bha cuid de sheirbheisean fhathast a’ feuchainn ri ceangal ri pods nach robh ann
Spreagadh: Mar thoradh air an luchd ìosal taobh a-staigh cruinneachadh Kubernetes, lughdaich CoreDNS-autoscaler an àireamh de pods san cleachdadh bho thrì gu dhà
fuasgladh: Thòisich an ath chleachdadh den tagradh cruthachadh nodan ùra, chuir CoreDNS-autoscaler barrachd pods ris gus seirbheis a thoirt don bhuidheann, a bhrosnaich ath-sgrìobhadh den chlàr conntrack.
Dearbhadh: Lorg sgrùdadh Prometheus àireamh mhòr de mhearachdan 5xx airson seirbheisean A, B agus C agus thòisich e air fios gu na h-innleadairean air dleasdanas.
Mearachdan 5xx ann an Kibana
Gnìomhan
bhuaidh
Seòrsa
Cunntachail
Amas
Cuir à comas autoscaler airson CoreDNS
air a bhacadh
Amet U.
DEVOPS-695
Stèidhich frithealaiche DNS caching
lùghdachadh
Max V.
DEVOPS-665
Stèidhich smachd contrack
air a bhacadh
Amet U.
DEVOPS-674
Leasanan a chaidh ionnsachadh
Dè chaidh gu math:
Dh’obraich an sgrùdadh gu math. Bha am freagairt sgiobalta agus eagraichte
Cha do bhuail sinn crìochan sam bith air na nodan
Dè bha ceàrr:
Fhathast neo-aithnichte fìor adhbhar bunaiteach, coltach ri bug sònraichte ann an rian
Chan eil a h-uile gnìomh a’ ceartachadh ach na builean, chan e am bun-adhbhar (bug)
Bha fios againn gum faodadh duilgheadasan a bhith againn nas luaithe no nas fhaide le DNS, ach cha tug sinn prìomhachas dha na gnìomhan
Far an d’ fhuair sinn fortanach:
Chaidh an ath chleachdadh a bhrosnachadh le CoreDNS-autoscaler, a sgrìobh thairis air a’ chlàr conntrack
Cha tug am biast seo buaidh ach air cuid de sheirbheisean
Clàr-ama (EET)
Ùine
bhuaidh
22:13
Lùghdaich CoreDNS-autoscaler an àireamh de pods bho thrì gu dhà
22:18
Thòisich innleadairean a bha air dleasdanas air fiosan fhaighinn bhon t-siostam sgrùdaidh
22:21
Thòisich na h-innleadairean a bha air dleasdanas a' faighinn a-mach adhbhar nam mearachdan.
22:39
Thòisich innleadairean a bha air dleasdanas air aon de na seirbheisean as ùire a thoirt air ais chun dreach roimhe
22:40
Sguir mearachdan 5xx a’ nochdadh, tha an suidheachadh air socrachadh
Ùine airson lorg: 4 min
Ùine ron ghnìomhachd: 21 min
Ùine airson a chàradh: 1 min
fiosrachadh a bharrachd
Logaichean CoreDNS:
I0228 20:13:53.507780 1 event.go:221] Event(v1.ObjectReference{Kind:"Deployment", Namespace:"kube-system", Name:"coredns", UID:"2493eb55-3dc0-11ea-b3a2-02bb48f8c230", APIVersion:"apps/v1", ResourceVersion:"132690686", FieldPath:""}): type: 'Normal' reason: 'ScalingReplicaSet' Scaled down replica set coredns-6cbb6646c9 to 2
Gus cleachdadh CPU a lughdachadh, bidh an kernel Linux a’ cleachdadh rudeigin ris an canar conntrack. Ann an ùine ghoirid, is e goireas a tha seo anns a bheil liosta de chlàran NAT a tha air an stòradh ann an clàr sònraichte. Nuair a ruigeas an ath phacaid bhon aon pod chun an aon pod mar a bha e roimhe, cha tèid an seòladh IP deireannach ath-àireamhachadh, ach thèid a thoirt bhon chlàr conntrack.
Mar a tha Contrack ag obair
Builean
Bha seo na eisimpleir de aon de na postmortems againn le ceanglaichean feumail. Gu sònraichte san artaigil seo, bidh sinn a’ roinn fiosrachadh a dh’ fhaodadh a bhith feumail do chompanaidhean eile. Sin as coireach nach eil eagal oirnn mearachdan a dhèanamh agus is ann air sgàth sin a bhios sinn a’ dèanamh aon de na postmortems againn poblach. Seo postmortem poblach nas inntinniche: