Duilgheadasan le DNS ann an Kubernetes. Post mortem poblach

Thoir an aire eadar-theangachadh: Is e seo eadar-theangachadh de phostmortem poblach bho bhlog innleadaireachd na companaidh Gu dearbh. Tha e a’ toirt cunntas air duilgheadas le conntrack ann an cruinneachadh Kubernetes, a lean gu ùine downt cuid de sheirbheisean cinneasachaidh.

Is dòcha gum bi an artaigil seo feumail dhaibhsan a tha airson beagan a bharrachd ionnsachadh mu dheidhinn postmortems no casg a chuir air cuid de dhuilgheadasan DNS san àm ri teachd.

Duilgheadasan le DNS ann an Kubernetes. Post mortem poblach
Chan e DNS a tha seo
Chan urrainn dha a bhith DNS
B 'e DNS a bh' ann

Beagan mu dheidhinn postmortems agus pròiseasan ann an Preply

Tha postmortem a’ toirt cunntas air mì-ghnàthachadh no tachartas air choireigin ann an cinneasachadh. Tha am postmortem a’ toirt a-steach loidhne-tìm de thachartasan, buaidh luchd-cleachdaidh, adhbhar bunaiteach, gnìomhan a chaidh a ghabhail, agus leasanan a chaidh ionnsachadh.

A’ sireadh SRE

Aig coinneamhan seachdaineil le pizza, am measg an sgioba theicnigeach, bidh sinn a 'roinn diofar fiosrachaidh. Is e aon de na pàirtean as cudromaiche de choinneamhan mar sin post-mortem, a bhios gu tric an cois taisbeanadh le sleamhnagan agus mion-sgrùdadh nas doimhne air an tachartas. Eadhon ged nach bi sinn a’ bualadh às deidh post-mortem, bidh sinn a’ feuchainn ri cultar “gun choire” a leasachadh (cultar gun choire). Tha sinn den bheachd gun cuidich sgrìobhadh agus taisbeanadh postmortem sinn (agus feadhainn eile) gus casg a chuir air tachartasan coltach ris san àm ri teachd, agus is e sin as coireach gu bheil sinn gan roinn.

Bu chòir do dhaoine a tha an sàs ann an tachartas a bhith a’ faireachdainn gun urrainn dhaibh bruidhinn gu mionaideach gun eagal a bhith orra mu pheanas no dìoghaltas. Gun choire! Chan e peanas a th’ ann an sgrìobhadh postmortem, ach cothrom ionnsachaidh don chompanaidh gu lèir.

Cùm CALMS & DevOps: Tha S airson roinneadh

Duilgheadasan le DNS ann an Kubernetes. Post mortem

Ceann-latha: 28.02.2020

Ùghdaran: Amet U., Andrey S., Igor K., Alexey P.

Inbhe: Crìochnaichte

Goirid: Pàirt DNS nach eil ri fhaighinn (26 mion) airson cuid de sheirbheisean ann am buidheann Kubernetes

Buaidh: Chaill 15000 tachartas airson seirbheisean A, B agus C

Adhbhar bunaiteach: Cha b’ urrainn do Kube-proxy seann inntrigeadh a thoirt air falbh bhon chlàr conntrack, agus mar sin bha cuid de sheirbheisean fhathast a’ feuchainn ri ceangal ri pods nach robh ann

E0228 20:13:53.795782       1 proxier.go:610] Failed to delete kube-system/kube-dns:dns endpoint connections, error: error deleting conntrack entries for UDP peer {100.64.0.10, 100.110.33.231}, error: conntrack command returned: ...

Spreagadh: Mar thoradh air an luchd ìosal taobh a-staigh cruinneachadh Kubernetes, lughdaich CoreDNS-autoscaler an àireamh de pods san cleachdadh bho thrì gu dhà

fuasgladh: Thòisich an ath chleachdadh den tagradh cruthachadh nodan ùra, chuir CoreDNS-autoscaler barrachd pods ris gus seirbheis a thoirt don bhuidheann, a bhrosnaich ath-sgrìobhadh den chlàr conntrack.

Dearbhadh: Lorg sgrùdadh Prometheus àireamh mhòr de mhearachdan 5xx airson seirbheisean A, B agus C agus thòisich e air fios gu na h-innleadairean air dleasdanas.

Duilgheadasan le DNS ann an Kubernetes. Post mortem poblach
Mearachdan 5xx ann an Kibana

Gnìomhan

bhuaidh
Seòrsa
Cunntachail
Amas

Cuir à comas autoscaler airson CoreDNS
air a bhacadh
Amet U.
DEVOPS-695

Stèidhich frithealaiche DNS caching
lùghdachadh
Max V.
DEVOPS-665

Stèidhich smachd contrack
air a bhacadh
Amet U.
DEVOPS-674

Leasanan a chaidh ionnsachadh

Dè chaidh gu math:

  • Dh’obraich an sgrùdadh gu math. Bha am freagairt sgiobalta agus eagraichte
  • Cha do bhuail sinn crìochan sam bith air na nodan

Dè bha ceàrr:

  • Fhathast neo-aithnichte fìor adhbhar bunaiteach, coltach ri bug sònraichte ann an rian
  • Chan eil a h-uile gnìomh a’ ceartachadh ach na builean, chan e am bun-adhbhar (bug)
  • Bha fios againn gum faodadh duilgheadasan a bhith againn nas luaithe no nas fhaide le DNS, ach cha tug sinn prìomhachas dha na gnìomhan

Far an d’ fhuair sinn fortanach:

  • Chaidh an ath chleachdadh a bhrosnachadh le CoreDNS-autoscaler, a sgrìobh thairis air a’ chlàr conntrack
  • Cha tug am biast seo buaidh ach air cuid de sheirbheisean

Clàr-ama (EET)

Ùine
bhuaidh

22:13
Lùghdaich CoreDNS-autoscaler an àireamh de pods bho thrì gu dhà

22:18
Thòisich innleadairean a bha air dleasdanas air fiosan fhaighinn bhon t-siostam sgrùdaidh

22:21
Thòisich na h-innleadairean a bha air dleasdanas a' faighinn a-mach adhbhar nam mearachdan.

22:39
Thòisich innleadairean a bha air dleasdanas air aon de na seirbheisean as ùire a thoirt air ais chun dreach roimhe

22:40
Sguir mearachdan 5xx a’ nochdadh, tha an suidheachadh air socrachadh

  • Ùine airson lorg: 4 min
  • Ùine ron ghnìomhachd: 21 min
  • Ùine airson a chàradh: 1 min

fiosrachadh a bharrachd

Gus cleachdadh CPU a lughdachadh, bidh an kernel Linux a’ cleachdadh rudeigin ris an canar conntrack. Ann an ùine ghoirid, is e goireas a tha seo anns a bheil liosta de chlàran NAT a tha air an stòradh ann an clàr sònraichte. Nuair a ruigeas an ath phacaid bhon aon pod chun an aon pod mar a bha e roimhe, cha tèid an seòladh IP deireannach ath-àireamhachadh, ach thèid a thoirt bhon chlàr conntrack.
Duilgheadasan le DNS ann an Kubernetes. Post mortem poblach
Mar a tha Contrack ag obair

Builean

Bha seo na eisimpleir de aon de na postmortems againn le ceanglaichean feumail. Gu sònraichte san artaigil seo, bidh sinn a’ roinn fiosrachadh a dh’ fhaodadh a bhith feumail do chompanaidhean eile. Sin as coireach nach eil eagal oirnn mearachdan a dhèanamh agus is ann air sgàth sin a bhios sinn a’ dèanamh aon de na postmortems againn poblach. Seo postmortem poblach nas inntinniche:

Source: www.habr.com

Cuir beachd ann