Fadhbanna le DNS i Kubernetes. Post mortem poiblí

Nóta aistriúchán: Is aistriúchán é seo ar iarbháis poiblí ó bhlag innealtóireachta an chomhlachta Go díreach. Déanann sé cur síos ar fhadhb a bhaineann le conntrack i mbraisle Kubernetes, rud a d'fhág go raibh aga neamhfhónaimh páirteach i roinnt seirbhísí táirgeachta.

D'fhéadfadh an t-alt seo a bheith úsáideach dóibh siúd ar mian leo beagán níos mó a fhoghlaim faoi iarbháis nó cosc ​​​​a chur ar roinnt fadhbanna DNS féideartha sa todhchaí.

Fadhbanna le DNS i Kubernetes. Post mortem poiblí
Ní DNS é seo
Ní féidir DNS a bheith ann
DNS a bhí ann

Beagán faoi iarbháis agus próisis in Preply

Déanann iarbháis cur síos ar mhífheidhmiú nó ar imeacht éigin sa táirgeadh. Áirítear leis an iarbháis amlíne imeachtaí, tionchar úsáideora, bunchúis, gníomhartha a rinneadh, agus ceachtanna a foghlaimíodh.

SRE á lorg

Ag cruinnithe seachtainiúla le pizza, i measc na foirne teicniúla, roinnimid faisnéis éagsúla. Ceann de na codanna is tábhachtaí de chruinnithe den sórt sin is ea scrúduithe iarbháis, a mbíonn cur i láthair le sleamhnáin agus anailís níos doimhne ar an eachtra ag gabháil leo go minic. Cé nach mbímid ag bualadh bos tar éis scrúduithe iarbháis, déanaimid iarracht cultúr “gan milleán” a fhorbairt (cultúr gan mhilleán). Creidimid gur féidir linn scrúdú iarbháis a scríobh agus a chur i láthair cabhrú linn (agus daoine eile) teagmhais chomhchosúla a chosc sa todhchaí, agus is é sin an fáth go bhfuilimid á roinnt.

Ba cheart go mothódh daoine aonair a bhfuil baint acu le heachtra gur féidir leo labhairt amach go mion gan eagla a bheith orthu roimh phionós nó cúiteamh. Gan milleán! Ní pionós é post mortem a scríobh, ach deis foghlama don chuideachta ar fad.

Coinnigh CALMS & DevOps: Tá S le Roinnt

Fadhbanna le DNS i Kubernetes. iarbháis

Dáta: 28.02.2020

Údair: Amet U., Andrey S., Igor K., Alexey P.

Stádas: Críochnaithe

Go hachomair: Neamh-infhaighteacht páirteach DNS (26 min) do roinnt seirbhísí i mbraisle Kubernetes

Tionchar: Cailleadh 15000 imeacht do sheirbhísí A, B agus C

Bhunchúis: Níorbh fhéidir le Kube-proxy seaniontráil a bhaint i gceart den tábla conntrack, mar sin bhí roinnt seirbhísí fós ag iarraidh ceangal le pods nach bhfuil ann

E0228 20:13:53.795782       1 proxier.go:610] Failed to delete kube-system/kube-dns:dns endpoint connections, error: error deleting conntrack entries for UDP peer {100.64.0.10, 100.110.33.231}, error: conntrack command returned: ...

Truicear: Mar gheall ar an ualach íseal taobh istigh de bhraisle Kubernetes, laghdaigh CoreDNS-autoscaler líon na pods san imscaradh ó thrí go dhá

réiteach: Chuir an chéad imscaradh eile den fheidhmchlár tús le cruthú nóid nua, chuir CoreDNS-autoscaler tuilleadh pods leis chun freastal ar an mbraisle, rud a spreag athscríobh an tábla conntrack

Brath: Bhraith monatóireacht Prometheus líon mór earráidí 5xx do sheirbhísí A, B agus C agus cuireadh tús le glao chuig na hinnealtóirí ar dualgas

Fadhbanna le DNS i Kubernetes. Post mortem poiblí
Earráidí 5xx i Kibana

Gníomhaíocht

éifeacht
Cineál
Freagrach
Tasc

Díchumasaigh an scálaire uathoibríoch do CoreDNS
coiscthe
Amet U.
DEVOPS-695

Socraigh freastalaí DNS caching
laghdú
Max V.
DEVOPS-665

Socraigh monatóireacht contrack
coiscthe
Amet U.
DEVOPS-674

Ceachtanna a foghlaimíodh

Cad a chuaigh go maith:

  • D’oibrigh an mhonatóireacht go maith. Bhí an freagra tapa agus eagraithe
  • Níor shroicheamar aon teorainn leis na nóid

Cad a bhí mícheart:

  • Fós bunchúis anaithnid, cosúil le fabht ar leith i gcontra
  • Ní cheartaíonn gach gníomh ach na hiarmhairtí, ní an bhunchúis (fabht)
  • Bhí a fhios againn go bhféadfadh fadhbanna a bheith againn le DNS luath nó mall, ach níor thugamar tosaíocht do na tascanna

Áit a bhfuaireamar an t-ádh:

  • Ba é CoreDNS-autoscaler a spreag an chéad imscaradh eile, a scríobh an tábla conntrack
  • Ní raibh tionchar ag an bhfabht seo ach ar roinnt seirbhísí

Amlíne (EET)

Am
éifeacht

22:13
Laghdaigh CoreDNS-autoscaler líon na pods ó thrí go dhá

22:18
Thosaigh innealtóirí a bhí ar dualgas ag fáil glaonna ón gcóras monatóireachta

22:21
Thosaigh na hinnealtóirí a bhí ar dualgas ag fáil amach cad ba chúis leis na hearráidí.

22:39
Thosaigh innealtóirí ar dualgas ag tabhairt ceann de na seirbhísí is déanaí siar go dtí an leagan roimhe seo

22:40
Earráidí 5xx stop le feiceáil, tá an scéal cobhsaithe

  • Am le brath: 4 nóiméad
  • Am roimh ghníomh: 21 nóiméad
  • Am a dheisiú: 1 nóiméad

faisnéis bhreise

Chun úsáid LAP a íoslaghdú, úsáideann an eithne Linux rud ar a dtugtar conntrack. I mbeagán focal, is fóntais é seo ina bhfuil liosta de thaifid TAN atá stóráilte i dtábla speisialta. Nuair a shroicheann an chéad phaicéad eile ón pod céanna go dtí an pod céanna mar a bhí roimhe seo, ní dhéanfar an seoladh IP deiridh a athríomh, ach tógfar é ón tábla conntrack.
Fadhbanna le DNS i Kubernetes. Post mortem poiblí
Conas a oibríonn Contrack

Torthaí

Ba shampla é seo de cheann dár scrúduithe iarbháis le roinnt nasc úsáideach. Go sonrach san Airteagal seo, roinnimid faisnéis a d'fhéadfadh a bheith úsáideach do chuideachtaí eile. Sin an fáth nach bhfuil eagla orainn botúin a dhéanamh agus sin an fáth a ndéanaimid ceann dár scrúduithe iarbháis a phoibliú. Seo roinnt iarbháis poiblí níos suimiúla:

Foinse: will.com

Add a comment