🥇Liveness probes në Kubernetes mund të jenë të rrezikshme

Shën. përk.: Inxhinier i kryesor nga kompania Zalando — Henning Jacobs — shpesh ka vërejtur te përdoruesit e Kubernetes probleme në kuptimin e qëllimit të provave të jetëgjatësisë (dhe gatishmërisë) dhe përdorimit të saktë të tyre. Prandaj ai ka mbledhur mendimet e tij në këtë nota të shkurtër, e cila me kalimin e kohës do të bëhet pjesë e dokumentacionit K8s.

Kontrolli i gjendjes, i njohur në Kubernetes si provat e jetëgjatësisë (dmth, në dosje, ‘testet për jetëgjatësi’ — shën. përkth.), mund të jenë mjaft të rrezikshme. Rekomandoj të shmangni ato sa më shumë që të jetë e mundur: përjashtimet janë vetëm rastet kur ato janë me të vërtetë të nevojshme dhe ju e kuptoni plotësisht specifikat dhe pasojat e përdorimit të tyre. Në këtë publikim do të flasë për provat e jetëgjatësisë dhe gatishmërisë, si dhe do të diskutohet se kur kushtojnë dhe kur nuk duhen aplikuar.

Kolegu im Sandor së fundmi ndau në Twitter gabimet më të zakonshme që i takohen, përfshirë ato që lidhen me përdorimin e provave të gatishmërisë/jetëgjatësisë:

Konfiguruar gabim livenessProbe mund të përkeqësojë situatat me ngarkesë të lartë (ndërprerje në zinxhir + nisje potencialisht e gjatë të kontejnerit/aplikacionit) dhe të sjellë pasojat e tjera negative siç janë rëniet e varësive (shih gjithashtu artikullin tim të fundit për kufizimin e numrit të kërkesave në kombinimin K3s+ACME). Akoma më keq, kur liveness probe kombinohet me kontrollin e shëndetit të varësisë (health check), e cila është një bazë të dhënash e jashtme: një dështim i vetëm i DB do të rinisë të gjithë kontejnerët tuaj!

Mesazhi i përgjithshëm «Mos përdorni liveness probes» në këtë rast ndihmon pak, prandaj le të shqyrtojmë për çfarë janë krijuar kontrollet readiness dhe liveness.

Shënim: pjesa më e madhe e testit të mëposhtëm ishte fillimisht përfshirë në dokumentacionin e brendshëm për zhvilluesit e Zalando.

Kontrolli Readiness dhe Liveness

Kubernetes ofron dy mekanizma të rëndësishëm, të quajtur liveness probes dhe readiness probes. Ato kryejnë një veprim të caktuar në mënyrë periodike — për shembull, dërgojnë një kërkesë HTTP, hapin një lidhje TCP ose ekzekutojnë një komandë në kontejner — për të konfirmuar që aplikacioni funksionon siç duhet.

Kubernetes përdor readiness probes, për të kuptuar se kur kontejneri është gati për të pranuar trafik. Pod-i konsiderohet i gatshëm për punë kur të gjitha kontejnerët e tij janë gati. Një nga përdorimet e këtij mekanizmi është të kontrollojë cilat pod-e përdoren si backend për shërbimet Kubernetes (dhe sidomos Ingress-in).

Kontrollet e gatishmërisë ndihmojnë Kubernetes të kuptojë kur është koha për të rinisur kontejnerin. Për shembull, një verifikim i tillë lejon kapjen e ngërçit, kur aplikacioni "ngjitet" në një vend. Rinisi i kontejnerit në një gjendje të tillë ndihmon në lëvizjen e aplikacionit nga pika e vdekur, pavarësisht nga gabimet, megjithatë, ai gjithashtu mund të çojë në dështime kaskadë (shih më poshtë).

Nëse përpiqeni të implementoni një përditësim të aplikacionit që dështon në kontrollet e gatishmërisë/gjallërisë, nxjerrja e tij do të ngecë, sepse Kubernetes do të presë statusin Gati nga të gjitha pod-et.

Shembuj

Ja një shembull i një kontrolli të gatishmërisë, që kontrollon rrugën /health nëpërmjet HTTP me cilësimet e parazgjedhura (interval: 10 sekonda, koha e skadimit: 1 sekondë, kufi suksesi: 1, kufi dështimi: 3):

# часть общего описания deployment'а/стека
podTemplate:
  spec:
    containers:
    - name: my-container
      # ...
      readinessProbe:
        httpGet:
          path: /health
          port: 8080

R rekomandimet

Për mikroshërbimet me endpoint HTTP (REST etj.) këtu duhet të përcaktoni gjithmonë një kontroll gatishmërie, e cila kontrollon nëse aplikacioni (pod-i) është gati për të pranuar trafik.
Sigurohuni që kontrolli i gatishmërisë mbulon gatishmërinë e portit të vërtetë të serverit të uebit:
- duke përdorur porte për nevoja administrative, të quajtur "admin" ose "management" (p.sh. 9090), për readinessProbe, sigurohuni që endpoint-i kthen OK vetëm nëse porta kryesore HTTP (si 8080) është e gatshme të pranojë trafik*;
  * Kam dijeni për të paktën një rast në Zalando kur kjo nuk ndodhi, domethënë readinessProbe verifikoi portin "management", por serveri vetë nuk filloi ndonjëherë të punonte për shkak të problemeve me ngarkimin e caches.
- varësimi i readiness probe në një port të veçantë mund të çojë në atë që ngarkesa në portin kryesor nuk pasqyrohet në health check (domethënë, porta e fijeve në server është e mbushur, por health check vazhdon të tregojë se gjithçka është OK).
Sigurohuni që readiness probe përfshin inicializimin/migrimin e bazës së të dhënave;
- mënyra më e thjeshtë për ta arritur këtë është të kontaktoni me serverin HTTP vetëm pas përfundimit të inicializimit (p.sh. migrimi i DB me Flyway etj.); domethënë, në vend që të ndryshoni statusin e health check-it, thjesht mos e nise serverin e uebit deri sa të përfundojë migrimi i DB*.
  * Po ashtu mund të filloni migrimet e DB nga init-kontejnerët jashtë pod’it. Ende jam një adhurues i aplikacioneve të vetë-mjaftueshme, domethënë atyre ku konteineri i aplikacionit e di si ta çojë DB-në në gjendjen e duhur pa koordinim të jashtëm.
Përdorni httpGet për kontrollet e gatishmërisë përmes endpoint’ëve tipikë të kontrolleve të shëndetit (për shembull, /health).
Shqyrtoni parametrat e kontrolleve të caktuar si parazgjedhje (interval: 10s, timeout: 1s, successThreshold: 1, failureThreshold: 3):
- parametrat e parazgjedhur do të thotë se pod-i do të bëhet not-ready afërsisht pas 30 sekondave (3 dështime të kontrolleve të funksionit).
Përdorni një port të veçantë për 'admin' ose 'menaxhim', nëse stoku i teknologjisë (për shembull, Java/Spring) e lejon këtë, për të ndarë menaxhimin e 'shëndetit' dhe metrikave nga trafiku normal:
- por mos harroni pikën 2.
Nëse është e nevojshme, mund të përdorni readiness probe për të ngrohur/ngarkuar cache-në dhe të ktheni kodin e statusit 503, derisa konteineri të 'ngrohet':
- po ashtu rekomandoj të njiheni me kontrollin e ri startupProbe, të shfaqur në versionin 1.16 (ne kemi shkruar rreth saj në rusisht këtu — shënim i përkthyesit.).

Paralajmërime

Mos u mbështetni në varësi të jashtme (si të dhënat e ruajtjes) gjatë testeve për gatishmëri/gjendemëri — kjo mund të çojë në dështime të kaskadës:
- si një shembull, le të marrim një shërbim stateful REST me 10 pod’ë që varen nga një bazë të dhënash Postgres: kur kontrolli varet nga një lidhje aktive me DB, të gjithë 10 pod’ët mund të dështojnë nëse ka një vonesë në rrjet/në anën e DB-së — zakonisht kjo përfundon më keq se sa mund të kishte qenë;
- vini re se Spring Data kontrollon lidhjen me DB si parazgjedhje*;
  * Kjo është sjellja e parazgjedhjes së Spring Data Redis (të paktën ka qenë kështu kur e kontrolova herën e fundit), e cila çoi në një dështim "katastrofik": kur Redis ishte për një kohë të shkurtër i paqasshëm, të gjithë pod’ët "dështuan".
- "jashtë" në këtë kuptim gjithashtu mund të nënkuptojë pod’ët e tjerë të të njëjtit aplikacion, domethënë në idealin kontrolli nuk duhet të varet nga gjendja e pod’ëve të tjerë të të njëjtit grup për të parandaloi dështimet e kaskadës:
  - rezultatet mund të ndryshojnë për aplikacionet me gjendje të shpërndarë (p.sh., caching në memorie në pod’ë).
Mos përdorni liveness probe për pod'ët (përjashtimet janë rastet kur ato janë me të vërtetë të nevojshme dhe ju jeni plotësisht në dijeni të specifikave dhe pasojave të përdorimit të tyre):
- probe liveness mund të ndihmojë në rikuperimin e konteinerëve 'të ngecur', por, pasi keni kontroll të plotë mbi aplikacionin tuaj, situata të tilla si proceset 'të ngecura' dhe deadlock nuk duhet të ndodhin në mënyrë ideale: alternativa më e mirë është rënia e qëllimshme e aplikacionit dhe rikthimi në gjendjen e mëparshme të qëndrueshme;
- dështimi i probe liveness do të shkaktojë ribërjen e konteinerit, duke përkeqësuar potencialisht pasojat e gabimeve të lidhura me ngarkesën: ribërja e konteinerit do të çojë në pezullim (të paktën për kohën e nisjes së aplikacionit, le të themi, për më shumë se 30 sekonda), duke shkaktuar gabime të reja, duke rritur ngarkesën në konteinerët e tjerë dhe duke rritur shanset për dështimin e tyre, etj.;
- kontrollimet e liveness në kombinim me një varësi të jashtme janë kombinimi më i keq i mundshëm, që rrezikon dështime në cascada: një vonesë e vogël në anën e DB do të çojë në ribërjen e të gjithë konteinerëve tuaj!
Parametrat e kontrolleve liveness dhe readiness duhet të jenë të ndryshëm:
- mund të përdoret liveness probe me të njëjtin health check, por me një prag më të lartë aktivizimi (failureThreshold), për shembull, të caktohet statusi not-ready pas 3 përpjekjeve dhe të konsiderohet se liveness probe ka dështuar pas 10 përpjekjeve;
Mos përdorni kontrolla exec, pasi ato kanë probleme të njohura, që çojnë në shfaqjen e proceseve zombie:
- detajet: shihni prezantimin e ekspertëve të kompanisë Datadog.

Curriculum Vitae

Përdorni readiness probes për të përcaktuar kur pod-i është i gatshëm të pranojë trafik.
Përdorni liveness probes vetëm kur janë me të vërtetë të nevojshme.
Përdorimi i gabuar i readiness/liveness probes mund të çojë në ulje të disponueshmërisë dhe dështime kaskadë.

Materiale shtesë për temën

Dokumentet e Kubernetes: Konfiguro Liveness dhe Readiness Probes;
Kubernetes Liveness dhe Readiness Probes të Rishikuara: Si të Shmangni Veten nga Shtylla tjetër;
NRE Labs Outage Post-Mortem (flitet gjithashtu për livenessProbe).

Përditësimi №1 nga 2019-09-29

Për init-kontainerët për migrimin e DB: është shtuar një shënim.

EJ më kujtoi për PDB: një nga problemet e liveness-probave është mungesa e koordinimit mes pod-eve. Në Kubernetes ka Pod Disruption Budgets (PDB) për të kufizuar numrin e dështimeve paralele që aplikacioni mund të përjetojë, megjithatë Kontrollimet nuk marrin parasysh PDB. Idealisht, mund të urdhërojmë K8s: "Rivado një pod, nëse kontrolli i tij dështoi, por mos e rivado të gjithë, që të mos e bësh edhe më keq."

Bryan e formuloi shkëlqyeshëm: "Përdorni sondimin e gjallërisë kur e dini saktësisht se gjëja më e mirë që mund të bëni është të 'vritni' aplikacionin" (përsëri, mos i jepni shumë).