Dili siya maayo para nimo

May kalabotan sa nagkadako nga pagkapopular sa Rook, gusto nakong hisgutan ang mga lit-ag ug mga problema nga naghulat kanimo sa dalan.

Mahitungod kanako: Kasinatian sa pagdumala sa ceph gikan sa bersyon sa martilyo, nagtukod sa komunidad t.me/ceph_ru sa telegrama.

Aron dili walay basehanan, akong i-refer ang mga post nga gidawat ni Habr (judging by the rating) mahitungod sa mga problema ni ceph. Nasinati usab nako ang kadaghanan sa mga problema sa kini nga mga post. Ang mga link sa materyal nga gigamit naa sa katapusan sa post.

Sa post bahin sa Rook, among gihisgutan ang ceph sa usa ka hinungdan - Ang Rook hinungdanon nga ceph giputos sa mga kubernetes, nga nagpasabut nga napanunod niini ang tanan nga mga problema niini. Magsugod ta sa mga problema sa ceph.

Pasimpleha ang pagdumala sa cluster

Usa sa mga bentaha sa Rook mao ang kadali sa pagdumala sa ceph pinaagi sa kuberentes.

Bisan pa, ang ceph adunay labaw pa sa 1000 nga mga parameter alang sa pag-configure, samtang sa parehas nga oras, pinaagi sa rook mahimo ra naton ma-edit ang usa ka minorya niini.

Pananglitan sa Luminous
> ceph daemon mon.a config show | wc -l
1401

Ang Rook gipahimutang ingon usa ka kombenyente nga paagi sa pag-install ug pag-update sa ceph
Walay mga problema sa pag-instalar sa ceph nga walay Rook - ang ansible nga playbook gisulat sa 30 minutos, apan adunay daghang mga problema sa pag-update.

Quote gikan sa post ni Krok

Pananglitan: ang crush tunables dili molihok sa husto pagkahuman sa pag-update gikan sa hummer hangtod sa mutya

> ceph osd crush show-tunables
{
...
"straw_calc_version": 1,
"allowed_bucket_algs": 22,
"profile": "wala mailhi"
"optimal_tunables": 0,
...
}

Apan bisan sa sulod sa gagmay nga mga bersyon adunay mga problema.

Pananglitan: Pag-update sa 12.2.6 nga nagdala sa cluster sa kahimtang sa kahimsog sa kahimsog ug adunay kondisyon nga nabuak nga PG
ceph.com/releases/v12-2-8-released

Ayaw pag-update, paghulat ug pagsulay? Apan ingon og gigamit namon ang Rook alang sa kasayon ​​​​sa mga pag-update, taliwala sa ubang mga butang.

Pagkakomplikado sa disaster recovery cluster sa Rook

Pananglitan: Ang OSD nahulog nga adunay daghang mga sayup sa tiil niini. Nagduda ka nga ang problema naa sa usa sa mga parameter sa config, gusto nimo usbon ang config para sa usa ka piho nga daemon, apan dili nimo mahimo tungod kay ikaw adunay mga kubernetes ug DaemonSet.

Walay alternatibo. ceph tell osd.Num injectargs dili molihok - ang OSD namakak.

Kalisud sa pag-debug

Ang ubang mga setup ug performance test nanginahanglan og direktang koneksyon sa osd socket sa daemon. Sa kaso sa Rook, kinahanglan nimo una nga pangitaon ang gitinguha nga sudlanan, dayon adto niini, pangitaa ang tooling nga nawala alang sa pag-debug ug masuko kaayo.

Kalisud sa pagpataas sa OSD nga sunud-sunod

Pananglitan: Ang OSD nahulog sa OOM, nagsugod ang pagbalanse, pagkahuman nahulog ang mga mosunod.

Solusyon: Ipataas ang OSD sa usa ka higayon, paghulat hangtud nga kini hingpit nga maapil sa cluster ug ipataas ang sunod nga mga. (Dugang detalye sa taho ni Ceph. Anatomy of a disaster).

Sa kaso sa usa ka baremetal nga pag-instalar, kini gihimo pinaagi lamang sa kamot; sa kaso sa Rook ug usa ka OSD matag node, walay partikular nga mga problema; ang mga problema sa alternate lifting motungha kung OSD> 1 matag node.

Siyempre, kini masulbad, apan gigamit namo ang Rook aron pasimplehon ang mga butang, apan mas komplikado.

Kalisud sa pagpili sa mga limitasyon alang sa mga demonyo nga ceph

Alang sa usa ka baremetal nga pag-instalar sa ceph, dali ra makalkulo ang gikinahanglan nga mga kapanguhaan alang sa usa ka kumpol - adunay mga pormula ug magamit ang panukiduki. Kung naggamit ka usa ka huyang nga CPU, kinahanglan nimo nga magpadagan sa pipila ka mga pagsulay sa pasundayag aron mahibal-an kung unsa ang Numa, apan kini labi ka dali kaysa sa Rook.

Sa kaso sa Rook, dugang sa mga limitasyon sa panumduman nga mahimong kalkulado, ikaw adunay pangutana sa pagtakda sa limitasyon sa CPU.

Ug dinhi kinahanglan ka nga magtrabaho og maayo sa mga pagsulay sa pasundayag. Kung gipaubos nimo ang mga limitasyon, makakuha ka usa ka hinay nga kumpol; kung nagtakda ka nga unlim, makakuha ka nga aktibo nga paggamit sa CPU sa panahon sa pagbalanse, nga adunay dili maayo nga epekto sa imong mga aplikasyon sa kubernetes.

Mga Isyu sa Networking v1

Para sa ceph girekomendar nga mogamit ug 2x10GB nga network. Ang usa alang sa trapiko sa kliyente, ang usa alang sa mga kinahanglanon sa serbisyo sa ceph (rebalance). Kung nagpuyo ka sa ceph sa baremetal, nan kini nga dibisyon dali nga ma-configure, kung nagpuyo ka kauban ang Rook, nan ang pagbahin sa mga network magpahinabog mga problema kanimo, tungod sa kamatuoran nga dili tanan nga cluster config nagtugot kanimo sa pagpakaon sa duha ka lainlaing mga network sa pod. .

Mga Isyu sa Networking v2

Kung magdumili ka sa pagbulag sa mga network, unya kung magbalanse, ang trapiko sa ceph mobara sa tibuuk nga channel ug ang imong mga aplikasyon sa kubernetes mohinay o mag-crash. Mahimo nimong pakunhuran ang katulin sa pagbalanse sa ceph, apan pagkahuman tungod sa dugay nga pagbalanse nakakuha ka usa ka dugang nga peligro sa ikaduha nga node nga nahulog gikan sa cluster pinaagi sa mga disk o OOM, ug adunay usa ka garantiya nga pagbasa lamang alang sa cluster.

Taas nga pagbalanse - taas nga mga paglangan sa aplikasyon

Quote gikan sa post ni Ceph. Anatomy sa usa ka katalagman.

Pagsulay sa performance sa cluster:

Ang pagsulat nga operasyon sa 4 KB sa gidak-on nagkinahanglan og 1 ms, ang performance kay 1000 ka operasyon/segundo sa 1 ka thread.

Ang operasyon nga 4 MB (gidak-on sa butang) mokabat ug 22 ms, ang pasundayag 45 ka operasyon/segundo.

Tungod niini, kung ang usa ka domain gikan sa tulo mapakyas, ang cluster anaa sa usa ka degraded nga kahimtang sulod sa pipila ka panahon, ug ang katunga sa init nga mga butang gipang-apod-apod sa lainlaing mga bersyon, unya ang katunga sa mga operasyon sa pagsulat magsugod sa usa ka pinugos nga pagbawi.

Gibanabana namon ang gipugos nga oras sa pagbawi - isulat ang mga operasyon sa usa ka butang nga nadaot.

Una atong basahon ang 4 MB sa 22 ms, isulat ang 22 ms, ug unya sa 1 ms atong isulat ang 4 KB sa aktuwal nga datos. Usa ka kinatibuk-an nga 45 ms kada pagsulat nga operasyon sa usa ka degraded nga butang sa usa ka SSD, sa diha nga ang standard nga performance mao ang 1 ms - usa ka 45-pilo nga drop sa performance.

Kung mas taas ang porsyento sa mga butang nga nadaot nga naa kanato, mas grabe ang tanan.

Kini nahimo nga ang katulin sa rebalancing kritikal alang sa husto nga operasyon sa cluster.

Piho nga mga setting sa server para sa ceph

Ang ceph mahimong magkinahanglan ug piho nga host tuning.

Pananglitan: mga setting sa sysctl ug parehas nga JumboFrame, pipila niini nga mga setting mahimong negatibo nga makaapekto sa imong kargamento.

Ang tinuod nga panginahanglan alang sa Rook nagpabilin sa pangutana

Kung naa ka sa panganod ikaw adunay pagtipig gikan sa imong cloud provider, nga labi ka dali.

Kung naa ka sa imong kaugalingon nga mga server, nan ang pagdumala sa ceph mahimong labi ka dali kung wala ang mga kubernetes.

Nag-abang ka ba sa mga server gikan sa pipila ka barato nga pag-host? Unya malingaw ka sa network, ang mga paglangan ug bandwidth, nga klaro nga negatibo nga nakaapekto sa ceph.

Total: Ang pag-implementar sa kuberentes ug pag-implementar sa storage lain-laing mga buluhaton nga adunay lain-laing mga input ug lain-laing mga opsyon sa solusyon - ang pagsagol niini nagpasabot sa paghimo sa usa ka posibleng delikado nga trade-off alang sa usa o sa lain. Lisud kaayo ang pagkombinar niini nga mga solusyon bisan sa yugto sa disenyo, ug aduna pay panahon sa operasyon.

Lista sa gigamit nga literatura:

Post #1 Pero moingon ka Ceph... maayo ba gyud siya?
Post #2 Si Ceph. Anatomy sa usa ka katalagman

Source: www.habr.com

Idugang sa usa ka comment