Hien ass net gutt fir Iech

Am Zesummenhang mat der wuessender Popularitéit vum Rook, géif ech gär iwwer seng Falen a Probleemer schwätzen, déi Iech op de Wee waarden.

Iwwer mech: Erfahrung an Ceph Administratioun vun Hammer Versioun, Communautéit Grënner t.me/ceph_ru am Telegramm.

Fir net onbegrënnt ze sinn, wäert ech op Posts referenzéieren, déi vum Habr akzeptéiert ginn (vum Bewäertung beuerteelen) iwwer Probleemer mat Ceph. Ech hunn och déi meescht Problemer an dëse Posts begéint. Linken op dat benotzt Material sinn um Enn vum Post.

Am Post iwwer Rook ernimme mir Ceph aus engem Grond - Rook ass am Wesentlechen Ceph a Kubernetes gewéckelt, dat heescht datt et all seng Probleemer ierft. Loosst eis mat Ceph Problemer ufänken.

Vereinfacht Cluster Management

Ee vun de Virdeeler vum Rook ass d'Liichtegkeet fir Ceph duerch Kuberentes ze managen.

Wéi och ëmmer, Ceph enthält méi wéi 1000 Parameteren fir d'Konfiguratioun, a gläichzäiteg, duerch Rook kënne mir nëmmen eng Minoritéit vun hinnen änneren.

Beispill op Luminous
> ceph daemon mon.a config weisen | wc-l
1401

Rook ass positionéiert als e praktesche Wee fir Ceph z'installéieren an ze aktualiséieren
Et gi keng Probleemer mat der Installatioun vun Ceph ouni Rook - ansible Playbook ass an 30 Minutten geschriwwen, awer et gi vill Probleemer mat der Aktualiséierung.

Zitat aus dem Krok sengem Post

Beispill: Crush tunables funktionnéieren net korrekt nom Update vum Hummer op Bijou

> ceph osd crush show-tunables
{
...
"straw_calc_version": 1,
"allowed_bucket_algs": 22,
"profile": "onbekannt",
"optimal_tunables": 0,
...
}

Awer och a klenge Versioune ginn et Probleemer.

Beispill: Update 12.2.6 bréngt de Stärekoup an de Gesondheetsfehlerzoustand a bedingt gebrach PG
ceph.com/releases/v12-2-8-released

Net aktualiséieren, waart a testen? Mee mir schéngen Rook fir d'Kamoudheet vun Aktualiséierungen ze benotzen, ënner anerem.

Komplexitéit vun der Katastroph Erhuelung Stärekoup am Rook

Beispill: OSD fällt mat engem Ausschlag vu Feeler op seng Féiss. Dir de Verdacht datt de Problem an engem vun de Parameteren an der Configuratioun ass, Dir wëllt d'Konfiguratioun fir e spezifesche Daemon änneren, awer Dir kënnt net well Dir Kubernetes an DaemonSet hutt.

Et gëtt keng Alternativ. ceph tell osd.Num injectargs fonctionnéiert net - d'OSD läit.

Schwieregkeeten Debuggen

E puer Setups a Performance Tester erfuerderen d'Verbindung direkt un den Osd Socket vum Daemon. Am Fall vum Rook musst Dir als éischt de gewënschte Container fannen, da gitt an et, fannt d'Tooling fehlt fir Debug a si ganz opgeregt.

Schwieregkeeten OSD konsequent eropzesetzen

Beispill: OSD falen an OOM, Rebalance fänkt, no deem déi folgend falen.

Léisung: Erhéije den OSD een an enger Zäit, waart bis et komplett am Cluster abegraff ass an déi nächst erop. (Méi Detailer am Ceph Bericht. Anatomie vun enger Katastroph).

Am Fall vun enger Baremetal Installatioun gëtt dëst einfach mat der Hand gemaach; am Fall vu Rook an engem OSD pro Node gi keng speziell Probleemer; Probleemer mat alternativen Hebe entstinn wann OSD> 1 pro Node.

Natierlech kënne se geléist ginn, awer mir benotzen Rook fir Saachen ze vereinfachen, awer méi Komplexitéit ze kréien.

Schwieregkeete bei der Auswiel vu Grenzen fir Ceph Dämonen

Fir eng baremetal Installatioun vu Ceph ass et ganz einfach déi néideg Ressourcen fir e Stärekoup ze berechnen - et gi Formelen a Fuerschung ass verfügbar. Wann Dir eng schwaach CPU benotzt, musst Dir nach ëmmer e puer Performance Tester lafen fir erauszefannen wat Numa ass, awer et ass ëmmer méi einfach wéi Rook.

Am Fall vun Rook, Nieft der Erënnerung Limite datt berechent ginn, Dir hutt d'Fro vun engem Kader CPU Limite.

An hei musst Dir schwéier mat Leeschtungstester schaffen. Wann Dir d'Limiten erofgeet, kritt Dir e luesen Cluster; wann Dir unlim setzt, kritt Dir aktiv CPU Notzung beim Rebalancing, wat e schlechten Effekt op Är Uwendungen an kubernetes huet.

Netzwierkprobleemer v1

Fir Ceph ass et recommandéiert en 2x10GB Netzwierk ze benotzen. Ee fir Client Traffic, déi aner fir Ceph Service Bedierfnesser (Rebalance). Wann Dir mam Ceph op Baremetal wunnt, dann ass dës Divisioun einfach konfiguréiert, wann Dir mam Rook wunnt, da wäert d'Divisioun duerch Netzwierker Iech Probleemer verursaachen, wéinst der Tatsaach datt net all Clusterkonfiguratioun Iech erlaabt zwee verschidde Netzwierker op de Pod ze fidderen .

Netzwierkprobleemer v2

Wann Dir refuséiert Netzwierker ze trennen, dann beim Rebalancéiere wäert de Ceph-Traffic de ganze Kanal verstoppen an Är Uwendungen a kubernetes verlangsamen oder crashen. Dir kënnt d'Geschwindegkeet vun der Ceph-Rebalancing reduzéieren, awer duerch de laange Rebalancing kritt Dir e verstäerkte Risiko fir den zweeten Node aus dem Cluster iwwer Disken oder OOM ze falen, an et gëtt schonn eng garantéiert Liesung fir de Cluster.

Laang rebalance - laang Applikatioun lags

Zitat aus dem Ceph sengem Post. Anatomie vun enger Katastroph.

Test Cluster Leeschtung:

Eng Schreifoperatioun vu 4 KB an der Gréisst dauert 1 ms, d'Leeschtung ass 1000 Operatiounen / Sekonn an 1 Fuedem.

Eng Operatioun vu 4 MB (Objetgréisst) dauert 22 ms, Leeschtung ass 45 Operatiounen / Sekonn.

Dofir, wann een Domän vun dräi feelt, ass de Stärekoup an engem degradéierten Zoustand fir eng Zäit, an d'Halschent vun den waarmen Objete sinn iwwer verschidde Versioune verdeelt, da fänkt d'Halschent vun de Schreifoperatioune mat enger gezwongener Erhuelung un.

Mir berechent der gezwongen Erhuelung Zäit ongeféier - schreiwen Operatiounen zu engem degradéiert Objet.

Als éischt liesen mir 4 MB an 22 ms, schreiwen 22 ms, an dann an 1 ms schreiwen mir 4 KB vun aktuellen Donnéeën. Insgesamt 45 ms pro Schreifoperatioun zu engem degradéierten Objet op enger SSD, wann d'Standardleistung 1 ms war - e 45-fache Réckgang vun der Leeschtung.

Wat méi héich ass de Prozentsaz vun degradéierten Objeten déi mir hunn, dest méi schlëmm gëtt alles.

Et stellt sech eraus datt d'Geschwindegkeet vum Rebalancéiere kritesch ass fir déi richteg Operatioun vum Cluster.

Spezifesch Server Astellunge fir ceph

ceph kann spezifesch Hosttuning erfuerderen.

Beispill: sysctl Astellungen an déiselwecht JumboFrame, e puer vun dësen Astellunge kënnen Är Notzlaascht negativ beaflossen.

De reelle Besoin fir Rook bleift a Fro

Wann Dir an der Wollek sidd, hutt Dir Späichere vun Ärem Cloud Provider, wat vill méi praktesch ass.

Wann Dir op Ären eegene Server sidd, da wäert d'Gestioun vum Ceph méi praktesch sinn ouni kubernetes.

Loyer Dir Servere vun e puer bëlleg Hosting? Da wäert Dir vill Spaass mam Netz, seng Verspéidungen a Bandbreedung hunn, wat d'Ceph kloer negativ beaflosst.

Total: Kuberentes ëmsetzen an d'Lagerung ëmsetzen sinn verschidden Aufgaben mat verschiddenen Inputen a verschiddene Léisungsoptiounen - se vermëschen heescht e méiglecherweis geféierlechen Ofwiesselung fir deen een oder aneren ze maachen. Et wäert ganz schwéier sinn dës Léisungen och an der Designstadium ze kombinéieren, an et gëtt nach eng Period vun der Operatioun.

Lëscht vun de benotzte Literatur:

Post #1 Awer Dir sot Ceph ... ass hien wierklech sou gutt?
Post #2 Ceph. Anatomie vun enger Katastroph

Source: will.com

Setzt e Commentaire