Pieredze Ceph krātuves izveidē ar tebibaitu sekundē

Inženieris no Clyso apkopoja pieredzi, kas gÅ«ta, veidojot krātuves klasteru, pamatojoties uz defektiem izturÄ«gu izplatÄ«tu Ceph sistēmu ar caurlaidspēju, kas pārsniedz tebibaitus sekundē. Tiek atzÄ«mēts, ka Å”is ir pirmais uz Ceph balstÄ«tais klasteris, kas spējis sasniegt Ŕādu rādÄ«tāju, taču pirms uzrādÄ«tā rezultāta iegūŔanas inženieriem bija jāpārvar virkne ne acÄ«mredzamu slazdu.

Piemēram, lai palielinātu veiktspēju par 10–20 %, serveru BIOS enerÄ£ijas taupīŔanas iestatÄ«jumos bija pietiekami iespējot tikai maksimālās veiktspējas režīmu un atspējot c-state (c-state maina enerÄ£ijas taupīŔanas parametrus atkarÄ«bā no slodzes, kas ietekmē Ceph). IzrādÄ«jās arÄ«, ka, izmantojot NVMe diskus, kodols Linux IOMMU kartēŔanas atjaunināŔanas procesā ievērojams laika daudzums tiek pavadÄ«ts, apstrādājot spinlock kļūdas. IOMMU atspējoÅ”ana kodolā ievērojami uzlaboja veiktspēju 4 MB bloku rakstīŔanas un lasīŔanas testos.

Tomēr IOMMU atspējoÅ”ana neatrisināja veiktspējas kritumu, rakstot nejauÅ”us 4 KB blokus. Izpētot problēmu, inženieri atrada labojumus Ceph bÅ«vēŔanas skriptos no Gentoo un Ubuntu, kas ietvēra veidoÅ”anu ar RelWithDebInfo opciju, jo tā iespējoja GCC optimizācijas režīmu "-O2", kas ievērojami palielināja Ceph veiktspēju. KompilēŔana ar TCMalloc bibliotēku arÄ« izraisÄ«ja veiktspējas sodu. Kompilācijas karodziņu maiņa un TCMalloc izmantoÅ”anas likvidēŔana trÄ«s reizes samazināja saspieÅ”anas laiku un divkārÅ”oja nejauÅ”as 4K rakstīŔanas veiktspējas pieaugumu. Visbeidzot, tika veiktas papildu optimizācijas Reef RocksDB iestatÄ«jumos un izvietojuma grupās (PG).

Klasteris ir veidots no 68 mezgliem, pamatojoties uz serveriem Dell PowerEdge R6615 ar AMD EPYC 9454P 48C/96T centrālo procesoru. Katrā mezglā ir 10 Dell 15.36 TB NVMe diski, divi Mellanox ConnectX-6 100GbE Ethernet adapteri un 192 GB RAM. ProgrammatÅ«ra ir balstÄ«ta uz Ubuntu 20.04.6 un Ceph 17.2.7. Klasterim, kurā darbojas 63 mezgli, ir 630 OSD (Object Storage Daemon, fona process, kas pārvalda datu glabāŔanu lokālajā krātuvē, viens OSD katram NVMe diskam), trÄ«s MON procesi (uzrauga, uzrauga klastera statusu) un viens MGR process (Manager, pārvaldÄ«bas pakalpojums). Krātuves lielums ir 8.2 PB.

Caurlaide 4M bloku secÄ«gās nolasīŔanas operācijām bija 1025 GiB/s, rakstīŔanai - 270 GiB/s. NejauÅ”i lasot 4KB blokus, veiktspēja bija 25.5 miljoni lasīŔanas operāciju sekundē un 4.9 miljoni rakstīŔanas operāciju. Å ifrēŔanas iespējoÅ”ana samazināja lasīŔanas caurlaidspēju lÄ«dz aptuveni 750 GiB/s. Kad tika iespējoti EC62 kļūdu laboÅ”anas kodi, caurlaidspēja lasot bija 547 GiB/s un rakstot 387 GiB/s (rakstīŔanas ātrums bija lielāks nekā bez korekcijas kodiem), un ar brÄ«vpiekļuves 3.4M IOPS lasot un 936K IOPS rakstot. .

Pieredze Ceph krātuves izveidē ar tebibaitu sekundē
Pieredze Ceph krātuves izveidē ar tebibaitu sekundē

Turklāt var atzīmēt, ka septembrī līdzīgs caurlaidspējas pavērsiens - tebibaiti sekundē tika sasniegts CERN eksabaitu krātuves klasterī, kas tika ieviests, pamatojoties uz EOS atvērto izplatīto krātuvi, kas veidota uz XRootD protokola.

Avots: opennet.ru

Iegādājieties uzticamu mitināŔanu vietnēm ar DDoS aizsardzÄ«bu, VPS VDS serveriem šŸ”„ Iegādājieties uzticamu tÄ«mekļa vietņu mitināŔanu ar DDoS aizsardzÄ«bu, VPS VDS serveriem | ProHoster