Wawancara mini sareng Oleg Anastasyev: kasabaran kasalahan dina Apache Cassandra

Wawancara mini sareng Oleg Anastasyev: kasabaran kasalahan dina Apache Cassandra

Odnoklassniki mangrupikeun pangguna panggedena Apache Cassandra dina RuNet sareng salah sahiji anu panggedéna di dunya. Urang mimitian nganggo Cassandra dina 2010 pikeun nyimpen rating poto, sareng ayeuna Cassandra ngokolakeun petabytes data dina rébuan titik, saleresna, urang malah ngembangkeun sorangan. database transaksional NewSQL.
Dina 12 Séptémber di kantor St. Petersburg urang bakal ngayakeun meetup kadua dedicated ka Apache Cassandra. Speaker utama acara bakal lulugu insinyur Odnoklassniki Oleg Anastasyev. Oleg mangrupikeun ahli dina widang sistem anu disebarkeun sareng toleran kasalahan; anjeunna parantos damel sareng Cassandra langkung ti 10 taun sareng sababaraha kali. spoke ngeunaan fitur ngagunakeun produk ieu dina konferensi.

Dina wengi meetup, urang ngobrol jeung Oleg ngeunaan kasabaran lepat sistem disebarkeun kalawan Cassandra, ditanya naon anu anjeunna ngobrol ngeunaan di meetup jeung naha éta patut attending acara ieu.

Oleg mimiti karir programming na deui dina 1995. Anjeunna ngembangkeun parangkat lunak dina perbankan, telekomunikasi, sareng transportasi. Anjeunna parantos damel salaku pamekar utama di Odnoklassniki ti saprak 2007 dina tim platform. Tanggung jawabna kalebet ngembangkeun arsitéktur sareng solusi pikeun sistem beban tinggi, gudang data ageung, sareng ngarengsekeun masalah kinerja portal sareng reliabilitas. Anjeunna ogé ngalatih pamekar dina perusahaan.

- Oleg, halo! Dina Méi lumangsung pasamoan munggaran, dedicated ka Apache Cassandra, pamilon nyebutkeun yen diskusi lumangsung nepi ka telat peuting, punten wartosan abdi, naon tayangan anjeun tina meetup munggaran?

Pamekar sareng latar tukang anu béda ti perusahaan anu béda sumping kalayan nyeri sorangan, solusi anu teu kaduga pikeun masalah sareng carita anu luar biasa. Urang junun ngalaksanakeun lolobana meetup dina format sawala, tapi aya kitu loba diskusi nu urang ngan bisa noél dina sapertilu tina jejer rencanana. Kami nengetan pisan kumaha sareng naon anu kami pantau nganggo conto jasa produksi nyata kami.

Kuring éta kabetot tur bener resep eta.

- Ditilik ku pengumuman, pasamoan kadua bakal sagemblengna devoted kana toleransi sesar, naha anjeun milih topik ieu?

Cassandra nyaéta sistem disebarkeun sibuk has kalawan jumlah badag fungsi saluareun langsung ngalayanan requests pamaké: gosip, deteksi gagalna, rambatan parobahan schema, ékspansi klaster / ngaleutikan, anti entropi, cadangan tur recovery, jsb. Sapertos dina sistem anu disebarkeun, nalika jumlah hardware ningkat, kamungkinan gagalna ningkat, ku kituna operasi klaster produksi Cassandra peryogi pamahaman anu jero ngeunaan strukturna pikeun ngaduga paripolah bisi gagal sareng tindakan operator. Saatos nganggo Cassandra mangtaun-taun, urang geus akumulasi kaahlian signifikan, nu kami siap bagikeun, sarta kami ogé rék ngabahas kumaha kolega di warung ngajawab masalah has.

— Lamun datang ka Cassandra, naon anu anjeun maksud ku toleransi kasalahan?

Anu mimiti, tangtosna, kamampuan sistem pikeun salamet kagagalan hardware has: leungitna mesin, disk atanapi konektipitas jaringan sareng titik / pusat data. Tapi topikna sorangan langkung lega sareng khususna kalebet pamulihan tina kagagalan, kalebet kagagalan anu jarang disiapkeun ku jalma, contona, kasalahan operator.

- Dupi anjeun masihan conto klaster data paling dimuat tur pangbadagna?

Salah sahiji klaster pangbadagna kami nyaéta kluster kado: leuwih ti 200 titik jeung ratusan TB data. Tapi teu paling dimuat, saprak éta katutupan ku cache disebarkeun. Kluster pangsibukna urang ngadamel puluhan rébu RPS pikeun nyerat sareng rébuan RPS pikeun maca.

- Wow! Sabaraha sering hiji hal megatkeun?

Sumuhun sadaya waktu! Dina total, urang boga leuwih ti 6 sarébu server, sarta unggal minggu diganti sababaraha server na sababaraha belasan disk (tanpa nyokot kana akun prosés paralel pamutahiran sarta perluasan armada mesin). Pikeun unggal jinis kagagalan, aya petunjuk anu jelas ngeunaan naon anu kudu dilakukeun sareng dina urutan naon, sadayana diotomatisasi sabisana, janten kagagalan rutin sareng dina 99% kasus lumangsung tanpa ditingali ku pangguna.

— Kumaha anjeun nungkulan panolakan sapertos kitu?

Ti mimiti operasi Cassandra sareng kajadian anu munggaran, urang damel dina mékanisme pikeun nyadangkeun sareng pamulihan ti aranjeunna, ngawangun prosedur panyebaran anu tumut kana kaayaan klaster Cassandra sareng, contona, henteu ngijinkeun titik dibalikan deui. lamun leungitna data mungkin. Kami ngarencanakeun pikeun ngobrol ngeunaan sadayana ieu dina rapat.

- Sakumaha anjeun nyarios, teu aya sistem anu leres-leres dipercaya. Jenis kagagalan naon anu anjeun siapkeun sareng tiasa salamet?

Lamun urang ngobrol ngeunaan pamasangan klaster Cassandra, pamaké moal aya bewara nanaon lamun urang leungit sababaraha mesin dina hiji DC atawa sakabéh DC (ieu geus lumangsung). Jeung kanaékan jumlah DCs, urang mikir ngeunaan dimimitian pikeun mastikeun operability dina acara gagalna dua DCs.

— Kumaha saur anjeun Cassandra kurang tina segi toleransi kasalahan?

Cassandra, sapertos seueur toko NoSQL awal anu sanés, peryogi pamahaman anu jero ngeunaan struktur internalna sareng prosés dinamis anu lumangsung. Kuring bakal nyebutkeun yén éta lacks kesederhanaan, predictability na observability. Tapi bakal jadi istiméwa ngadéngé pamadegan pamilon rapat séjén!

Oleg, hatur nuhun pisan pikeun nyéépkeun waktos pikeun ngajawab patarosan!

Kami ngantosan sadayana anu hoyong komunikasi sareng para ahli dina widang operasi Apache Cassandra dina rapat 12 Séptémber di kantor St.

Hayu, éta bakal metot!

Ngadaptar pikeun acara.

sumber: www.habr.com

Tambahkeun komentar