Mini-wawancara karo Oleg Anastasyev: toleransi fault ing Apache Cassandra

Mini-wawancara karo Oleg Anastasyev: toleransi fault ing Apache Cassandra

Odnoklassniki minangka pangguna paling gedhe saka Apache Cassandra ing RuNet lan salah siji sing paling gedhe ing donya. Kita miwiti nggunakake Cassandra ing taun 2010 kanggo nyimpen rating foto, lan saiki Cassandra ngatur petabyte data ing ewonan simpul, malah kita ngembangaken dhewe. Database transaksional NewSQL.
Ing tanggal 12 September ing kantor St. Petersburg kita bakal terus meetup kapindho darmabakti kanggo Apache Cassandra. Pembicara utama acara kasebut bakal dadi kepala insinyur Odnoklassniki Oleg Anastasyev. Oleg minangka ahli ing bidang sistem distribusi lan toleransi kesalahan; dheweke wis nggarap Cassandra luwih saka 10 taun lan bola-bali. ngandika bab fitur saka nggunakake produk iki ing konferensi.

Ing wayah wengi rapat kasebut, kita ngobrol karo Oleg babagan toleransi kesalahan sistem sing disebarake karo Cassandra, takon apa sing bakal diomongake ing rapat kasebut lan kenapa kudu melu acara iki.

Oleg miwiti karir program ing taun 1995. Dheweke ngembangake piranti lunak ing perbankan, telekomunikasi, lan transportasi. Dheweke wis kerja minangka pangembang utama ing Odnoklassniki wiwit 2007 ing tim platform. Tanggung jawabe kalebu ngembangake arsitektur lan solusi kanggo sistem beban dhuwur, gudang data gedhe, lan ngrampungake masalah kinerja portal lan linuwih. Dheweke uga nglatih pangembang ing perusahaan kasebut.

- Oleg, hello! Ing Mei njupuk Panggonan ketemu pisanan, darmabakti kanggo Apache Cassandra, para peserta ngendika yen diskusi diterusake nganti larut malam, mangga kandhani, apa kesan sampeyan babagan pertemuan pertama?

Pangembang karo latar mburi beda saka perusahaan beda teka karo pain dhewe, solusi sing ora dikarepke kanggo masalah lan crita apik tenan. Kita bisa nindakake paling rapat ing format diskusi, nanging ana akeh diskusi sing mung bisa nyentuh sapratelo saka topik sing wis direncanakake. Kita menehi perhatian akeh babagan carane lan apa sing dipantau nggunakake conto layanan produksi nyata.

Aku kasengsem lan seneng banget.

- Ditilik saka pengumuman, temu kaping pindho bakal tanggung pengabdian kanggo toleransi fault, kok sampeyan milih topik iki?

Cassandra minangka sistem distribusi sibuk sing khas kanthi fungsi sing akeh ngluwihi panjaluk pangguna langsung: gosip, deteksi kegagalan, panyebaran owah-owahan skema, ekspansi / nyusut kluster, anti-entropi, serep lan pemulihan, lsp. Kaya ing sembarang sistem mbagekke, minangka jumlah hardware mundhak, kamungkinan saka Gagal mundhak, supaya operasi saka klompok produksi Cassandra mbutuhake pangerten jero struktur sawijining kanggo prédhiksi prilaku ing cilik saka Gagal lan tumindak operator. Sawise nggunakake Cassandra kanggo akèh taun, kita wis nglumpukake keahlian sing signifikan, kang kita siyap kanggo nuduhake, lan kita uga pengin ngrembug carane kolega ing toko ngatasi masalah khas.

— Nalika nerangake Cassandra, apa tegese toleransi fault?

Kaping pisanan, mesthi, kemampuan sistem kanggo urip kegagalan hardware khas: mundhut mesin, disk utawa panyambungan jaringan karo simpul / pusat data. Nanging topik kasebut luwih jembar lan utamane kalebu pemulihan saka kegagalan, kalebu kegagalan sing arang disiapake wong, contone, kesalahan operator.

- Apa sampeyan bisa menehi conto klompok data sing paling akeh lan paling gedhe?

Salah sawijining klompok paling gedhe yaiku kluster hadiah: luwih saka 200 simpul lan atusan data TB. Nanging ora paling dimuat, awit iku dijamin dening cache mbagekke. Kluster paling sibuk nangani puluhan ewu RPS kanggo nulis lan ewu RPS kanggo maca.

- Wah! Sepira kerepe soko rusak?

Ya kabeh wektu! Ing total, kita duwe luwih saka 6 ewu server, lan saben minggu diganti sawetara server lan sawetara rolas disk (tanpa njupuk menyang akun pangolahan podo upgrade lan expansion saka armada mesin). Kanggo saben jinis kegagalan, ana instruksi sing jelas babagan apa sing kudu ditindakake lan ing urutan apa, kabeh bisa diotomatisasi, saengga gagal dadi rutin lan ing 99% kasus kedadeyan sing ora dingerteni pangguna.

— Kepiye cara sampeyan ngatasi penolakan kasebut?

Wiwit awal operasi Cassandra lan kedadeyan pisanan, kita nggarap mekanisme kanggo serep lan pemulihan saka wong-wong mau, mbangun prosedur penyebaran sing nyathet kahanan klompok Cassandra lan, contone, ora ngidini simpul diwiwiti maneh. yen mundhut data bisa. We rencana kanggo pirembagan bab kabeh iki ing meetup.

- Kaya sing sampeyan ucapake, ora ana sistem sing bisa dipercaya. Jinis kegagalan apa sing sampeyan siapake lan bisa urip?

Yen kita pirembagan bab instalasi saka klaster Cassandra, kedhaftar ora bakal sok dong mirsani apa-apa yen kita ilang sawetara mesin ing siji DC utawa kabeh DC (iki wis kedaden). Kanthi Tambah ing nomer DC, kita mikir babagan miwiti kanggo mesthekake operability ing acara saka Gagal loro DC.

— Apa sampeyan mikir Cassandra kurang ing syarat-syarat toleransi fault?

Cassandra, kaya akeh toko NoSQL awal liyane, mbutuhake pangerten jero babagan struktur internal lan proses dinamis sing kedadeyan. Aku bakal ngomong sing kurang gamblang, predictability lan observability. Nanging bakal menarik kanggo ngrungokake pendapat saka peserta rapat liyane!

Oleg, matur nuwun kanthi sanget kanggo njupuk wektu kanggo mangsuli pitakonan!

Kita ngenteni kabeh wong sing pengin komunikasi karo para ahli ing bidang operasi Apache Cassandra ing rapat tanggal 12 September ing kantor St.

Ayo, iku bakal menarik!

Register kanggo acara.

Source: www.habr.com

Add a comment