Mini-intervista ma 'Oleg Anastasyev: tolleranza għal ħtija f'Apache Cassandra

Mini-intervista ma 'Oleg Anastasyev: tolleranza għal ħtija f'Apache Cassandra

Odnoklassniki huwa l-akbar utent ta 'Apache Cassandra fuq ir-RuNet u wieħed mill-akbar fid-dinja. Bdejna nużaw Cassandra fl-2010 biex naħżnu klassifikazzjonijiet tar-ritratti, u issa Cassandra tamministra petabytes ta 'dejta fuq eluf ta' nodi, fil-fatt, aħna saħansitra żviluppajna tagħna stess Database transazzjonali NewSQL.
Fit-12 ta’ Settembru fl-uffiċċju tagħna ta’ San Pietruburgu se nżommu it-tieni laqgħa ddedikata lil Apache Cassandra. Il-kelliem ewlieni tal-avveniment se jkun l-inġinier ewlieni ta 'Odnoklassniki Oleg Anastasyev. Oleg huwa espert fil-qasam tas-sistemi distribwiti u tolleranti għall-ħsarat; ilu jaħdem ma' Cassandra għal aktar minn 10 snin u ripetutament tkellem dwar il-karatteristiċi tal-użu ta 'dan il-prodott fil-konferenzi.

Lejlet il-laqgħa, tkellimna ma 'Oleg dwar it-tolleranza tal-ħsarat tas-sistemi distribwiti ma' Cassandra, staqsejna dwar xiex se jitkellem fil-laqgħa u għaliex ta 'min jattendi dan l-avveniment.

Oleg beda l-karriera tiegħu fl-ipprogrammar lura fl-1995. Huwa żviluppa softwer fil-banek, it-telekomunikazzjoni, u t-trasport. Huwa ilu jaħdem bħala żviluppatur ewlieni f'Odnoklassniki mill-2007 fuq it-tim tal-pjattaforma. Ir-responsabbiltajiet tiegħu jinkludu l-iżvilupp ta 'arkitetturi u soluzzjonijiet għal sistemi ta' tagħbija għolja, imħażen tad-dejta kbar, u s-soluzzjoni ta 'problemi ta' prestazzjoni u affidabilità tal-portal. Huwa jħarreġ ukoll lill-iżviluppaturi fi ħdan il-kumpanija.

- Oleg, bonjour! F'Mejju seħħet l-ewwel laqgħa, iddedikat lil Apache Cassandra, il-parteċipanti jgħidu li d-diskussjonijiet baqgħu għaddejjin sa tard bil-lejl, jekk jogħġbok għidli, x'inhuma l-impressjonijiet tiegħek tal-ewwel meetup?

Iżviluppaturi bi sfondi differenti minn kumpaniji differenti ġew bl-uġigħ tagħhom stess, soluzzjonijiet mhux mistennija għal problemi u stejjer tal-għaġeb. Irnexxielna nmexxu l-biċċa l-kbira tal-laqgħa f’format ta’ diskussjoni, iżda tant kien hemm diskussjonijiet li stajna biss nimmissu terz tas-suġġetti ppjanati. Tajna ħafna attenzjoni għal kif u x'nimmonitorjaw bl-użu tal-eżempju tas-servizzi ta 'produzzjoni reali tagħna.

Kont interessat u għoġobni ħafna.

- Ġġudikat mill-avviż, it-tieni laqgħa se tkun iddedikata għal kollox għat-tolleranza tal-ħtija, għaliex għażilt dan is-suġġett?

Cassandra hija sistema tipika mqassma okkupata b'ammont kbir ta 'funzjonalità lil hinn minn talbiet ta' manutenzjoni direttament mill-utent: gossip, skoperta ta 'fallimenti, propagazzjoni ta' bidliet fl-iskema, espansjoni/tnaqqis ta 'clusters, anti-entropija, backups u rkupru, eċċ. Bħal f'kull sistema mqassma, hekk kif l-ammont ta 'hardware jiżdied, il-probabbiltà ta' fallimenti tiżdied, għalhekk l-operazzjoni ta 'clusters ta' produzzjoni Cassandra teħtieġ fehim profond tal-istruttura tagħha biex tbassar l-imġiba f'każ ta 'fallimenti u azzjonijiet tal-operatur. Wara li tuża Cassandra għal ħafna snin, aħna akkumulaw għarfien espert sinifikanti, li aħna lesti li naqsmu, u rridu wkoll niddiskutu kif il-kollegi fil-ħanut isolvu problemi tipiċi.

— Fejn tidħol Cassandra, xi tfisser b’tolleranza għall-ħtija?

L-ewwelnett, ovvjament, il-kapaċità tas-sistema li ssalva fallimenti tipiċi tal-hardware: telf ta 'magni, diski, jew konnettività tan-netwerk ma' nodi / ċentri tad-dejta. Iżda s-suġġett innifsu huwa ħafna usa 'u b'mod partikolari jinkludi l-irkupru minn fallimenti, inklużi fallimenti li għalihom in-nies rarament huma ppreparati, pereżempju, żbalji tal-operatur.

— Tista' tagħti eżempju tal-grupp ta' data l-aktar mgħobbi u l-akbar?

Wieħed mill-akbar raggruppamenti tagħna huwa l-cluster tar-rigali: aktar minn 200 nodu u mijiet ta 'TB ta' data. Iżda mhuwiex l-aktar mgħobbi, peress li huwa kopert minn cache distribwit. L-aktar gruppi traffikużi tagħna jimmaniġġjaw għexieren ta’ eluf ta’ RPS għall-kitba u eluf ta’ RPS għall-qari.

- Ara naqra! Kemm-il darba tinkiser xi ħaġa?

Iva l-ħin kollu! B'kollox, għandna aktar minn 6 elf servers, u kull ġimgħa jiġu sostitwiti koppja ta 'servers u diversi għexieren ta' diski (mingħajr ma jitqiesu l-proċessi paralleli ta 'aġġornament u espansjoni tal-flotta tal-magni). Għal kull tip ta 'falliment, hemm struzzjonijiet ċari dwar x'għandek tagħmel u f'liema ordni, kollox huwa awtomatizzat kull meta jkun possibbli, għalhekk il-fallimenti huma ta' rutina u f'99% tal-każijiet iseħħu inosservati mill-utenti.

— Kif tittratta rifjuti bħal dawn?

Mill-bidu nett tal-operat ta’ Cassandra u l-ewwel inċidenti, ħdimna fuq il-mekkaniżmi għall-backups u l-irkupru minnhom, bnejna proċeduri ta’ skjerament li jqisu l-istat tal-clusters ta’ Cassandra u, pereżempju, ma jippermettux li n-nodi jerġgħu jibdew. jekk it-telf tad-data huwa possibbli. Nippjanaw li nitkellmu dwar dan kollu fil-laqgħa.

— Kif għedt, m'hemmx sistemi assolutament affidabbli. Għal liema tipi ta’ fallimenti tipprepara u kapaċi tgħix?

Jekk nitkellmu dwar l-installazzjonijiet tagħna ta 'clusters Cassandra, l-utenti ma jindunaw xejn jekk nitilfu diversi magni f'DC wieħed jew DC wieħed kollu (dan ġara). Biż-żieda fin-numru ta 'DCs, qed naħsbu biex nibdew niżguraw l-operabilità fil-każ ta' falliment ta 'żewġ DCs.

— X'taħseb li jonqosha lil Cassandra f'termini ta' tolleranza għal ħtija?

Cassandra, bħal ħafna ħwienet NoSQL bikrin oħra, teħtieġ fehim profond tal-istruttura interna tagħha u l-proċessi dinamiċi li jseħħu. Jien ngħid li hija nieqsa mis-sempliċità, il-prevedibbiltà u l-osservabbiltà. Iżda se jkun interessanti li tisma 'l-opinjonijiet ta' parteċipanti oħra fil-laqgħat!

Oleg, grazzi ħafna talli ħadt il-ħin biex twieġeb il-mistoqsijiet!

Qegħdin nistennew lil kull min irid jikkomunika ma' esperti fil-qasam tal-operat ta' Apache Cassandra fil-laqgħa fit-12 ta' Settembru fl-uffiċċju tagħna ta' San Pietruburgu.

Ejja, se jkun interessanti!

Irreġistra għall-avveniment.

Sors: www.habr.com

Żid kumment