Nije metriken foar opslach fan objekten

Nije metriken foar opslach fan objektenFlying Fortress troch Nele-Diel

S3 foarwerp opslach kommando Mail.ru Cloud Storage oerset in artikel oer hokker kritearia binne wichtich by it kiezen fan in foarwerp opslach. It folgjende is de tekst út it perspektyf fan de skriuwer.

As it giet om opslach fan objekten, tinke minsken gewoanlik mar oer ien ding: priis per TB / GB. Fansels is dizze metrik wichtich, mar it makket de oanpak iensidich en stelt objektopslach lyk oan in ark foar opslach fan argyf. Plus, dizze oanpak ferleget it belang fan objekt opslach foar de ûndernimming technology stack.

By it kiezen fan foarwerp opslach, moatte jo omtinken jaan oan fiif skaaimerken:

  • optreden;
  • scalability;
  • S3 kompatibel;
  • reaksje op mislearrings;
  • yntegriteit.

Dizze fiif skaaimerken binne nije metriken foar opslach fan objekten, tegearre mei kosten. Litte wy nei se allegear sjen.

Produktiviteit

Tradisjoneel foarwerp winkels gebrek oan prestaasjes. Tsjinstferlieners offeren it konstant op yn it stribjen nei lege prizen. Lykwols, mei moderne objekt opslach dingen binne oars.

Ferskate opslachsystemen benaderje of sels de snelheid fan Hadoop oertreffe. Moderne easken foar lês- en skriuwsnelheden: fan 10 GB / s foar hurde skiven, oant 35 GB / s foar NVMe. 

Dizze trochfier is genôch foar Spark, Presto, Tensorflow, Teradata, Vertica, Splunk en oare moderne komputerkaders yn 'e analytyske stapel. It feit dat MPP-databases wurde konfigureare foar objektopslach suggerearret dat it hieltyd mear wurdt brûkt as de primêre opslach.

As jo ​​opslachsysteem net de snelheid leveret dy't jo nedich binne, kinne jo de gegevens net brûke en wearde derút ekstrahearje. Sels as jo gegevens ophelje fan objektopslach yn in ferwurkingsstruktuer yn it ûnthâld, sille jo noch bânbreedte nedich wêze om de gegevens nei en fan it ûnthâld oer te bringen. Legacy objektwinkels hawwe der net genôch fan.

Dit is it wichtichste punt: de nije prestaasjemetrik is trochput, net latency. It is fereaske foar gegevens op skaal en is de noarm yn moderne gegevensynfrastruktuer.

Wylst benchmarks in goede manier binne om prestaasjes te bepalen, kin it net krekt wurde mjitten foardat de applikaasje yn 'e omjouwing útfiert. Pas dêrnei kinne jo sizze wêr't krekt de knelpunt is: yn software, skiven, netwurk of op it komputernivo.

Skalberens

Skalberens ferwiist nei it oantal petabytes dat past yn ien nammeromte. Wat leveransiers beweare is maklike skalberens, wat se net sizze is dat as se skaalje, massive monolityske systemen kwetsber, kompleks, ynstabyl en djoer wurde.

De nije metrik foar skalberens is it oantal nammeromten as kliïnten dy't jo kinne tsjinje. De metryske wurdt direkt nommen fan hyperscalers, wêr't de opslachboublokken lyts binne, mar skaalfergrutting nei miljarden ienheden. Yn 't algemien is dit in wolkmetrik.

As de boublokken lyts binne, binne se makliker te optimalisearjen foar feiligens, tagongskontrôle, beliedsbehear, libbenssyklusbehear en net-fersteurende updates. En úteinlik soargje foar produktiviteit. De grutte fan 'e boublok is in funksje fan' e kontrolearberens fan 'e mislearringsregio, dat is hoe heech elastysk systemen binne boud.

Multi-tenancy hat in protte skaaimerken. Wylst de diminsje sprekt oer hoe't organisaasjes tagong jouwe ta gegevens en applikaasjes, ferwiist it ek nei de applikaasjes sels en de logika efter it isolearjen fan se fan elkoar.

Skaaimerken fan in moderne oanpak foar multi-client:

  • Yn koarte tiid kin it oantal kliïnten groeie fan ferskate hûnderten nei ferskate miljoenen.
  • Klanten binne folslein isolearre fan elkoar. Hjirmei kinne se ferskate ferzjes fan deselde software útfiere en objekten opslaan mei ferskate konfiguraasjes, tagongsrjochten, funksjes, feiligens- en ûnderhâldsnivo's. Dit is nedich by skaalfergrutting nei nije servers, fernijings en geografyen.
  • De opslach is elastysk skalberber, boarnen wurde op fraach levere.
  • Elke operaasje wurdt regele troch in API en wurdt automatisearre sûnder minsklik yngripen.
  • Software kin wurde host yn konteners en brûke standert orkestraasjesystemen lykas Kubernetes.

S3 kompatibel

De Amazon S3 API is de de facto standert foar objektopslach. Elke ferkeaper fan software foar objektopslach beweart der kompatibiliteit mei. Kompatibiliteit mei S3 is binêr: of it is folslein ymplementearre of it is net.

Yn 'e praktyk binne d'r hûnderten as tûzenen rânesenario's wêr't wat mis giet by it brûken fan objektopslach. Benammen fan oanbieders fan proprietêre software en tsjinsten. De wichtichste gebrûksgefallen binne direkte argivearring as reservekopy, dus d'r binne in pear redenen om de API te neamen, de gebrûksgefallen binne homogeen.

Iepen boarne software hat wichtige foardielen. It beslacht de measte râne-senario's, sjoen de grutte en ferskaat oan applikaasjes, bestjoeringssystemen en hardware-arsjitektueren.

Dit alles is wichtich foar applikaasje-ûntwikkelders, dus it is it wurdich om de applikaasje te testen mei opslachproviders. Iepen boarne makket it proses makliker - it is makliker te begripen hokker platfoarm goed is foar jo applikaasje. De provider kin brûkt wurde as ien yngongspunt yn opslach, wat betsjut dat it oan jo behoeften foldocht. 

Iepen boarne betsjut: applikaasjes binne net bûn oan in ferkeaper en binne transparanter. Dit soarget foar in lange applikaasjelibben.

En in pear mear notysjes oer iepen boarne en S3. 

As jo ​​​​in applikaasje mei grutte gegevens útfiere, ferbetteret S3 SELECT prestaasjes en effisjinsje mei in folchoarder fan grutte. It docht dit troch SQL te brûken om allinich de objekten te heljen dy't jo nedich binne fan opslach.

It wichtichste punt is stipe foar emmernotifikaasjes. Bucket-notifikaasjes fasilitearje serverless computing, in wichtige komponint fan elke mikroservice-arsjitektuer dy't wurdt levere as in tsjinst. Sjoen dat objektopslach effektyf wolkopslach is, wurdt dizze mooglikheid kritysk as objektopslach wurdt brûkt troch wolkbasearre applikaasjes.

Uteinlik moat de S3-ymplemintaasje de Amazon S3-server-side fersifering API's stypje: SSE-C, SSE-S3, SSE-KMS. Noch better, S3 stipet tamper beskerming dat is wirklik feilich. 

Reaksje op mislearrings

In metryske dy't wierskynlik faak oersjoen wurdt is hoe't it systeem mislearrings behannelet. Mislearrings barre foar in ferskaat oan redenen, en objekt opslach moat omgean se allegearre.

Bygelyks, d'r is ien punt fan mislearring, de metryske fan dit is nul.

Spitigernôch brûke in protte foarwerpopslachsystemen spesjale knopen dy't moatte wurde ynskeakele foar it kluster om goed te funksjonearjen. Dizze omfetsje nammeknooppunten as metadataservers - dit soarget foar ien punt fan mislearring.

Sels wêr't d'r meardere punten fan mislearring binne, is de mooglikheid om katastrophale mislearring te wjerstean foarop. Disken mislearje, tsjinners mislearje. De kaai is om software te meitsjen ûntworpen om mislearring te behanneljen as in normale tastân. As in skiif of knooppunt mislearret, sil sokke software sûnder feroaringen wurkje.

Ynboude beskerming tsjin wiskjen en degradaasje fan gegevens soarget derfoar dat jo safolle skiven as knooppunten kinne ferlieze as jo pariteitsblokken hawwe - meastal de helte fan 'e skiven. Allinnich dan sil de software net yn steat wêze om gegevens werom te jaan.

De flater wurdt komselden hifke ûnder load, mar sokke testen is nedich. It simulearjen fan in loadfal sil de totale kosten sjen litte dy't makke binne nei it mislearjen.

Konsistinsje

In konsistinsjescore fan 100% wurdt ek wol strikte konsistinsje neamd. Konsistinsje is in kaaibestân fan elk opslachsysteem, mar sterke konsistinsje is seldsum. Bygelyks, Amazon S3 ListObject is net strikt konsekwint, it is allinich konsekwint oan 'e ein.

Wat wurdt bedoeld mei strikte konsistinsje? Foar alle operaasjes nei in befêstige PUT-operaasje moatte it folgjende foarkomme:

  • De bywurke wearde is sichtber by it lêzen fan elke knooppunt.
  • De fernijing is beskerme tsjin knooppunt mislearring redundans.

Dit betsjut dat as jo de stekker yn 'e midden fan in opname lûke, sil neat ferlern gean. It systeem jout nea beskeadige of ferâldere gegevens werom. Dit is in hege bar dy't fan belang is yn in protte senario's, fan transaksjeapplikaasjes oant reservekopy en herstel.

konklúzje

Dit binne nije metriken foar opslach fan objekten dy't gebrûkspatroanen reflektearje yn hjoeddeistige organisaasjes, wêr't prestaasjes, konsistinsje, skalberens, flaterdomeinen en S3-kompatibiliteit de boustiennen binne foar wolkapplikaasjes en analyse fan grutte gegevens. Ik advisearje dizze list te brûken neist priis by it bouwen fan moderne gegevensstapels. 

Oer Mail.ru Cloud Solutions foarwerp opslach: S3 arsjitektuer. 3 jier evolúsje fan Mail.ru Cloud Storage.

Wat oars te lêzen:

  1. In foarbyld fan in evenemint-oandreaune applikaasje basearre op webhooks yn S3 foarwerp opslach Mail.ru Cloud Solutions.
  2. Mear dan Ceph: MCS wolkblok opslach 
  3. Wurkje mei Mail.ru Cloud Solutions S3 foarwerp opslach as in triem systeem.
  4. Us Telegram-kanaal mei nijs oer updates foar S3-opslach en oare produkten

Boarne: www.habr.com

Add a comment