Noves mètriques d'emmagatzematge d'objectes

Noves mètriques d'emmagatzematge d'objectesFortalesa Voladora de Nele-Diel

Ordre d'emmagatzematge d'objectes S3 Emmagatzematge al núvol de Mail.ru va traduir un article sobre quins criteris són importants a l'hora de triar un emmagatzematge d'objectes. El següent és el text des de la perspectiva de l'autor.

Quan es tracta d'emmagatzematge d'objectes, la gent normalment només pensa en una cosa: el preu per TB/GB. Per descomptat, aquesta mètrica és important, però fa que l'enfocament sigui unilateral i equipara l'emmagatzematge d'objectes amb una eina d'emmagatzematge d'arxius. A més, aquest enfocament redueix la importància de l'emmagatzematge d'objectes per a la pila de tecnologia empresarial.

Quan escolliu l'emmagatzematge d'objectes, heu de parar atenció a cinc característiques:

  • rendiment;
  • escalabilitat;
  • compatible amb S3;
  • resposta als errors;
  • integritat.

Aquestes cinc característiques són noves mètriques per a l'emmagatzematge d'objectes, juntament amb el cost. Vegem-los tots.

Productivitat

Les botigues d'objectes tradicionals no tenen rendiment. Els proveïdors de serveis ho sacrificaven constantment a la recerca de preus baixos. Tanmateix, amb l'emmagatzematge d'objectes moderns les coses són diferents.

Diversos sistemes d'emmagatzematge s'apropen o fins i tot superen la velocitat d'Hadoop. Requisits moderns per a velocitats de lectura i escriptura: des de 10 GB/s per a discs durs, fins a 35 GB/s per NVMe. 

Aquest rendiment és suficient per a Spark, Presto, Tensorflow, Teradata, Vertica, Splunk i altres marcs informàtics moderns de la pila d'anàlisi. El fet que les bases de dades MPP s'estan configurant per a l'emmagatzematge d'objectes suggereix que s'està utilitzant cada cop més com a emmagatzematge principal.

Si el vostre sistema d'emmagatzematge no ofereix la velocitat que necessiteu, no podreu utilitzar les dades i extreure'n valor. Fins i tot si recupereu dades de l'emmagatzematge d'objectes a una estructura de processament a la memòria, encara necessitareu ample de banda per transferir les dades a i des de la memòria. Les botigues d'objectes heretats no en tenen prou.

Aquest és el punt clau: la nova mètrica de rendiment és el rendiment, no la latència. Es requereix per a dades a escala i és la norma en la infraestructura de dades moderna.

Tot i que els punts de referència són una bona manera de determinar el rendiment, no es pot mesurar amb precisió abans d'executar l'aplicació a l'entorn. Només després es pot dir on es troba exactament el coll d'ampolla: en programari, discs, xarxa o a nivell informàtic.

Escalabilitat

L'escalabilitat fa referència al nombre de petabytes que encaixen en un espai de noms. El que els venedors afirmen és una escalabilitat fàcil, el que no diuen és que a mesura que s'escalen, els sistemes monolítics massius es tornen fràgils, complexos, inestables i cars.

La nova mètrica d'escalabilitat és el nombre d'espais de noms o clients que podeu servir. La mètrica es pren directament dels hiperescaladors, on els blocs de construcció d'emmagatzematge són petits, però s'escalen a milers de milions d'unitats. En general, aquesta és una mètrica del núvol.

Quan els blocs de construcció són petits, són més fàcils d'optimitzar per a la seguretat, el control d'accés, la gestió de polítiques, la gestió del cicle de vida i les actualitzacions no disruptives. I, en definitiva, garantir la productivitat. La mida del bloc de construcció és una funció de la controlabilitat de la regió de fallada, que és com es construeixen els sistemes altament resistents.

L'arrendament múltiple té moltes característiques. Tot i que la dimensió parla de com les organitzacions proporcionen accés a dades i aplicacions, també es refereix a les aplicacions en si i a la lògica que hi ha darrere d'aïllar-les les unes de les altres.

Característiques d'un enfocament modern de multiclient:

  • En poc temps, el nombre de clients pot augmentar de diversos centenars a diversos milions.
  • Els clients estan completament aïllats els uns dels altres. Això els permet executar diferents versions del mateix programari i emmagatzemar objectes amb diferents configuracions, permisos, funcions, seguretat i nivells de manteniment. Això és necessari quan s'escala a nous servidors, actualitzacions i zones geogràfiques.
  • L'emmagatzematge és elàsticament escalable, els recursos es proporcionen sota demanda.
  • Cada operació està controlada per una API i està automatitzada sense intervenció humana.
  • El programari es pot allotjar en contenidors i utilitzar sistemes d'orquestració estàndard com ara Kubernetes.

Compatible amb S3

L'API d'Amazon S3 és l'estàndard de facto per a l'emmagatzematge d'objectes. Tots els proveïdors de programari d'emmagatzematge d'objectes reclama la compatibilitat amb ell. La compatibilitat amb S3 és binària: o està totalment implementada o no.

A la pràctica, hi ha centenars o milers d'escenaris de punta en què alguna cosa va malament quan s'utilitza l'emmagatzematge d'objectes. Especialment dels proveïdors de programari i serveis propietaris. Els seus principals casos d'ús són l'arxiu directe o la còpia de seguretat, de manera que hi ha poques raons per trucar a l'API, els casos d'ús són homogenis.

El programari de codi obert té avantatges importants. Cobreix la majoria dels escenaris de punta, donada la mida i varietat d'aplicacions, sistemes operatius i arquitectures de maquinari.

Tot això és important per als desenvolupadors d'aplicacions, per la qual cosa val la pena provar l'aplicació amb proveïdors d'emmagatzematge. El codi obert facilita el procés: és més fàcil entendre quina plataforma és adequada per a la vostra aplicació. El proveïdor es pot utilitzar com a punt únic d'entrada a l'emmagatzematge, és a dir, satisfà les vostres necessitats. 

De codi obert vol dir: les aplicacions no estan vinculades a un proveïdor i són més transparents. Això garanteix un llarg cicle de vida de l'aplicació.

I algunes notes més sobre codi obert i S3. 

Si esteu executant una aplicació de big data, S3 SELECT millora el rendiment i l'eficiència en un ordre de magnitud. Ho fa utilitzant SQL per recuperar només els objectes que necessiteu de l'emmagatzematge.

El punt clau és el suport per a les notificacions de cub. Les notificacions de cub faciliten la informàtica sense servidor, un component important de qualsevol arquitectura de microservei que es lliura com a servei. Atès que l'emmagatzematge d'objectes és efectivament emmagatzematge al núvol, aquesta capacitat esdevé crítica quan l'emmagatzematge d'objectes és utilitzat per aplicacions basades en núvol.

Finalment, la implementació S3 ha de ser compatible amb les API de xifratge del servidor d'Amazon S3: SSE-C, SSE-S3, SSE-KMS. Encara millor, S3 admet una protecció contra manipulacions que és realment segura. 

Resposta a fallades

Una mètrica que probablement es passa per alt és com el sistema gestiona els errors. Els errors es produeixen per diverses raons i l'emmagatzematge d'objectes ha de gestionar-los tots.

Per exemple, hi ha un únic punt de fallada, la mètrica d'aquest és zero.

Malauradament, molts sistemes d'emmagatzematge d'objectes utilitzen nodes especials que s'han d'habilitar perquè el clúster funcioni correctament. Aquests inclouen nodes de nom o servidors de metadades; això crea un únic punt de fallada.

Fins i tot quan hi ha múltiples punts de fallada, la capacitat de suportar una fallada catastròfica és primordial. Els discs fallen, els servidors fallen. La clau és crear un programari dissenyat per gestionar la fallada com una condició normal. Si un disc o node falla, aquest programari continuarà funcionant sense canvis.

La protecció integrada contra l'esborrat i la degradació de dades garanteix que podeu perdre tants discs o nodes com blocs de paritat, normalment la meitat dels discos. Només llavors el programari no podrà retornar dades.

La fallada rarament es prova sota càrrega, però aquesta prova és necessària. La simulació d'una fallada de càrrega mostrarà els costos totals incorreguts després de la fallada.

Coherència

Una puntuació de consistència del 100% també s'anomena consistència estricta. La consistència és un component clau de qualsevol sistema d'emmagatzematge, però la consistència forta és rara. Per exemple, Amazon S3 ListObject no és estrictament coherent, només és coherent al final.

Què s'entén per coherència estricta? Per a totes les operacions posteriors a una operació PUT confirmada, s'ha de produir el següent:

  • El valor actualitzat és visible quan es llegeix des de qualsevol node.
  • L'actualització està protegida contra la redundància d'errors de nodes.

Això vol dir que si estireu l'endoll al mig d'una gravació, no es perdrà res. El sistema mai retorna dades danyades o obsoletes. Aquest és un llistó alt que importa en molts escenaris, des d'aplicacions transaccionals fins a còpies de seguretat i recuperació.

Conclusió

Es tracta de noves mètriques d'emmagatzematge d'objectes que reflecteixen els patrons d'ús a les organitzacions actuals, on el rendiment, la coherència, l'escalabilitat, els dominis d'error i la compatibilitat amb S3 són els elements bàsics per a les aplicacions al núvol i l'anàlisi de big data. Recomano que utilitzeu aquesta llista a més del preu quan creeu piles de dades modernes. 

Sobre l'emmagatzematge d'objectes de Mail.ru Cloud Solutions: Arquitectura S3. 3 anys d'evolució de Mail.ru Cloud Storage.

Què més cal llegir:

  1. Un exemple d'una aplicació basada en esdeveniments basada en webhooks a l'emmagatzematge d'objectes S3 Mail.ru Cloud Solutions.
  2. Més que Ceph: emmagatzematge de blocs al núvol MCS 
  3. Treballant amb l'emmagatzematge d'objectes Mail.ru Cloud Solutions S3 com a sistema de fitxers.
  4. El nostre canal de Telegram amb notícies sobre actualitzacions d'emmagatzematge S3 i altres productes

Font: www.habr.com

Afegeix comentari