Cómo elegir el almacenamiento sin dispararte en el pie

introducción

Es hora de comprar almacenamiento. ¿Cuál tomar, a quién escuchar? El proveedor A habla del proveedor B, y luego está el integrador C, que dice lo contrario y aconseja al proveedor D. En tal situación, incluso a un arquitecto de almacenamiento experimentado le dará vueltas la cabeza, especialmente con todos los nuevos proveedores, SDS e hiperconvergencia que están de moda. hoy.

Entonces, ¿cómo resuelves todo esto y no terminas siendo un tonto? Nosotros (AntónVirtual Antón Zhbankov y cuerpo Evgeniy Elizarov) intentemos hablar de esto en ruso sencillo.
El artículo tiene muchas similitudes y en realidad es una extensión de “Diseño de centro de datos virtualizado”en términos de elección de sistemas de almacenamiento y revisión de tecnologías de almacenamiento. Analizaremos brevemente la teoría general, pero le recomendamos que lea también este artículo.

¿Por qué

A menudo se puede ver una situación en la que una nueva persona llega a un foro o chat especializado, como Discusiones sobre almacenamiento, y hace la pregunta: "aquí me ofrecen dos opciones de almacenamiento: ABC SuperStorage S600 y XYZ HyperOcean 666v4, ¿qué recomiendan?" ?”

Y comienza la confusión sobre quién tiene qué características de la implementación de características terribles e incomprensibles, que para una persona no preparada son completamente chinas.

Entonces, la pregunta clave y primera que debes hacerte mucho antes de comparar especificaciones en propuestas comerciales es ¿POR QUÉ? ¿Por qué es necesario este sistema de almacenamiento?

Cómo elegir el almacenamiento sin dispararte en el pie

La respuesta será inesperada y muy al estilo de Tony Robbins: almacenar datos. ¡Gracias capitán! Y, sin embargo, a veces profundizamos tanto en comparar detalles que olvidamos por qué estamos haciendo todo esto en primer lugar.

Entonces, la tarea de un sistema de almacenamiento de datos es almacenar y proporcionar acceso a DATOS con un rendimiento determinado. Empezaremos con los datos.

Datos

Tipo de datos

¿Qué tipo de datos planeamos almacenar? Una pregunta muy importante que puede eliminar muchos sistemas de almacenamiento incluso de consideración. Por ejemplo, planea almacenar videos y fotos. Puede tachar inmediatamente los sistemas diseñados para acceso aleatorio en pequeños bloques o los sistemas con funciones patentadas de compresión/deduplicación. Puede que sean simplemente sistemas excelentes, no queremos decir nada malo. Pero en este caso, sus puntos fuertes se debilitarán (el vídeo y las fotos no están comprimidos) o simplemente aumentarán significativamente el coste del sistema.

Por el contrario, si el uso previsto es un DBMS transaccional muy ocupado, entonces los excelentes sistemas de transmisión multimedia capaces de entregar gigabytes por segundo serán una mala elección.

Volumen de datos

¿Cuántos datos planeamos almacenar? La cantidad siempre se convierte en calidad; esto nunca debe olvidarse, especialmente en nuestra época de crecimiento exponencial del volumen de datos. Los sistemas de clase petabyte ya no son infrecuentes, pero cuanto mayor sea la capacidad de petabyte, más específico se vuelve el sistema y menos accesible será la funcionalidad habitual de los sistemas de acceso aleatorio pequeños y medianos. Es trivial porque las tablas de estadísticas de acceso a bloques por sí solas se vuelven más grandes que la cantidad de RAM disponible en los controladores. Sin mencionar la compresión/estratificación. Digamos que queremos cambiar el algoritmo de compresión por uno más potente y comprimir 20 petabytes de datos. ¿Cuánto tiempo llevará: seis meses, un año?

Por otro lado, ¿para qué molestarse si necesita almacenar y procesar 500 GB de datos? Sólo 500. Los SSD domésticos (con DWPD bajo) de este tamaño no cuestan nada. ¿Por qué construir una fábrica de Fibre Channel y comprar sistemas de almacenamiento externo de alta gama que cuestan el equivalente a un puente de hierro fundido?

¿Qué porcentaje del total son datos candentes? ¿Qué tan desigual es la carga en términos de volumen de datos? Aquí es donde la tecnología de almacenamiento por niveles o Flash Cache puede resultar muy útil si la cantidad de datos activos es pequeña en comparación con el total. O viceversa, con una carga uniforme en todo el volumen, que a menudo se encuentra en los sistemas de transmisión (videovigilancia, algunos sistemas de análisis), tales tecnologías no proporcionarán nada y solo aumentarán el costo/complejidad del sistema.

IP

La otra cara de los datos es el sistema de información que los utiliza. Un SI tiene un conjunto de requisitos que heredan datos. Para obtener más información sobre el IS, consulte "Diseño de centro de datos virtualizado".

Requisitos de resiliencia/disponibilidad

Los requisitos de tolerancia a fallos/disponibilidad de datos se heredan del SI que los utiliza y se expresan en tres números: RPO, RTO, disponibilidad.

Disponibilidad — la proporción durante un período de tiempo determinado durante el cual los datos están disponibles para trabajar con ellos. Generalmente se expresa como un número 9. Por ejemplo, dos nueves por año significa que la disponibilidad es del 99% o, en caso contrario, se permiten 95 horas de indisponibilidad por año. Tres nueves: 9,5 horas al año.

RPO/RTO no son indicadores totales, sino de cada incidente (accidente), a diferencia de la disponibilidad.

RPO — la cantidad de datos perdidos durante un accidente (en horas). Por ejemplo, si las copias de seguridad se realizan una vez al día, entonces RPO = 24 horas. Aquellos. En caso de desastre y pérdida total del sistema de almacenamiento, se pueden perder datos hasta por 24 horas (desde el momento de la copia de seguridad). Según el RPO especificado para el IS, por ejemplo, se escriben regulaciones de respaldo. Además, según el RPO, puede comprender cuánta replicación de datos sincrónica/asincrónica se necesita.

RTO — tiempo para restaurar el servicio (acceso a datos) después de un desastre. Según el valor de RTO dado, podemos comprender si se necesita un clúster metropolitano o si la replicación unidireccional es suficiente. ¿Necesita un sistema de almacenamiento multicontrolador de alta gama?

Cómo elegir el almacenamiento sin dispararte en el pie

Requisitos de desempeño

Aunque ésta es una pregunta muy obvia, es donde surgen la mayoría de las dificultades. Dependiendo de si ya se cuenta con algún tipo de infraestructura o no, se construirán formas de recopilar las estadísticas necesarias.

Ya tienes un sistema de almacenamiento y estás buscando un reemplazo o quieres comprar otro para ampliarlo. Aquí todo es sencillo. Usted comprende qué servicios ya tiene y cuáles planea implementar en un futuro próximo. Según los servicios actuales, tiene la oportunidad de recopilar estadísticas de rendimiento. Decida la cantidad actual de IOPS y la latencia actual: ¿cuáles son estos indicadores y son suficientes para sus tareas? Esto se puede hacer tanto en el propio sistema de almacenamiento de datos como desde los hosts que están conectados a él.

Además, es necesario observar no solo la carga actual, sino también durante un período determinado (preferiblemente un mes). Vea cuáles son los picos máximos durante el día, qué carga crea la copia de seguridad, etc. Si su sistema de almacenamiento o su software no le proporciona un conjunto completo de estos datos, puede utilizar RRDtool gratuito, que puede funcionar con la mayoría de los sistemas de almacenamiento y conmutadores más populares y puede proporcionarle estadísticas de rendimiento detalladas. También vale la pena observar la carga en los hosts que funcionan con este sistema de almacenamiento, para máquinas virtuales específicas o qué se está ejecutando exactamente en este host.

Cómo elegir el almacenamiento sin dispararte en el pie

Vale la pena señalar por separado que si los retrasos en el volumen y el almacén de datos ubicado en este volumen difieren bastante, debe prestar atención a su red SAN, existe una alta probabilidad de que haya problemas con ella antes de comprar una nueva. sistema, vale la pena analizar este problema, porque existe una probabilidad muy alta de aumentar el rendimiento del sistema actual.

Está construyendo una infraestructura desde cero o comprando un sistema para algún servicio nuevo, cuyas cargas no conoce. Hay varias opciones: comunicarse con colegas sobre recursos especializados para intentar conocer y predecir la carga, contactar a un integrador que tenga experiencia en implementar servicios similares y que pueda calcular la carga por usted. Y la tercera opción (normalmente la más difícil, especialmente si se trata de aplicaciones raras o escritas en casa) es intentar averiguar los requisitos de rendimiento de los desarrolladores del sistema.

Y tenga en cuenta que la opción más correcta desde el punto de vista de la aplicación práctica es un piloto en el equipo actual o el equipo proporcionado para pruebas por un proveedor/integrador.

Requisitos especiales

Los requisitos especiales son todo lo que no entra dentro de los requisitos de rendimiento, tolerancia a fallos y funcionalidad para el procesamiento y suministro directo de datos.

Uno de los requisitos especiales más simples para un sistema de almacenamiento de datos puede denominarse "medio de almacenamiento enajenable". E inmediatamente queda claro que este sistema de almacenamiento de datos debe incluir una biblioteca de cintas o simplemente una unidad de cinta en la que se descargue la copia de seguridad. Después de lo cual una persona especialmente capacitada firma la cinta y la lleva con orgullo a una caja fuerte especial.
Otro ejemplo de requisito especial es una estructura protegida a prueba de golpes.

Donde

El segundo componente principal al elegir un sistema de almacenamiento en particular es la información sobre DÓNDE se ubicará este sistema de almacenamiento. Empezando por la geografía o las condiciones climáticas, y terminando con el personal.

Cliente

¿Para quién está previsto este sistema de almacenamiento? La pregunta tiene las siguientes razones:

Cliente gubernamental/comercial.
El cliente comercial no tiene restricciones y ni siquiera está obligado a realizar licitaciones, excepto de acuerdo con su propia normativa interna.

Un cliente gubernamental es un asunto diferente. 44 Ley Federal y otras delicias con licitaciones y especificaciones técnicas que pueden ser impugnadas.

El cliente está bajo sanciones.
Bueno, la pregunta aquí es muy simple: la elección está limitada únicamente por las ofertas disponibles para un cliente determinado.

Reglamento interno / proveedores / modelos permitidos para la compra
La pregunta también es extremadamente simple, pero debes recordarla.

donde fisicamente

En esta parte consideramos todas las cuestiones relacionadas con la geografía, los canales de comunicación y el microclima en las instalaciones de alojamiento.

Personal

¿Quién trabajará con este sistema de almacenamiento? Esto no es menos importante que lo que puede hacer el propio sistema de almacenamiento.
No importa cuán prometedor, genial y maravilloso sea el sistema de almacenamiento del proveedor A, probablemente no tiene mucho sentido instalarlo si el personal solo sabe cómo trabajar con el proveedor B y no hay planes para realizar más compras ni cooperar continuamente con A.

Y, por supuesto, la otra cara de la cuestión es qué tan disponible está el personal capacitado en una ubicación geográfica determinada directamente en la empresa y potencialmente en el mercado laboral. Para las regiones, elegir sistemas de almacenamiento con interfaces simples o la capacidad de centralizar la administración de forma remota puede tener mucho sentido. De lo contrario, en algún momento puede volverse insoportablemente doloroso. Internet está lleno de historias sobre cómo un nuevo empleado que llegó, el estudiante de ayer, hizo tal cosa que toda la oficina fue asesinada.

Cómo elegir el almacenamiento sin dispararte en el pie

Medio ambiente

Y, por supuesto, una pregunta importante es en qué entorno funcionará este sistema de almacenamiento.

  • ¿Qué pasa con la fuente de alimentación/refrigeración?
  • que conexion
  • ¿Dónde se instalará?
  • Y así sucesivamente.

A menudo estas preguntas se dan por sentado y no se consideran particularmente, pero a veces son las que pueden cambiar todo.

Que

Proveedor

A día de hoy (mediados de 2019), el mercado de almacenamiento ruso se puede dividir en 5 categorías:

  1. La división más alta son empresas bien establecidas con una amplia gama de estanterías de discos, desde las más simples hasta las de alta gama (HPE, DellEMC, Hitachi, NetApp, IBM/Lenovo).
  2. Segunda división: empresas con una línea limitada, jugadores de nicho, proveedores serios de SDS o recién llegados en ascenso (Fujitsu, Datacore, Infinidat, Huawei, Pure, etc.)
  3. Tercera división: soluciones de nicho de gama baja, SDS económicas, productos avanzados basados ​​en ceph y otros proyectos abiertos (Infortrend, Starwind, etc.)
  4. Segmento SOHO: sistemas de almacenamiento pequeños y ultrapequeños a nivel de hogar/oficina pequeña (Synology, QNAP, etc.)
  5. Sistemas de almacenamiento importados: esto incluye tanto hardware de la primera división con etiquetas reetiquetadas como representantes raros de la segunda (RAIDIX, les daremos el segundo por adelantado), pero principalmente esta es la tercera división (Aerodisk, Baum, Depo, etc.)

La división es bastante arbitraria y no significa en absoluto que el tercer segmento o SOHO sea malo y no se pueda utilizar. En proyectos específicos con un conjunto de datos y un perfil de carga claramente definidos, pueden funcionar muy bien, superando con creces a la primera división en términos de relación calidad/precio. Es importante decidir primero sus objetivos, sus perspectivas de crecimiento y la funcionalidad requerida, y luego Synology le servirá fielmente y su cabello se volverá suave y sedoso.

Uno de los factores importantes a la hora de elegir un proveedor es el entorno actual. Cuántos sistemas de almacenamiento tiene ya y con qué sistemas de almacenamiento pueden trabajar sus ingenieros. ¿Necesita otro proveedor, otro punto de contacto? ¿Migrará gradualmente toda la carga del proveedor A al proveedor B?

No se deben producir entidades más allá de lo necesario.

iSCSI/FC/Archivo

No hay consenso entre los ingenieros sobre la cuestión de los protocolos de acceso, y el debate se parece más a discusiones teológicas que a discusiones de ingeniería. Pero en general se pueden observar los siguientes puntos:

FCoE Más muertos que vivos.

FC frente a iSCSI. Una de las ventajas clave de FC en 2019 sobre el almacenamiento IP, una fábrica dedicada para el acceso a datos, se compensa con una red IP dedicada. FC no tiene ventajas globales sobre las redes IP, y IP se puede utilizar para construir sistemas de almacenamiento de cualquier nivel de carga, hasta sistemas para DBMS pesados ​​​​para el sistema bancario central de un banco grande. Por otro lado, la muerte del FC se profetiza desde hace varios años, pero algo la impide constantemente. Actualmente, por ejemplo, algunos actores del mercado del almacenamiento están desarrollando activamente el estándar NVMEoF. Si compartirá el destino del FCoE, el tiempo lo dirá.

Acceso a archivos Tampoco es algo que merezca atención. NFS/CIFS funciona bien en entornos de productividad y, si se diseña correctamente, no tiene más quejas que los protocolos de bloqueo.

Matriz híbrida/todo flash

Los sistemas de almacenamiento clásicos vienen en 2 tipos:

  1. AFA (All Flash Array): sistemas optimizados para uso de SSD.
  2. Híbrido: le permite utilizar HDD y SSD o una combinación de ellos.

Su principal diferencia son las tecnologías de eficiencia de almacenamiento admitidas y el nivel máximo de rendimiento (alto IOPS y baja latencia). Ambos sistemas (en la mayoría de sus modelos, sin contar el segmento de gama baja) pueden funcionar tanto como dispositivos de bloque como de archivo. La funcionalidad admitida depende del nivel del sistema y, en los modelos más jóvenes, suele reducirse al nivel mínimo. Vale la pena prestar atención a esto cuando se estudian las características de un modelo en particular, y no solo las capacidades de toda la línea en su conjunto. Además, por supuesto, sus características técnicas, como procesador, cantidad de memoria, caché, número y tipos de puertos, etc., también dependen del nivel del sistema. Desde el punto de vista de la gestión, los AFA se diferencian de los sistemas híbridos (de disco) solo en la implementación de mecanismos para trabajar con unidades SSD, e incluso si usa un SSD en un sistema híbrido, esto no significa en absoluto que podrá para alcanzar el nivel de desempeño a nivel de un sistema AFA. Además, en la mayoría de los casos, los mecanismos de almacenamiento eficientes en línea están deshabilitados en los sistemas híbridos y su inclusión conduce a una pérdida de rendimiento.

Sistemas de almacenamiento especiales

Además de los sistemas de almacenamiento de uso general, centrados principalmente en el procesamiento de datos operativos, existen sistemas de almacenamiento especiales con principios clave que son fundamentalmente diferentes de los habituales (baja latencia, alto IOPS):

Medios de comunicación.

Estos sistemas están diseñados para almacenar y procesar archivos multimedia de gran tamaño. Resp. el retraso prácticamente no tiene importancia y pasa a primer plano la capacidad de enviar y recibir datos en una banda ancha en muchos flujos paralelos.

Deduplicación de sistemas de almacenamiento para copias de seguridad.

Dado que las copias de seguridad se distinguen por su similitud entre sí, lo cual es poco común en condiciones normales (la copia de seguridad promedio difiere de la copia de ayer en un 1-2%), esta clase de sistemas empaqueta de manera extremadamente eficiente los datos registrados en ellas dentro de un espacio bastante pequeño. número de medios físicos. Por ejemplo, en algunos casos, las relaciones de compresión de datos pueden alcanzar 200 a 1.

Sistemas de almacenamiento de objetos.

Estos sistemas de almacenamiento no tienen los habituales volúmenes de acceso en bloque ni recursos compartidos de archivos y, sobre todo, se parecen a una enorme base de datos. El acceso a un objeto almacenado en dicho sistema se realiza mediante un identificador único o mediante metadatos (por ejemplo, todos los objetos en formato JPEG con una fecha de creación entre XX-XX-XXXX y YY-YY-YYYY).

Sistema de cumplimiento.

Hoy en día no son tan comunes en Rusia, pero vale la pena mencionarlos. La finalidad de dichos sistemas de almacenamiento es garantizar el almacenamiento de datos para cumplir con políticas de seguridad o requisitos reglamentarios. Algunos sistemas (por ejemplo, EMC Centera) han implementado una función para prohibir la eliminación de datos: tan pronto como se gira la llave y el sistema ingresa a este modo, ni el administrador ni nadie más puede eliminar físicamente los datos que ya se han registrado.

Tecnologías patentadas

caché flash

Flash Cache es un nombre común para todas las tecnologías propietarias que utilizan la memoria flash como caché de segundo nivel. Cuando se utiliza una caché flash, el sistema de almacenamiento generalmente se calcula para proporcionar una carga constante de discos magnéticos, mientras que la caché sirve el pico.

En este caso, es necesario comprender el perfil de carga y el grado de localización del acceso a bloques de volúmenes de almacenamiento. La memoria caché flash es una tecnología para cargas de trabajo con consultas altamente localizadas y es prácticamente inaplicable para volúmenes cargados de manera uniforme (como, por ejemplo, para sistemas de análisis).

Hay dos implementaciones de caché flash disponibles en el mercado:

  • Solo lectura. En este caso, sólo se almacenan en caché los datos leídos y la escritura va directamente a los discos. Algunos fabricantes, como NetApp, creen que escribir en sus sistemas de almacenamiento ya es óptimo y que la caché no ayudará en absoluto.
  • Leer escribir. No solo se almacena en caché la lectura, sino también la escritura, lo que permite almacenar en búfer la transmisión y reducir el impacto de la penalización RAID y, como resultado, aumentar el rendimiento general de los sistemas de almacenamiento con un mecanismo de escritura menos óptimo.

Niveles

El almacenamiento multinivel (agotado) es una tecnología para combinar niveles con diferentes niveles de rendimiento, como SSD y HDD, en un solo grupo de discos. En caso de un pronunciado desnivel en el acceso a los bloques de datos, el sistema podrá equilibrar automáticamente los bloques de datos, moviendo los cargados a un nivel de alto rendimiento y los fríos, por el contrario, a uno más lento.

Los sistemas híbridos de las clases media y baja utilizan almacenamiento de múltiples niveles y los datos se mueven entre niveles según un cronograma. Al mismo tiempo, el tamaño del bloque de almacenamiento de varios niveles para los mejores modelos es de 256 MB. Estas características no nos permiten considerar la tecnología de almacenamiento por niveles como una tecnología para aumentar la productividad, como mucha gente cree erróneamente. El almacenamiento multinivel en sistemas de gama baja y media es una tecnología para optimizar los costes de almacenamiento en sistemas con una marcada desigualdad de carga.

Instantánea

Por mucho que hablemos de la confiabilidad de los sistemas de almacenamiento, existen muchas oportunidades de perder datos que no dependen de problemas de hardware. Esto podría ser virus, piratas informáticos o cualquier otra eliminación/corrupción involuntaria de datos. Por este motivo, realizar copias de seguridad de los datos de producción es una parte integral del trabajo de un ingeniero.

Una instantánea es una instantánea de un volumen en algún momento. Cuando se trabaja con la mayoría de los sistemas, como virtualización, bases de datos, etc. Necesitamos tomar una instantánea de la cual copiaremos los datos a una copia de seguridad, mientras que nuestro IS podrá continuar trabajando de manera segura con este volumen. Pero vale la pena recordar que no todas las instantáneas son igualmente útiles. Los diferentes proveedores tienen diferentes enfoques para crear instantáneas relacionadas con su arquitectura.

CoW (copia en escritura). Cuando intenta escribir un bloque de datos, su contenido original se copia en un área especial, después de lo cual la escritura continúa normalmente. Esto evita la corrupción de datos dentro de la instantánea. Naturalmente, todas estas manipulaciones de datos "parásitas" causan una carga adicional en el sistema de almacenamiento y, por esta razón, los proveedores con implementaciones similares no recomiendan usar más de una docena de instantáneas y no usarlas en absoluto en volúmenes muy cargados.

RoW (redireccionamiento por escritura). En este caso, el volumen original se congela naturalmente y, al intentar escribir un bloque de datos, el sistema de almacenamiento escribe datos en un área especial en el espacio libre, cambiando la ubicación de este bloque en la tabla de metadatos. Esto le permite reducir la cantidad de operaciones de reescritura, lo que en última instancia elimina la caída en el rendimiento y elimina las restricciones sobre las instantáneas y su cantidad.

Las instantáneas también son de dos tipos en relación a las aplicaciones:

Consistencia de la aplicación. En el momento de crear una instantánea, el sistema de almacenamiento activa un agente en el sistema operativo del consumidor, que vacía a la fuerza los cachés del disco de la memoria al disco y obliga a la aplicación a hacerlo. En este caso, al restaurar desde una instantánea, los datos serán consistentes.

Choque consistente. En este caso, no sucede nada de eso y la instantánea se crea tal cual. En el caso de la recuperación de una instantánea de este tipo, la imagen es idéntica a lo que sucedería si la energía se apagara repentinamente y es posible que se pierdan algunos datos, queden atrapados en cachés y nunca lleguen al disco. Estas instantáneas son más fáciles de implementar y no causan degradación del rendimiento en las aplicaciones, pero son menos confiables.

¿Por qué se necesitan instantáneas en los sistemas de almacenamiento?

  • Copia de seguridad sin agentes directamente desde el sistema de almacenamiento
  • Cree entornos de prueba basados ​​en datos reales
  • En el caso de los sistemas de almacenamiento de archivos, se puede utilizar para crear entornos VDI mediante el uso de instantáneas del sistema de almacenamiento en lugar de un hipervisor.
  • Garantice RPO bajos mediante la creación de instantáneas programadas con una frecuencia significativamente mayor que la frecuencia de respaldo

Clonación

Clonación de volúmenes: funciona según un principio similar al de las instantáneas, pero se utiliza no solo para leer datos, sino también para trabajar completamente con ellos. Podremos obtener una copia exacta de nuestro volumen, con todos los datos, sin necesidad de realizar una copia física, lo que ahorrará espacio. Normalmente, la clonación de volúmenes se utiliza en Test&Dev o si desea comprobar la funcionalidad de algunas actualizaciones en su IS. La clonación le permitirá hacer esto de la manera más rápida y económica posible en términos de recursos de disco, porque Sólo se escribirán los bloques de datos modificados.

Replicación/Diario

La replicación es un mecanismo para crear una copia de datos en otro sistema de almacenamiento físico. Normalmente, cada proveedor tiene una tecnología propia que funciona sólo dentro de su propia línea. Pero también existen soluciones de terceros, incluidas aquellas que funcionan a nivel de hipervisor, como VMware vSphere Replication.

La funcionalidad de las tecnologías propietarias y la facilidad de uso de las mismas suelen ser muy superiores a las universales, pero resultan inaplicables cuando, por ejemplo, es necesario realizar una réplica de NetApp a HP MSA.

La replicación se divide en dos subtipos:

Sincrónico. En el caso de replicación síncrona, la operación de escritura se envía al segundo sistema de almacenamiento inmediatamente y la ejecución no se confirma hasta que lo confirme el sistema de almacenamiento remoto. Debido a esto, el retraso en el acceso aumenta, pero tenemos una copia espejo exacta de los datos. Aquellos. RPO = 0 en caso de pérdida del sistema de almacenamiento principal.

asincrónico. Las operaciones de escritura se ejecutan solo en el sistema de almacenamiento principal y se confirman inmediatamente, mientras se acumulan simultáneamente en un búfer para la transmisión por lotes al sistema de almacenamiento remoto. Este tipo de replicación es relevante para datos menos valiosos o para canales con bajo ancho de banda o alta latencia (típico para distancias superiores a 100 km). En consecuencia, RPO = frecuencia de envío de paquetes.

A menudo, junto con la replicación, existe un mecanismo. Inicio sesión operaciones de disco. En este caso, se asigna un área especial para el registro y se almacenan operaciones de registro con una cierta profundidad en el tiempo, o limitadas por el volumen del registro. Para ciertas tecnologías patentadas, como EMC RecoverPoint, existe una integración con el software del sistema que le permite vincular ciertos marcadores a una entrada de registro específica. Gracias a esto, es posible revertir el estado de un volumen (o crear un clon) no sólo al 23 de abril, 11 horas 59 segundos 13 milisegundos, sino al momento anterior a “DROP ALL TABLES; COMPROMETERSE."

Clúster metropolitano

Metro cluster es una tecnología que permite crear una replicación síncrona bidireccional entre dos sistemas de almacenamiento de tal manera que desde el exterior este par parece un solo sistema de almacenamiento. Se utiliza para crear grupos con brazos separados geográficamente a distancias de metro (menos de 100 km).

Basado en el ejemplo de uso en un entorno de virtualización, Metrocluster le permite crear un almacén de datos con máquinas virtuales, accesibles para grabar desde dos centros de datos a la vez. En este caso, se crea un clúster a nivel de hipervisor, que consta de hosts en diferentes centros de datos físicos, conectados a este almacén de datos. Lo que le permite hacer lo siguiente:

  • Automatización total del proceso de recuperación tras la muerte de uno de los centros de datos. Sin fondos adicionales, todas las máquinas virtuales que se ejecutan en el centro de datos fallecido se reiniciarán automáticamente en el restante. RTO = tiempo de espera del clúster de alta disponibilidad (15 segundos para VMware) + tiempo para cargar el sistema operativo e iniciar los servicios.
  • Evitar desastres o, en ruso, evitar desastres. Si se planean trabajos de suministro de energía en el centro de datos 1, entonces tenemos la oportunidad de migrar toda la carga importante al centro de datos 2 sin parar por adelantado, antes de que comience el trabajo.

Virtualización

La virtualización del almacenamiento es técnicamente el uso de volúmenes de otro sistema de almacenamiento como discos. Un virtualizador de almacenamiento puede simplemente transferir el volumen de otra persona al consumidor como propio, reflejándolo simultáneamente en otro sistema de almacenamiento, o incluso crear un RAID a partir de volúmenes externos.
Los representantes clásicos en la clase de virtualización de almacenamiento son EMC VPLEX e IBM SVC. Y, por supuesto, sistemas de almacenamiento con funcionalidad de virtualización: NetApp, Hitachi, IBM/Lenovo Storwize.

¿Por qué podría ser necesario?

  • Redundancia a nivel del sistema de almacenamiento. Se crea un espejo entre los volúmenes y la mitad puede estar en HP 3Par y la otra en NetApp. Y el virtualizador es de EMC.
  • Mueva datos con un tiempo de inactividad mínimo entre sistemas de almacenamiento de diferentes fabricantes. Supongamos que es necesario migrar datos del antiguo 3Par, que se cancelará, al nuevo Dell. En este caso, los consumidores se desconectan de 3Par, los volúmenes se transfieren bajo VPLEX y se presentan nuevamente a los consumidores. Como el volumen no ha cambiado nada, el trabajo continúa. El proceso de duplicación del volumen en el nuevo Dell comienza en segundo plano y, al finalizar, la duplicación se rompe y 3Par se desactiva.
  • Organización de metroclusters.

Compresión/deduplicación

La compresión y la deduplicación son tecnologías que le permiten ahorrar espacio en disco en su sistema de almacenamiento. Vale la pena mencionar de inmediato que no todos los datos están sujetos a compresión y/o deduplicación en principio, mientras que algunos tipos de datos se comprimen y deduplican mejor, y otros, viceversa.

Hay 2 tipos de compresión y deduplicación:

En línea — La compresión y deduplicación de bloques de datos se produce antes de escribir estos datos en el disco. Así, el sistema sólo calcula el hash del bloque y lo compara en la tabla con los existentes. En primer lugar, es más rápido que simplemente escribir en el disco y, en segundo lugar, no desperdiciamos espacio extra en el disco.

Publicación - cuando estas operaciones se realicen sobre datos ya grabados ubicados en discos. En consecuencia, los datos se escriben primero en el disco y solo entonces se calcula el hash, se eliminan los bloques innecesarios y se liberan los recursos del disco.

Vale decir que la mayoría de los proveedores utilizan ambos tipos, lo que les permite optimizar estos procesos y así aumentar su eficiencia. La mayoría de los proveedores de almacenamiento tienen utilidades que le permiten analizar sus conjuntos de datos. Estas utilidades funcionan según la misma lógica que se implementa en el sistema de almacenamiento, por lo que el nivel estimado de eficiencia será el mismo. Además, tenga en cuenta que muchos proveedores tienen programas de garantía de rendimiento que prometen un rendimiento al menos igual de bueno para ciertos (o todos) tipos de datos. Y no debes descuidar este programa, porque al calcular el sistema para tus tareas, teniendo en cuenta el coeficiente de eficiencia de un sistema en particular, puedes ahorrar volumen. También vale la pena considerar que estos programas están diseñados para sistemas AFA, pero gracias a la compra de un volumen menor de SSD que de HDD en los sistemas clásicos, esto reducirá su costo, y si no es igual al costo de un sistema de disco, entonces acercarse bastante a ello.

modelo

Y aquí llegamos a la pregunta correcta.

"Me ofrecen dos opciones de almacenamiento: ABC SuperStorage S600 y XYZ HyperOcean 666v4, ¿qué me recomiendan?"

Se convierte en “Aquí me ofrecen dos opciones de almacenamiento: ABC SuperStorage S600 y XYZ HyperOcean 666v4, ¿qué recomiendan?

La carga de destino son máquinas virtuales VMware mixtas con bucles de producción/prueba/desarrollo. Prueba = productivo. 150 TB cada uno con un rendimiento máximo de 80 IOPS Bloque de 000 kb 8 % acceso aleatorio 50/80 lectura-escritura. 20 TB para desarrollo, 300 IOPS son suficientes, 50 aleatorios, 000 de escritura.

Productividad presumiblemente en el metrocluster RPO = 15 minutos RTO = 1 hora, desarrollo en replicación asincrónica RPO = 3 horas, prueba en un sitio.

Habrá un DBMS de 50 TB, el registro sería bueno para ellos.

Tenemos servidores Dell por todas partes, viejos sistemas de almacenamiento Hitachi, que apenas dan abasto, planeamos aumentar la carga en un 50% en términos de volumen y rendimiento”.

Como suele decirse, una pregunta correctamente formulada contiene el 80% de la respuesta.

información adicional

Lo que deberías leer adicionalmente según los autores

libros

  • Olifer y Olifer “Redes informáticas”. El libro ayudará a sistematizar y quizás comprender mejor cómo funciona el medio de transmisión de datos para los sistemas de almacenamiento IP/Ethernet.
  • "Almacenamiento y gestión de información de EMC". Un excelente libro sobre los conceptos básicos de los sistemas de almacenamiento, los porqués, los cómos y los porqués.

Foros y chats

recomendaciones generales

precios

Ahora, en cuanto a los precios, en general, si hay precios para los sistemas de almacenamiento, generalmente son precios de lista, de los cuales cada cliente recibe un descuento individual. El tamaño del descuento consta de una gran cantidad de parámetros, por lo que es simplemente imposible predecir qué precio final recibirá su empresa sin preguntarle al distribuidor. Pero al mismo tiempo, recientemente han comenzado a aparecer modelos de gama baja en las tiendas habituales de informática, como, por ejemplo nix.ru o xcom-shop.ru. Aquí podrá adquirir inmediatamente el sistema que le interesa a un precio fijo, como cualquier componente de ordenador.

Pero me gustaría señalar de inmediato que una comparación directa entre TB/$ no es correcta. Si lo abordamos desde este punto de vista, entonces la solución más barata será un simple servidor JBOD +, que no proporcionará ni la flexibilidad ni la confiabilidad que proporciona un sistema de almacenamiento completo con dos controladores. Esto no significa en absoluto que JBOD sea repugnante y un truco sucio y desagradable, solo necesita comprender muy claramente cómo y para qué fines utilizará esta solución. A menudo se puede escuchar que no hay nada que romper en JBOD, solo hay un backplane. Sin embargo, a veces los backplanes también fallan. Todo se rompe tarde o temprano.

En total

Es necesario comparar los sistemas entre sí no sólo por el precio, o no sólo por el rendimiento, sino por la totalidad de todos los indicadores.

Compre HDD solo si está seguro de que lo necesita. Para cargas bajas y tipos de datos incompresibles; de lo contrario, vale la pena recurrir a los programas de garantía de eficiencia del almacenamiento SSD, que ahora tienen la mayoría de los proveedores (y realmente funcionan, incluso en Rusia), pero todo depende de las aplicaciones y los datos que se ubicarán. en este sistema de almacenamiento.

No optes por lo barato. A veces, estos esconden muchos momentos desagradables, uno de los cuales Evgeniy Elizarov describió en sus artículos sobre infortunio. Y que, al final, esta baratura puede resultar contraproducente. No lo olvides: "el avaro paga dos veces".

Fuente: www.habr.com

Añadir un comentario