Tendencias de la industria en almacenamiento masivo

Hoy hablaremos sobre la mejor manera de almacenar datos en un mundo donde las redes de quinta generación, los escáneres genómicos y los automóviles autónomos producen más datos en un día que los generados por toda la humanidad antes de la revolución industrial.

Tendencias de la industria en almacenamiento masivo

Nuestro mundo genera cada vez más información. Parte de ella es fugaz y se pierde tan rápido como se recolecta. El otro debería almacenarse por más tiempo, y el otro está completamente diseñado "durante siglos", al menos así es como lo vemos desde el presente. Los flujos de información se asientan en los centros de datos a tal velocidad que cualquier nuevo enfoque, cualquier tecnología diseñada para satisfacer esta "demanda" interminable, se está volviendo obsoleta rápidamente.

Tendencias de la industria en almacenamiento masivo

40 años de desarrollo de almacenamiento distribuido

Los primeros almacenamientos en red en la forma que nos es familiar aparecieron en la década de 1980. Muchos de ustedes se han topado con NFS (Network File System), AFS (Andrew File System) o Coda. Una década después, la moda y la tecnología han cambiado y los sistemas de archivos distribuidos han dado paso a sistemas de almacenamiento en clúster basados ​​en GPFS (General Parallel File System), CFS (Clustered File Systems) y StorNext. Como base, se utilizaron almacenamientos en bloque de arquitectura clásica, sobre los cuales se creó un sistema de archivos único utilizando la capa de software. Estas y otras soluciones similares todavía se usan, ocupan su nicho y tienen mucha demanda.

Con el cambio de milenio, el paradigma del almacenamiento distribuido cambió un poco y los sistemas con la arquitectura SN (Shared-Nothing) tomaron la delantera. Hubo una transición del almacenamiento en clúster al almacenamiento en nodos separados, que, por regla general, eran servidores clásicos con software que proporciona un almacenamiento confiable; dichos principios se construyen, digamos, HDFS (Sistema de archivos distribuidos de Hadoop) y GFS (Sistema de archivos global).

Más cerca de 2010, los conceptos subyacentes a los sistemas de almacenamiento distribuido comenzaron a reflejarse cada vez más en productos comerciales completos, como VMware vSAN, Dell EMC Isilon y nuestro OceanStor de Huawei. Detrás de las plataformas mencionadas ya no hay una comunidad de entusiastas, sino proveedores específicos que son responsables de la funcionalidad, el soporte, el mantenimiento del servicio del producto y garantizan su desarrollo posterior. Tales soluciones son las más demandadas en varias áreas.

Tendencias de la industria en almacenamiento masivo

Operadores en el mundo

Quizás uno de los consumidores más antiguos de sistemas de almacenamiento distribuido sean los operadores de telecomunicaciones. El diagrama muestra qué grupos de aplicaciones producen la mayor parte de los datos. OSS (Sistemas de soporte de operaciones), MSS (Servicios de soporte de gestión) y BSS (Sistemas de soporte de negocios) son tres capas de software complementarias necesarias para la prestación de servicios a los suscriptores, informes financieros al proveedor y soporte operativo a los ingenieros del operador.

A menudo, los datos de estas capas se mezclan fuertemente entre sí y, para evitar la acumulación de copias innecesarias, se utilizan almacenamientos distribuidos que acumulan toda la información proveniente de una red en funcionamiento. Los almacenamientos se combinan en un grupo común, al que acceden todos los servicios.

Nuestros cálculos muestran que la transición de los sistemas de almacenamiento clásicos a bloques le permite ahorrar hasta un 70% del presupuesto solo al abandonar los sistemas de almacenamiento dedicados de alta gama y al usar servidores de arquitectura clásica convencional (generalmente x86), trabajando en conjunto con software especializado. Los operadores celulares han estado adquiriendo este tipo de soluciones en volúmenes significativos durante bastante tiempo. En particular, los operadores rusos han estado utilizando estos productos de Huawei durante más de seis años.

Sí, una serie de tareas no se pueden realizar utilizando sistemas distribuidos. Por ejemplo, con mayores requisitos de rendimiento o compatibilidad con protocolos más antiguos. Pero al menos el 70% de los datos que procesa el operador se pueden colocar en un grupo distribuido.

Tendencias de la industria en almacenamiento masivo

Sector bancario

En cualquier banco, hay muchos sistemas de TI diversos, que van desde el procesamiento hasta un sistema bancario automatizado. Esta infraestructura también funciona con una gran cantidad de información, mientras que la mayoría de las tareas no requieren un mayor rendimiento y confiabilidad de los sistemas de almacenamiento, como desarrollo, prueba, automatización de procesos de oficina, etc. Aquí, el uso de sistemas de almacenamiento clásicos es posible. , pero cada año es menos y menos rentable. Además, en este caso, no hay flexibilidad en el gasto de recursos de almacenamiento, cuyo rendimiento se calcula a partir de la carga máxima.

Cuando se utilizan sistemas de almacenamiento distribuido, sus nodos, que de hecho son servidores ordinarios, pueden convertirse en cualquier momento, por ejemplo, en una granja de servidores y utilizarse como plataforma informática.

Tendencias de la industria en almacenamiento masivo

Lagos de datos

El diagrama anterior muestra una lista de consumidores de servicios típicos. datos. Estos pueden ser servicios de gobierno electrónico (por ejemplo, “Gosuslugi”), empresas que se han digitalizado, estructuras financieras, etc. Todos ellos necesitan trabajar con grandes volúmenes de información heterogénea.

El funcionamiento de los sistemas de almacenamiento clásicos para resolver este tipo de problemas es ineficiente, ya que se requiere un acceso de alto rendimiento a las bases de datos de bloques y un acceso regular a las bibliotecas de documentos escaneados almacenados como objetos. Aquí, por ejemplo, se puede vincular un sistema de pedidos a través de un portal web. Para implementar todo esto en una plataforma de almacenamiento clásica, necesitará un gran conjunto de equipos para diferentes tareas. Un sistema de almacenamiento universal horizontal puede cubrir fácilmente todas las tareas enumeradas anteriormente: solo necesita crear varios grupos con diferentes características de almacenamiento.

Tendencias de la industria en almacenamiento masivo

Generadores de nueva información

La cantidad de información almacenada en el mundo está creciendo alrededor de un 30% por año. Esta es una buena noticia para los proveedores de almacenamiento, pero ¿cuál es y será la fuente principal de estos datos?

Hace diez años, las redes sociales se convirtieron en generadores de este tipo, lo que requirió la creación de una gran cantidad de nuevos algoritmos, soluciones de hardware, etc. Ahora hay tres motores principales del crecimiento del almacenamiento. El primero es la computación en la nube. Actualmente, aproximadamente el 70% de las empresas utilizan servicios en la nube de una forma u otra. Estos pueden ser sistemas de correo electrónico, copias de seguridad y otras entidades virtualizadas.
Las redes de quinta generación se están convirtiendo en el segundo motor. Estas son nuevas velocidades y nuevos volúmenes de transferencia de datos. Según nuestras previsiones, la adopción generalizada de 5G provocará una caída de la demanda de tarjetas de memoria flash. No importa cuánta memoria haya en el teléfono, aún se agota, y si el dispositivo tiene un canal de 100 megabits, no es necesario almacenar fotos localmente.

El tercer grupo de razones por las que crece la demanda de sistemas de almacenamiento incluye el rápido desarrollo de la inteligencia artificial, la transición al análisis de big data y la tendencia hacia la automatización universal de todo lo que es posible.

Una característica del "tráfico nuevo" es su desestructurado. Necesitamos almacenar estos datos sin definir su formato de ninguna manera. Se requiere sólo para la lectura posterior. Por ejemplo, un sistema de calificación bancaria para determinar el tamaño del préstamo disponible observará las fotos que publicó en las redes sociales, determinando con qué frecuencia va al mar y a los restaurantes, y al mismo tiempo estudiará extractos de sus documentos médicos disponibles. Estos datos, por un lado, son exhaustivos y, por otro, carecen de homogeneidad.

Tendencias de la industria en almacenamiento masivo

Un océano de datos no estructurados

¿Cuáles son los problemas que conlleva la aparición de “nuevos datos”? El primero de ellos, por supuesto, es la cantidad de información en sí y el período estimado de su almacenamiento. Solo un automóvil moderno autónomo sin conductor genera hasta 60 TB de datos todos los días a partir de todos sus sensores y mecanismos. Para desarrollar nuevos algoritmos de movimiento, esta información debe procesarse en el mismo día, de lo contrario, comenzará a acumularse. Al mismo tiempo, debe almacenarse durante mucho tiempo, décadas. Solo entonces será posible sacar conclusiones sobre la base de grandes muestras analíticas en el futuro.

Un dispositivo para descifrar secuencias genéticas produce alrededor de 6 terabytes por día. Y los datos recopilados con su ayuda no implican la eliminación en absoluto, es decir, hipotéticamente, deberían almacenarse para siempre.

Finalmente, todas las mismas redes de la quinta generación. Además de la información que se transmite en sí misma, dicha red es en sí misma un gran generador de datos: registros de actividad, registros de llamadas, resultados intermedios de interacciones máquina a máquina, etc.

Todo esto requiere el desarrollo de nuevos enfoques y algoritmos para el almacenamiento y procesamiento de la información. Y tales enfoques están surgiendo.

Tendencias de la industria en almacenamiento masivo

Tecnologías de la nueva era

Se pueden distinguir tres grupos de soluciones diseñadas para hacer frente a los nuevos requisitos de los sistemas de almacenamiento de información: la introducción de la inteligencia artificial, la evolución técnica de los medios de almacenamiento y las innovaciones en el campo de la arquitectura de sistemas. Comencemos con la IA.

Tendencias de la industria en almacenamiento masivo

En las nuevas soluciones de Huawei ya se utiliza la inteligencia artificial a nivel del propio almacenamiento, que está equipado con un procesador de IA que permite al sistema analizar de forma independiente su estado y predecir fallos. Si el sistema de almacenamiento está conectado a una nube de servicios que tiene capacidades informáticas significativas, la inteligencia artificial puede procesar más información y mejorar la precisión de sus hipótesis.

Además de las fallas, dicha IA puede predecir la carga máxima futura y el tiempo restante hasta que se agote la capacidad. Esto le permite optimizar el rendimiento y escalar el sistema antes de que ocurran eventos no deseados.

Tendencias de la industria en almacenamiento masivo

Ahora sobre la evolución de los soportes de datos. Las primeras unidades flash se fabricaron con tecnología SLC (célula de un solo nivel). Los dispositivos basados ​​en él eran rápidos, fiables y estables, pero tenían poca capacidad y eran muy caros. El aumento de volumen y la disminución de precio se logró a través de ciertas concesiones técnicas, por lo que se redujo la velocidad, confiabilidad y vida útil de los accionamientos. Sin embargo, la tendencia no afectó a los sistemas de almacenamiento en sí mismos, que, debido a varios trucos arquitectónicos, en general, se volvieron más productivos y más confiables.

Pero, ¿por qué necesitaba sistemas de almacenamiento de clase All-Flash? ¿No fue suficiente simplemente reemplazar los discos duros antiguos en un sistema que ya estaba en funcionamiento con nuevos SSD del mismo factor de forma? Esto era necesario para utilizar de manera eficiente todos los recursos de los nuevos SSD, lo que era simplemente imposible en los sistemas más antiguos.

Huawei, por ejemplo, ha desarrollado una serie de tecnologías para resolver este problema, una de las cuales es Enlace flash, lo que permitió optimizar al máximo las interacciones disco-controlador.

La identificación inteligente hizo posible descomponer los datos en varios flujos y hacer frente a una serie de fenómenos indeseables, como WA (amplificación de escritura). Al mismo tiempo, nuevos algoritmos de recuperación, en particular RAID 2.0+, aumentó la velocidad de la reconstrucción, reduciendo su tiempo a valores completamente insignificantes.

Falla, hacinamiento, recolección de basura: estos factores ya no afectan el rendimiento del sistema de almacenamiento gracias al refinamiento especial de los controladores.

Tendencias de la industria en almacenamiento masivo

Y los almacenes de datos en bloque se están preparando para cumplir NVMe. Recuerde que el esquema clásico para organizar el acceso a los datos funcionaba así: el procesador accedía al controlador RAID a través del bus PCI Express. Eso, a su vez, interactuaba con discos mecánicos a través de SCSI o SAS. El uso de NVMe en el backend aceleró significativamente todo el proceso, pero tenía un inconveniente: las unidades tenían que estar conectadas directamente al procesador para proporcionarle acceso directo a la memoria.

La próxima fase de desarrollo tecnológico que estamos viendo ahora es el uso de NVMe-oF (NVMe over Fabrics). En cuanto a las tecnologías de bloques de Huawei, ya son compatibles con FC-NVMe (NVMe sobre canal de fibra), y NVMe sobre RoCE (RDMA sobre Ethernet convergente) está en camino. Los modelos de prueba son bastante funcionales, quedan unos meses para su presentación oficial. Tenga en cuenta que todo esto también aparecerá en los sistemas distribuidos, donde "Ethernet sin pérdidas" tendrá una gran demanda.

Tendencias de la industria en almacenamiento masivo

Una forma adicional de optimizar el trabajo de los almacenamientos distribuidos fue el rechazo total de la duplicación de datos. Las soluciones de Huawei ya no usan n copias, como en el RAID 1 habitual, y cambian por completo al mecanismo EC (Borrado de codificación). Un paquete matemático especial calcula bloques de control con cierta frecuencia, lo que le permite restaurar datos intermedios en caso de pérdida.

Los mecanismos de deduplicación y compresión se vuelven obligatorios. Si en los sistemas de almacenamiento clásicos estamos limitados por la cantidad de procesadores instalados en los controladores, en los sistemas de almacenamiento escalables horizontalmente distribuidos, cada nodo contiene todo lo que necesita: discos, memoria, procesadores e interconexión. Estos recursos son suficientes para que la deduplicación y la compresión tengan un impacto mínimo en el rendimiento.

Y sobre métodos de optimización de hardware. Aquí, fue posible reducir la carga en los procesadores centrales con la ayuda de microcircuitos dedicados adicionales (o bloques dedicados en el propio procesador), que desempeñan el papel TOE (Motor de descarga TCP/IP) o asumir las tareas matemáticas de EC, deduplicación y compresión.

Tendencias de la industria en almacenamiento masivo

Los nuevos enfoques para el almacenamiento de datos están incorporados en una arquitectura desagregada (distribuida). En los sistemas de almacenamiento centralizados, hay una fábrica de servidores conectada a través de Fibre Channel para SAN con muchas matrices. Las desventajas de este enfoque son las dificultades para escalar y brindar un nivel de servicio garantizado (en términos de rendimiento o latencia). Los sistemas hiperconvergentes utilizan los mismos hosts tanto para el almacenamiento como para el procesamiento de la información. Esto brinda un alcance casi ilimitado para escalar, pero implica altos costos para mantener la integridad de los datos.

A diferencia de los dos anteriores, la arquitectura desagregada implica dividir el sistema en una fábrica de cómputo y un sistema de almacenamiento horizontal. Esto proporciona las ventajas de ambas arquitecturas y permite un escalado casi ilimitado solo del elemento cuyo rendimiento no es suficiente.

Tendencias de la industria en almacenamiento masivo

De la integración a la convergencia

Una tarea clásica, cuya relevancia solo ha crecido en los últimos 15 años, es la necesidad de proporcionar simultáneamente almacenamiento en bloque, acceso a archivos, acceso a objetos, la operación de una granja de big data, etc. La guinda del pastel puede ser también, por ejemplo, un sistema de copia de seguridad a cinta magnética.

En una primera etapa sólo se podría unificar la gestión de estos servicios. Los sistemas de almacenamiento de datos heterogéneos estaban cerrados a algún software especializado, a través del cual el administrador distribuía los recursos de los grupos disponibles. Pero dado que estos grupos eran diferentes en hardware, era imposible migrar la carga entre ellos. En un nivel más alto de integración, la consolidación tuvo lugar en el nivel de entrada. Si hubiera un acceso a un archivo compartido, podría darse a través de diferentes protocolos.

El método de convergencia más avanzado que tenemos ahora implica la creación de un sistema híbrido universal. Justo como debería ser el nuestro OceanStor 100D. El acceso universal utiliza los mismos recursos de hardware, lógicamente divididos en diferentes grupos, pero permite la migración de carga. Todo esto se puede hacer a través de una sola consola de administración. De esta manera, logramos implementar el concepto de "un centro de datos, un sistema de almacenamiento".

Tendencias de la industria en almacenamiento masivo

El costo de almacenar información ahora determina muchas decisiones arquitectónicas. Y aunque se puede poner a la vanguardia con seguridad, hoy estamos hablando de almacenamiento "en vivo" con acceso activo, por lo que también se debe tener en cuenta el rendimiento. Otra propiedad importante de los sistemas distribuidos de próxima generación es la unificación. Después de todo, nadie quiere tener varios sistemas dispares administrados desde diferentes consolas. Todas estas cualidades están plasmadas en la nueva serie de productos Huawei. OceanStor Pacífico.

Almacenamiento masivo de última generación

OceanStor Pacific cumple con los requisitos de confiabilidad de seis nueves (99,9999 %) y se puede utilizar para crear un centro de datos de clase HyperMetro. Con una distancia entre dos centros de datos de hasta 100 km, los sistemas muestran un retraso adicional de 2 ms, lo que permite construir cualquier solución a prueba de desastres basada en ellos, incluidas aquellas con servidores de quórum.

Tendencias de la industria en almacenamiento masivo

Los productos de la nueva serie demuestran versatilidad en términos de protocolos. OceanStor 100D ya admite el acceso a bloques, el acceso a objetos y el acceso a Hadoop. El acceso a archivos se implementará en un futuro próximo. No es necesario conservar varias copias de los datos si se pueden emitir a través de diferentes protocolos.

Tendencias de la industria en almacenamiento masivo

Parecería, ¿qué tiene que ver el concepto de "red sin pérdidas" con el almacenamiento? El hecho es que los sistemas de almacenamiento distribuido se construyen sobre la base de una red rápida que admite los algoritmos apropiados y el mecanismo RoCE. El sistema de inteligencia artificial compatible con nuestros conmutadores ayuda a aumentar aún más la velocidad de la red y reducir la latencia. Tejido de IA. La ganancia de rendimiento de los sistemas de almacenamiento cuando se activa AI Fabric puede alcanzar el 20 %.

Tendencias de la industria en almacenamiento masivo

¿Qué es el nuevo nodo de almacenamiento distribuido de OceanStor Pacific? La solución de factor de forma de 5U incluye 120 unidades y puede reemplazar tres nodos clásicos, más del doble del espacio del rack. Debido a la negativa a almacenar copias, la eficiencia de las unidades aumenta significativamente (hasta + 92%).

Estamos acostumbrados al hecho de que el almacenamiento definido por software es un software especial instalado en un servidor clásico. Pero ahora, para lograr parámetros óptimos, esta solución arquitectónica también requiere nodos especiales. Consta de dos servidores basados ​​en procesadores ARM que gestionan un array de discos de tres pulgadas.

Tendencias de la industria en almacenamiento masivo

Estos servidores no son adecuados para soluciones hiperconvergentes. En primer lugar, hay pocas aplicaciones para ARM y, en segundo lugar, es difícil mantener un equilibrio de carga. Sugerimos cambiar a un almacenamiento separado: un clúster de computación, representado por servidores clásicos o en rack, opera por separado, pero está conectado a los nodos de almacenamiento de OceanStor Pacific, que también realizan sus tareas directas. Y se justifica a sí mismo.

Por ejemplo, tomemos una solución clásica de almacenamiento de big data hiperconvergente que ocupa 15 racks de servidores. Si distribuye la carga entre los servidores informáticos individuales de OceanStor Pacific y los nodos de almacenamiento, separándolos entre sí, ¡la cantidad de bastidores necesarios se reducirá a la mitad! Esto reduce el costo de operación del centro de datos y reduce el costo total de propiedad. En un mundo donde el volumen de información almacenada crece a un ritmo del 30% anual, tales beneficios no están dispersos.

***

Para obtener más información sobre las soluciones de Huawei y sus escenarios de aplicación, visite nuestro sitio web o poniéndose en contacto directamente con los representantes de la empresa.

Fuente: habr.com

Añadir un comentario