Tendencias da industria no almacenamento masivo

Hoxe falaremos da mellor forma de almacenar datos nun mundo onde as redes de quinta xeración, os escáneres de xenoma e os coches autónomos producen máis datos nun día que toda a humanidade xeraba antes da revolución industrial.

Tendencias da industria no almacenamento masivo

O noso mundo xera cada vez máis información. Parte é fugaz e pérdese tan rápido como se recolle. O outro debería gardarse máis tempo, e o outro está completamente deseñado "durante séculos" - polo menos así o vemos desde o presente. Os fluxos de información instálanse nos centros de datos a tal velocidade que calquera novo enfoque, calquera tecnoloxía deseñada para satisfacer esta interminable "demanda" está quedando rapidamente obsoleta.

Tendencias da industria no almacenamento masivo

40 anos de desenvolvemento de almacenamento distribuído

Os primeiros almacenamentos de rede na forma que nos coñecemos apareceron na década de 1980. Moitos de vós atoparedes NFS (Network File System), AFS (Andrew File System) ou Coda. Unha década despois, a moda e a tecnoloxía cambiaron, e os sistemas de ficheiros distribuídos deron paso a sistemas de almacenamento en clúster baseados en GPFS (General Parallel File System), CFS (Clustered File Systems) e StorNext. Como base, utilizáronse almacenamentos de bloques de arquitectura clásica, enriba dos cales se creou un único sistema de ficheiros mediante a capa de software. Estas solucións e similares aínda se usan, ocupan o seu nicho e son bastante demandadas.

No cambio de milenio, o paradigma de almacenamento distribuído cambiou algo, e os sistemas coa arquitectura SN (Shared-Nothing) tomaron o liderado. Houbo unha transición do almacenamento en clúster ao almacenamento en nós separados, que, por regra xeral, eran servidores clásicos con software que proporciona almacenamento fiable; tales principios constrúense, por exemplo, HDFS (Hadoop Distributed File System) e GFS (Global File System).

Máis preto de 2010, os conceptos subxacentes aos sistemas de almacenamento distribuído comezaron a reflectirse cada vez máis en produtos comerciais completos, como VMware vSAN, Dell EMC Isilon e os nosos Huawei OceanStor. Detrás das mencionadas plataformas xa non hai unha comunidade de entusiastas, senón provedores específicos que se encargan da funcionalidade, soporte, mantemento do servizo do produto e garanten o seu posterior desenvolvemento. Tales solucións son as máis demandadas en varias áreas.

Tendencias da industria no almacenamento masivo

Operadores de telecomunicacións

Quizais un dos consumidores máis antigos de sistemas de almacenamento distribuído sexan os operadores de telecomunicacións. O diagrama mostra que grupos de aplicacións producen a maior parte dos datos. OSS (Operations Support Systems), MSS (Management Support Services) e BSS (Business Support Systems) son tres capas de software complementarias necesarias para a prestación de servizos aos subscritores, a presentación de informes financeiros ao provedor e o apoio operativo aos enxeñeiros do operador.

A miúdo, os datos destas capas mestúranse fortemente entre si e, para evitar a acumulación de copias innecesarias, utilízanse almacenamentos distribuídos que acumulan toda a cantidade de información procedente dunha rede en funcionamento. Os almacéns combínanse nunha piscina común, á que acceden todos os servizos.

Os nosos cálculos mostran que a transición de sistemas de almacenamento clásicos a bloques permite aforrar ata un 70 % do orzamento só abandonando os sistemas de almacenamento de alta gama dedicados e utilizando servidores de arquitectura clásica clásica (xeralmente x86), traballando en conxunto con software especializado. Os operadores móbiles levan bastante tempo adquirindo tales solucións en volumes significativos. En particular, os operadores rusos levan máis de seis anos usando estes produtos de Huawei.

Si, unha serie de tarefas non se poden realizar mediante sistemas distribuídos. Por exemplo, con requisitos de rendemento aumentados ou compatibilidade con protocolos máis antigos. Pero polo menos o 70% dos datos que procesa o operador pódense colocar nun pool distribuído.

Tendencias da industria no almacenamento masivo

Banca

En calquera banco, hai moitos sistemas informáticos diversos, que van desde o procesamento ata un sistema bancario automatizado. Esta infraestrutura tamén funciona cunha gran cantidade de información, mentres que a maioría das tarefas non requiren un maior rendemento e fiabilidade dos sistemas de almacenamento, como desenvolvemento, probas, automatización de procesos ofimáticos, etc. Aquí é posible o uso de sistemas de almacenamento clásicos. , pero cada ano é cada vez menos rendible. Ademais, neste caso, non hai flexibilidade para gastar recursos de almacenamento, cuxo rendemento se calcula a partir da carga máxima.

Cando se usan sistemas de almacenamento distribuídos, os seus nodos, que de feito son servidores normais, pódense converter en calquera momento, por exemplo, nunha granxa de servidores e utilizarse como plataforma informática.

Tendencias da industria no almacenamento masivo

Lagos de datos

O diagrama anterior mostra unha lista de consumidores de servizos típicos. lago de datos. Estes poden ser servizos de administración electrónica (por exemplo, "Gosuslugi"), empresas que sufriron a dixitalización, estruturas financeiras, etc. Todos eles precisan traballar con grandes volumes de información heteroxénea.

O funcionamento dos sistemas de almacenamento clásicos para resolver este tipo de problemas é ineficiente, xa que se require tanto un acceso de alto rendemento a bases de datos de bloques como un acceso regular ás bibliotecas de documentos dixitalizados almacenados como obxectos. Aquí, por exemplo, pódese vincular un sistema de pedidos a través dun portal web. Para implementar todo isto nunha plataforma de almacenamento clásica, necesitarás un gran conxunto de equipos para diferentes tarefas. Un sistema de almacenamento universal horizontal pode cubrir facilmente todas as tarefas enumeradas anteriormente: só precisa crear nel varias piscinas con diferentes características de almacenamento.

Tendencias da industria no almacenamento masivo

Xeradores de nova información

A cantidade de información almacenada no mundo está a crecer preto dun 30% ao ano. Esta é unha boa noticia para os provedores de almacenamento, pero cal é e será a principal fonte destes datos?

Hai dez anos, as redes sociais convertéronse en xeradores deste tipo, o que requiriu a creación dun gran número de novos algoritmos, solucións de hardware, etc. Agora hai tres principais motores de crecemento do almacenamento. O primeiro é o cloud computing. Actualmente, aproximadamente o 70% das empresas utilizan os servizos na nube dun xeito ou doutro. Estes poden ser sistemas de correo electrónico, copias de seguridade e outras entidades virtualizadas.
As redes de quinta xeración están a converterse no segundo motor. Trátase de novas velocidades e novos volumes de transferencia de datos. Segundo as nosas previsións, a adopción xeneralizada de 5G provocará unha caída na demanda de tarxetas de memoria flash. Non importa canta memoria haxa no teléfono, aínda remata, e se o gadget ten unha canle de 100 megabits, non é necesario almacenar fotos localmente.

O terceiro grupo de razóns polas que crece a demanda de sistemas de almacenamento inclúen o rápido desenvolvemento da intelixencia artificial, a transición á analítica de big data e a tendencia á automatización universal de todo o que é posible.

Unha característica do "novo tráfico" é a súa desestruturado. Necesitamos almacenar estes datos sen definir o seu formato de ningún xeito. Só é necesario para lecturas posteriores. Por exemplo, un sistema de puntuación bancaria para determinar o tamaño do préstamo dispoñible analizará as fotos que publicaches nas redes sociais, determinará con que frecuencia vas ao mar e aos restaurantes e, ao mesmo tempo, estudará extractos dos teus documentos médicos dispoñibles. Estes datos, por unha banda, son exhaustivos e, por outro, carecen de homoxeneidade.

Tendencias da industria no almacenamento masivo

Un océano de datos non estruturados

Cales son os problemas que supón a aparición de “novos datos”? O primeiro deles, por suposto, é a propia cantidade de información e o período estimado do seu almacenamento. Só un moderno coche autónomo sen condutor xera ata 60 TB de datos todos os días a partir de todos os seus sensores e mecanismos. Para desenvolver novos algoritmos de movemento, esta información debe ser procesada no mesmo día, se non, comezará a acumularse. Ao mesmo tempo, debe almacenarse durante moito tempo - décadas. Só así será posible extraer conclusións sobre a base de grandes mostras analíticas no futuro.

Un dispositivo para descifrar secuencias xenéticas produce uns 6 terabytes por día. E os datos recollidos coa súa axuda non implican en absoluto a eliminación, é dicir, hipotéticamente, deberían almacenarse para sempre.

Finalmente, todas as mesmas redes da quinta xeración. Ademais da propia información transmitida, esa rede é en si mesma un gran xerador de datos: rexistros de actividade, rexistros de chamadas, resultados intermedios de interaccións máquina a máquina, etc.

Todo isto require o desenvolvemento de novos enfoques e algoritmos para almacenar e procesar a información. E tales enfoques están xurdindo.

Tendencias da industria no almacenamento masivo

Tecnoloxías da nova era

Pódense distinguir tres grupos de solucións deseñadas para facer fronte aos novos requisitos dos sistemas de almacenamento de información: a introdución da intelixencia artificial, a evolución técnica dos medios de almacenamento e as innovacións no campo da arquitectura de sistemas. Comecemos coa IA.

Tendencias da industria no almacenamento masivo

Nas novas solucións de Huawei xa se utiliza a intelixencia artificial a nivel do propio almacenamento, que está equipado cun procesador de intelixencia artificial que permite ao sistema analizar de forma independente o seu estado e prever fallos. Se o sistema de almacenamento está conectado a unha nube de servizos que ten capacidades informáticas importantes, a intelixencia artificial pode procesar máis información e mellorar a precisión das súas hipóteses.

Ademais dos fallos, esa IA é capaz de predecir a carga máxima futura e o tempo que queda ata que se esgote a capacidade. Isto permítelle optimizar o rendemento e escalar o sistema antes de que se produzan eventos non desexados.

Tendencias da industria no almacenamento masivo

Agora sobre a evolución dos soportes de datos. As primeiras unidades flash foron feitas mediante a tecnoloxía SLC (Single-Level Cell). Os dispositivos baseados nel eran rápidos, fiables, estables, pero tiñan pouca capacidade e eran moi caros. O aumento do volume e a diminución do prezo conseguiuse mediante determinadas concesións técnicas, polo que se reduciu a velocidade, fiabilidade e vida útil dos accionamentos. Non obstante, a tendencia non afectou aos propios sistemas de almacenamento, que, debido a varios trucos arquitectónicos, en xeral, volvéronse máis produtivos e máis fiables.

Pero por que necesitabas sistemas de almacenamento de clase All-Flash? Non foi suficiente substituír os discos duros antigos nun sistema xa en execución por novos SSD do mesmo factor de forma? Isto era necesario para utilizar de forma eficiente todos os recursos dos novos SSD, o que era simplemente imposible nos sistemas máis antigos.

Huawei, por exemplo, desenvolveu unha serie de tecnoloxías para resolver este problema, unha delas é FlashLink, o que permitiu optimizar ao máximo as interaccións disco-controlador.

A identificación intelixente permitiu descompoñer os datos en varios fluxos e facer fronte a unha serie de fenómenos indesexables, como WA (escribir amplificación). Ao mesmo tempo, novos algoritmos de recuperación, en particular RAID 2.0+, aumentou a velocidade da reconstrución, reducindo o seu tempo a valores completamente insignificantes.

Fallos, masificación, recollida de lixo: estes factores tampouco afectan o rendemento do sistema de almacenamento grazas ao perfeccionamento especial dos controladores.

Tendencias da industria no almacenamento masivo

E as tendas de datos de bloque prepáranse para reunirse NVMe. Recordemos que o esquema clásico para organizar o acceso aos datos funcionaba así: o procesador accedeu ao controlador RAID a través do bus PCI Express. Iso, á súa vez, interactuou con discos mecánicos a través de SCSI ou SAS. O uso de NVMe no backend acelerou significativamente todo o proceso, pero tivo un inconveniente: as unidades tiñan que estar conectadas directamente ao procesador para proporcionarlle acceso directo á memoria.

A seguinte fase de desenvolvemento tecnolóxico que estamos a ver agora é o uso de NVMe-oF (NVMe over Fabrics). En canto ás tecnoloxías de bloque de Huawei, xa admiten FC-NVMe (NVMe sobre Fibre Channel) e NVMe sobre RoCE (RDMA sobre Converged Ethernet) está en camiño. Os modelos de proba son bastante funcionais, quedan uns meses para a súa presentación oficial. Teña en conta que todo isto tamén aparecerá nos sistemas distribuídos, onde "Ethernet sen perdas" terá unha gran demanda.

Tendencias da industria no almacenamento masivo

Unha forma adicional de optimizar o traballo dos almacenamentos distribuídos foi o rexeitamento total da duplicación de datos. As solucións de Huawei xa non usan n copias, como no RAID 1 habitual, e cambian completamente ao mecanismo EC (Codificación de borrado). Un paquete matemático especial calcula bloques de control cunha determinada frecuencia, que permiten restaurar datos intermedios en caso de perda.

Os mecanismos de deduplicación e compresión fanse obrigatorios. Se nos sistemas de almacenamento clásicos estamos limitados polo número de procesadores instalados nos controladores, entón nos sistemas de almacenamento distribuídos escalables horizontalmente, cada nodo contén todo o que necesitas: discos, memoria, procesadores e interconexión. Estes recursos son suficientes para que a deduplicación e a compresión teñan un impacto mínimo no rendemento.

E sobre métodos de optimización de hardware. Aquí, foi posible reducir a carga dos procesadores centrais coa axuda de microcircuítos adicionais adicionais (ou bloques dedicados no propio procesador), que desempeñan o papel. (TCP/IP Offload Engine) ou asumir as tarefas matemáticas de EC, deduplicación e compresión.

Tendencias da industria no almacenamento masivo

Os novos enfoques para o almacenamento de datos están plasmados nunha arquitectura desagregada (distribuída). Nos sistemas de almacenamento centralizado, hai unha fábrica de servidores conectada a través de Fibre Channel SAN con moitas matrices. As desvantaxes deste enfoque son as dificultades para escalar e proporcionar un nivel de servizo garantido (en termos de rendemento ou latencia). Os sistemas hiperconverxentes usan os mesmos hosts tanto para o almacenamento como para o procesamento da información. Isto dá un alcance case ilimitado para a escala, pero implica custos elevados para manter a integridade dos datos.

A diferenza dos dous anteriores, implica unha arquitectura desagregada particionando o sistema nunha fábrica de computación e nun sistema de almacenamento horizontal. Isto proporciona as vantaxes de ambas arquitecturas e permite un escalado case ilimitado só do elemento cuxo rendemento non é suficiente.

Tendencias da industria no almacenamento masivo

Da integración á converxencia

Unha tarefa clásica, cuxa relevancia só creceu nos últimos 15 anos, é a necesidade de proporcionar simultaneamente almacenamento en bloque, acceso a ficheiros, acceso a obxectos, funcionamento dunha granxa de big data, etc. A guinda do pastel pode tamén ser, por exemplo, un sistema de copia de seguridade en cinta magnética.

Nun primeiro momento só se puido unificar a xestión destes servizos. Pecháronse sistemas de almacenamento de datos heteroxéneos a algún software especializado, mediante o cal o administrador distribuía recursos dos pools dispoñibles. Pero dado que estas agrupacións eran diferentes no hardware, era imposible migrar a carga entre elas. Nun nivel de integración superior, a consolidación produciuse a nivel de pasarela. Se houbese acceso a ficheiros compartidos, poderíase dar a través de protocolos diferentes.

O método de converxencia máis avanzado que temos agora implica a creación dun sistema híbrido universal. Tal e como debería ser o noso OceanStor 100D. O acceso universal utiliza os mesmos recursos de hardware, loxicamente divididos en grupos diferentes, pero permitindo a migración de carga. Todo isto pódese facer a través dunha única consola de xestión. Deste xeito, conseguimos implementar o concepto de "un centro de datos - un sistema de almacenamento".

Tendencias da industria no almacenamento masivo

O custo de almacenar información agora determina moitas decisións arquitectónicas. E aínda que se pode poñer á cabeza con seguridade, hoxe estamos a falar de almacenamento "en directo" con acceso activo, polo que tamén hai que ter en conta o rendemento. Outra propiedade importante dos sistemas distribuídos de próxima xeración é a unificación. Despois de todo, ninguén quere ter varios sistemas dispares xestionados desde diferentes consolas. Todas estas calidades están plasmadas na nova serie de produtos Huawei. OceanStor Pacific.

Almacenamento masivo de nova xeración

OceanStor Pacific cumpre os requisitos de fiabilidade de seis nove (99,9999%) e pódese usar para crear un centro de datos de clase HyperMetro. Cunha distancia entre dous centros de datos de ata 100 km, os sistemas demostran un atraso adicional de 2 ms, o que permite construír calquera solución a proba de desastres baseada neles, incluídas as con servidores de quórum.

Tendencias da industria no almacenamento masivo

Os produtos da nova serie demostran versatilidade en canto a protocolos. OceanStor 100D xa admite o acceso en bloque, o acceso a obxectos e o acceso a Hadoop. O acceso aos ficheiros implementarase nun futuro próximo. Non é necesario gardar varias copias dos datos se se poden emitir mediante protocolos diferentes.

Tendencias da industria no almacenamento masivo

Parece que, que ten que ver o concepto de "rede sen perdas" co almacenamento? O caso é que os sistemas de almacenamento distribuído constrúense sobre a base dunha rede rápida que admite os algoritmos axeitados e o mecanismo RoCE. O sistema de intelixencia artificial compatible cos nosos interruptores axuda a aumentar aínda máis a velocidade da rede e reducir a latencia. Tecido AI. A ganancia de rendemento dos sistemas de almacenamento cando se activa AI Fabric pode chegar ao 20%.

Tendencias da industria no almacenamento masivo

Que é o novo nodo de almacenamento distribuído OceanStor Pacific? A solución de factor de forma 5U inclúe 120 unidades e pode substituír a tres nodos clásicos, duplicando o espazo do rack. Debido á negativa a almacenar copias, a eficiencia das unidades aumenta significativamente (ata + 92%).

Estamos afeitos ao feito de que o almacenamento definido por software é un software especial instalado nun servidor clásico. Pero agora, para acadar os parámetros óptimos, esta solución arquitectónica tamén require nós especiais. Consta de dous servidores baseados en procesadores ARM que xestionan unha matriz de unidades de tres polgadas.

Tendencias da industria no almacenamento masivo

Estes servidores non son moi axeitados para solucións hiperconverxentes. En primeiro lugar, hai poucas aplicacións para ARM e, en segundo lugar, é difícil manter un equilibrio de carga. Suxerimos cambiar a almacenamento separado: un clúster de computación, representado por servidores clásicos ou en rack, funciona por separado, pero está conectado aos nodos de almacenamento de OceanStor Pacific, que tamén realizan as súas tarefas directas. E xustifícase.

Por exemplo, tomemos unha solución clásica de almacenamento de grandes datos hiperconverxentes que ocupa 15 racks de servidores. Se distribúes a carga entre os servidores de computación e os nodos de almacenamento individuais de OceanStor Pacific, separándoos entre si, o número de racks necesarios reducirase á metade. Isto reduce o custo de funcionamento do centro de datos e reduce o custo total de propiedade. Nun mundo no que o volume de información almacenada crece nun 30% ao ano, estes beneficios non están dispersos.

***

Para obter máis información sobre as solucións de Huawei e os seus escenarios de aplicación, visite o noso On-line ou contactando directamente cos representantes da empresa.

Fonte: www.habr.com

Engadir un comentario