Hoxe falaremos da mellor forma de almacenar datos nun mundo onde as redes de quinta xeración, os escáneres de xenoma e os coches autónomos producen máis datos nun día que toda a humanidade xeraba antes da revolución industrial.
O noso mundo xera cada vez máis información. Parte é fugaz e pérdese tan rápido como se recolle. O outro debería gardarse máis tempo, e o outro está completamente deseñado "durante séculos" - polo menos así o vemos desde o presente. Os fluxos de información instálanse nos centros de datos a tal velocidade que calquera novo enfoque, calquera tecnoloxía deseñada para satisfacer esta interminable "demanda" está quedando rapidamente obsoleta.
40 anos de desenvolvemento de almacenamento distribuído
Os primeiros almacenamentos de rede na forma que nos coñecemos apareceron na década de 1980. Moitos de vós atoparedes NFS (Network File System), AFS (Andrew File System) ou Coda. Unha década despois, a moda e a tecnoloxía cambiaron, e os sistemas de ficheiros distribuídos deron paso a sistemas de almacenamento en clúster baseados en GPFS (General Parallel File System), CFS (Clustered File Systems) e StorNext. Como base, utilizáronse almacenamentos de bloques de arquitectura clásica, enriba dos cales se creou un único sistema de ficheiros mediante a capa de software. Estas solucións e similares aínda se usan, ocupan o seu nicho e son bastante demandadas.
No cambio de milenio, o paradigma de almacenamento distribuído cambiou algo, e os sistemas coa arquitectura SN (Shared-Nothing) tomaron o liderado. Houbo unha transición do almacenamento en clúster ao almacenamento en nós separados, que, por regra xeral, eran servidores clásicos con software que proporciona almacenamento fiable; tales principios constrúense, por exemplo, HDFS (Hadoop Distributed File System) e GFS (Global File System).
Máis preto de 2010, os conceptos subxacentes aos sistemas de almacenamento distribuído comezaron a reflectirse cada vez máis en produtos comerciais completos, como VMware vSAN, Dell EMC Isilon e os nosos
Operadores de telecomunicacións
Quizais un dos consumidores máis antigos de sistemas de almacenamento distribuído sexan os operadores de telecomunicacións. O diagrama mostra que grupos de aplicacións producen a maior parte dos datos. OSS (Operations Support Systems), MSS (Management Support Services) e BSS (Business Support Systems) son tres capas de software complementarias necesarias para a prestación de servizos aos subscritores, a presentación de informes financeiros ao provedor e o apoio operativo aos enxeñeiros do operador.
A miúdo, os datos destas capas mestúranse fortemente entre si e, para evitar a acumulación de copias innecesarias, utilízanse almacenamentos distribuídos que acumulan toda a cantidade de información procedente dunha rede en funcionamento. Os almacéns combínanse nunha piscina común, á que acceden todos os servizos.
Os nosos cálculos mostran que a transición de sistemas de almacenamento clásicos a bloques permite aforrar ata un 70 % do orzamento só abandonando os sistemas de almacenamento de alta gama dedicados e utilizando servidores de arquitectura clásica clásica (xeralmente x86), traballando en conxunto con software especializado. Os operadores móbiles levan bastante tempo adquirindo tales solucións en volumes significativos. En particular, os operadores rusos levan máis de seis anos usando estes produtos de Huawei.
Si, unha serie de tarefas non se poden realizar mediante sistemas distribuídos. Por exemplo, con requisitos de rendemento aumentados ou compatibilidade con protocolos máis antigos. Pero polo menos o 70% dos datos que procesa o operador pódense colocar nun pool distribuído.
Banca
En calquera banco, hai moitos sistemas informáticos diversos, que van desde o procesamento ata un sistema bancario automatizado. Esta infraestrutura tamén funciona cunha gran cantidade de información, mentres que a maioría das tarefas non requiren un maior rendemento e fiabilidade dos sistemas de almacenamento, como desenvolvemento, probas, automatización de procesos ofimáticos, etc. Aquí é posible o uso de sistemas de almacenamento clásicos. , pero cada ano é cada vez menos rendible. Ademais, neste caso, non hai flexibilidade para gastar recursos de almacenamento, cuxo rendemento se calcula a partir da carga máxima.
Cando se usan sistemas de almacenamento distribuídos, os seus nodos, que de feito son servidores normais, pódense converter en calquera momento, por exemplo, nunha granxa de servidores e utilizarse como plataforma informática.
Lagos de datos
O diagrama anterior mostra unha lista de consumidores de servizos típicos.
O funcionamento dos sistemas de almacenamento clásicos para resolver este tipo de problemas é ineficiente, xa que se require tanto un acceso de alto rendemento a bases de datos de bloques como un acceso regular ás bibliotecas de documentos dixitalizados almacenados como obxectos. Aquí, por exemplo, pódese vincular un sistema de pedidos a través dun portal web. Para implementar todo isto nunha plataforma de almacenamento clásica, necesitarás un gran conxunto de equipos para diferentes tarefas. Un sistema de almacenamento universal horizontal pode cubrir facilmente todas as tarefas enumeradas anteriormente: só precisa crear nel varias piscinas con diferentes características de almacenamento.
Xeradores de nova información
A cantidade de información almacenada no mundo está a crecer preto dun 30% ao ano. Esta é unha boa noticia para os provedores de almacenamento, pero cal é e será a principal fonte destes datos?
Hai dez anos, as redes sociais convertéronse en xeradores deste tipo, o que requiriu a creación dun gran número de novos algoritmos, solucións de hardware, etc. Agora hai tres principais motores de crecemento do almacenamento. O primeiro é o cloud computing. Actualmente, aproximadamente o 70% das empresas utilizan os servizos na nube dun xeito ou doutro. Estes poden ser sistemas de correo electrónico, copias de seguridade e outras entidades virtualizadas.
As redes de quinta xeración están a converterse no segundo motor. Trátase de novas velocidades e novos volumes de transferencia de datos. Segundo as nosas previsións, a adopción xeneralizada de 5G provocará unha caída na demanda de tarxetas de memoria flash. Non importa canta memoria haxa no teléfono, aínda remata, e se o gadget ten unha canle de 100 megabits, non é necesario almacenar fotos localmente.
O terceiro grupo de razóns polas que crece a demanda de sistemas de almacenamento inclúen o rápido desenvolvemento da intelixencia artificial, a transición á analítica de big data e a tendencia á automatización universal de todo o que é posible.
Unha característica do "novo tráfico" é a súa
Un océano de datos non estruturados
Cales son os problemas que supón a aparición de “novos datos”? O primeiro deles, por suposto, é a propia cantidade de información e o período estimado do seu almacenamento. Só un moderno coche autónomo sen condutor xera ata 60 TB de datos todos os días a partir de todos os seus sensores e mecanismos. Para desenvolver novos algoritmos de movemento, esta información debe ser procesada no mesmo día, se non, comezará a acumularse. Ao mesmo tempo, debe almacenarse durante moito tempo - décadas. Só así será posible extraer conclusións sobre a base de grandes mostras analíticas no futuro.
Un dispositivo para descifrar secuencias xenéticas produce uns 6 terabytes por día. E os datos recollidos coa súa axuda non implican en absoluto a eliminación, é dicir, hipotéticamente, deberían almacenarse para sempre.
Finalmente, todas as mesmas redes da quinta xeración. Ademais da propia información transmitida, esa rede é en si mesma un gran xerador de datos: rexistros de actividade, rexistros de chamadas, resultados intermedios de interaccións máquina a máquina, etc.
Todo isto require o desenvolvemento de novos enfoques e algoritmos para almacenar e procesar a información. E tales enfoques están xurdindo.
Tecnoloxías da nova era
Pódense distinguir tres grupos de solucións deseñadas para facer fronte aos novos requisitos dos sistemas de almacenamento de información: a introdución da intelixencia artificial, a evolución técnica dos medios de almacenamento e as innovacións no campo da arquitectura de sistemas. Comecemos coa IA.
Nas novas solucións de Huawei xa se utiliza a intelixencia artificial a nivel do propio almacenamento, que está equipado cun procesador de intelixencia artificial que permite ao sistema analizar de forma independente o seu estado e prever fallos. Se o sistema de almacenamento está conectado a unha nube de servizos que ten capacidades informáticas importantes, a intelixencia artificial pode procesar máis información e mellorar a precisión das súas hipóteses.
Ademais dos fallos, esa IA é capaz de predecir a carga máxima futura e o tempo que queda ata que se esgote a capacidade. Isto permítelle optimizar o rendemento e escalar o sistema antes de que se produzan eventos non desexados.
Agora sobre a evolución dos soportes de datos. As primeiras unidades flash foron feitas mediante a tecnoloxía SLC (Single-Level Cell). Os dispositivos baseados nel eran rápidos, fiables, estables, pero tiñan pouca capacidade e eran moi caros. O aumento do volume e a diminución do prezo conseguiuse mediante determinadas concesións técnicas, polo que se reduciu a velocidade, fiabilidade e vida útil dos accionamentos. Non obstante, a tendencia non afectou aos propios sistemas de almacenamento, que, debido a varios trucos arquitectónicos, en xeral, volvéronse máis produtivos e máis fiables.
Pero por que necesitabas sistemas de almacenamento de clase All-Flash? Non foi suficiente substituír os discos duros antigos nun sistema xa en execución por novos SSD do mesmo factor de forma? Isto era necesario para utilizar de forma eficiente todos os recursos dos novos SSD, o que era simplemente imposible nos sistemas máis antigos.
Huawei, por exemplo, desenvolveu unha serie de tecnoloxías para resolver este problema, unha delas é
A identificación intelixente permitiu descompoñer os datos en varios fluxos e facer fronte a unha serie de fenómenos indesexables, como
Fallos, masificación, recollida de lixo: estes factores tampouco afectan o rendemento do sistema de almacenamento grazas ao perfeccionamento especial dos controladores.
E as tendas de datos de bloque prepáranse para reunirse
A seguinte fase de desenvolvemento tecnolóxico que estamos a ver agora é o uso de NVMe-oF (NVMe over Fabrics). En canto ás tecnoloxías de bloque de Huawei, xa admiten FC-NVMe (NVMe sobre Fibre Channel) e NVMe sobre RoCE (RDMA sobre Converged Ethernet) está en camiño. Os modelos de proba son bastante funcionais, quedan uns meses para a súa presentación oficial. Teña en conta que todo isto tamén aparecerá nos sistemas distribuídos, onde "Ethernet sen perdas" terá unha gran demanda.
Unha forma adicional de optimizar o traballo dos almacenamentos distribuídos foi o rexeitamento total da duplicación de datos. As solucións de Huawei xa non usan n copias, como no RAID 1 habitual, e cambian completamente ao mecanismo
Os mecanismos de deduplicación e compresión fanse obrigatorios. Se nos sistemas de almacenamento clásicos estamos limitados polo número de procesadores instalados nos controladores, entón nos sistemas de almacenamento distribuídos escalables horizontalmente, cada nodo contén todo o que necesitas: discos, memoria, procesadores e interconexión. Estes recursos son suficientes para que a deduplicación e a compresión teñan un impacto mínimo no rendemento.
E sobre métodos de optimización de hardware. Aquí, foi posible reducir a carga dos procesadores centrais coa axuda de microcircuítos adicionais adicionais (ou bloques dedicados no propio procesador), que desempeñan o papel.
Os novos enfoques para o almacenamento de datos están plasmados nunha arquitectura desagregada (distribuída). Nos sistemas de almacenamento centralizado, hai unha fábrica de servidores conectada a través de Fibre Channel
A diferenza dos dous anteriores, implica unha arquitectura desagregada particionando o sistema nunha fábrica de computación e nun sistema de almacenamento horizontal. Isto proporciona as vantaxes de ambas arquitecturas e permite un escalado case ilimitado só do elemento cuxo rendemento non é suficiente.
Da integración á converxencia
Unha tarefa clásica, cuxa relevancia só creceu nos últimos 15 anos, é a necesidade de proporcionar simultaneamente almacenamento en bloque, acceso a ficheiros, acceso a obxectos, funcionamento dunha granxa de big data, etc. A guinda do pastel pode tamén ser, por exemplo, un sistema de copia de seguridade en cinta magnética.
Nun primeiro momento só se puido unificar a xestión destes servizos. Pecháronse sistemas de almacenamento de datos heteroxéneos a algún software especializado, mediante o cal o administrador distribuía recursos dos pools dispoñibles. Pero dado que estas agrupacións eran diferentes no hardware, era imposible migrar a carga entre elas. Nun nivel de integración superior, a consolidación produciuse a nivel de pasarela. Se houbese acceso a ficheiros compartidos, poderíase dar a través de protocolos diferentes.
O método de converxencia máis avanzado que temos agora implica a creación dun sistema híbrido universal. Tal e como debería ser o noso
O custo de almacenar información agora determina moitas decisións arquitectónicas. E aínda que se pode poñer á cabeza con seguridade, hoxe estamos a falar de almacenamento "en directo" con acceso activo, polo que tamén hai que ter en conta o rendemento. Outra propiedade importante dos sistemas distribuídos de próxima xeración é a unificación. Despois de todo, ninguén quere ter varios sistemas dispares xestionados desde diferentes consolas. Todas estas calidades están plasmadas na nova serie de produtos Huawei.
Almacenamento masivo de nova xeración
OceanStor Pacific cumpre os requisitos de fiabilidade de seis nove (99,9999%) e pódese usar para crear un centro de datos de clase HyperMetro. Cunha distancia entre dous centros de datos de ata 100 km, os sistemas demostran un atraso adicional de 2 ms, o que permite construír calquera solución a proba de desastres baseada neles, incluídas as con servidores de quórum.
Os produtos da nova serie demostran versatilidade en canto a protocolos. OceanStor 100D xa admite o acceso en bloque, o acceso a obxectos e o acceso a Hadoop. O acceso aos ficheiros implementarase nun futuro próximo. Non é necesario gardar varias copias dos datos se se poden emitir mediante protocolos diferentes.
Parece que, que ten que ver o concepto de "rede sen perdas" co almacenamento? O caso é que os sistemas de almacenamento distribuído constrúense sobre a base dunha rede rápida que admite os algoritmos axeitados e o mecanismo RoCE. O sistema de intelixencia artificial compatible cos nosos interruptores axuda a aumentar aínda máis a velocidade da rede e reducir a latencia.
Que é o novo nodo de almacenamento distribuído OceanStor Pacific? A solución de factor de forma 5U inclúe 120 unidades e pode substituír a tres nodos clásicos, duplicando o espazo do rack. Debido á negativa a almacenar copias, a eficiencia das unidades aumenta significativamente (ata + 92%).
Estamos afeitos ao feito de que o almacenamento definido por software é un software especial instalado nun servidor clásico. Pero agora, para acadar os parámetros óptimos, esta solución arquitectónica tamén require nós especiais. Consta de dous servidores baseados en procesadores ARM que xestionan unha matriz de unidades de tres polgadas.
Estes servidores non son moi axeitados para solucións hiperconverxentes. En primeiro lugar, hai poucas aplicacións para ARM e, en segundo lugar, é difícil manter un equilibrio de carga. Suxerimos cambiar a almacenamento separado: un clúster de computación, representado por servidores clásicos ou en rack, funciona por separado, pero está conectado aos nodos de almacenamento de OceanStor Pacific, que tamén realizan as súas tarefas directas. E xustifícase.
Por exemplo, tomemos unha solución clásica de almacenamento de grandes datos hiperconverxentes que ocupa 15 racks de servidores. Se distribúes a carga entre os servidores de computación e os nodos de almacenamento individuais de OceanStor Pacific, separándoos entre si, o número de racks necesarios reducirase á metade. Isto reduce o custo de funcionamento do centro de datos e reduce o custo total de propiedade. Nun mundo no que o volume de información almacenada crece nun 30% ao ano, estes beneficios non están dispersos.
***
Para obter máis información sobre as solucións de Huawei e os seus escenarios de aplicación, visite o noso
Fonte: www.habr.com