Tendências da indústria em sistemas de armazenamento em massa

Hoje falaremos sobre a melhor forma de armazenar dados em um mundo onde redes de quinta geração, scanners de genoma e carros autônomos produzem mais dados em um dia do que toda a humanidade gerada antes da revolução industrial.

Tendências da indústria em sistemas de armazenamento em massa

Nosso mundo gera cada vez mais informações. Algumas delas são passageiras e se perdem tão rapidamente quanto são coletadas. O outro deve ser armazenado por mais tempo, e o outro é totalmente projetado "por séculos" - pelo menos é assim que o vemos no presente. Os fluxos de informação se instalam nos datacenters em tal velocidade que qualquer nova abordagem, qualquer tecnologia projetada para atender a essa "demanda" infinita está rapidamente se tornando obsoleta.

Tendências da indústria em sistemas de armazenamento em massa

40 anos de desenvolvimento de armazenamento distribuído

Os primeiros armazenamentos de rede na forma familiar para nós apareceram na década de 1980. Muitos de vocês já se depararam com NFS (Network File System), AFS (Andrew File System) ou Coda. Uma década depois, a moda e a tecnologia mudaram, e os sistemas de arquivos distribuídos deram lugar a sistemas de armazenamento em cluster baseados em GPFS (General Parallel File System), CFS (Clustered File Systems) e StorNext. Como base, foram utilizados armazenamentos em bloco da arquitetura clássica, sobre os quais foi criado um único sistema de arquivos usando a camada de software. Essas e outras soluções semelhantes ainda são usadas, ocupam seu nicho e são bastante procuradas.

Na virada do milênio, o paradigma de armazenamento distribuído mudou um pouco e os sistemas com a arquitetura SN (Shared-Nothing) assumiram a liderança. Houve uma transição do armazenamento em cluster para o armazenamento em nós separados, que, via de regra, eram servidores clássicos com software que fornecem armazenamento confiável; tais princípios são construídos, digamos, HDFS (Hadoop Distributed File System) e GFS (Global File System).

Mais perto de 2010, os conceitos subjacentes aos sistemas de armazenamento distribuído começaram a se refletir cada vez mais em produtos comerciais completos, como VMware vSAN, Dell EMC Isilon e nosso Huawei Ocean Store. Por trás das plataformas mencionadas não há mais uma comunidade de entusiastas, mas fornecedores específicos que são responsáveis ​​pela funcionalidade, suporte, manutenção de serviços do produto e garantem seu desenvolvimento futuro. Essas soluções são mais procuradas em diversas áreas.

Tendências da indústria em sistemas de armazenamento em massa

Operadoras de telecomunicações

Talvez um dos consumidores mais antigos de sistemas de armazenamento distribuído sejam as operadoras de telecomunicações. O diagrama mostra quais grupos de aplicativos produzem a maior parte dos dados. OSS (Sistemas de Suporte de Operações), MSS (Serviços de Suporte de Gerenciamento) e BSS (Sistemas de Suporte de Negócios) são três camadas de software complementares necessárias para a entrega de serviços aos assinantes, relatórios financeiros para o provedor e suporte operacional para os engenheiros da operadora.

Freqüentemente, os dados dessas camadas são fortemente misturados entre si e, para evitar o acúmulo de cópias desnecessárias, são utilizados armazenamentos distribuídos que acumulam toda a quantidade de informações provenientes de uma rede em funcionamento. Os storages são combinados em um pool comum, ao qual todos os serviços acessam.

Nossos cálculos mostram que a transição de sistemas de armazenamento clássicos para blocos permite economizar até 70% do orçamento apenas abandonando sistemas de armazenamento hi-end dedicados e usando servidores convencionais de arquitetura clássica (geralmente x86), trabalhando em conjunto com software especializado. As operadoras de celular vêm adquirindo tais soluções em volumes significativos há bastante tempo. Em particular, as operadoras russas usam esses produtos da Huawei há mais de seis anos.

Sim, várias tarefas não podem ser executadas usando sistemas distribuídos. Por exemplo, com maiores requisitos de desempenho ou compatibilidade com protocolos mais antigos. Mas pelo menos 70% dos dados que o operador processa podem ser colocados em um pool distribuído.

Tendências da indústria em sistemas de armazenamento em massa

Esfera bancária

Em qualquer banco, existem diversos sistemas de TI, desde o processamento até um sistema bancário automatizado. Essa infraestrutura também trabalha com uma grande quantidade de informações, enquanto a maioria das tarefas não exige aumento de desempenho e confiabilidade dos sistemas de armazenamento, como desenvolvimento, teste, automação de processos de escritório, etc. Aqui, o uso de sistemas de armazenamento clássicos é possível , mas a cada ano é cada vez menos lucrativo. Além disso, neste caso, não há flexibilidade no gasto de recursos de armazenamento, cujo desempenho é calculado a partir da carga de pico.

Ao usar sistemas de armazenamento distribuído, seus nós, que na verdade são servidores comuns, podem ser convertidos a qualquer momento, por exemplo, em um farm de servidores e usados ​​como uma plataforma de computação.

Tendências da indústria em sistemas de armazenamento em massa

lagos de dados

O diagrama acima mostra uma lista de consumidores de serviços típicos. lago de dados. Podem ser serviços de governo eletrônico (por exemplo, “Gosuslugi”), empresas que passaram pela digitalização, estruturas financeiras etc. Todos eles precisam trabalhar com grandes volumes de informações heterogêneas.

A operação de sistemas de armazenamento clássicos para resolver tais problemas é ineficiente, uma vez que são necessários acesso de alto desempenho a bancos de dados de blocos e acesso regular a bibliotecas de documentos digitalizados armazenados como objetos. Aqui, por exemplo, um sistema de pedidos por meio de um portal da web pode ser vinculado. Para implementar tudo isso em uma plataforma de armazenamento clássica, você precisará de um grande conjunto de equipamentos para diferentes tarefas. Um sistema de armazenamento universal horizontal pode cobrir facilmente todas as tarefas listadas anteriormente: você só precisa criar vários pools nele com diferentes características de armazenamento.

Tendências da indústria em sistemas de armazenamento em massa

Geradores de novas informações

A quantidade de informações armazenadas no mundo cresce cerca de 30% ao ano. Esta é uma boa notícia para os fornecedores de armazenamento, mas qual é e será a principal fonte desses dados?

Dez anos atrás, as redes sociais se tornaram esses geradores, o que exigiu a criação de um grande número de novos algoritmos, soluções de hardware etc. Agora, existem três principais impulsionadores do crescimento do armazenamento. A primeira é a computação em nuvem. Atualmente, aproximadamente 70% das empresas utilizam serviços em nuvem de uma forma ou de outra. Podem ser sistemas de e-mail, backups e outras entidades virtualizadas.
As redes de quinta geração estão se tornando o segundo driver. São novas velocidades e novos volumes de transferência de dados. De acordo com nossas previsões, a adoção generalizada do 5G levará a uma queda na demanda por cartões de memória flash. Não importa quanta memória haja no telefone, ela ainda acaba, e se o gadget tiver um canal de 100 megabits, não há necessidade de armazenar fotos localmente.

O terceiro grupo de razões pelas quais a demanda por sistemas de armazenamento está crescendo inclui o rápido desenvolvimento da inteligência artificial, a transição para a análise de big data e a tendência à automação universal de tudo o que é possível.

Uma característica do "novo tráfego" é a sua não estruturado. Precisamos armazenar esses dados sem definir seu formato de forma alguma. É necessário apenas para leitura posterior. Por exemplo, um sistema de pontuação bancária para determinar o tamanho do empréstimo disponível analisará as fotos que você postou nas redes sociais, determinando com que frequência você vai ao mar e restaurantes e, ao mesmo tempo, estudará extratos de seus documentos médicos disponíveis. Esses dados, por um lado, são abrangentes e, por outro, carecem de homogeneidade.

Tendências da indústria em sistemas de armazenamento em massa

Um oceano de dados não estruturados

Quais são os problemas que o surgimento de "novos dados" acarreta? O primeiro deles, claro, é a quantidade de informação em si e o tempo estimado de seu armazenamento. Um carro autônomo moderno sem motorista sozinho gera até 60 TB de dados todos os dias de todos os seus sensores e mecanismos. Para desenvolver novos algoritmos de movimento, essas informações devem ser processadas no mesmo dia, caso contrário, elas começarão a se acumular. Ao mesmo tempo, deve ser armazenado por muito tempo - décadas. Só então será possível tirar conclusões com base em grandes amostras analíticas no futuro.

Um dispositivo para decifrar sequências genéticas produz cerca de 6 terabytes por dia. E os dados coletados com sua ajuda não implicam em exclusão, ou seja, hipoteticamente, devem ser armazenados para sempre.

Finalmente, todas as mesmas redes da quinta geração. Além das próprias informações transmitidas, essa rede é em si um enorme gerador de dados: logs de atividades, registros de chamadas, resultados intermediários de interações máquina a máquina, etc.

Tudo isso requer o desenvolvimento de novas abordagens e algoritmos para armazenar e processar informações. E essas abordagens estão surgindo.

Tendências da indústria em sistemas de armazenamento em massa

Tecnologias da nova era

Podem ser distinguidos três grupos de soluções projetadas para lidar com os novos requisitos dos sistemas de armazenamento de informações: a introdução da inteligência artificial, a evolução técnica dos meios de armazenamento e as inovações no campo da arquitetura do sistema. Vamos começar com IA.

Tendências da indústria em sistemas de armazenamento em massa

Nas novas soluções da Huawei, a inteligência artificial já é utilizada ao nível do próprio armazenamento, que está equipado com um processador AI que permite ao sistema analisar de forma independente o seu estado e prever falhas. Se o sistema de armazenamento estiver conectado a uma nuvem de serviço com recursos computacionais significativos, a inteligência artificial pode processar mais informações e melhorar a precisão de suas hipóteses.

Além das falhas, essa IA é capaz de prever o futuro pico de carga e o tempo restante até que a capacidade se esgote. Isso permite otimizar o desempenho e dimensionar o sistema antes que ocorram eventos indesejados.

Tendências da indústria em sistemas de armazenamento em massa

Agora sobre a evolução dos portadores de dados. As primeiras unidades flash foram feitas usando a tecnologia SLC (Single-Level Cell). Os dispositivos baseados nele eram rápidos, confiáveis, estáveis, mas tinham uma capacidade pequena e eram muito caros. O aumento de volume e a redução de preço foram alcançados por meio de certas concessões técnicas, devido às quais a velocidade, confiabilidade e vida útil dos acionamentos foram reduzidas. No entanto, a tendência não afetou os próprios sistemas de armazenamento, que, devido a vários truques de arquitetura, em geral, tornaram-se mais produtivos e confiáveis.

Mas por que você precisa de sistemas de armazenamento de classe All-Flash? Não bastava apenas substituir HDDs antigos em um sistema já em execução por novos SSDs do mesmo fator de forma? Isso era necessário para usar com eficiência todos os recursos dos novos SSDs, o que era simplesmente impossível em sistemas mais antigos.

A Huawei, por exemplo, desenvolveu várias tecnologias para resolver esse problema, uma delas é o Flash Link, o que possibilitou otimizar ao máximo as interações disco-controlador.

A identificação inteligente tornou possível decompor dados em vários fluxos e lidar com uma série de fenômenos indesejáveis, como WA (amplificação de gravação). Ao mesmo tempo, novos algoritmos de recuperação, em particular RAID 2.0+, aumentou a velocidade da reconstrução, reduzindo seu tempo a valores completamente insignificantes.

Falha, superlotação, coleta de lixo - esses fatores também não afetam mais o desempenho do sistema de armazenamento graças ao refinamento especial dos controladores.

Tendências da indústria em sistemas de armazenamento em massa

E os armazenamentos de dados de blocos estão se preparando para atender NVMe. Lembre-se de que o esquema clássico de organização do acesso aos dados funcionava assim: o processador acessava o controlador RAID por meio do barramento PCI Express. Isso, por sua vez, interagia com discos mecânicos via SCSI ou SAS. O uso de NVMe no back-end acelerou significativamente todo o processo, mas trouxe uma desvantagem: as unidades precisavam ser conectadas diretamente ao processador para fornecer acesso direto à memória.

A próxima fase de desenvolvimento de tecnologia que estamos vendo agora é o uso de NVMe-oF (NVMe over Fabrics). Quanto às tecnologias de bloco da Huawei, elas já suportam FC-NVMe (NVMe sobre Fibre Channel), e NVMe sobre RoCE (RDMA sobre Converged Ethernet) está a caminho. Os modelos de teste são bastante funcionais, faltam alguns meses para sua apresentação oficial. Observe que tudo isso também aparecerá em sistemas distribuídos, onde "Ethernet sem perda" será muito procurado.

Tendências da indústria em sistemas de armazenamento em massa

Uma maneira adicional de otimizar o trabalho de armazenamento distribuído foi a rejeição completa do espelhamento de dados. As soluções da Huawei não usam mais cópias n, como no RAID 1 usual, e mudam completamente para o mecanismo EC (codificação de apagamento). Um pacote matemático especial calcula blocos de controle com uma certa frequência, o que permite restaurar dados intermediários em caso de perda.

Mecanismos de desduplicação e compressão tornam-se obrigatórios. Se nos sistemas de armazenamento clássicos somos limitados pelo número de processadores instalados nos controladores, nos sistemas de armazenamento distribuídos horizontalmente escaláveis, cada nó contém tudo o que você precisa: discos, memória, processadores e interconexão. Esses recursos são suficientes para que a desduplicação e a compactação tenham um impacto mínimo no desempenho.

E sobre métodos de otimização de hardware. Aqui foi possível reduzir a carga nos processadores centrais com a ajuda de microcircuitos dedicados adicionais (ou blocos dedicados no próprio processador), que desempenham o papel TOE (TCP/IP Offload Engine) ou assumindo as tarefas matemáticas de EC, desduplicação e compactação.

Tendências da indústria em sistemas de armazenamento em massa

Novas abordagens para armazenamento de dados são incorporadas em uma arquitetura desagregada (distribuída). Em sistemas de armazenamento centralizado, existe uma fábrica de servidores conectada via Fibre Channel para SAN com muitas matrizes. As desvantagens dessa abordagem são as dificuldades de escalar e fornecer um nível de serviço garantido (em termos de desempenho ou latência). Os sistemas hiperconvergentes usam os mesmos hosts para armazenamento e processamento de informações. Isso oferece um escopo quase ilimitado para dimensionamento, mas acarreta altos custos para manter a integridade dos dados.

Ao contrário de ambos os itens acima, uma arquitetura desagregada implica particionar o sistema em uma fábrica de computação e um sistema de armazenamento horizontal. Isso oferece as vantagens de ambas as arquiteturas e permite o dimensionamento quase ilimitado apenas do elemento cujo desempenho não é suficiente.

Tendências da indústria em sistemas de armazenamento em massa

Da integração à convergência

Uma tarefa clássica, cuja relevância só cresceu nos últimos 15 anos, é a necessidade de fornecer simultaneamente armazenamento em bloco, acesso a arquivos, acesso a objetos, operação de um farm para big data etc. também ser, por exemplo, um sistema de backup para fita magnética.

Numa primeira fase, apenas a gestão destes serviços poderia ser unificada. Os sistemas de armazenamento de dados heterogêneos eram fechados a alguns softwares especializados, por meio dos quais o administrador distribuía os recursos dos pools disponíveis. Mas como esses pools eram diferentes em hardware, era impossível migrar a carga entre eles. Em um nível mais alto de integração, a consolidação ocorreu no nível do gateway. Se houvesse um acesso de arquivo compartilhado, poderia ser dado através de diferentes protocolos.

O método de convergência mais avançado disponível agora envolve a criação de um sistema híbrido universal. Do jeito que o nosso deveria ser OceanStor 100D. O acesso universal utiliza os mesmos recursos de hardware, divididos logicamente em diferentes pools, mas permitindo a migração de carga. Tudo isso pode ser feito através de um único console de gerenciamento. Dessa forma, conseguimos implementar o conceito de "um data center - um sistema de armazenamento".

Tendências da indústria em sistemas de armazenamento em massa

O custo de armazenar informações agora determina muitas decisões arquitetônicas. E embora possa ser colocado com segurança em primeiro plano, estamos discutindo armazenamento "ao vivo" com acesso ativo hoje, portanto, o desempenho também deve ser levado em consideração. Outra propriedade importante dos sistemas distribuídos de próxima geração é a unificação. Afinal, ninguém quer ter vários sistemas díspares gerenciados a partir de diferentes consoles. Todas essas qualidades estão incorporadas na nova série de produtos Huawei. OceanStor Pacífico.

Armazenamento em massa de última geração

O OceanStor Pacific atende aos requisitos de confiabilidade de seis noves (99,9999%) e pode ser usado para criar um centro de dados de classe HyperMetro. Com uma distância entre dois data centers de até 100 km, os sistemas apresentam um atraso adicional de 2 ms, o que possibilita construir qualquer solução à prova de desastres com base neles, inclusive com servidores quorum.

Tendências da indústria em sistemas de armazenamento em massa

Os produtos da nova série demonstram versatilidade em termos de protocolos. O OceanStor 100D já suporta acesso a blocos, acesso a objetos e acesso Hadoop. O acesso a arquivos será implementado em um futuro próximo. Não há necessidade de manter várias cópias dos dados se eles puderem ser emitidos por meio de diferentes protocolos.

Tendências da indústria em sistemas de armazenamento em massa

Ao que parece, o que o conceito de "rede sem perdas" tem a ver com armazenamento? O fato é que os sistemas de armazenamento distribuído são construídos com base em uma rede rápida que suporta os algoritmos apropriados e o mecanismo RoCE. O sistema de inteligência artificial suportado por nossos switches ajuda a aumentar ainda mais a velocidade da rede e reduzir a latência. Tecido AI. O ganho de desempenho dos sistemas de armazenamento quando o AI Fabric é ativado pode chegar a 20%.

Tendências da indústria em sistemas de armazenamento em massa

O que é o novo nó de armazenamento distribuído OceanStor Pacific? A solução de fator de forma 5U inclui 120 unidades e pode substituir três nós clássicos, mais do que dobrando o espaço do rack. Devido à recusa em armazenar cópias, a eficiência das unidades aumenta significativamente (até + 92%).

Estamos acostumados com o fato de que o armazenamento definido por software é um software especial instalado em um servidor clássico. Mas agora, para atingir os parâmetros ideais, essa solução arquitetônica também requer nós especiais. Ele consiste em dois servidores baseados em processadores ARM que gerenciam uma matriz de unidades de três polegadas.

Tendências da indústria em sistemas de armazenamento em massa

Esses servidores não são adequados para soluções hiperconvergentes. Em primeiro lugar, existem poucos aplicativos para ARM e, em segundo lugar, é difícil manter um equilíbrio de carga. Sugerimos mudar para armazenamento separado: um cluster de computação, representado por servidores clássicos ou rack, opera separadamente, mas está conectado aos nós de armazenamento OceanStor Pacific, que também executam suas tarefas diretas. E isso se justifica.

Por exemplo, vamos pegar uma solução clássica de armazenamento hiperconvergente de big data que ocupa 15 racks de servidores. Se você distribuir a carga entre servidores de computação OceanStor Pacific individuais e nós de armazenamento, separando-os uns dos outros, o número de racks necessários cairá pela metade! Isso reduz o custo de operação do data center e diminui o custo total de propriedade. Em um mundo onde o volume de informações armazenadas cresce a uma taxa de 30% ao ano, esses benefícios não são dispersos.

***

Para obter mais informações sobre as soluções da Huawei e seus cenários de aplicação, visite nosso On-line ou entrando em contato diretamente com os representantes da empresa.

Fonte: habr.com

Adicionar um comentário