Huawei Dorado V6: calor de Sichuan

Huawei Dorado V6: calor de Sichuan
O verão em Moscou este ano não foi, para ser sincero, muito bom. Começou muito cedo e rápido, nem todos tiveram tempo de reagir e terminou já no final de junho. Portanto, quando a Huawei me convidou para ir à China, à cidade de Chengdu, onde está localizado o seu centro de RnD, depois de olhar a previsão do tempo de +34 graus à sombra, concordei imediatamente. Afinal, não tenho mais a mesma idade e preciso aquecer um pouco os ossos. Mas gostaria de salientar que foi possível aquecer não só os ossos, mas também o interior, porque a província de Sichuan, onde fica Chengdu, é famosa pelo seu amor pela comida picante. Mas ainda assim, este não é um blog sobre viagens, então voltemos ao objetivo principal da nossa viagem - uma nova linha de sistemas de armazenamento - Huawei Dorado V6. Este artigo vai te trazer um pouco do passado, porque... foi escrito antes do anúncio oficial, mas publicado somente após o lançamento. E assim, hoje vamos dar uma olhada em tudo de interessante e saboroso que a Huawei preparou para nós.

Huawei Dorado V6: calor de Sichuan
Serão 5 modelos da nova linha. Todos os modelos, exceto 3000V6, podem ser adquiridos em duas versões - SAS e NVMe. A escolha determina a interface dos discos que você pode usar neste sistema, as portas Back-End e o número de unidades de disco que você pode instalar no sistema. Para NVMe, são usados ​​SSDs do tamanho de Palm, que são mais finos que os SSDs SAS clássicos de 2.5" e podem ser instalados em até 36 peças. A nova linha é All Flash e não há configurações com discos.

Huawei Dorado V6: calor de Sichuan
SSD Palm NVMe

Na minha opinião, os modelos mais interessantes são o Dorado 8000 e 18000. A Huawei posiciona-os como sistemas High-end e, graças à política de preços da Huawei, contrasta estes modelos Mid-range com o segmento concorrente. São nesses modelos que vou me concentrar em minha análise de hoje. Observarei imediatamente que, devido às suas características de design, os sistemas juniores de controlador duplo têm uma arquitetura ligeiramente diferente, diferente do Dorado 8000 e 18000, portanto, nem tudo o que falarei hoje se aplica aos modelos juniores.

Uma das principais características dos novos sistemas foi a utilização de vários chips, desenvolvidos internamente, cada um dos quais permite distribuir a carga lógica do processador central do controlador e adicionar funcionalidades a diferentes componentes.
Huawei Dorado V6: calor de Sichuan

O coração dos novos sistemas são os processadores Kunpeng 920, desenvolvidos em tecnologias ARM e fabricados de forma independente pela Huawei. Dependendo do modelo, o número de núcleos, sua frequência e o número de processadores instalados em cada controlador variam:
Huawei Dorado V6 8000 – 2CPU, 64 núcleos
Huawei Dorado V6 18000 – 4CPU, 48 núcleos
Huawei Dorado V6: calor de Sichuan

A Huawei desenvolveu este processador na arquitetura ARM e, pelo que eu sei, inicialmente planejava instalá-lo apenas nos modelos Dorado 8000 e 18000 mais antigos, como já acontecia com alguns modelos V5, mas as sanções fizeram ajustes nessa ideia. Claro, a ARM também falou em se recusar a cooperar com a Huawei durante a imposição de sanções, mas aqui a situação é diferente da da Intel. A Huawei produz estes chips de forma independente e nenhuma sanção pode impedir este processo. O corte de relações com a ARM apenas ameaça a perda de acesso a novos desenvolvimentos. Quanto ao desempenho, só será possível julgar após a realização de testes independentes. Embora eu tenha visto como 18000 milhão de IOPS foi removido do sistema Dorado 1 sem problemas, até repetir com minhas próprias mãos em meu rack, não vou acreditar. Mas realmente há muito poder nos controladores. Os modelos mais antigos são equipados com 4 controladores, cada um com 4 processadores, totalizando 768 núcleos.
Huawei Dorado V6: calor de Sichuan

Mas falarei dos núcleos ainda mais tarde, quando olharmos para a arquitetura dos novos sistemas, mas por enquanto voltemos a outro chip instalado no sistema. O chip parece uma solução extremamente interessante Ascend 310 (Pelo que entendi, o irmão mais novo do Ascend 910, que foi recentemente apresentado ao público). Sua tarefa é analisar os blocos de dados que entram no sistema para aumentar a taxa de acertos de leitura. É difícil dizer como será o desempenho no trabalho, porque... Hoje ele funciona apenas de acordo com um determinado modelo e não tem capacidade de aprender de forma inteligente. O aparecimento de um modo inteligente é prometido em firmware futuro, provavelmente no início do próximo ano.

Vamos passar para a arquitetura. A Huawei continuou a desenvolver a sua própria tecnologia Smart Matrix, que implementa uma abordagem full mesh para conectar componentes. Mas se na V5 isso era apenas para acesso dos controladores aos discos, agora todos os controladores têm acesso a todas as portas tanto no Back-End quanto no Front-End.
Huawei Dorado V6: calor de Sichuan

Graças à nova arquitetura de microsserviços, isso também permite o balanceamento de carga entre todos os controladores, mesmo que haja apenas um lun. O sistema operacional para esta linha de arrays foi desenvolvido do zero, e não simplesmente otimizado para o uso de drives Flash. Devido ao fato de todos os nossos controladores terem acesso às mesmas portas, em caso de falha ou reinicialização do controlador, o host não perde um único caminho para o sistema de armazenamento, e a troca de caminho é realizada no nível do sistema de armazenamento. Entretanto, usar o UltraPath no host não é estritamente necessário. Outra “economia” na hora de instalar o sistema é a menor quantidade de links necessários. E se com a abordagem “clássica” para 4 controladores precisaremos de 8 links de 2 fábricas, então no caso da Huawei até 2 serão suficientes (não estou falando agora sobre a suficiência do rendimento de um link).
Huawei Dorado V6: calor de Sichuan

Assim como na versão anterior, é utilizado um cache global com espelhamento. Isso permite que você perca até dois controladores simultaneamente ou três controladores sequencialmente sem afetar a disponibilidade. Mas é importante notar que não vimos balanceamento de carga completo entre os 3 controladores restantes no caso de uma falha no estande de demonstração. A carga do controlador com falha foi assumida inteiramente por um dos restantes. É possível que para isso seja necessário deixar o sistema funcionar por mais tempo nesta configuração. De qualquer forma, verificarei isso com mais detalhes usando meus próprios testes.
A Huawei está posicionando os novos sistemas como sistemas NVMe ponta a ponta, mas hoje o NVMeOF ainda não é suportado no front-end, apenas FC, iSCSI ou NFS. No final deste ou no início do próximo, como outros recursos, temos a promessa de suporte RoCE.
Huawei Dorado V6: calor de Sichuan

As prateleiras também são conectadas aos controladores usando RoCE, e há uma desvantagem associada a isso - a ausência de uma conexão “loopback” das prateleiras, como foi o caso do SAS. Na minha opinião, esta ainda é uma grande desvantagem se você estiver planejando um sistema bastante grande. O fato é que todas as prateleiras estão conectadas em série, e a falha de uma das prateleiras resulta na total inacessibilidade de todas as demais que a seguem. Neste caso, para garantir a tolerância a falhas, teremos que conectar todas as prateleiras aos controladores, o que implica um aumento no número necessário de portas backend no sistema.

E mais uma coisa que vale a pena mencionar é a atualização sem interrupções (NDU). Como disse acima, a Huawei implementou uma abordagem de contêiner para operar o sistema operacional para a nova linha Dorado, o que permite atualizar e reiniciar serviços sem a necessidade de reiniciar completamente o controlador. Vale a pena mencionar imediatamente que algumas atualizações conterão atualizações do kernel e, neste caso, uma reinicialização clássica dos controladores às vezes ainda será necessária durante a atualização, mas nem sempre. Isto reduzirá o impacto desta operação no sistema produtivo.

Em nosso arsenal, a grande maioria dos arrays são da NetApp. Portanto, acho que seria bastante lógico fazer uma pequena comparação com sistemas com os quais tenho que trabalhar bastante. Esta não é uma tentativa de determinar quem é melhor e quem é pior ou qual arquitetura é mais vantajosa. Tentarei comparar com sobriedade e sem fanatismo duas abordagens diferentes para resolver o mesmo problema de fornecedores diferentes. Sim, claro, neste caso consideraremos os sistemas Huawei em “teoria” e também observarei separadamente os pontos que estão planejados para serem implementados em futuras versões de firmware. Que vantagens vejo no momento:

  1. Número de unidades NVMe suportadas. A NetApp possui atualmente 288 deles, enquanto a Huawei possui 1600-6400, dependendo do modelo. Ao mesmo tempo, a capacidade máxima utilizável da Huawei é de 32PBe, assim como os sistemas NetApp (para ser mais preciso, eles têm 31.64PBe). E isso apesar de serem suportadas unidades do mesmo volume (até 15 TB). A Huawei explica este facto da seguinte forma: não tiveram oportunidade de montar um stand maior. Em teoria, eles não têm limitação de volume, mas simplesmente ainda não conseguiram testar esse fato. Mas aqui é importante notar que as capacidades dos flash drives hoje são muito altas e, no caso dos sistemas NVMe, nos deparamos com o fato de que 24 drives são suficientes para utilizar um sistema de 2 controladores de última geração. Conseqüentemente, um aumento adicional no número de discos no sistema não apenas não proporcionará um aumento de desempenho, mas também terá um efeito negativo na relação IOPS/Tb. Claro, vale a pena ver quantos drives os sistemas de 4 controladores 8000 e 16000 podem suportar, porque... As capacidades e o potencial do Kunpeng 920 ainda não estão completamente claros.
  2. A presença de Lun como proprietária de sistemas NetApp. Aqueles. Apenas um controlador pode realizar operações com a lua, enquanto o segundo apenas passa IO por si mesmo. Os sistemas Huawei, ao contrário, não possuem proprietários e as operações com blocos de dados (compressão, desduplicação) podem ser realizadas por qualquer um dos controladores, bem como gravadas em discos.
  3. Nenhuma porta cai quando um dos controladores falha. Para alguns, este momento parece extremamente crítico. O resultado final é que a comutação dentro do sistema de armazenamento deve acontecer mais rapidamente do que no lado do host. E se no caso do mesmo NetApp, na prática, encontramos um congelamento de cerca de 5 segundos ao retirar o controlador e trocar de caminho, então com a mudança para Huawei ainda temos que praticar.
  4. Não há necessidade de reiniciar o controlador durante a atualização. Isso começou a me preocupar especialmente com o lançamento bastante frequente de novas versões e ramificações de firmware para NetApps. Sim, algumas atualizações da Huawei ainda exigirão reinicialização, mas não todas.
  5. 4 controladores Huawei pelo preço de dois controladores NetApp. Como disse acima, graças à política de preços da Huawei, ela pode competir com a gama média com os seus modelos topo de gama.
  6. A presença de chips adicionais em controladores de prateleira e cartões de porta, que têm o potencial de melhorar a eficiência do sistema.

Contras e preocupações em geral:

  1. Conexão direta de prateleiras aos controladores ou necessidade de um grande número de portas back-end para conectar todas as prateleiras aos controladores.
  2. Arquitetura ARM e a presença de um grande número de chips - com que eficiência ela funcionará e o desempenho será suficiente?

A maioria das preocupações e medos podem ser dissipados por meio de testes pessoais da nova linha. Espero que logo após o lançamento eles apareçam em Moscou e que haja um número suficiente deles para conseguir um rapidamente para seus próprios testes. Até o momento, podemos dizer que no geral a abordagem da empresa parece interessante, e a nova linha parece muito boa em comparação com seus concorrentes. A implementação final levanta muitas questões, porque Veremos muitas coisas apenas no final do ano, e talvez apenas em 2020.

Fonte: habr.com

Adicionar um comentário