Como escolher o armazenamento sem dar um tiro no pé

Introdução

É hora de comprar armazenamento. Qual levar, quem ouvir? O fornecedor A fala sobre o fornecedor B, e depois há o integrador C, que diz o contrário e aconselha o fornecedor D. Em tal situação, até mesmo a cabeça de um arquiteto de armazenamento experiente ficará girando, especialmente com todos os novos fornecedores e SDS e hiperconvergência que estão na moda hoje.

Então, como você descobre tudo e não acaba sendo um idiota? Nós (AntonVirtual Anton Zhbankov e corporação Evgeniy Elizarov) vamos tentar falar sobre isso em russo simples.
O artigo tem muitas semelhanças e é na verdade uma extensão de “Projeto de data center virtualizado”em termos de escolha de sistemas de armazenamento e revisão de tecnologias de armazenamento. Veremos brevemente a teoria geral, mas recomendamos que você leia também este artigo.

Porquê

Muitas vezes você pode ver uma situação em que uma nova pessoa chega a um fórum ou chat especializado, como Discussões de armazenamento, e faz a pergunta: “aqui eles me oferecem duas opções de armazenamento - ABC SuperStorage S600 e XYZ HyperOcean 666v4, o que você recomenda ?”

E começa a confusão sobre quem tem quais características de implementação de características terríveis e incompreensíveis, que para uma pessoa despreparada são completamente chinesas.

Portanto, a principal e primeira pergunta que você precisa se fazer muito antes de comparar especificações em propostas comerciais é POR QUÊ? Por que este sistema de armazenamento é necessário?

Como escolher o armazenamento sem dar um tiro no pé

A resposta será inesperada e bem ao estilo Tony Robbins - armazenar dados. Obrigado, capitão! E, no entanto, às vezes nos aprofundamos tanto na comparação de detalhes que esquecemos por que estamos fazendo tudo isso.

Assim, a tarefa de um sistema de armazenamento de dados é armazenar e fornecer acesso aos DADOS com um determinado desempenho. Começaremos com dados.

Dados

Tipo de dados

Que tipo de dados planejamos armazenar? Uma questão muito importante que pode eliminar muitos sistemas de armazenamento de qualquer consideração. Por exemplo, você planeja armazenar vídeos e fotos. Você pode riscar imediatamente sistemas projetados para acesso aleatório em pequenos blocos ou sistemas com recursos proprietários de compactação/desduplicação. Estes podem ser simplesmente sistemas excelentes, não queremos dizer nada de ruim. Mas, neste caso, seus pontos fortes ficarão fracos (vídeos e fotos não são compactados) ou simplesmente aumentarão significativamente o custo do sistema.

Por outro lado, se o uso pretendido for um SGBD transacional ocupado, então excelentes sistemas de streaming multimídia capazes de fornecer gigabytes por segundo serão uma escolha ruim.

Volume de dados

Quantos dados planejamos armazenar? A quantidade sempre se transforma em qualidade; isso nunca deve ser esquecido, especialmente em nossa época de crescimento exponencial do volume de dados. Os sistemas da classe petabyte não são mais incomuns, mas quanto maior a capacidade dos petabytes, mais específico o sistema se torna e menos acessível será a funcionalidade usual dos sistemas de acesso aleatório de pequeno e médio porte. É trivial porque apenas as tabelas de estatísticas de acesso ao bloco tornam-se maiores do que a quantidade disponível de RAM nos controladores. Sem mencionar a compactação/classificação em camadas. Digamos que queremos mudar o algoritmo de compactação para um mais poderoso e compactar 20 petabytes de dados. Quanto tempo vai demorar: seis meses, um ano?

Por outro lado, por que se preocupar se você precisa armazenar e processar 500 GB de dados? Apenas 500. SSDs domésticos (com baixo DWPD) desse tamanho não custam nada. Por que construir uma fábrica Fibre Channel e comprar sistemas de armazenamento externo de última geração que custam o equivalente a uma ponte de ferro fundido?

Qual porcentagem do total são dados importantes? Quão desigual é a carga em termos de volume de dados? É aqui que a tecnologia de armazenamento em camadas ou Flash Cache pode ser muito útil se a quantidade de dados importantes for pequena em comparação com o total. Ou vice-versa, com uma carga uniforme em todo o volume, que é frequentemente encontrada em sistemas de streaming (videovigilância, alguns sistemas analíticos), tais tecnologias não fornecerão nada e apenas aumentarão o custo/complexidade do sistema.

IP

O outro lado dos dados é o sistema de informação que utiliza os dados. Um SI possui um conjunto de requisitos que herdam dados. Para obter mais informações sobre o SI, consulte “Design de data center virtualizado”.

Requisitos de resiliência/disponibilidade

Os requisitos de tolerância a falhas/disponibilidade de dados são herdados do SI que os utiliza e são expressos em três números - RPO, RTO, disponibilidade.

Disponibilidade — a percentagem, durante um determinado período de tempo, durante o qual os dados estão disponíveis para trabalhar com eles. Geralmente expresso como um número 9. Por exemplo, dois noves por ano significa que a disponibilidade é de 99% ou, caso contrário, são permitidas 95 horas de indisponibilidade por ano. Três noves - 9,5 horas por ano.

RPO/RTO não são indicadores totais, mas sim para cada incidente (acidente), em contraste com a disponibilidade.

RPO — a quantidade de dados perdidos durante um acidente (em horas). Por exemplo, se os backups ocorrerem uma vez por dia, RPO = 24 horas. Aqueles. Em caso de desastre e perda total do sistema de armazenamento, os dados podem ser perdidos em até 24 horas (a partir do momento do backup). Com base no RPO especificado para o IS, por exemplo, são escritas regulamentações de backup. Além disso, com base no RPO, você pode entender quanta replicação de dados síncrona/assíncrona é necessária.

RTO — tempo para restaurar o serviço (acesso aos dados) após um desastre. Com base no valor RTO fornecido, podemos entender se um metrocluster é necessário ou se a replicação unidirecional é suficiente. Você precisa de um sistema de armazenamento multicontrolador de última geração?

Como escolher o armazenamento sem dar um tiro no pé

Requisitos de desempenho

Embora esta seja uma questão muito óbvia, é onde surge a maior parte das dificuldades. Dependendo se você já possui algum tipo de infraestrutura ou não, serão construídas formas de coletar as estatísticas necessárias.

Você já possui um sistema de armazenamento e está procurando um substituto ou deseja adquirir outro para expansão. Tudo é simples aqui. Você entende quais serviços já possui e quais planeja implementar em um futuro próximo. Com base nos serviços atuais, você tem a oportunidade de coletar estatísticas de desempenho. Determine o número atual de IOPS e a latência atual - quais são esses indicadores e são suficientes para suas tarefas? Isso pode ser feito tanto no próprio sistema de armazenamento de dados quanto nos hosts que estão conectados a ele.

Além disso, você precisa observar não apenas a carga atual, mas durante um determinado período (de preferência um mês). Veja quais são os picos máximos durante o dia, que carga o backup cria, etc. Se o seu sistema de armazenamento ou software não fornecer um conjunto completo desses dados, você poderá usar o RRDtool gratuito, que pode funcionar com a maioria dos sistemas de armazenamento e switches mais populares e fornecer estatísticas detalhadas de desempenho. Também vale a pena observar a carga nos hosts que funcionam com este sistema de armazenamento, para máquinas virtuais específicas ou o que exatamente está sendo executado neste host.

Como escolher o armazenamento sem dar um tiro no pé

Vale a pena notar separadamente que se os atrasos no volume e no armazenamento de dados localizado neste volume diferirem significativamente, você deve prestar atenção à sua rede SAN, há uma grande probabilidade de que haja problemas com ela e antes de comprar um novo sistema, vale a pena analisar esta questão, pois há uma probabilidade muito alta de aumentar o desempenho do sistema atual.

Você está construindo uma infraestrutura do zero ou comprando um sistema para algum novo serviço, cujas cargas você não tem conhecimento. As opções são várias: comunicar com colegas sobre recursos especializados para tentar saber e prever a carga, contactar um integrador que tenha experiência na implementação de serviços semelhantes e que possa calcular a carga para si. E a terceira opção (geralmente a mais difícil, especialmente quando se trata de aplicativos caseiros ou raros) é tentar descobrir os requisitos de desempenho dos desenvolvedores do sistema.

E, observe, a opção mais correta do ponto de vista da aplicação prática é um piloto em equipamento atual, ou equipamento fornecido para teste por um fornecedor/integrador.

Requisitos especiais

Requisitos especiais são tudo o que não se enquadra nos requisitos de desempenho, tolerância a falhas e funcionalidade para o processamento direto e fornecimento de dados.

Um dos requisitos especiais mais simples para um sistema de armazenamento de dados pode ser chamado de “mídia de armazenamento alienável”. E imediatamente fica claro que esse sistema de armazenamento de dados deve incluir uma biblioteca de fitas ou simplesmente uma unidade de fita na qual a cópia de backup é despejada. Depois disso, uma pessoa especialmente treinada assina a fita e orgulhosamente a leva para um cofre especial.
Outro exemplo de requisito especial é um design protegido à prova de choque.

Onde

O segundo componente principal na escolha de um sistema de armazenamento específico é a informação sobre ONDE esse sistema de armazenamento estará localizado. Começando pela geografia ou condições climáticas e terminando com o pessoal.

Cliente

Para quem este sistema de armazenamento foi planejado? A pergunta tem os seguintes motivos:

Cliente/comercial governamental.
O cliente comercial não tem restrições e nem sequer é obrigado a realizar concursos, exceto de acordo com o seu próprio regulamento interno.

Um cliente governamental é uma questão diferente. 44 Lei Federal e outras delícias com licitações e especificações técnicas passíveis de contestação.

O cliente está sob sanções
Pois bem, a questão aqui é muito simples - a escolha é limitada apenas pelas ofertas disponíveis para um determinado cliente.

Regulamentos internos/fornecedores/modelos permitidos para compra
A questão também é extremamente simples, mas é preciso lembrá-la.

Onde fisicamente

Nesta parte consideramos todas as questões geográficas, canais de comunicação e microclima nas instalações do alojamento.

pessoal

Quem trabalhará com este sistema de armazenamento? Isto não é menos importante do que o que o próprio sistema de armazenamento pode fazer.
Não importa quão promissor, legal e maravilhoso seja o sistema de armazenamento do fornecedor A, provavelmente não há sentido em instalá-lo se a equipe souber apenas como trabalhar com o fornecedor B e não houver planos para novas compras e cooperação contínua com A.

E, claro, o outro lado da questão é saber até que ponto o pessoal formado está disponível numa determinada localização geográfica, diretamente na empresa e potencialmente no mercado de trabalho. Para regiões, escolher sistemas de armazenamento com interfaces simples ou a capacidade de centralizar remotamente o gerenciamento pode fazer muito sentido. Caso contrário, em algum momento pode tornar-se terrivelmente doloroso. A Internet está cheia de histórias sobre como um novo funcionário que chegou, o aluno de ontem, configurou tal coisa que todo o escritório foi morto.

Como escolher o armazenamento sem dar um tiro no pé

Meio ambiente

E claro, uma questão importante é em que ambiente esse sistema de armazenamento irá operar.

  • E quanto à fonte de alimentação/resfriamento?
  • Que conexão
  • Onde será instalado?
  • E assim por diante.

Freqüentemente, essas questões são tidas como certas e não são particularmente consideradas, mas às vezes são elas que podem mudar tudo.

Que

Fornecedor

A partir de hoje (meados de 2019), o mercado de armazenamento russo pode ser dividido em 5 categorias:

  1. A divisão mais alta é formada por empresas bem estabelecidas com uma ampla variedade de prateleiras de discos, das mais simples às mais sofisticadas (HPE, DellEMC, Hitachi, NetApp, IBM/Lenovo)
  2. Segunda divisão - empresas com uma linha limitada, players de nicho, fornecedores sérios de SDS ou recém-chegados em ascensão (Fujitsu, Datacore, Infinidat, Huawei, Pure, etc.)
  3. Terceira divisão - soluções de nicho de gama baixa, SDS baratos, produtos avançados baseados em ceph e outros projetos abertos (Infortrend, Starwind, etc.)
  4. Segmento SOHO - sistemas de armazenamento pequenos e ultrapequenos de nível doméstico/pequeno escritório (Synology, QNAP, etc.)
  5. Sistemas de armazenamento substituídos por importação - isso inclui hardware da primeira divisão com rótulos renomeados e raros representantes da segunda (RAIDIX, daremos a segunda com antecedência), mas principalmente esta é a terceira divisão (Aerodisk, Baum, Depo, etc.)

A divisão é bastante arbitrária e não significa de forma alguma que o terceiro segmento ou SOHO seja ruim e não possa ser usado. Em projetos específicos com conjunto de dados e perfil de carga claramente definidos, podem funcionar muito bem, superando em muito a primeira divisão em termos de relação preço/qualidade. É importante primeiro decidir sobre seus objetivos, perspectivas de crescimento e funcionalidade necessária - e então a Synology irá atendê-lo fielmente e seu cabelo ficará macio e sedoso.

Um dos fatores importantes na escolha de um fornecedor é o ambiente atual. Quantos sistemas de armazenamento você já possui e com quais sistemas de armazenamento seus engenheiros podem trabalhar. Você precisa de outro fornecedor, de outro ponto de contato, você vai migrar gradativamente toda a carga do fornecedor A para o fornecedor B?

Não se deve produzir entidades além do necessário.

iSCSI/FC/Arquivo

Não há consenso entre os engenheiros sobre a questão dos protocolos de acesso, e o debate se assemelha mais a discussões teológicas do que de engenharia. Mas, em geral, os seguintes pontos podem ser observados:

FCoE mais morto do que vivo.

FC x iSCSI. Uma das principais vantagens do FC em 2019 em relação ao armazenamento IP, uma fábrica dedicada para acesso a dados, é compensada por uma rede IP dedicada. FC não tem vantagens globais sobre redes IP, e o IP pode ser usado para construir sistemas de armazenamento de qualquer nível de carga, até sistemas para SGBDs pesados ​​para o sistema bancário central de um grande banco. Por outro lado, a morte do FC está profetizada há vários anos, mas algo a impede constantemente. Hoje, por exemplo, alguns players do mercado de armazenamento estão desenvolvendo ativamente o padrão NVMEoF. Se ele compartilhará o destino do FCoE - o tempo dirá.

Acesso a arquivos também não é algo indigno de atenção. O NFS/CIFS funciona bem em ambientes de produtividade e, se projetado corretamente, não apresenta mais reclamações do que os protocolos de bloco.

Matriz Híbrida/Totalmente Flash

Os sistemas de armazenamento clássicos vêm em 2 tipos:

  1. AFA (All Flash Array) – sistemas otimizados para uso de SSD.
  2. Híbrido - permite usar HDD e SSD ou uma combinação deles.

Sua principal diferença são as tecnologias de eficiência de armazenamento suportadas e o nível máximo de desempenho (alto IOPS e baixa latência). Ambos os sistemas (na maioria de seus modelos, sem contar o segmento low-end) podem operar como dispositivos de bloco e de arquivo. A funcionalidade suportada depende do nível do sistema e, para modelos mais novos, é geralmente reduzida a um nível mínimo. Vale a pena prestar atenção quando você estuda as características de um modelo específico, e não apenas as capacidades de toda a linha como um todo. Além disso, é claro, suas características técnicas, como processador, quantidade de memória, cache, número e tipos de portas, etc., também dependem do nível do sistema. Do ponto de vista gerencial, os AFAs diferem dos sistemas híbridos (disco) apenas na implementação de mecanismos para trabalhar com drives SSD, e mesmo se você usar um SSD em um sistema híbrido, isso não significa de forma alguma que você será capaz atingir o nível de desempenho ao nível de um sistema AFA. Além disso, na maioria dos casos, os mecanismos de armazenamento eficientes em linha são desativados em sistemas híbridos e a sua inclusão leva a uma perda de desempenho.

Sistemas especiais de armazenamento

Além dos sistemas de armazenamento de uso geral, focados principalmente no processamento operacional de dados, existem sistemas de armazenamento especiais com princípios-chave que são fundamentalmente diferentes dos usuais (baixa latência, alto IOPS):

Meios de comunicação.

Esses sistemas são projetados para armazenar e processar grandes arquivos de mídia. resp. o atraso torna-se praticamente sem importância, e a capacidade de enviar e receber dados em banda larga em muitos fluxos paralelos vem à tona.

Desduplicando sistemas de armazenamento para backups.

Como as cópias de backup se distinguem pela semelhança entre si, o que é raro em condições normais (a cópia de backup média difere da cópia de ontem em 1-2%), esta classe de sistemas empacota de forma extremamente eficiente os dados gravados nelas dentro de um espaço bastante pequeno. número de mídias físicas. Por exemplo, em alguns casos, as taxas de compressão de dados podem chegar a 200 para 1.

Sistemas de armazenamento de objetos.

Esses sistemas de armazenamento não possuem os habituais volumes de acesso em bloco e compartilhamentos de arquivos e, acima de tudo, lembram um enorme banco de dados. O acesso a um objeto armazenado em tal sistema é realizado por um identificador único ou por metadados (por exemplo, todos os objetos no formato JPEG com data de criação entre XX-XX-XXXX e AA-AA-AAAA).

Sistema de conformidade.

Eles não são tão comuns na Rússia hoje, mas vale a pena mencioná-los. O objetivo de tais sistemas de armazenamento é garantir o armazenamento de dados para cumprir políticas de segurança ou requisitos regulamentares. Alguns sistemas (por exemplo, EMC Centera) implementaram uma função para proibir a exclusão de dados - assim que a chave for girada e o sistema entrar neste modo, nem o administrador nem qualquer outra pessoa poderá excluir fisicamente os dados que já foram gravados.

Tecnologias proprietárias

Cache instantâneo

Flash Cache é um nome comum para todas as tecnologias proprietárias para uso de memória flash como cache de segundo nível. Ao usar um cache flash, o sistema de armazenamento geralmente é calculado para fornecer uma carga constante de discos magnéticos, enquanto o pico é atendido pelo cache.

Neste caso, é necessário entender o perfil de carga e o grau de localização de acesso aos blocos de volumes de armazenamento. Flash cache é uma tecnologia para cargas de trabalho com consultas altamente localizadas e é praticamente inaplicável para volumes carregados uniformemente (como para sistemas analíticos).

Existem duas implementações de cache flash disponíveis no mercado:

  • Somente leitura. Nesse caso, apenas os dados lidos são armazenados em cache e a gravação vai diretamente para os discos. Alguns fabricantes, como a NetApp, acreditam que gravar em seus sistemas de armazenamento já é ideal e que o cache não ajudará em nada.
  • Ler escrever. Não apenas a leitura, mas também a gravação é armazenada em cache, o que permite armazenar o fluxo em buffer e reduzir o impacto da penalidade de RAID e, como resultado, aumentar o desempenho geral dos sistemas de armazenamento com um mecanismo de gravação menos ideal.

Camada

O armazenamento multinível (cansativo) é uma tecnologia que combina níveis com diferentes níveis de desempenho, como SSD e HDD, em um único pool de discos. Em caso de acentuada desigualdade de acesso aos blocos de dados, o sistema poderá equilibrar automaticamente os blocos de dados, movendo os carregados para um nível de alto desempenho, e os frios, ao contrário, para um nível mais lento.

Os sistemas híbridos das classes média e baixa utilizam armazenamento multinível, com dados movimentando-se entre os níveis de acordo com uma programação. Ao mesmo tempo, o tamanho do bloco de armazenamento multinível para os melhores modelos é de 256 MB. Estas características não nos permitem considerar a tecnologia de armazenamento em camadas uma tecnologia para aumentar a produtividade, como muitas pessoas acreditam erroneamente. O armazenamento multinível em sistemas de classe baixa e média é uma tecnologia para otimizar custos de armazenamento para sistemas com irregularidades de carga pronunciadas.

Instantâneo

Por mais que falemos sobre a confiabilidade dos sistemas de armazenamento, existem muitas oportunidades de perda de dados que não dependem de problemas de hardware. Podem ser vírus, hackers ou qualquer outra exclusão/corrupção não intencional de dados. Por esta razão, fazer backup dos dados de produção é parte integrante do trabalho de um engenheiro.

Um instantâneo é um instantâneo de um volume em algum momento. Ao trabalhar com a maioria dos sistemas, como virtualização, bancos de dados, etc. precisamos tirar um instantâneo do qual copiaremos os dados para uma cópia de backup, enquanto nosso IS poderá continuar trabalhando com segurança com esse volume. Mas vale lembrar que nem todos os snapshots são igualmente úteis. Diferentes fornecedores têm abordagens diferentes para criar instantâneos relacionados à sua arquitetura.

CoW (cópia na gravação). Ao tentar escrever um bloco de dados, seu conteúdo original é copiado para uma área especial, após a qual a escrita prossegue normalmente. Isso evita a corrupção de dados dentro do instantâneo. Naturalmente, todas essas manipulações de dados “parasitas” causam carga adicional no sistema de armazenamento e, por esse motivo, os fornecedores com implementações semelhantes não recomendam o uso de mais de uma dúzia de snapshots e nem mesmo usá-los em volumes altamente carregados.

RoW (redirecionamento na gravação). Nesse caso, o volume original congela naturalmente e, ao tentar gravar um bloco de dados, o sistema de armazenamento grava os dados em uma área especial no espaço livre, alterando a localização desse bloco na tabela de metadados. Isso permite reduzir o número de operações de reescrita, o que elimina a queda no desempenho e remove as restrições aos instantâneos e seu número.

Os instantâneos também são de dois tipos em relação aos aplicativos:

Consistência do aplicativo. No momento da criação de um instantâneo, o sistema de armazenamento puxa um agente no sistema operacional do consumidor, que força a liberação dos caches de disco da memória para o disco e força o aplicativo a fazer isso. Neste caso, ao restaurar a partir de um instantâneo, os dados serão consistentes.

Crash consistente. Nesse caso, nada disso acontece e o instantâneo é criado como está. No caso de recuperação de tal instantâneo, a imagem é idêntica ao que aconteceria se a energia fosse desligada repentinamente e fosse possível alguma perda de dados, presos em caches e nunca chegando ao disco. Esses instantâneos são mais fáceis de implementar e não causam degradação de desempenho nos aplicativos, mas são menos confiáveis.

Por que os snapshots são necessários em sistemas de armazenamento?

  • Backup sem agente diretamente do sistema de armazenamento
  • Crie ambientes de teste baseados em dados reais
  • No caso de sistemas de armazenamento de arquivos, pode ser usado para criar ambientes VDI através do uso de instantâneos do sistema de armazenamento em vez de um hipervisor
  • Garanta RPOs baixos criando snapshots programados em uma frequência significativamente maior que a frequência de backup

Clonagem

Clonagem de volume - funciona com um princípio semelhante aos instantâneos, mas é usado não apenas para ler dados, mas para trabalhar totalmente com eles. Conseguimos obter uma cópia exata do nosso volume, com todos os dados nele contidos, sem fazer uma cópia física, o que economizará espaço. Normalmente, a clonagem de volume é usada no Test&Dev ou se você deseja verificar a funcionalidade de algumas atualizações no seu IS. A clonagem permitirá que você faça isso da maneira mais rápida e econômica possível em termos de recursos de disco, porque Somente blocos de dados alterados serão gravados.

Replicação/Registro no Diário

A replicação é um mecanismo para criar uma cópia de dados em outro sistema de armazenamento físico. Normalmente, cada fornecedor possui uma tecnologia proprietária que funciona apenas dentro de sua própria linha. Mas também existem soluções de terceiros, incluindo aquelas que funcionam no nível do hipervisor, como o VMware vSphere Replication.

A funcionalidade das tecnologias proprietárias e a facilidade de uso delas costumam ser muito superiores às universais, mas acabam sendo inaplicáveis ​​quando, por exemplo, é necessário fazer uma réplica da NetApp para o HP MSA.

A replicação é dividida em dois subtipos:

Síncrono. No caso de replicação síncrona, a operação de gravação é enviada imediatamente para o segundo sistema de armazenamento e a execução não é confirmada até que o sistema de armazenamento remoto confirme. Devido a isso, o atraso de acesso aumenta, mas temos uma cópia espelhada exata dos dados. Aqueles. RPO = 0 em caso de perda do sistema de armazenamento principal.

assíncrono. As operações de gravação são executadas apenas no sistema de armazenamento principal e são confirmadas imediatamente, acumulando simultaneamente em um buffer para transmissão em lote para o sistema de armazenamento remoto. Este tipo de replicação é relevante para dados menos valiosos, ou para canais com baixa largura de banda ou alta latência (típico para distâncias superiores a 100 km). Assim, RPO = frequência de envio de pacotes.

Freqüentemente, junto com a replicação, existe um mecanismo exploração madeireira operações de disco. Neste caso, é alocada uma área especial para registro e são armazenadas operações de registro de determinada profundidade no tempo, ou limitadas pelo volume do registro. Para determinadas tecnologias proprietárias, como o EMC RecoverPoint, há integração com o software do sistema que permite vincular determinados marcadores a uma entrada de log específica. Graças a isso, é possível reverter o estado de um volume (ou criar um clone) não apenas para 23 de abril, 11 horas 59 segundos e 13 milissegundos, mas para o momento anterior a “DROP ALL TABLES; COMPROMETER-SE."

Cluster metropolitano

O cluster Metro é uma tecnologia que permite criar replicação síncrona bidirecional entre dois sistemas de armazenamento de forma que, visto de fora, esse par pareça um sistema de armazenamento. É usado para criar clusters com braços geograficamente separados em distâncias metropolitanas (menos de 100 km).

Baseado no exemplo de utilização em ambiente de virtualização, o metrocluster permite criar um datastore com máquinas virtuais, acessível para gravação a partir de dois data centers ao mesmo tempo. Neste caso, é criado um cluster no nível do hipervisor, composto por hosts em diferentes data centers físicos, conectados a este datastore. O que permite que você faça o seguinte:

  • Automação total do processo de recuperação após a morte de um dos data centers. Sem quaisquer fundos adicionais, todas as VMs em execução no data center falecido serão automaticamente reiniciadas no restante. RTO = tempo limite do cluster de alta disponibilidade (15 segundos para VMware) + tempo para carregar o sistema operacional e iniciar serviços.
  • Evitar desastres ou, em russo, evitar desastres. Se o trabalho de fornecimento de energia for planejado no data center 1, teremos a oportunidade de migrar toda a carga importante para o data center 2 com antecedência e sem parar, antes do início do trabalho.

virtualização

A virtualização de armazenamento é tecnicamente o uso de volumes de outro sistema de armazenamento como discos. Um virtualizador de armazenamento pode simplesmente transferir o volume de outra pessoa para o consumidor como se fosse seu, espelhando-o simultaneamente para outro sistema de armazenamento ou até mesmo criar um RAID a partir de volumes externos.
Os representantes clássicos na classe de virtualização de armazenamento são EMC VPLEX e IBM SVC. E, claro, sistemas de armazenamento com funcionalidade de virtualização - NetApp, Hitachi, IBM/Lenovo Storwize.

Por que isso pode ser necessário?

  • Redundância no nível do sistema de armazenamento. É criado um espelho entre os volumes, sendo que metade pode estar no HP 3Par e a outra na NetApp. E o virtualizador é da EMC.
  • Mova dados com tempo de inatividade mínimo entre sistemas de armazenamento de diferentes fabricantes. Vamos supor que os dados precisem ser migrados do antigo 3Par, que será baixado, para o novo Dell. Nesse caso, os consumidores são desconectados do 3Par, os volumes são transferidos pelo VPLEX e apresentados novamente aos consumidores. Como nada mudou no volume, o trabalho continua. O processo de espelhamento do volume para o novo Dell começa em segundo plano e, após a conclusão, o espelho é quebrado e o 3Par é desativado.
  • Organização de metroclusters.

Compressão/desduplicação

Compactação e desduplicação são tecnologias que permitem economizar espaço em disco no sistema de armazenamento. Vale ressaltar desde já que nem todos os dados estão sujeitos à compactação e/ou desduplicação em princípio, enquanto alguns tipos de dados são melhor compactados e desduplicados, e alguns - vice-versa.

Existem 2 tipos de compactação e desduplicação:

Na linha — a compactação e a desduplicação de blocos de dados ocorrem antes de gravar esses dados no disco. Assim, o sistema apenas calcula o hash do bloco e compara na tabela com os existentes. Em primeiro lugar, é mais rápido do que apenas gravar em disco e, em segundo lugar, não desperdiçamos espaço extra em disco.

Publique - quando estas operações são realizadas em dados já gravados localizados em discos. Conseqüentemente, os dados são primeiro gravados no disco e só então o hash é calculado e os blocos desnecessários são excluídos e os recursos do disco são liberados.

Vale dizer que a maioria dos fornecedores utiliza os dois tipos, o que permite otimizar esses processos e, assim, aumentar sua eficiência. A maioria dos fornecedores de armazenamento possui utilitários que permitem analisar seus conjuntos de dados. Essas utilidades funcionam de acordo com a mesma lógica que está implementada no sistema de armazenamento, portanto o nível de eficiência estimado será o mesmo. Além disso, lembre-se de que muitos fornecedores têm programas de garantia de desempenho que prometem desempenho pelo menos igualmente bom para determinados (ou todos) tipos de dados. E você não deve descurar este programa, pois ao calcular o sistema para suas tarefas, levando em consideração o coeficiente de eficiência de um determinado sistema, você pode economizar volume. Também vale a pena considerar que esses programas são projetados para sistemas AFA, mas graças à compra de um volume menor de SSDs do que HDDs em sistemas clássicos, isso reduzirá seu custo e, se não for igual ao custo de um sistema de disco, então chegar bem perto disso.

modelo

E aqui chegamos à pergunta certa.

“Eles me oferecem duas opções de armazenamento – ABC SuperStorage S600 e XYZ HyperOcean 666v4, o que você recomenda?”

Transforma-se em “Aqui eles me oferecem duas opções de armazenamento - ABC SuperStorage S600 e XYZ HyperOcean 666v4, o que você recomenda?

A carga de destino é uma mistura de máquinas virtuais VMware com loops de produção/teste/desenvolvimento. Teste = produtivo. 150 TB cada com desempenho máximo de 80 IOPS Bloco de 000 KB 8% de acesso aleatório 50/80 leitura/gravação. 20 TB para desenvolvimento, 300 IOPS são suficientes, 50 aleatórios, 000 de gravação.

Produtividade presumivelmente no metrocluster RPO = 15 minutos RTO = 1 hora, desenvolvimento em replicação assíncrona RPO = 3 horas, teste em um site.

Haverá um DBMS de 50 TB, o registro seria bom para eles.

Temos servidores Dell em todos os lugares, sistemas de armazenamento antigos da Hitachi, eles mal conseguem lidar, planejamos aumentar a carga em 50% em termos de volume e desempenho.”

Como se costuma dizer, uma pergunta formulada corretamente contém 80% da resposta.

informação adicional

O que você deve ler adicionalmente de acordo com os autores

livros

  • Olifer e Olifer “Redes de computadores”. O livro ajudará a sistematizar e talvez entender melhor como funciona o meio de transmissão de dados para sistemas de armazenamento IP/Ethernet
  • “Armazenamento e gerenciamento de informações EMC.” Um excelente livro sobre os fundamentos dos sistemas de armazenamento, os porquês, como e porquê.

Fóruns e bate-papos

recomendações gerais

preços

Agora, quanto aos preços - em geral, se existem preços para sistemas de armazenamento, geralmente são preços de tabela, dos quais cada cliente recebe um desconto individual. O tamanho do desconto consiste em um grande número de parâmetros, por isso é simplesmente impossível prever qual o preço final que sua empresa receberá sem consultar o distribuidor. Mas, ao mesmo tempo, recentemente modelos de baixo custo começaram a aparecer em lojas de informática regulares, como, por exemplo nix.ru ou xcom-shop.ru. Aqui você pode adquirir imediatamente o sistema de seu interesse por um preço fixo, como qualquer componente de computador.

Mas gostaria de salientar desde já que uma comparação direta por TB/$ não é correta. Se abordarmos desse ponto de vista, a solução mais barata será um servidor JBOD + simples, que não fornecerá a flexibilidade ou a confiabilidade que um sistema de armazenamento completo com controlador duplo oferece. Isso não significa de forma alguma que o JBOD seja nojento e um truque sujo e desagradável, você só precisa entender novamente com muita clareza como e para quais propósitos você usará esta solução. Muitas vezes você pode ouvir que não há nada para quebrar no JBOD, há apenas um backplane. No entanto, os backplanes às vezes também falham. Tudo quebra mais cedo ou mais tarde.

No total

É necessário comparar os sistemas entre si não apenas pelo preço, ou não apenas pelo desempenho, mas pela totalidade de todos os indicadores.

Compre HDD apenas se tiver certeza de que precisa de HDD. Para cargas baixas e tipos de dados incompressíveis, caso contrário, vale a pena recorrer a programas de garantia de eficiência de armazenamento SSD, que a maioria dos fornecedores possui agora (e eles realmente funcionam, mesmo na Rússia), mas tudo depende dos aplicativos e dos dados que serão localizados neste sistema de armazenamento.

Não vá barato. Às vezes, estes escondem muitos momentos desagradáveis, um dos quais Evgeniy Elizarov descreveu em seus artigos sobre Infortend. E que, no final das contas, esse preço baixo pode sair pela culatra para você. Não se esqueça - “o avarento paga duas vezes”.

Fonte: www.habr.com

Adicionar um comentário