Como assumir o controle de sua infraestrutura de rede. Capítulo primeiro. Segurar

Este artigo é o primeiro de uma série de artigos “Como assumir o controle de sua infraestrutura de rede”. O conteúdo de todos os artigos da série e links podem ser encontrados aqui.

Admito plenamente que há um número suficiente de empresas onde um tempo de inatividade da rede de uma hora ou mesmo um dia não é crítico. Infelizmente ou felizmente, não tive oportunidade de trabalhar nesses locais. Mas, é claro, as redes são diferentes, os requisitos são diferentes, as abordagens são diferentes e, no entanto, de uma forma ou de outra, a lista abaixo, em muitos casos, será na verdade um “must-do”.

Então, as condições iniciais.

Você está em um novo emprego, recebeu uma promoção ou decidiu repensar suas responsabilidades. A rede da empresa é sua área de responsabilidade. Para você, isso é em muitos aspectos um desafio e uma novidade, o que justifica de certa forma o tom de mentoria deste artigo :). Mas espero que o artigo também possa ser útil para qualquer engenheiro de rede.

Seu primeiro objetivo estratégico é aprender a resistir à entropia e manter o nível de serviço prestado.

Muitos dos problemas descritos abaixo podem ser resolvidos por vários meios. Deliberadamente não levanto o tema da implementação técnica, porque... em princípio, muitas vezes não é tão importante como você resolveu este ou aquele problema, mas o que importa é como você o usa e se você o usa. Por exemplo, seu sistema de monitoramento construído profissionalmente será de pouca utilidade se você não olhar para ele e não responder aos alertas.

Оборудование

Primeiro você precisa entender onde estão os maiores riscos.

Novamente, pode ser diferente. Admito que em algum lugar, por exemplo, serão questões de segurança, e em algum lugar, questões relacionadas à continuidade do serviço, e em algum lugar, talvez, algo mais. Por que não?

Vamos supor, para ficar claro, que ainda se trata de continuidade de serviço (foi assim em todas as empresas onde trabalhei).

Então você precisa começar com o equipamento. Aqui está uma lista de tópicos aos quais você deve prestar atenção:

  • classificação de equipamentos por grau de criticidade
  • backup de equipamentos críticos
  • suporte, licenças

Você precisa pensar em possíveis cenários de falha, especialmente com equipamentos no topo da sua classificação de criticidade. Normalmente, a possibilidade de problemas duplos é negligenciada, caso contrário, sua solução e suporte podem se tornar excessivamente caros, mas no caso de elementos de rede verdadeiramente críticos, cuja falha pode afetar significativamente o negócio, você deve pensar nisso.

Exemplo

Digamos que estamos falando de um switch raiz em um data center.

Como concordamos que a continuidade do serviço é o critério mais importante, é razoável fornecer backup “a quente” (redundância) deste equipamento. Mas isso não é tudo. Você também precisa decidir por quanto tempo, se o primeiro interruptor quebrar, é aceitável viver com apenas um interruptor restante, porque há o risco de ele quebrar também.

Importante! Você não precisa decidir esse problema sozinho. Você deve descrever os riscos, possíveis soluções e custos para a gestão ou gestão da empresa. Eles devem tomar decisões.

Assim, se foi decidido que, dada a pequena probabilidade de falha dupla, trabalhar 4 horas num interruptor é, em princípio, aceitável, então pode simplesmente recorrer ao suporte adequado (de acordo com o qual o equipamento será substituído dentro de 4 horas).

Mas existe o risco de que eles não cumpram. Infelizmente, uma vez nos encontramos em tal situação. Em vez de quatro horas, o equipamento viajou durante uma semana!!!

Portanto, esse risco também precisa ser discutido e, talvez, seja mais correto você comprar outro switch (terceiro) e guardá-lo em um pacote de peças de reposição (backup “frio”) ou utilizá-lo para fins de laboratório.

Importante! Faça uma planilha de todo o suporte que você tem com datas de vencimento e adicione ao seu calendário para que você receba um e-mail com pelo menos um mês de antecedência avisando que deve começar a se preocupar em renovar seu suporte.

Você não será perdoado se esquecer de renovar seu suporte e no dia seguinte ao término seu hardware quebrar.

Trabalho de emergência

Aconteça o que acontecer na sua rede, o ideal é que você mantenha o acesso ao seu equipamento de rede.

Importante! Você deve ter acesso de console a todos os equipamentos e esse acesso não deve depender da integridade da rede de dados do usuário.

Você também deve prever possíveis cenários negativos com antecedência e documentar as ações necessárias. A disponibilidade deste documento também é crítica, por isso não deve apenas ser publicado num recurso partilhado do departamento, mas também guardado localmente nos computadores dos engenheiros.

Deve haver

  • informações necessárias para abrir um ticket com o suporte do fornecedor ou integrador
  • informações sobre como chegar a qualquer equipamento (console, gerenciamento)

É claro que também pode conter qualquer outra informação útil, por exemplo, uma descrição do procedimento de atualização para vários equipamentos e comandos de diagnóstico úteis.

parceiros

Agora você precisa avaliar os riscos associados aos parceiros. Geralmente isso

  • Provedores de Internet e pontos de troca de tráfego (IX)
  • provedores de canais de comunicação

Que perguntas você deve se fazer? Tal como acontece com os equipamentos, devem ser considerados diferentes cenários de emergência. Por exemplo, para provedores de Internet, poderia ser algo como:

  • o que acontece se o provedor de Internet X parar de fornecer serviço a você por algum motivo?
  • Outros provedores terão largura de banda suficiente para você?
  • Quão boa será a conectividade?
  • Quão independentes são os seus provedores de Internet e uma interrupção grave de um deles causará problemas aos outros?
  • quantas entradas ópticas em seu data center?
  • o que acontecerá se uma das entradas for completamente destruída?

Em relação aos insumos, na minha prática em duas empresas diferentes, em dois data centers diferentes, uma escavadeira destruiu poços e só por milagre a nossa ótica não foi afetada. Este não é um caso tão raro.

E, claro, você não precisa apenas fazer essas perguntas, mas, novamente, com o apoio da gestão, fornecer uma solução aceitável em qualquer situação.

Cópia de segurança

A próxima prioridade pode ser um backup das configurações do equipamento. De qualquer forma, este é um ponto muito importante. Não vou listar os casos em que você pode perder a configuração, é melhor fazer backups regulares e não pensar nisso. Além disso, backups regulares podem ser muito úteis no monitoramento de alterações.

Importante! Faça backups diariamente. Não é uma quantidade tão grande de dados para economizar nisso. Pela manhã, o engenheiro de plantão (ou você) deverá receber um relatório do sistema, que indica claramente se o backup foi bem sucedido ou não, e se o backup não foi bem sucedido, o problema deve ser resolvido ou um ticket deve ser criado ( consulte os processos do departamento de rede).

Versões de software

A questão se vale ou não a pena atualizar o software dos equipamentos não é tão clara. Por um lado, versões antigas são bugs e vulnerabilidades conhecidos, mas por outro lado, software novo nem sempre é um procedimento de atualização indolor e, em segundo lugar, novos bugs e vulnerabilidades.

Aqui você precisa encontrar a melhor opção. Algumas recomendações óbvias

  • instale apenas versões estáveis
  • Ainda assim, você não deve viver de versões muito antigas de software
  • faça uma placa com informações sobre onde algum software está localizado
  • leia periodicamente relatórios sobre vulnerabilidades e bugs em versões de software e, em caso de problemas críticos, você deve pensar em atualizar

Nesta fase, tendo acesso ao console do equipamento, informações sobre suporte e descrição do procedimento de atualização, você está, a princípio, pronto para esta etapa. A opção ideal é quando você possui equipamentos de laboratório onde é possível verificar todo o procedimento, mas, infelizmente, isso não acontece com frequência.

No caso de equipamentos críticos, você pode entrar em contato com o suporte do fornecedor com uma solicitação de ajuda com a atualização.

Sistema de ingressos

Agora você pode olhar ao redor. Você precisa estabelecer processos de interação com outros departamentos e dentro do departamento.

Isto pode não ser necessário (por exemplo, se a sua empresa for pequena), mas eu recomendo fortemente organizar o trabalho de forma que todas as tarefas externas e internas passem pelo sistema de tickets.

O sistema de tickets é essencialmente a sua interface para comunicações internas e externas, e você deve descrever essa interface com detalhes suficientes.

Vejamos um exemplo de uma tarefa importante e comum de abertura de acesso. Descreverei um algoritmo que funcionou perfeitamente em uma das empresas.

Exemplo

Comecemos pelo facto de muitas vezes os clientes de acesso formularem os seus desejos numa linguagem incompreensível para um engenheiro de rede, nomeadamente, na linguagem da aplicação, por exemplo, “dê-me acesso a 1C”.

Portanto, nunca aceitamos solicitações diretamente de tais usuários.
E esse foi o primeiro requisito

  • as solicitações de acesso devem vir de departamentos técnicos (no nosso caso eram engenheiros unix, windows, helpdesk)

O segundo requisito é que

  • este acesso deve ser registrado (pelo departamento técnico de onde recebemos esta solicitação) e como solicitação recebemos um link para este acesso registrado

A forma deste pedido deve ser compreensível para nós, ou seja,

  • a solicitação deve conter informações sobre qual sub-rede e para qual sub-rede o acesso deve ser aberto, bem como o protocolo e (no caso de tcp/udp) portas

Também deve ser indicado lá

  • descrição do motivo pelo qual esse acesso é aberto
  • temporário ou permanente (se temporário, até que data)

E um ponto muito importante são as aprovações

  • do chefe do departamento que iniciou o acesso (por exemplo, contabilidade)
  • do chefe do departamento técnico de onde veio esta solicitação para o departamento de rede (por exemplo, helpdesk)

Neste caso, considera-se que o “dono” deste acesso é o responsável pelo departamento que iniciou o acesso (a contabilidade no nosso exemplo), sendo ele o responsável por garantir que a página com acesso registado a este departamento se mantém atualizada. .

Exploração madeireira

Isso é algo em que você pode se afogar. Mas se quiser implementar uma abordagem proativa, você precisa aprender como lidar com esse dilúvio de dados.

Aqui estão algumas recomendações práticas:

  • você precisa revisar os registros diariamente
  • no caso de uma revisão planejada (e não de uma situação de emergência), você pode limitar-se aos níveis de gravidade 0, 1, 2 e adicionar padrões selecionados de outros níveis se considerar necessário
  • escreva um script que analise logs e ignore os logs cujos padrões você adicionou à lista de ignorados

Essa abordagem permitirá que você, com o tempo, crie uma lista de ignorados de logs que não são interessantes para você e deixe apenas aqueles que você realmente considera importantes.
Funcionou muito bem para nós.

Monitoramento

Não é incomum que uma empresa não tenha um sistema de monitoramento. Você pode, por exemplo, confiar em logs, mas o equipamento pode simplesmente “morrer” sem ter tempo de “dizer” nada, ou o pacote do protocolo udp syslog pode ser perdido e não chegar. Em geral, é claro, a monitorização activa é importante e necessária.

Os dois exemplos mais populares em minha prática:

  • monitorar a carga dos canais de comunicação, links críticos (por exemplo, conexão com provedores). Eles permitem que você veja proativamente o problema potencial de degradação do serviço devido à perda de tráfego e, consequentemente, evite-o.
  • gráficos baseados em NetFlow. Eles facilitam a localização de anomalias no tráfego e são muito úteis para detectar alguns tipos simples, mas significativos, de ataques de hackers.

Importante! Configure notificações por SMS para os eventos mais críticos. Isso se aplica tanto ao monitoramento quanto ao registro. Caso você não tenha turno de plantão, o sms também deverá chegar fora do horário de trabalho.

Pense no processo de forma a não acordar todos os engenheiros. Tínhamos um engenheiro de plantão para isso.

Controle de mudanças

Na minha opinião, não é necessário controlar todas as alterações. Mas, em qualquer caso, você deverá ser capaz, se necessário, de encontrar facilmente quem fez determinadas alterações na rede e por quê.

Algumas dicas:

  • use um sistema de tickets para detalhar o que foi feito naquele ticket, por exemplo, copiando a configuração aplicada no ticket
  • usar recursos de comentários em equipamentos de rede (por exemplo, confirmar comentários no Juniper). Você pode anotar o número do bilhete
  • use diff de seus backups de configuração

Você pode implementar isso como um processo, revisando todos os tickets diariamente em busca de alterações.

Процессы

Você deve formalizar e descrever os processos em sua equipe. Se você chegou a este ponto, então sua equipe já deverá ter pelo menos os seguintes processos em execução:

Processos diários:

  • trabalhando com ingressos
  • trabalhando com registros
  • controle de mudanças
  • planilha de verificação diária

Processos anuais:

  • extensão de garantias, licenças

Processos assíncronos:

  • resposta a diversas situações de emergência

Conclusão da primeira parte

Você já percebeu que tudo isso ainda não se trata de configuração de rede, nem de design, nem de protocolos de rede, nem de roteamento, nem de segurança... É algo por aí. Mas estes, embora talvez enfadonhos, são, obviamente, elementos muito importantes do trabalho de uma divisão de rede.

Até agora, como você pode ver, você não melhorou nada na sua rede. Se houvesse vulnerabilidades de segurança, elas permaneceriam; se houvesse um design ruim, elas permaneceriam. Até que você tenha aplicado suas habilidades e conhecimentos como engenheiro de rede, no qual provavelmente gastou muito tempo, esforço e, às vezes, dinheiro. Mas primeiro você precisa criar (ou fortalecer) a base e depois começar a construir.

As partes a seguir explicarão como encontrar e eliminar erros e, em seguida, melhorar sua infraestrutura.

Claro, você não precisa fazer tudo sequencialmente. O tempo pode ser crítico. Faça isso em paralelo se os recursos permitirem.

E uma adição importante. Comunique-se, pergunte, consulte sua equipe. No final, são eles que apoiam e fazem tudo isso.

Fonte: habr.com

Adicionar um comentário