Cómo tomar el control de su infraestructura de red. Capítulo primero. Sostener

Este artículo es el primero de una serie de artículos "Cómo tomar el control de su infraestructura de red". Se pueden encontrar los contenidos de todos los artículos de la serie y los enlaces. aquí.

Admito plenamente que hay un número suficiente de empresas en las que un tiempo de inactividad de la red de una hora o incluso un día no es crítico. Desafortunadamente o afortunadamente, no tuve la oportunidad de trabajar en esos lugares. Pero, por supuesto, las redes son diferentes, los requisitos son diferentes, los enfoques son diferentes y, sin embargo, de una forma u otra, la lista a continuación en muchos casos será en realidad algo “imprescindible”.

Entonces, las condiciones iniciales.

Está en un nuevo trabajo, ha recibido un ascenso o ha decidido revisar sus responsabilidades desde una nueva perspectiva. La red empresarial es su área de responsabilidad. Para usted, esto es en muchos sentidos un desafío y una novedad, lo que de alguna manera justifica el tono de tutoría de este artículo :). Pero espero que el artículo también pueda ser útil para cualquier ingeniero de redes.

Su primer objetivo estratégico es aprender a resistir la entropía y mantener el nivel de servicio prestado.

Muchos de los problemas que se describen a continuación se pueden resolver por varios medios. Deliberadamente no planteo el tema de la implementación técnica, porque... En principio, a menudo no es tan importante cómo resolvió tal o cual problema, pero lo importante es cómo lo usa y si lo usa o no. Por ejemplo, su sistema de monitoreo construido profesionalmente es de poca utilidad si no lo mira y no responde a las alertas.

Equipo

Primero es necesario comprender dónde están los mayores riesgos.

Nuevamente, puede ser diferente. Admito que en algún lugar, por ejemplo, habrá problemas de seguridad, y en algún lugar, cuestiones relacionadas con la continuidad del servicio, y en algún lugar, tal vez, algo más. ¿Por qué no?

Supongamos, para ser claros, que esto sigue siendo continuidad del servicio (así fue en todas las empresas donde trabajé).

Entonces debes comenzar con el equipo. Aquí hay una lista de temas a los que debe prestar atención:

  • clasificación de equipos por grado de criticidad
  • respaldo de equipos críticos
  • soporte, licencias

Debe pensar en posibles escenarios de falla, especialmente con equipos en la parte superior de su clasificación de criticidad. Por lo general, se descuida la posibilidad de problemas dobles; de lo contrario, su solución y soporte pueden resultar excesivamente costosos, pero en el caso de elementos de red verdaderamente críticos, cuya falla podría afectar significativamente el negocio, debe pensarlo.

ejemplo

Digamos que estamos hablando de un conmutador raíz en un centro de datos.

Dado que acordamos que la continuidad del servicio es el criterio más importante, es razonable proporcionar respaldo "en caliente" (redundancia) de este equipo. Pero eso no es todo. También debe decidir durante cuánto tiempo, si el primer interruptor se rompe, es aceptable para usted vivir con solo un interruptor restante, porque existe el riesgo de que también se rompa.

¡Importante! No es necesario que usted mismo decida este asunto. Debe describir los riesgos, posibles soluciones y costes a la dirección o dirección de la empresa. Deben tomar decisiones.

Entonces, si se decide que, dada la pequeña probabilidad de una doble falla, trabajar durante 4 horas en un interruptor es, en principio, aceptable, entonces simplemente puede buscar el soporte adecuado (según el cual el equipo será reemplazado dentro de 4 horas).

Pero existe el riesgo de que no cumplan. Desafortunadamente, una vez nos encontramos en una situación así. ¡¡¡En lugar de cuatro horas, el equipo viajó durante una semana!!!

Por lo tanto, este riesgo también es necesario discutirlo y, tal vez, sea más correcto comprar otro interruptor (tercero) y guardarlo en un paquete de repuestos (copia de seguridad "en frío") o utilizarlo para fines de laboratorio.

¡Importante! Haz una hoja de cálculo de todos los soportes que tienes con fechas de vencimiento y agrégala a tu calendario para que recibas un correo electrónico con al menos un mes de anticipación de que debes comenzar a preocuparte por renovar tu soporte.

No se le perdonará si olvida renovar su soporte y al día siguiente de finalizar su hardware se estropea.

Trabajo de emergencia

Pase lo que pase en su red, lo ideal es mantener el acceso a su equipo de red.

¡Importante! Debe tener acceso de consola a todos los equipos y este acceso no debe depender del estado de la red de datos del usuario.

También conviene prever con antelación posibles escenarios negativos y documentar las acciones necesarias. La disponibilidad de este documento también es fundamental, por lo que no sólo debe publicarse en un recurso compartido para el departamento, sino también guardarse localmente en las computadoras de los ingenieros.

debe haber

  • información requerida para abrir un ticket con soporte de proveedor o integrador
  • información sobre cómo llegar a cualquier equipo (consola, gestión)

Por supuesto, también puede contener cualquier otra información útil, por ejemplo, una descripción del procedimiento de actualización para diversos equipos y comandos de diagnóstico útiles.

socios

Ahora es necesario evaluar los riesgos asociados con los socios. Generalmente esto

  • Proveedores de Internet y puntos de intercambio de tráfico (IX)
  • proveedores de canales de comunicación

¿Qué preguntas deberías hacerte? Al igual que con los equipos, se deben considerar diferentes escenarios de emergencia. Por ejemplo, para los proveedores de Internet, podría ser algo como:

  • ¿Qué pasa si el proveedor de Internet X deja de brindarte servicio por algún motivo?
  • ¿Tendrán otros proveedores suficiente ancho de banda para usted?
  • ¿Qué tan buena seguirá siendo la conectividad?
  • ¿Qué tan independientes son sus proveedores de Internet? ¿Una interrupción grave de uno de ellos causará problemas con los demás?
  • ¿Cuántas entradas ópticas hay en su centro de datos?
  • ¿Qué pasará si una de las entradas se destruye por completo?

En cuanto a los insumos, en mi práctica en dos empresas diferentes, en dos centros de datos diferentes, una excavadora destruyó pozos y solo por milagro nuestra óptica no se vio afectada. Este no es un caso tan raro.

Y, por supuesto, no sólo es necesario hacer estas preguntas, sino, nuevamente, con el apoyo de la dirección, proporcionar una solución aceptable en cualquier situación.

Backup

La siguiente prioridad puede ser una copia de seguridad de las configuraciones del equipo. En cualquier caso, este es un punto muy importante. No enumeraré esos casos en los que puedes perder la configuración, es mejor hacer copias de seguridad periódicas y no pensar en ello. Además, las copias de seguridad periódicas pueden resultar muy útiles para monitorear los cambios.

¡Importante! Realice copias de seguridad diariamente. No es una cantidad tan grande de datos para ahorrar en esto. Por la mañana, el ingeniero de turno (o usted) debe recibir un informe del sistema, que indica claramente si la copia de seguridad fue exitosa o no, y si la copia de seguridad no tuvo éxito, se debe resolver el problema o se debe crear un ticket ( ver procesos del departamento de red).

Versiones de software

La cuestión de si merece la pena o no actualizar el software del equipo no está tan clara. Por un lado, las versiones antiguas son errores y vulnerabilidades conocidos, pero, por otro lado, el software nuevo, en primer lugar, no siempre es un procedimiento de actualización sencillo y, en segundo lugar, nuevos errores y vulnerabilidades.

Aquí necesitas encontrar la mejor opción. Algunas recomendaciones obvias

  • instalar solo versiones estables
  • Aún así, no deberías vivir de versiones de software muy antiguas.
  • hacer un cartel con información sobre dónde se encuentra algún software
  • lea periódicamente informes sobre vulnerabilidades y errores en las versiones de software y, en caso de problemas críticos, debería pensar en actualizar

En esta etapa, al tener acceso a la consola del equipo, información sobre soporte y una descripción del procedimiento de actualización, usted está, en principio, listo para este paso. La opción ideal es tener equipo de laboratorio donde poder verificar todo el procedimiento, pero lamentablemente esto no sucede con frecuencia.

En el caso de equipos críticos, puede comunicarse con el soporte del proveedor para solicitar ayuda con la actualización.

Sistema de tickets

Ahora puedes mirar a tu alrededor. Es necesario establecer procesos de interacción con otros departamentos y dentro del departamento.

Puede que esto no sea necesario (por ejemplo, si su empresa es pequeña), pero recomiendo organizar el trabajo de tal manera que todas las tareas externas e internas pasen por el sistema de tickets.

El sistema de tickets es esencialmente su interfaz para las comunicaciones internas y externas, y debe describir esta interfaz con suficiente detalle.

Tomemos un ejemplo de una tarea importante y común de abrir el acceso. Describiré un algoritmo que funcionó perfectamente en una de las empresas.

ejemplo

Comencemos con el hecho de que a menudo los clientes de acceso formulan sus deseos en un lenguaje incomprensible para un ingeniero de redes, es decir, en el lenguaje de la aplicación, por ejemplo, "dame acceso a 1C".

Por lo tanto, nunca hemos aceptado solicitudes directamente de dichos usuarios.
Y ese fue el primer requisito.

  • Las solicitudes de acceso deben provenir de los departamentos técnicos (en nuestro caso eran ingenieros de Unix, Windows, soporte técnico).

El segundo requisito es que

  • este acceso debe ser registrado (por el departamento técnico del que recibimos esta solicitud) y como solicitud recibimos un enlace a este acceso registrado

La forma de esta solicitud debe ser comprensible para nosotros, es decir

  • la solicitud debe contener información sobre qué subred y a qué subred debe estar abierto el acceso, así como el protocolo y (en el caso de tcp/udp) los puertos

Allí también se debe indicar

  • descripción de por qué se abre este acceso
  • temporal o permanente (si es temporal, hasta qué fecha)

Y un punto muy importante son las aprobaciones.

  • del jefe del departamento que inició el acceso (por ejemplo, contabilidad)
  • del jefe del departamento técnico, desde donde llegó esta solicitud al departamento de red (por ejemplo, servicio de asistencia técnica)

En este caso, se considera que el "propietario" de este acceso es el jefe del departamento que inició el acceso (contabilidad en nuestro ejemplo), y es responsable de garantizar que la página con acceso registrado para este departamento permanezca actualizada. .

Inicio sesión

Esto es algo en lo que te puedes ahogar. Pero si desea implementar un enfoque proactivo, entonces necesita aprender cómo lidiar con esta avalancha de datos.

A continuación se ofrecen algunas recomendaciones prácticas:

  • necesitas revisar los registros diariamente
  • En el caso de una revisión planificada (y no de una situación de emergencia), puede limitarse a los niveles de gravedad 0, 1, 2 y agregar patrones seleccionados de otros niveles si lo considera necesario.
  • escriba un script que analice los registros e ignore aquellos registros cuyos patrones agregó a la lista de ignorados

Este enfoque le permitirá, con el tiempo, crear una lista de ignorados de registros que no le interesan y dejar solo aquellos que realmente considere importantes.
Funcionó muy bien para nosotros.

Monitoreo

No es raro que una empresa carezca de un sistema de seguimiento. Puede, por ejemplo, confiar en los registros, pero es posible que el equipo simplemente "muera" sin tener tiempo de "decir" nada, o que el paquete del protocolo udp syslog se pierda y no llegue. En general, por supuesto, el seguimiento activo es importante y necesario.

Los dos ejemplos más populares en mi práctica:

  • monitorear la carga de canales de comunicación, enlaces críticos (por ejemplo, conectarse a proveedores). Le permiten ver de forma proactiva el problema potencial de degradación del servicio debido a la pérdida de tráfico y, en consecuencia, evitarlo.
  • gráficos basados ​​en NetFlow. Facilitan la búsqueda de anomalías en el tráfico y son muy útiles para detectar algunos tipos simples pero importantes de ataques de piratas informáticos.

¡Importante! Configure notificaciones por SMS para los eventos más críticos. Esto se aplica tanto al monitoreo como al registro. Si no tienes turno de guardia, los SMS también deberían llegar fuera del horario laboral.

Piense en el proceso de tal manera que no despierte a todos los ingenieros. Teníamos un ingeniero de guardia para esto.

Cambio de control

En mi opinión, no es necesario controlar todos los cambios. Pero, en cualquier caso, debería poder, si es necesario, encontrar fácilmente quién realizó ciertos cambios en la red y por qué.

Algunos consejos:

  • utilizar un sistema de tickets para detallar lo que se hizo en ese ticket, por ejemplo copiando la configuración aplicada en el ticket
  • utilizar capacidades de comentarios en equipos de red (por ejemplo, confirmar comentarios en Juniper). Puedes anotar el número de billete.
  • use diff de sus copias de seguridad de configuración

Puede implementar esto como un proceso, revisando todos los tickets diariamente para detectar cambios.

Процессы

Debes formalizar y describir los procesos en tu equipo. Si ha llegado a este punto, entonces su equipo ya debería tener al menos los siguientes procesos en ejecución:

Procesos diarios:

  • trabajando con boletos
  • trabajando con registros
  • cambio de control
  • hoja de control diario

Procesos anuales:

  • ampliación de garantías, licencias

Procesos asincrónicos:

  • respuesta a diversas situaciones de emergencia

Conclusión de la primera parte.

¿Ha notado que todo esto todavía no tiene que ver con la configuración de la red, ni con el diseño, ni con los protocolos de red, ni con el enrutamiento, ni con la seguridad... Es algo que está alrededor. Pero estos, aunque quizás sean aburridos, son, por supuesto, elementos muy importantes del trabajo de una división de redes.

Hasta el momento, como puedes ver, no has mejorado nada en tu red. Si había vulnerabilidades de seguridad, entonces permanecían; si había un mal diseño, entonces permanecían. Hasta que hayas aplicado tus habilidades y conocimientos como ingeniero de redes, en lo que muy probablemente hayas invertido una gran cantidad de tiempo, esfuerzo y, en ocasiones, dinero. Pero primero es necesario crear (o fortalecer) los cimientos y luego comenzar a construir.

Las siguientes partes le indicarán cómo encontrar y eliminar errores y luego mejorar su infraestructura.

Por supuesto, no es necesario hacer todo de forma secuencial. El tiempo puede ser crítico. Hazlo en paralelo si los recursos lo permiten.

Y una adición importante. Comunicate, pregunta, consulta con tu equipo. Al final son ellos quienes apoyan y hacen todo esto.

Fuente: habr.com

Añadir un comentario