¿Por qué Internet sigue en línea?

Internet parece ser una estructura fuerte, independiente e indestructible. En teoría, la red es lo suficientemente fuerte como para sobrevivir a una explosión nuclear. En realidad, Internet puede dejar caer un pequeño enrutador. Todo porque Internet es un montón de contradicciones, vulnerabilidades, errores y vídeos sobre gatos. La columna vertebral de Internet, BGP, está plagada de problemas. Es sorprendente que todavía esté respirando. Además de los errores en Internet, también lo dañan todos: grandes proveedores de Internet, corporaciones, estados y ataques DDoS. ¿Qué hacer al respecto y cómo vivir con ello?

¿Por qué Internet sigue en línea?

sabe la respuesta Alexéi Uchakin (Serpiente_Nocturna) es el líder de un equipo de ingenieros de redes en IQ Option. Su principal tarea es la accesibilidad de la plataforma para los usuarios. En la transcripción del informe de Alexey sobre Santo HighLoad++ 2019 Hablemos de BGP, ataques DDOS, conmutadores de Internet, errores de proveedores, descentralización y casos en los que un pequeño enrutador puso Internet en suspensión. Al final, un par de consejos sobre cómo sobrevivir a todo esto.

El día que Internet se rompió

Citaré sólo algunos incidentes en los que se interrumpió la conectividad de Internet. Esto será suficiente para obtener la imagen completa.

"Incidente AS7007". La primera vez que Internet se rompió fue en abril de 1997. Hubo un error en el software de un enrutador del sistema autónomo 7007. En algún momento, el enrutador anunció su tabla de enrutamiento interno a sus vecinos y envió la mitad de la red a un agujero negro.

"Pakistán contra YouTube". En 2008, unos valientes de Pakistán decidieron bloquear YouTube. Lo hicieron tan bien que medio mundo se quedó sin gatos.

“Captura de prefijos VISA, MasterCard y Symantec por parte de Rostelecom”. En 2017, Rostelecom comenzó a anunciar por error los prefijos VISA, MasterCard y Symantec. Como resultado, el tráfico financiero se enrutaba a través de canales controlados por el proveedor. La filtración no duró mucho, pero resultó desagradable para las empresas financieras.

Google contra Japón. En agosto de 2017, Google comenzó a anunciar los prefijos de los principales proveedores japoneses NTT y KDDI en algunos de sus enlaces ascendentes. El tráfico se envió a Google como tránsito, probablemente por error. Dado que Google no es un proveedor y no permite el tráfico en tránsito, una parte importante de Japón se quedó sin Internet.

“DV LINK capturó los prefijos de Google, Apple, Facebook, Microsoft”. También en 2017, el proveedor ruso DV LINK, por alguna razón, comenzó a anunciar las redes de Google, Apple, Facebook, Microsoft y algunos otros actores importantes.

"eNet de EE. UU. ha capturado los prefijos AWS Route53 y MyEtherwallet". En 2018, el proveedor de Ohio o uno de sus clientes anunció las redes de billeteras criptográficas Amazon Route53 y MyEtherwallet. El ataque tuvo éxito: a pesar del certificado autofirmado, sobre el cual apareció una advertencia al usuario al ingresar al sitio web MyEtherwallet, muchas billeteras fueron secuestradas y parte de la criptomoneda fue robada.

¡Solo en 2017 se produjeron más de 14 incidentes de este tipo! La red todavía está descentralizada, por lo que no todo ni todos fallan. Pero hay miles de incidentes, todos relacionados con el protocolo BGP que impulsa Internet.

BGP y sus problemas

Protocolo BGP - Protocolo de puerta de enlace fronteriza, fue descrito por primera vez en 1989 por dos ingenieros de IBM y Cisco Systems en tres "servilletas": hojas A4. Estos "servilletas" Todavía se encuentra en la sede de Cisco Systems en San Francisco como una reliquia del mundo de las redes.

El protocolo se basa en la interacción de sistemas autónomos. - Sistemas Autónomos o AS para abreviar. Un sistema autónomo es simplemente un ID al que se le asignan redes IP en el registro público. Un enrutador con esta identificación puede anunciar estas redes al mundo. En consecuencia, cualquier ruta en Internet se puede representar como un vector, que se llama COMO camino. El vector consta de la cantidad de sistemas autónomos que deben atravesarse para llegar a la red de destino.

Por ejemplo, existe una red de varios sistemas autónomos. Debe pasar del sistema AS65001 al sistema AS65003. La ruta desde un sistema está representada por AS Path en el diagrama. Consta de dos sistemas autónomos: 65002 y 65003. Para cada dirección de destino hay un vector AS Path, que consta de la cantidad de sistemas autónomos por los que debemos pasar.

¿Por qué Internet sigue en línea?

Entonces, ¿cuáles son los problemas con BGP?

BGP es un protocolo de confianza

El protocolo BGP se basa en la confianza. Esto significa que confiamos en nuestro vecino por defecto. Esta es una característica de muchos protocolos que se desarrollaron en los albores de Internet. Averigüemos qué significa "confianza".

Sin autenticación de vecino. Formalmente, existe MD5, pero MD5 en 2019 es solo eso...

Sin filtros. BGP tiene filtros y están descritos, pero no se utilizan o se utilizan incorrectamente. Explicaré por qué más tarde.

Es muy fácil montar un barrio.. Configurar una vecindad en el protocolo BGP en casi cualquier enrutador es un par de líneas de la configuración.

No se requieren derechos de administración de BGP. No es necesario realizar exámenes para demostrar sus calificaciones. Nadie le quitará los derechos de configurar BGP mientras está borracho.

Dos problemas principales

Secuestros de prefijos. El secuestro de prefijos consiste en anunciar una red que no le pertenece, como es el caso de MyEtherwallet. Tomamos algunos prefijos, acordamos con el proveedor o lo pirateamos, y a través de él anunciamos estas redes.

Fugas de ruta. Las fugas son un poco más complicadas. La fuga es un cambio en AS Path. En el mejor de los casos, el cambio provocará un retraso mayor porque tendrá que recorrer una ruta más larga o un enlace de menor capacidad. En el peor de los casos, se repetirá el caso de Google y Japón.

Google en sí no es un operador ni un sistema autónomo de tránsito. Pero cuando anunció a su proveedor las redes de los operadores japoneses, el tráfico a través de Google a través de AS Path se consideró una mayor prioridad. El tráfico llegó allí y disminuyó simplemente porque la configuración de enrutamiento dentro de Google es más compleja que los simples filtros en la frontera.

¿Por qué no funcionan los filtros?

A nadie le importa. Ésta es la razón principal: a nadie le importa. El administrador de un pequeño proveedor o empresa que se conectó al proveedor a través de BGP tomó MikroTik, configuró BGP en él y ni siquiera sabe que allí se pueden configurar filtros.

Errores de configuración. Se equivocaron en algo, cometieron un error con la máscara, se pusieron la malla equivocada y ahora hay un error nuevamente.

Ninguna posibilidad técnica. Por ejemplo, los proveedores de telecomunicaciones tienen muchos clientes. Lo más inteligente es actualizar automáticamente los filtros para cada cliente, para controlar que tiene una nueva red, que ha alquilado su red a alguien. Es difícil seguir esto, y aún más con las manos. Por lo tanto, simplemente instalan filtros relajados o no instalan ningún filtro.

Excepciones. Hay excepciones para clientes queridos y grandes. Especialmente en el caso de interfaces entre operadores. Por ejemplo, TransTeleCom y Rostelecom tienen muchas redes y existe una interfaz entre ellas. Si el porro se cae no será bueno para nadie, por lo que se relajan los filtros o se retiran por completo.

Información desactualizada o irrelevante en la TIR. Los filtros se construyen en base a la información que se registra en IRR - Registro de enrutamiento de Internet. Estos son registros de registradores regionales de Internet. A menudo, los registros contienen información obsoleta o irrelevante, o ambas cosas.

¿Quiénes son estos registradores?

¿Por qué Internet sigue en línea?

Todas las direcciones de Internet pertenecen a la organización. IANA - Autoridad de Números Asignados de Internet. Cuando le compras una red IP a alguien, no estás comprando direcciones, sino el derecho a usarlas. Las direcciones son un recurso intangible y, de común acuerdo, todas son propiedad de la IANA.

El sistema funciona así. La IANA delega la gestión de direcciones IP y números de sistemas autónomos a cinco registradores regionales. Emiten sistemas autónomos LIR - registradores locales de Internet. Luego, los LIR asignan direcciones IP a los usuarios finales.

La desventaja del sistema es que cada uno de los registradores regionales mantiene sus registros a su manera. Cada uno tiene su propia opinión sobre qué información debe contener los registros y quién debe o no verificarla. El resultado es el desastre que tenemos ahora.

¿De qué otra manera puedes combatir estos problemas?

TIR - calidad mediocre. Con la TIR está claro: allí todo va mal.

Comunidades BGP. Este es algún atributo que se describe en el protocolo. Podemos adjuntar por ejemplo a nuestro anuncio una comunidad especial para que un vecino no envíe nuestras redes a sus vecinos. Cuando tenemos un enlace P2P, solo intercambiamos nuestras redes. Para evitar que la ruta vaya accidentalmente a otras redes, agregamos comunidad.

Las comunidades no son transitivas. Siempre es un contrato para dos, y éste es su inconveniente. No podemos asignar ninguna comunidad, a excepción de una, que es aceptada por defecto por todos. No podemos estar seguros de que todos aceptarán esta comunidad y la interpretarán correctamente. Por lo tanto, en el mejor de los casos, si estás de acuerdo con tu enlace ascendente, él entenderá lo que quieres de él en términos de comunidad. Pero es posible que su vecino no lo entienda o que el operador simplemente restablezca su etiqueta y usted no logrará lo que deseaba.

RPKI + ROA resuelve solo una pequeña parte de los problemas. RPKI es Infraestructura de clave pública de recursos  — un marco especial para firmar información de enrutamiento. Es una buena idea obligar a los LIR y a sus clientes a mantener una base de datos de espacio de direcciones actualizada. Pero hay un problema con esto.

RPKI es también un sistema de clave pública jerárquica. ¿La IANA tiene una clave a partir de la cual se generan las claves RIR y a partir de qué claves LIR se generan? con el que firman su espacio de direcciones mediante EER - Autorizaciones de origen de ruta:

—Les aseguro que este prefijo se anunciará en nombre de esta comunidad autónoma.

Además de ROA, hay otros objetos, pero hablaremos de ellos más adelante. Parece algo bueno y útil. Pero no nos protege de filtraciones de la palabra "en absoluto" y no resuelve todos los problemas relacionados con el secuestro de prefijos. Por tanto, los jugadores no tienen prisa por implementarlo. Aunque ya hay garantías por parte de grandes actores como AT&T y las grandes empresas IX de que se eliminarán los prefijos con un registro ROA no válido.

Quizás lo hagan, pero por ahora tenemos una gran cantidad de prefijos que no están firmados de ninguna manera. Por un lado, no está claro si se anunciaron válidamente. Por otro lado, no podemos eliminarlos de forma predeterminada, porque no estamos seguros de si esto es correcto o no.

¿Qué más hay ahí?

BGPSec. Esto es algo genial que se les ocurrió a los académicos para una red de ponis rosados. Ellos dijeron:

- Tenemos RPKI + ROA, un mecanismo para verificar las firmas del espacio de direcciones. Creemos un atributo BGP separado y llamémoslo Ruta BGPSec. Cada router firmará con su propia firma los anuncios que anuncie a sus vecinos. De esta forma obtendremos una ruta confiable de la cadena de anuncios firmados y podremos verificarla.

Bueno en teoría, pero en la práctica hay muchos problemas. BGPSec rompe muchas mecánicas BGP existentes para seleccionar los próximos saltos y administrar el tráfico entrante/saliente directamente en el enrutador. BGPSec no funciona hasta que el 95% de todo el mercado lo haya implementado, lo que en sí mismo es una utopía.

BGPSec tiene enormes problemas de rendimiento. En el hardware actual, la velocidad de comprobación de anuncios es de aproximadamente 50 prefijos por segundo. A modo de comparación: la tabla actual de Internet de 700 prefijos se cargará en 000 horas, durante las cuales cambiará 5 veces más.

Política abierta de BGP (BGP basada en roles). Nueva propuesta basada en el modelo. Gao-Rexford. Estos son dos científicos que están investigando BGP.

El modelo de Gao-Rexford es el siguiente. Para simplificar, con BGP hay una pequeña cantidad de tipos de interacciones:

  • Cliente Proveedor;
  • P2P;
  • comunicación interna, digamos iBGP.

Según la función del enrutador, ya es posible asignar ciertas políticas de importación/exportación por defecto. El administrador no necesita configurar listas de prefijos. En función del rol que los routers acuerden entre sí y que se pueda configurar, ya recibimos algunos filtros predeterminados. Este es actualmente un borrador que se está discutiendo en el IETF. Espero que pronto veamos esto en forma de RFC e implementación en hardware.

Grandes proveedores de Internet

Veamos el ejemplo de un proveedor. CenturyLink. Es el tercer proveedor más grande de EE. UU., presta servicios en 37 estados y tiene 15 centros de datos. 

En diciembre de 2018, CenturyLink estuvo en el mercado estadounidense durante 50 horas. Durante el incidente, hubo problemas con el funcionamiento de los cajeros automáticos en dos estados y el número 911 no funcionó durante varias horas en cinco estados. La lotería de Idaho quedó completamente arruinada. El incidente está siendo investigado actualmente por la Comisión de Telecomunicaciones de Estados Unidos.

La causa de la tragedia fue una tarjeta de red en un centro de datos. La tarjeta falló, envió paquetes incorrectos y los 15 centros de datos del proveedor fallaron.

¿Por qué Internet sigue en línea?

La idea no funcionó para este proveedor. "demasiado grande para caerse". Esta idea no funciona en absoluto. Puedes tomar cualquier jugador importante y poner algunas cosas pequeñas encima. A Estados Unidos todavía le está yendo bien en materia de conectividad. Los clientes de CenturyLink que tenían una reserva la utilizaron en masa. Luego, los operadores alternativos se quejaron de que sus enlaces estaban sobrecargados.

Si el Kazakhtelecom condicional cae, todo el país se quedará sin Internet.

Corporaciones

¿Probablemente Google, Amazon, FaceBook y otras corporaciones apoyan Internet? No, también lo rompen.

En 2017 en San Petersburgo en la conferencia ENOG13 Jeff Houston de APNIC presentado Informe “La muerte del tránsito”. Dice que estamos acostumbrados a que las interacciones, los flujos de dinero y el tráfico en Internet sean verticales. Tenemos pequeños proveedores que pagan por la conectividad a los más grandes, y ellos ya pagan por la conectividad al tránsito global.

¿Por qué Internet sigue en línea?

Ahora tenemos una estructura orientada verticalmente. Todo estaría bien, pero el mundo está cambiando: los principales actores están construyendo sus propios cables transoceánicos para construir sus propias redes troncales.

¿Por qué Internet sigue en línea?
Noticias sobre cable CDN.

En 2018, TeleGeography publicó un estudio que indica que más de la mitad del tráfico en Internet ya no proviene de Internet, sino de la columna vertebral de CDN de los grandes jugadores. Este es tráfico relacionado con Internet, pero ya no es la red de la que estábamos hablando.

¿Por qué Internet sigue en línea?

Internet se está fragmentando en un gran conjunto de redes poco conectadas.

Microsoft tiene su propia red, Google tiene la suya propia y tienen poca superposición entre sí. El tráfico que se originó en algún lugar de EE. UU. pasa a través de los canales de Microsoft a través del océano hasta Europa en algún lugar de una CDN, luego a través de CDN o IX se conecta con su proveedor y llega a su enrutador.

La descentralización está desapareciendo.

Esta fuerza de Internet, que le ayudará a sobrevivir a una explosión nuclear, se está perdiendo. Aparecen lugares de concentración de usuarios y tráfico. Si cae el Google Cloud condicional, habrá muchas víctimas a la vez. Esto lo sentimos en parte cuando Roskomnadzor bloqueó AWS. Y el ejemplo de CenturyLink muestra que incluso las pequeñas cosas son suficientes para ello.

Antes, no todo ni todos se rompieron. En el futuro, podemos llegar a la conclusión de que, al influir en un actor importante, podemos romper muchas cosas, en muchos lugares y en muchas personas.

Estados

Los siguientes son los Estados, y esto es lo que les suele pasar.

¿Por qué Internet sigue en línea?

Aquí nuestro Roskomnadzor ni siquiera es un pionero. En Irán, India y Pakistán existe una práctica similar de cierre de Internet. En Inglaterra existe un proyecto de ley sobre la posibilidad de cerrar Internet.

Cualquier Estado grande quiere conseguir un interruptor que apague Internet, ya sea por completo o en partes: Twitter, Telegram, Facebook. No es que no comprendan que nunca tendrán éxito, sino que realmente lo desean. El interruptor se utiliza, por regla general, con fines políticos: para eliminar a los competidores políticos, o se acercan las elecciones o los piratas informáticos rusos han vuelto a romper algo.

ataques DDoS

No les quitaré el pan a mis compañeros de Qrator Labs, lo hacen mucho mejor que yo. Ellos tienen reporte anual sobre la estabilidad de Internet. Y esto es lo que escribieron en el informe de 2018.

La duración media de los ataques DDoS se reduce a 2.5 horas. Los atacantes también comienzan a contar dinero y, si el recurso no está disponible de inmediato, rápidamente lo dejan en paz.

La intensidad de los ataques está creciendo.. En 2018, vimos 1.7 Tb/s en la red de Akamai, y ese no es el límite.

Están surgiendo nuevos vectores de ataque y los antiguos se están intensificando.. Están surgiendo nuevos protocolos que son susceptibles de amplificación y están surgiendo nuevos ataques a protocolos existentes, especialmente TLS y similares.

La mayor parte del tráfico proviene de dispositivos móviles.. Al mismo tiempo, el tráfico de Internet se desplaza hacia los clientes móviles. Tanto los que atacan como los que defienden necesitan poder trabajar con esto.

Invulnerable - no. Ésta es la idea principal: no existe una protección universal que proteja definitivamente contra cualquier DDoS.

El sistema no se puede instalar a menos que esté conectado a Internet.

Espero haberte asustado lo suficiente. Pensemos ahora en qué hacer al respecto.

¿Qué hacer?

Si tienes tiempo libre, ganas y conocimientos de inglés, participa en grupos de trabajo: IETF, RIPE WG. Estas son listas de correo abiertas, suscribirse a listas de correo, participar en debates, asistir a conferencias. Si tiene estatus LIR, puede votar, por ejemplo, en RIPE para diversas iniciativas.

Para simples mortales esto es monitoreo. Para saber qué está roto.

Seguimiento: ¿qué comprobar?

Ping normal, y no solo una verificación binaria: funciona o no. Registre el RTT en el historial para poder ver las anomalías más adelante.

Traceroute. Este es un programa de utilidad para determinar rutas de datos en redes TCP/IP. Ayuda a identificar anomalías y bloqueos.

Comprobaciones HTTP para URL personalizadas y certificados TLS ayudará a detectar bloqueos o suplantación de DNS para un ataque, que es prácticamente lo mismo. El bloqueo a menudo se lleva a cabo mediante la suplantación de DNS y convirtiendo el tráfico en una página auxiliar.

Si es posible, verifique la resolución de sus clientes sobre su origen desde diferentes lugares si tiene una solicitud. Esto le ayudará a detectar anomalías de secuestro de DNS, algo que a veces hacen los proveedores.

Seguimiento: ¿dónde comprobarlo?

No existe una respuesta universal. Comprueba de dónde viene el usuario. Si los usuarios están en Rusia, consulte desde Rusia, pero no se limite a ello. Si sus usuarios viven en diferentes regiones, consulte desde estas regiones. Pero mejor de todo el mundo.

Seguimiento: ¿qué comprobar?

Se me ocurrieron tres formas. Si sabes más, escribe en los comentarios.

  • Atlas maduro.
  • Seguimiento comercial.
  • Tu propia red de máquinas virtuales.

Hablemos de cada uno de ellos.

Atlas maduro - es una caja tan pequeña. Para aquellos que conocen al "Inspector" doméstico, esta es la misma caja, pero con una pegatina diferente.

¿Por qué Internet sigue en línea?

RIPE Atlas es un programa gratuito. Te registras, recibes un enrutador por correo y lo conectas a la red. Por el hecho de que alguien más use tu muestra, obtienes algunos créditos. Con estos préstamos usted puede hacer algunas investigaciones usted mismo. Puedes probar de diferentes formas: ping, traceroute, comprobar certificados. La cobertura es bastante grande, hay muchos nodos. Pero hay matices.

El sistema de crédito no permite construir soluciones de producción.. No habrá suficientes créditos para investigaciones en curso o seguimiento comercial. Los créditos son suficientes para un estudio breve o un control único. La norma diaria de una muestra se consume en 1 o 2 controles.

La cobertura es desigual. Dado que el programa es gratuito en ambas direcciones, la cobertura es buena en Europa, la parte europea de Rusia y algunas regiones. Pero si necesita Indonesia o Nueva Zelanda, entonces todo es mucho peor: es posible que no tenga 50 muestras por país.

No puedes verificar http desde una muestra. Esto se debe a matices técnicos. Prometen solucionarlo en la nueva versión, pero por ahora no se puede comprobar http. Sólo se puede verificar el certificado. Algún tipo de verificación http solo se puede realizar en un dispositivo RIPE Atlas especial llamado Anchor.

El segundo método es el seguimiento comercial.. Para él todo está bien, estás pagando dinero, ¿verdad? Le prometen varias docenas o cientos de puntos de monitoreo en todo el mundo y dibujan hermosos paneles de control listos para usar. Pero, de nuevo, hay problemas.

Es pago, en algunos lugares es muy. El monitoreo de ping, las comprobaciones en todo el mundo y muchas comprobaciones de http pueden costar varios miles de dólares al año. Si las finanzas lo permiten y le gusta esta solución, adelante.

La cobertura puede no ser suficiente en la región de interés. Con el mismo ping, se especifica como máximo una parte abstracta del mundo: Asia, Europa, América del Norte. Los sistemas de seguimiento poco comunes pueden profundizar en un país o región específicos.

Soporte débil para pruebas personalizadas. Si necesita algo personalizado, y no sólo un "rizado" en la URL, entonces también hay problemas con eso.

La tercera forma es su seguimiento.. Este es un clásico: “¡Escribamos el nuestro!”

Su seguimiento se convierte en el desarrollo de un producto de software y distribuido. Está buscando un proveedor de infraestructura, observe cómo implementarlo y monitorearlo; el monitoreo debe ser monitoreado, ¿verdad? Y también se necesita apoyo. Piénselo diez veces antes de asumir esto. Puede ser más fácil pagarle a alguien para que lo haga por usted.

Monitoreo de anomalías BGP y ataques DDoS

Aquí, en función de los recursos disponibles, todo es aún más sencillo. Las anomalías de BGP se detectan mediante servicios especializados como QRadar, BGPmon. Aceptan una tabla de vista completa de múltiples operadores. En función de lo que ven de diferentes operadores, pueden detectar anomalías, buscar amplificadores, etc. El registro suele ser gratuito: ingresa su número de teléfono, se suscribe a notificaciones por correo electrónico y el servicio le alertará sobre sus problemas.

Monitorear los ataques DDoS también es sencillo. Normalmente esto es Basado en NetFlow y registros. Existen sistemas especializados como FastNetMon, módulos para Splunk. Como último recurso, existe su proveedor de protección DDoS. También puede filtrar NetFlow y, en función de ello, le notificará de los ataques en su dirección.

Hallazgos

No te hagas ilusiones: Internet definitivamente se romperá. No todo ni todos se romperán, pero 14 mil incidentes en 2017 insinúan que habrá incidentes.

Tu tarea es detectar los problemas lo antes posible.. Como mínimo, a más tardar que su usuario. No sólo es importante tener en cuenta, mantener siempre un “Plan B” en reserva. Un plan es una estrategia de lo que harás cuando todo se estropee.: operadores de reserva, DC, CDN. Un plan es una lista de verificación separada con la que se verifica el funcionamiento de todo. El plan debería funcionar sin la participación de ingenieros de redes, porque normalmente son pocos y quieren dormir.

Eso es todo. Les deseo alta disponibilidad y monitoreo ecológico.

La próxima semana en Novosibirsk se espera sol, mucha carga y una alta concentración de desarrolladores. Alta carga++ Siberia 2019. En Siberia se prevé una gran cantidad de informes sobre seguimiento, accesibilidad y pruebas, seguridad y gestión. Se esperan precipitaciones en forma de notas garabateadas, networking, fotografías y publicaciones en las redes sociales. Recomendamos posponer todas las actividades los días 24 y 25 de junio y reservar entradas. ¡Te esperamos en Siberia!

Fuente: habr.com

Añadir un comentario