Cortes en Internet porque muchos routers no soportan más de 512k rutas BGP

El martes, usuarios de todo el mundo se quejaban de lentitud y algunos cortes en el acceso a Internet a través de múltiples proveedores: Comcast, Level 3, AT&T, Cogent, Verizon, etc.

¿Se estaba produciendo un ataque DDoS a gran escala, un corte eléctrico en uno de los centros de datos de un gran proveedor de cloud, o quizás una avería en algún cable submarino de datos?... Ninguno de ellos: se trataba de un problema estructural en la forma en la que Internet está construida. Pero empecemos desde el principio...

BGP en Internet

Como todos sabéis y de forma muy genérica, Internet es una gran red global que interconecta cualquier host que se identifica por una dirección IP única. Esto se consigue reenviado los datos de un router a otro y, para conseguirlo, estos routers tienen que tener una tabla de rutas continuamente actualizada.

En esta tabla de rutas están las direcciones IP agrupadas en prefijos que pertenecen a distintos Sistemas Autónomos (AS). Estos AS distribuyen sus rutas y se intercambian la información con otros AS mediante el protocolo BGP (Border Gateway Protocol). Por ejemplo el prefijo de red 192.0.2.0/24 está dentro del AS 64496 y así lo anuncia al resto.

En el último año, de media en Internet se producían diariamente cortes o interrupciones de servicio que afectaban a 6.033 prefijos de 1.470 AS distintos. Es decir, estos cortes suelen ser normales y algunas redes y zonas geográficas son más estables que otras.

Sin embargo ayer y según BGPMon estas cifras subieron a 12.563 prefijos de 2.587 AS distintos, prácticamente el doble. ¿Y qué causó esta inestabilidad? Aquí está el meollo del asunto...

¿Y qué pasó exactamente?

Pues que debido a un error Verizon, anunciaron en dos de sus AS (701 y 705) cientos de prefijos /24 provocando que la tabla de rutas global alcanzara temporalmente las 515.000 entradas y provocando el fallo de numerosos equipos antiguos de muchos ISPs...

¿Y ahora qué?

Ya sabemos que el límite de las 512k rutas globales está muy cerca y que muchos equipos fallarán de nuevo si se supera (que seguro volverá a ser pronto). Los ISPs están ya en preaviso, aunque por otro lado saben que el workaround les obliga como mínimo a reiniciar unos equipos muchas veces complejos y asumir cierto riesgo. Por otro lado saben que no tienen opción: o modifican la configuración o sustituyen el hardware.
Mientras el tiempo corre inexorablemente y urge una solución...

Fuentes:

Contenido completo en fuente original HackPlayers