OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
waw1-dedagg1b-n9
Incident Report for Network & Infrastructure
Resolved
Nous constatons un problème de forwarding sur le routeur waw1-dedagg1b-n9.
Nous allons l'isoler puis le reloader, le trafic sera forwarde par le 1a




Update(s):

Date: 2016-12-07 21:19:37 UTC
Le traffic est de nouveau loadbalanced en IN sur les Aggregateur de WAW1

Date: 2016-12-06 15:03:51 UTC
Ce soir a partir de 22h, nous allons remettre le trafic en IN sur waw1-dedagg1b-n9.

Date: 2016-12-06 14:17:36 UTC
Les blocs IP FO avec VMAC ont tous été patchés sur WAW.

Le défaut concerne l'absence d’entrée FIB pour les ips /32 des blocs.

waw1-dedagg1a-n9# sh ip fib route 193.70.xxx.yy <<<<<< ici une /32 appartenant a une /30

slot 1
=======


IPv4 routes for table default/base

------------------+-----------------------------------------+----------------------+-----------------+-----------------
Prefix | Next-hop | Interface | Labels | Partial Install
------------------+-----------------------------------------+----------------------+-----------------+-----------------
193.70.xxx.yy/30 0.0.0.0 Vlan147
waw1-dedagg1a-n9#


Le next-hop en FIB doit etre la /32 elle meme et non 0.0.0.0 qui est le CPU


Nous sommes en attente d'un FIX de Cisco


Date: 2016-12-06 13:55:24 UTC
Concernant le défaut sur les bloc failover avec Vmac, nous avons trouver la root-cause

Nous appliquons un woraround dans le robot d'apply des IP FO et nous patchons les blocs existants



Date: 2016-12-02 14:30:16 UTC
Nous avons continué les investigations, il y a 2 problèmes distincts:
-1: Lorsque les 2 routeurs assurent le trafic INPUT, on observe le problème de `forwarding` - root cause inconnu pour le moment , cependant pas de drop sur le GLEAN
-2: Lorsqu'un seul routeur assure l'INPUT, le forwarding semble revenir a la normale, mais on observe les drops sur le GLEAN

Les observations montrent que se sont 2 problèmes distincts

Dans les 2 cas, l'impact est uniquement sur les IP FO avec des VMAC ( les IP FO route vers une next-hop ne sont pas concerne )

Nous laissons pour le moment le routeur B isole, nous avons montés le rate-limiting du GLEAN pour limiter l'effet et poursuivons les investigations




Date: 2016-12-02 09:55:34 UTC
Nous avons une piste concernant le GLEAN, l'apprentissage des macs

waw1-dedagg1a-n9# show hardware rate-limiter layer-3 glean

Units for Config: packets per second
Allowed, Dropped & Total: aggregated since last clear counters


Module: 1
R-L Class Config Allowed Dropped Total
+------------------+--------+---------------+---------------+-----------------+
L3 glean 100 16928337 334159 17262496

On drop


Date: 2016-12-02 08:02:18 UTC
Nous continuons le troubleshooting avec Cisco

Date: 2016-12-01 20:20:18 UTC
Le routeur est de nouveau UP, la VPC est UP, HSRP UP.
Nous constatons toujours le problème de forwarding.
Nous avons isole le routeur sur le BGP, il n'accepte plus de trafic en IN mais permet toujours la sortie.

Nous travaillons avec le constructeur afin de trouver la root cause.

Date: 2016-12-01 19:57:02 UTC
le routeur est en cours de reload
Posted Dec 01, 2016 - 19:47 UTC
This incident affected: Infrastructure || WAW (WAW1).