OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
vRack RBX
Incident Report for Network & Infrastructure
Resolved
Cette nuit nous avons effectué les travaux de l'upgrade d'un de
2 routeurs principaux de nos DCs à RBX (rbx-g2-a75)
http://travaux.ovh.net/?do=details&id=18874

Certains clients nous remontent qu'ils ont eu une panne d'une
partie de vrack. Nous sommes en train de regarder pourquoi nous
avons eu ce soucis, sachant que tout est doublé et normalement
s'est écoulé via rbx-g1-a75.

Update(s):

Date: 2016-07-06 13:19:03 UTC
Grâce aux nouveaux routeurs qu'on est en train de déployer
nous allons pouvoir simplifier le routage entre les DC et
vers le vRack, tout en continuant à proposer le VAC multi-DC
et le vRack multi-DC. La nouvelle génération de routeurs
ont de TCAM de 1M et 2M de routes et ont une capacité de
2.4Tbps et 3.2Tbps par carte. Chaque châssis accepte 8
cartes. On va enfin respirer et on sera en capacité de
prendre la croissance sur le réseau :)

Date: 2016-07-06 13:12:40 UTC
Plusieurs points pour éclaircir cette maintenance :

- Vrack + Vac : fixé apres 50 minutes de dysfonctionnement cette nuit, la moitié du trafic vers l'exterieur d'OVH s'est retrouvé blackholé car une interface uplink n'est pas tombé et a continué d'être utilisé alors que c'etait un deadend. Nous avons fixé et confirmé avec des clients présent cette nuit
- Saturation interDc : lorsque les liens ont été réactive, un coup OSPF différent de l'initial a été appliqué (à une unité prêt), il s'agit d'une erreur humaine qui n'a pas pu être constaté en live puisque le trafic n'etait pas suffisamment fort pour constater le dysfonctionnement
- Le trafic de rbx qui passe par GRA ne concerne le trafic des routeurs de vrack qui va a destination de l'housing et est connu par l’équipe réseau.

Date: 2016-07-06 06:14:06 UTC
Pour une raison, qu'on va trouver, une partie du trafic de RBX
sort par GRA .. !? WTF !?

Date: 2016-07-06 06:13:13 UTC
$ traceroute 51.254.236.XXX
traceroute to 51.254.236.XXX (51.254.236.XXX), 30 hops max, 40 byte packets
1 p19-55-6k.fr.eu (213.186.33.157) 1.476 ms 1.364 ms 1.202 ms
2 p19-2-6k.routers.ovh.net (94.23.122.193) 49.948 ms 25.639 ms 1.576 ms
3 gsw-g1-a9.fr.eu (213.186.32.154) 1.623 ms 1.020 ms 1.577 ms
4 rbx-g2-a9.fr.eu (213.251.130.54) 5.404 ms 4.453 ms 5.485 ms
5 rbx-g2-a75 (213.251.128.79) 6.619 ms 6.581 ms 6.479 ms
6 rbx-g4-a72 (94.23.122.75) 6.862 ms 8.220 ms 6.587 ms
7 rbx-g5-a9 (10.21.50.250) 8.702 ms 7.833 ms 7.345 ms
8 51.254.236.162 (51.254.236.XXX) 6.864 ms 6.710 ms 7.276 ms

Hmm ... 6.7ms entre RBX et P19 ? Non, ça doit être 4ms

Date: 2016-07-06 06:11:30 UTC
Nous avons eu le soucis à nouveau lors de la maintenance
du 2eme routeur de RBX:
http://travaux.ovh.net/?do=details&id=19010

On regarde

Date: 2016-06-29 17:56:54 UTC
Le soucis a touché certains clients de vRack. Le point commun
a été qu'ils ont activé l'Anti-DDoS ou ont été sous le DDoS.
Dans ce cas là, le routage est un peu différents (pour entrer
et sortir du VAC1) et visiblement durant la maintenance ça
n'a pas bien fonctionné. On continue de chercher pourquoi.
Posted Jun 29, 2016 - 04:32 UTC