OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
GSW Paris
Incident Report for Network & Infrastructure
Resolved
Le POP de Globalswitch est down. Nous investiguons.

Update(s):

Date: 2015-07-29 15:12:24 UTC
Bonjour,
Nous venons d’avoir un incident sur le routage sur l’un
de 2 routeurs de Paris: gsw-1-a9. L’erreur humaine est
à l’origine de la panne: l’un des ingénieurs de l’équipe
network (c’est mon équipe ..) a effacé par erreur la configuration
OSPF sur le routeur. Malgré la double confirmation de
l’application de la configuration, il a confirmé yes yes ..
des automatismes .. Et donc le routeur gsw-1-a9 est
parti dans les choux.

Mais cela tout doit continuer à fonctionner. Sauf que nous
avons eu un bug BGP sur le 3eme routeurs reflector,
rf-3-a1 qui n’a pas communiqué au reste de la backbone
que gsw-1-a9 est down. rf-2-a1 l’a fait et rf-1-a1 a été
down durant la panne. Du coup la backbone continuait
à se comporter comme si le routeur gsw-1-a9 était UP.
On le voyait à travers les loops dans les traceroutes.

Nous avons redémarré toutes les sessions BGP sur
rf-3-a1 mais sachant que rf-1-a1 a été en panne avec
gsw-1-a9, et donc que seulement rf-2-a1 assurait la
synchronisation BGP entre tous les routeurs en Europe,
nous avons eu des yoyos dans le réseau en Europe:
ça pouvait pinger ou pas durant 60-120 secondes par
routeur.

En suite, tout est revenu puis nous avons remis la configuration
sur le routeur gsw-1-a9. La backbone est UP.

Nous sommes sincèrement désolés pour cette panne.
L’erreur humaine peut arriver et la backbone est preuve
pour faire face à ce genre de problèmes. On regarde
pour trouver le bug sur nos RR (ASR1002). Puis on va
déterrer la hache pour s’occuper des doigts de mes
gars ..

En savoir plus:
http://travaux.ovh.net/?do=details&id=14176

Amicalement
Octave

Date: 2015-07-29 14:42:51 UTC
Tout est UP.

Date: 2015-07-29 14:39:48 UTC
On fait le rollback sur la configuration gsw-1-a9.
On a coupé les sessions BGP avec les PNI et Transit.
On a remis la configuration OSPF.
C'est UP.
On remet les sessions BGP avec les peers.



Date: 2015-07-29 14:38:16 UTC
Le reset de rf-3-a1 a fixé le probleme d'annonces qui
aurait dû disparaitre lorsque le routeur gsw-1-a9 a
été isolé.

Le trafic est revenu à la normal. On a été principalement
impacté vers les connexions gerées par gsw-1-a9:
- 50% de Free
- 50% d'Orange
- 30% Telefonica (Backup)
- 50% Google Eurupe

Transit:
- 20G Cogent
- 40G Tata
- 20G Level3
- 10G Telia

Le reste de la backbone continuait à fonctionner normalement.

Date: 2015-07-29 14:13:06 UTC
Le rf-1-a1 est down avec GSW.

On a fait le reset de rf-3-a1 qui a apparament un bug.
Durant quelques minutes on a donc été uniquement sur
seulement un RR rf-2-a1.

Date: 2015-07-29 14:07:57 UTC
On a des comportements bizarres sur le th2-1-a9 mais
pas seulement. Les routes qui sont habituellement
annoncés par GSW sont toujours là.

On cherche.

Apparament l'un des routeurs \"reflector\" (rf-3-a1) n'a
pas annoncé à tous les autres routeurs que le routeur
GSW est down. Du coup, les routeurs vers GSW sont toujours
installés.

On coupe la session BGP vers le rf-3-a1 et th2-1-a9 pour
verifier.

Ca fixe. Okey c'est par là.

On coupe toutes les sessions BGP

rf-3-a1#clear ip bgp *


Date: 2015-07-29 14:03:54 UTC
Une erreur humaine est à l'origine du probleme. La
configuration OSPF a coupé le routeur de GSW.

Le trafic a été repris par TH2 sur Paris.
Posted Jul 29, 2015 - 13:18 UTC