OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
routage general
Incident Report for Network & Infrastructure
Resolved
Nous avons eu un probleme generale sur le routage.
On cherche l'origine du probleme.

Apparement c'est une carte dans l'un de 2 routeurs
à Roubaix qui s'est mise à mal fonctionner et n'est
pas tombé net en panne. Du coup ça a provoqué
l'isolation du reseau et le split entre la parti
Paris Roubaix London.

On a coupé electriquement la carte et on regarde
les logs pour comprendre comment une carte a
pu provoqué un probleme pareil.

Update(s):

Date: 2012-04-13 17:46:23 UTC
Pour l'application de la SLA, veuillez-vous rendre sur https://www.ovh.com/managerv3/sla-list.pl

Date: 2012-03-29 00:12:24 UTC
Les deux routeurs rbx-g1 et rbx-g2 sont dans leur fonctionnement normal. Les correctifs sont en place.

Date: 2012-03-28 23:58:54 UTC
Cette fois, aucun souci au niveau BGP. Le routeur est up dans un état stable. On réactive le trafic dessus.

Date: 2012-03-28 23:48:31 UTC
Le rbx-g2 est isolé du réseau. Le routage est maintenant assuré par rbx-g1. Le routeur va être reloadé au cours du process d'applications des correctifs.

Date: 2012-03-28 23:43:21 UTC
Toutes les sessions BGP sont montés. On poursuit les travaux avec rbx-g2.

Date: 2012-03-28 23:01:59 UTC
Les correctifs sont appliqués et le routeur est dans un état stable. Nous avons cependant un problème au niveau du BGP. L'une des sessions vers le rf-2 (route reflector BGP) ne remonte pas en v4 et une vers rf-1 en v6. On regarde cela de plus près avant d'aller plus loin.

Date: 2012-03-28 22:32:25 UTC
Wed Mar 28 22:31:25.042 UTC
Install operation 6 '(admin) install activate
disk0:asr9k-px-4.2.0.CSCty46761-1.0.0 disk0:asr9k-px-4.2.0.CSCtx89601-1.0.0'
started by user 'gui' via CLI at 22:31:25 UTC Wed Mar 28 2012.
Info: This operation will reload the following nodes in parallel:
Info: 0/RSP0/CPU0 (RP) (SDR: Owner)
Info: 0/RSP1/CPU0 (RP) (SDR: Owner)
Info: 0/0/CPU0 (LC) (SDR: Owner)
Info: 0/1/CPU0 (LC) (SDR: Owner)
Info: 0/2/CPU0 (LC) (SDR: Owner)
Info: 0/3/CPU0 (LC) (SDR: Owner)
Info: 0/4/CPU0 (LC) (SDR: Owner)
Info: 0/5/CPU0 (LC) (SDR: Owner)
Info: 0/6/CPU0 (LC) (SDR: Owner)
Info: 0/7/CPU0 (LC) (SDR: Owner)


Date: 2012-03-28 22:30:26 UTC
Le routage est assuré par rbx-g2. Nous appliquons les correctifs. Un reload complet du routeur rbx-g1 va être effectué. Il n'y a pas d'impact attendu sur le trafic, le routage étant assuré par rbx-g2.

Date: 2012-03-28 22:19:28 UTC
Nous démarrons le déploiement des correctifs.

On isole rbx-g1-a9 du réseau.

Date: 2012-03-28 19:50:43 UTC
Les 2 patchs:
CSCty46761
CSCtx89601

asr9k-px-4.2.0.CSCtx89601-1.0.0
asr9k-px-4.2.0.CSCty46761-1.0.0

Date: 2012-03-28 17:48:19 UTC
Bonjour,
Nous avons eu un problème de routage cette nuit dû
à un bug software qui touchent 2 routeurs principaux
de Roubaix. Ces Cisco ASR 9010 assurent la collecte
de la bande passante des datacentres à Roubaix (RBX1
RBX2 RBX3 RBX4 RBX5) et la connexion vers Paris,
Bruxelles, Amsterdam, London et Frankfurt. En bref,
le coeur de routage à Roubaix.

Ce bug là est connu et il est lié aux nouvelles cartes
que nous avons mis en production fin janvier (24x10G par
slot). Pour une raison random la carte se met à détecter
des erreurs RAM ECC et ne route plus les packets. Mais
surtout malgré cela la carte ne se déclare pas \"en panne\"
et reste dans le routeur comme si elle était bonne.
Les autres routeurs continuent à envoyer les packets
mais en face il n'y a personne. Tout tombe dans un trou
noir et le réseau ne fonctionne plus correctement.
Le pire de cas: une panne pas net.

Cette nuit, 3 cartes 24x10G sur 2 routeurs ASR 9010
ont eu ce bug là presque en même temps. Ceci a cassé
le réseau en 3 morceaux: USA/London/Amsterdam/Varsovie,
Roubaix et Paris, Frankfurt, Madrid, Milano, en aspirant
les packets à Roubaix. Habituellement le trafic aurait
été rerouté mais là il a été aspiré et bloqué à Roubaix.

Du coup nous n'avons pas pu exploiter le réseau pour
administrer ce réseau et récupérer logs de tous les
routeurs afin de connaître l'origine du problème.
Nous avons navigué à l'ancienne, avec les connexions
de secours/extérieur pour se connecter sur chaque
routeur de backbone pour vérifier si c'est le routeur
qui est à l'origine du problème. Cette opération a
pris du temps, car en plus deux routeurs se sont mis
en panne et on avait mis du temps à comprendre que
ça ne venait pas juste d'un routeur rbx-g2-a9 mais aussi
à cause de rbx-g1-a9. Une fois que nous avons redémarré
les 3 cartes tout est revenu en 5 minutes.

Il y a environ 3 semaines. Nous avons déjà ouvert un
ticket au près de Cisco concernant ce problème de RAM
ECC. Cisco a travaillé sur le problème et a pu nous
fournir .. ce matin le patch software à appliquer sur
les routeurs afin de fixer ce problème là. On va
réaliser cette opération cette nuit. Pas de panne à
prévoir.

On regarde aussi comment améliorer la gestion de nos
routeurs dans le cas où toute la backbone est down
pour une raison qui n'arrive jamais. On sait gérer
ce cas de figure mais c'est lent. Très lent.

Dans tous les cas, la panne a durée plus que 99.9%
à savoir 1h22 alors qu'on a \"droit\" à 43 min par
mois de downtime. Il y a donc les pénalités qui se
déclenche pour le dépassement du temps autorisé.
Exemple: sur les SD OVH c'est 5% par heure d'indisponibilité.
Nous allons faire un URL afin que vous puissiez
déclencher le SLA et nous envoyer le doc pour créditer
les 5% du temps sur votre service. Il sera posté dans
le task http://travaux.ovh.com/?do=details&id=6533

C'est jamais agréable d'écrire ce genre d'email mais
quand on n'est pas bon, bahh, on l'assume et on
s'excuse.

Désolé encore.

Amicalement
Octave


Date: 2012-03-28 17:06:40 UTC
Nous avons travaillé aujourd'hui avec Cisco sur les problèmes rencontrés. Nous devons mettre en place des correctifs en urgence sur les routeurs. Ces correctifs seront déployés cette nuit:
00:00 sur rbx-g1
01:00 sur rbx-g2

Date: 2012-03-28 07:22:56 UTC
Nous avons déjà eu ce probleme là et il a été remonté
à TAC. le TAC de Cisco a travaillé sur le probleme et
nous a preparé un SMU pour appliquer un patch software
sur la version IOS XR que nous avons en place. ce petit
patch sera integré dans la version +1.

On recupere ça puis cette nuit nous allons faire la
maintenance sur ces 2 routeurs pour leurs appliquer
le patch software qui nous oblige de reload le routeur
juste apres. On va pas faire ça en pleine journée.

Date: 2012-03-28 04:45:19 UTC
la loi Murphy de problemes qui n'arrivent jamais.

quelques chose a provoqué la panne simultanée de
cartes de même type dans 2 routeurs differents.
un bug hard/soft sur les nouvelles cartes 24x10G
du Cisco ASR9010. les autres cartes 8x10G sont
restés up.

on a ouvert le TAC pour demander le remplacement
des 3 cartes qui sont tombés en panne. mais il
faut trouver l'origine du probleme afin que cela
n'arrive plus. car avec le même hard et le même
soft, la même origine va provoquer le même
probleme.

Date: 2012-03-28 04:20:26 UTC
2 cartes 24x10G sur rbx-g1-a9 sont tombés en panne
1 carte 24x10G sur rbx-g2-a9 en panne aussi.



Date: 2012-03-28 04:17:43 UTC
l'un de 2 routeurs principaux à Roubaix est down rbx-g1-a9
et le second a une carte en défaut.
Posted Mar 28, 2012 - 04:13 UTC