rssLink RSS for all categories
 
icon_blue
icon_green
icon_green
icon_orange
icon_red
icon_green
icon_green
icon_orange
icon_red
icon_orange
icon_red
icon_green
icon_green
icon_blue
icon_red
icon_red
icon_green
icon_blue
icon_red
icon_red
icon_green
icon_red
icon_orange
icon_red
icon_orange
icon_green
icon_green
icon_red
icon_green
icon_blue
icon_green
icon_green
 

FS#6311 — rbx-g1

Attached to Project— Reseau Internet et Baies
Incident
Tout le réseau
CLOSED
100%
Nous avons un problème hard sur le routeur. Nous avons isolé une carte défectueuse sur le routeur.
Date:  Tuesday, 31 January 2012, 14:29PM
Reason for closing:  Done
Comment by OVH - Friday, 27 January 2012, 12:51PM

Nous avons retiré la carte défectueuse du routeur. Ceci a provoqué le reboot de 7 des autres cartes:

0/2/CPU0 A9K-8T-L MBI-BOOTING PWR,NSHUT,MON
0/3/CPU0 A9K-8T-L MBI-BOOTING PWR,NSHUT,MON
0/4/CPU0 A9K-8T-L MBI-BOOTING PWR,NSHUT,MON
0/5/CPU0 A9K-8T-L MBI-BOOTING PWR,NSHUT,MON
0/6/CPU0 A9K-8T-L MBI-BOOTING PWR,NSHUT,MON
0/7/CPU0 A9K-8T-L MBI-BOOTING PWR,NSHUT,MON


Comment by OVH - Friday, 27 January 2012, 13:44PM

L'ensemble du trafic routé par rbx-g1-a9, l'un de nos routeurs core sur roubaix a été impacté entre 12:35 et 12:55 environ. L'une des nouvelles cartes 24x10G que nous avons insérée la nuit dernière (http://travaux.ovh.net/?do=details&id=6241) s'est révélée défectueuse au moment de l'activation de nouveaux ports.

Déroulement des évènements pendant la panne:
- le trafic a travers le routeur a commencé à être très dégradé (paquet loss important)
- nous retirons immédiatement de la prod les nouveaux ports, le pb persiste
- nous retirons la carte 0 du chassis, plus de paquet loss mais toutes les autres cartes 8T-l rebootent (pas l'autre 24x10GE). Le routeur perd instantanément 48x10G de capacité. Le routage est à ce moment assuré en grande partie par le rbx-g2-a9.
- le trafic est cependant de nouveau impacté, cette fois à cause de la saturation de certains liens et des "effets de bords" provoqués par la perte de tous ces liens au niveau des autres routeurs
- les cartes rebootent mais sur ce type d'équipement, plusieurs minutes sont nécessaires pour que les linecards reviennent dans un état opérationnel.
- enfin, nous remettons en place la carte 24x10GE ayant causé la panne par une 8T-L et nous remettons en prod les uplinks sur cette carte. Le routeur est revenu dans un état normal, 20 minutes se sont écoulées.

Nous travaillons acutellement avec Cisco pour identifier l'origine du problème et faire remplacer la carte défectueuse au plus tot.


Comment by OVH - Tuesday, 31 January 2012, 14:29PM

on attend la carte de spare qui doit arriver dans la semaine.
ce sont des cartes très très nouvelles et le stock de spare
n'est pas encore en place chez Cisco