rssLink RSS for all categories
 
icon_red
icon_green
icon_green
icon_red
icon_red
icon_green
icon_green
icon_red
icon_red
icon_red
icon_green
icon_green
icon_green
icon_orange
icon_green
icon_red
icon_blue
icon_orange
icon_red
icon_green
icon_green
icon_red
icon_green
icon_red
icon_orange
icon_green
icon_green
icon_green
icon_green
icon_green
icon_green
icon_green
icon_green
 

FS#5651 — rbx-31

Attached to Project— Network and racks
Incident
Entire OVH Network
CLOSED
100%
Il y a un probleme sur le chassis. La carte semble en defaut
et bloque le chassis.
Date:  Thursday, 04 August 2011, 18:55PM
Reason for closing:  Done
Comment by OVH - Tuesday, 02 August 2011, 21:30PM

La carte #2 est sorti. Les autres cartes ne sont plus detectées.
On reboote en hardware.


Comment by OVH - Tuesday, 02 August 2011, 21:34PM

Uptime is 1051 days, 15 hours, 22 minutes


Comment by OVH - Tuesday, 02 August 2011, 21:36PM

On prepare en parallele un spare de la carte #2.
au moins une carte est en panne.


Comment by OVH - Tuesday, 02 August 2011, 21:38PM

ça avance le boot.

on sort la #1. on remet la #2.


Comment by OVH - Tuesday, 02 August 2011, 21:40PM

la #2 est morte.

on remet la #1. on enleve les autres cartes. on essaie de booter
déjà la #1 et voir si ça marche.


Comment by OVH - Tuesday, 02 August 2011, 21:42PM

le fait de retirer la #4 ça a bloqué le boot. donc peut etre
l'origine du probleme.


Comment by OVH - Tuesday, 02 August 2011, 21:43PM

la #1 continue le boot.

la #2 boot aussi.


Comment by OVH - Tuesday, 02 August 2011, 21:46PM

EOBC channel fail
sur la #2


Comment by OVH - Tuesday, 02 August 2011, 21:49PM

on chope un chassis de spare et on le remplace.


Comment by OVH - Tuesday, 02 August 2011, 22:40PM

le chassis + 2 sup ont grillé. nous avons remplacé tout ça
et on a dû reconfiguré le routeur entierement. le service
est up sur la #1. on finit la #2.

sportif ...


Comment by OVH - Tuesday, 02 August 2011, 22:52PM

m2 est configurée.


Comment by OVH - Tuesday, 02 August 2011, 23:00PM

il faut trouver l'origine du probleme. on
teste differentes cartes dans le chassis
http://yfrog.com/kl9ambvj

en suite, on teste les cartes du routeur
dans un autre chassis.
http://yfrog.com/kiwgtqrj

on met une nouvelle carte dans #2, la
carte s'allume pas. on change l'alim
de slot dans le chassis, elle s'allume:
c'est bon c'est le chassis. allez on
se le change, on sort les cartes du
chassis, on retire le chassis de la
baie par l'arriere, on tient les cartes
puis on reinsere le chassis par l'arriere
puis on reinsere les cartes.
http://yfrog.com/kepqdsyj

tout est vert, c'est bon ça marche. plus
qu'à dropper la conf des sauvegardes.
http://yfrog.com/gzk7nftsj

lui va à la poubelle avec les 2 cartes
qui ont grillé
http://yfrog.com/kexkduxj


Comment by OVH - Tuesday, 02 August 2011, 23:01PM

ça va être bon pour ce soir :)


Comment by OVH - Wednesday, 03 August 2011, 13:19PM

La carte #1 vient de crasher de nouveau


Comment by OVH - Wednesday, 03 August 2011, 13:21PM

Aug 3 13:15:38 rbx-31-c1.routers.ovh.net 2011 Aug 03 11:15:17 %SYS-4-SUPERVISOR_ERR:Forwarding engine IP checksum error counter = 6
Aug 3 13:15:35 rbx-31-c1.routers.ovh.net 2011 Aug 03 11:15:14 %SYS-5-MOD_OK:Module 16(WS-F6K-MSFC,SAD040604MY) is online
Aug 3 13:15:34 rbx-31-c1.routers.ovh.net 2011 Aug 03 11:15:13 %SYS-3-MOD_PORTINTFINSYNC:Port Interface in sync for Module 2
Aug 3 13:15:34 rbx-31-c1.routers.ovh.net 2011 Aug 03 11:15:12 %SYS-5-MOD_OK:Module 5(WS-X6408A-GBIC,SAD05030JDD) is online
Aug 3 13:15:32 rbx-31-m2.routers.ovh.net 58: Aug 3 13:15:13 GMT: %SCP-5-ONLINE: Module online (supervisor switchover)


Comment by OVH - Wednesday, 03 August 2011, 13:23PM

La carte #2 a pris le relais lors du reboot de la #1. Une autre carte autre que les sups est probablement à l'origine des problèmes que nous rencontrons depuis hier soir. Nous allons remplacer la carte #5.


Comment by OVH - Wednesday, 03 August 2011, 14:31PM

Nouveau crash. On redémarre le chassis à froid. Ne reste que les cartes 3 et 4 qui n'ont pas été changées.


Comment by OVH - Wednesday, 03 August 2011, 14:32PM

carte1:
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03


Comment by OVH - Wednesday, 03 August 2011, 14:32PM

carte1:
*** Bus Timeout NMI ***
PC = 0x80b808c8, SP = 0x87fff110 frame = 0xa0005ea8

*** Unknown External Interrupt ***
Stacked Cause = 0x800, Stacked Status Reg = 0x2441fc03
Current Cause IP[7..0] = 0x8, Current SREG IP[7..0] = 0xfc


Comment by OVH - Wednesday, 03 August 2011, 14:38PM

La carte #1 ne démarre pas:

Local Test Mode encounters Minor hardware problem in Module # 1
Supervisor module 1 encontered CRITICAL failure: 0x1e - EARL_FAILURE L3_FAILURE RWENGINE_FAILURE L2_FAILURE
Failed Module Bringup Process
Use 'show test 1' to see results of tests.
Use 'reset 1' to reset the module.

On essaie de redémarrer le chassis sans les cartes 3 et 4 qui sont les derniers éléments communs à la config précédente.


Comment by OVH - Wednesday, 03 August 2011, 15:11PM

On démarre sur une carte neuve en slot1. Une seule sup. On redescend de nouveau la conf à partir du backup


Comment by OVH - Wednesday, 03 August 2011, 15:28PM

On tourne actuellement sur une seul sup en slot 1. Apparemment au moins une des cartes de spare insérées hier était également défectueuse. On reteste toutes les cartes en lab et on programme une intervention cette nuit pour insérer une nouvelle carte sup en slot2. Nous changerons éventuellement à titre préventif les cartes 3 et 4.


Comment by OVH - Thursday, 04 August 2011, 02:00AM

On insère une nouvelle carte dans le slot #2


Comment by OVH - Thursday, 04 August 2011, 04:57AM

L'intervention ne s'est pas pas bien passé à cause de problème de versions sur la nouvelle carte. Nous avons été contraint de faire repartir le chassis sur un nouveau reboot à froid. Le chassis est dans un état stable mais nous suspectons encore une autre carte d'être à l'origine du pb. Nous remplacons donc à titre préventif la carte 3.