OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
rbx-31
Incident Report for Network & Infrastructure
Resolved
Il y a un probleme sur le chassis. La carte semble en defaut
et bloque le chassis.

Update(s):

Date: 2011-08-04 02:57:34 UTC
L'intervention ne s'est pas pas bien passé à cause de problème de versions sur la nouvelle carte. Nous avons été contraint de faire repartir le chassis sur un nouveau reboot à froid. Le chassis est dans un état stable mais nous suspectons encore une autre carte d'être à l'origine du pb. Nous remplacons donc à titre préventif la carte 3.

Date: 2011-08-04 00:00:59 UTC
On insère une nouvelle carte dans le slot #2

Date: 2011-08-03 13:28:02 UTC
On tourne actuellement sur une seul sup en slot 1. Apparemment au moins une des cartes de spare insérées hier était également défectueuse. On reteste toutes les cartes en lab et on programme une intervention cette nuit pour insérer une nouvelle carte sup en slot2. Nous changerons éventuellement à titre préventif les cartes 3 et 4.

Date: 2011-08-03 13:11:03 UTC
On démarre sur une carte neuve en slot1. Une seule sup. On redescend de nouveau la conf à partir du backup

Date: 2011-08-03 12:38:12 UTC
La carte #1 ne démarre pas:

Local Test Mode encounters Minor hardware problem in Module # 1
Supervisor module 1 encontered CRITICAL failure: 0x1e - EARL_FAILURE L3_FAILURE RWENGINE_FAILURE L2_FAILURE
Failed Module Bringup Process
Use 'show test 1' to see results of tests.
Use 'reset 1' to reset the module.

On essaie de redémarrer le chassis sans les cartes 3 et 4 qui sont les derniers éléments communs à la config précédente.

Date: 2011-08-03 12:32:58 UTC
carte1:
*** Bus Timeout NMI ***
PC = 0x80b808c8, SP = 0x87fff110 frame = 0xa0005ea8

*** Unknown External Interrupt ***
Stacked Cause = 0x800, Stacked Status Reg = 0x2441fc03
Current Cause IP[7..0] = 0x8, Current SREG IP[7..0] = 0xfc


Date: 2011-08-03 12:32:25 UTC
carte1:
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03
PC = 0xbfc0a6f4, Cause = 0x4c00, Status Reg = 0x2441fc03


Date: 2011-08-03 12:31:36 UTC
Nouveau crash. On redémarre le chassis à froid. Ne reste que les cartes 3 et 4 qui n'ont pas été changées.

Date: 2011-08-03 11:23:16 UTC
La carte #2 a pris le relais lors du reboot de la #1. Une autre carte autre que les sups est probablement à l'origine des problèmes que nous rencontrons depuis hier soir. Nous allons remplacer la carte #5.

Date: 2011-08-03 11:21:52 UTC
Aug 3 13:15:38 rbx-31-c1.routers.ovh.net 2011 Aug 03 11:15:17 %SYS-4-SUPERVISOR_ERR:Forwarding engine IP checksum error counter = 6
Aug 3 13:15:35 rbx-31-c1.routers.ovh.net 2011 Aug 03 11:15:14 %SYS-5-MOD_OK:Module 16(WS-F6K-MSFC,SAD040604MY) is online
Aug 3 13:15:34 rbx-31-c1.routers.ovh.net 2011 Aug 03 11:15:13 %SYS-3-MOD_PORTINTFINSYNC:Port Interface in sync for Module 2
Aug 3 13:15:34 rbx-31-c1.routers.ovh.net 2011 Aug 03 11:15:12 %SYS-5-MOD_OK:Module 5(WS-X6408A-GBIC,SAD05030JDD) is online
Aug 3 13:15:32 rbx-31-m2.routers.ovh.net 58: Aug 3 13:15:13 GMT: %SCP-5-ONLINE: Module online (supervisor switchover)


Date: 2011-08-03 11:19:49 UTC
La carte #1 vient de crasher de nouveau

Date: 2011-08-02 21:01:17 UTC
ça va être bon pour ce soir :)

Date: 2011-08-02 21:00:23 UTC
il faut trouver l'origine du probleme. on
teste differentes cartes dans le chassis
http://yfrog.com/kl9ambvj

en suite, on teste les cartes du routeur
dans un autre chassis.
http://yfrog.com/kiwgtqrj

on met une nouvelle carte dans #2, la
carte s'allume pas. on change l'alim
de slot dans le chassis, elle s'allume:
c'est bon c'est le chassis. allez on
se le change, on sort les cartes du
chassis, on retire le chassis de la
baie par l'arriere, on tient les cartes
puis on reinsere le chassis par l'arriere
puis on reinsere les cartes.
http://yfrog.com/kepqdsyj

tout est vert, c'est bon ça marche. plus
qu'à dropper la conf des sauvegardes.
http://yfrog.com/gzk7nftsj

lui va à la poubelle avec les 2 cartes
qui ont grillé
http://yfrog.com/kexkduxj

Date: 2011-08-02 20:52:26 UTC
m2 est configurée.

Date: 2011-08-02 20:40:32 UTC
le chassis + 2 sup ont grillé. nous avons remplacé tout ça
et on a dû reconfiguré le routeur entierement. le service
est up sur la #1. on finit la #2.

sportif ...

Date: 2011-08-02 19:49:06 UTC
on chope un chassis de spare et on le remplace.

Date: 2011-08-02 19:46:11 UTC
EOBC channel fail
sur la #2

Date: 2011-08-02 19:43:11 UTC
la #1 continue le boot.

la #2 boot aussi.

Date: 2011-08-02 19:42:16 UTC
le fait de retirer la #4 ça a bloqué le boot. donc peut etre
l'origine du probleme.

Date: 2011-08-02 19:40:50 UTC
la #2 est morte.

on remet la #1. on enleve les autres cartes. on essaie de booter
déjà la #1 et voir si ça marche.

Date: 2011-08-02 19:38:46 UTC
ça avance le boot.

on sort la #1. on remet la #2.

Date: 2011-08-02 19:36:38 UTC
On prepare en parallele un spare de la carte #2.
au moins une carte est en panne.

Date: 2011-08-02 19:34:08 UTC
Uptime is 1051 days, 15 hours, 22 minutes



Date: 2011-08-02 19:30:41 UTC
La carte #2 est sorti. Les autres cartes ne sont plus detectées.
On reboote en hardware.
Posted Aug 02, 2011 - 19:26 UTC