OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
rbx-g2-a9
Incident Report for Network & Infrastructure
Resolved
Nous avons un défaut sur la carte 0 de rbx-g2-a9:

LC/0/0/CPU0:Mar 7 10:00:13 UTC: prm_server_ty[295]: prm_ser_check: Single-bit ECC error detected: NP 0, block 0x14 (RSV), offset 0, memid 41, name INSTRUCTION_MEM0, addr 0x00000070, bit 17, ext info 0x00000003 0xffffffff 0xffffffff 0xffffffff, action 0 (Fix)
LC/0/0/CPU0:Mar 7 10:00:13 UTC: prm_server_ty[295]: prm_ser_check: Single-bit ECC error detected: NP 0, block 0x14 (RSV), offset 1, memid 41, name INSTRUCTION_MEM1, addr 0x00000070, bit 17, ext info 0x00000003 0xffffffff 0xffffffff 0xffffffff, action 0 (Fix)
LC/0/0/CPU0:Mar 7 10:00:13 UTC: prm_server_ty[295]: prm_ser_check: Spurious error detected: NP 0, block 0xffffffff (Undefined), offset 1, memid 557, name Unknown Memory, addr 0xffffffff, bit 4294967295, ext info 0xffffffff 0xffffffff 0xffffffff 0xffffffff, action 1 (Ignore)



Update(s):

Date: 2012-03-07 23:38:55 UTC
Le routeur est revenu dans un fonctionnement normal. Toutes les cartes sont ups. La carte dans le slot0 est remplacée.
Nous avions eu exactement le même problème lors de l'extraction d'une carte 24x10G pour remplacement sur rbx-g1 (task #6311).

Nous allons analyser avec cisco quels sont les causes de ces reboots. Peut être une incompatibilité entre les nouvelles cartes 24x10G et les 8T-L.

Date: 2012-03-07 23:16:51 UTC
Nous avons un incident sur le routeur. L'ensemble des cartes 8T-l de rbx-g2 ont rebooté. On remplace immédiatement la carte dans le slot0. Le routeur fonctionne en dégradé. rbx-g1 fonctionne normalement.

Date: 2012-03-07 22:58:20 UTC
Nous commencons l'intervention. Dans un premier temps, nous allons tenter un reseat (réinsertion physique) de la carte.

Date: 2012-03-07 16:21:38 UTC
Nous allons remplacer la carte par un spare. Nous programmons l'intervention cette nuit (du 07 au 08/03) à partir de minuit.

Date: 2012-03-07 10:40:49 UTC
En direct avec Cisco pour diagnostiquer le probleme.
Posted Mar 07, 2012 - 10:09 UTC