rssLink RSS for all categories
 
icon_blue
icon_green
icon_red
icon_orange
icon_red
icon_green
icon_green
icon_orange
icon_red
icon_orange
icon_green
icon_green
icon_green
icon_green
icon_orange
icon_red
icon_blue
icon_blue
icon_red
icon_green
icon_green
icon_red
icon_red
icon_blue
icon_orange
icon_green
icon_green
icon_red
icon_green
icon_blue
icon_green
icon_green
 

FS#6533 — routage general

Attached to Project— Reseau Internet et Baies
Incident
Tout le réseau
CLOSED
100%
Nous avons eu un probleme generale sur le routage.
On cherche l'origine du probleme.

Apparement c'est une carte dans l'un de 2 routeurs
à Roubaix qui s'est mise à mal fonctionner et n'est
pas tombé net en panne. Du coup ça a provoqué
l'isolation du reseau et le split entre la parti
Paris Roubaix London.

On a coupé electriquement la carte et on regarde
les logs pour comprendre comment une carte a
pu provoqué un probleme pareil.
Date:  Friday, 13 April 2012, 19:46PM
Reason for closing:  Done
Comment by OVH - Wednesday, 28 March 2012, 06:17AM

l'un de 2 routeurs principaux à Roubaix est down rbx-g1-a9
et le second a une carte en défaut.


Comment by OVH - Wednesday, 28 March 2012, 06:19AM

LC/0/0/CPU0:Mar 28 04:18:20 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab9f8, bit 4294967295, ext info 0x05cab9f8 0x000082d9 0x00000047 0xffffffff, action 0 (Fix)
LC/0/0/CPU0:Mar 28 04:18:20 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab9f8, bit 4294967295, ext info 0x05cab9f8 0x000082d9 0x00000047 0xffffffff, action 0 (Fix)
LC/0/1/CPU0:Mar 28 04:18:20 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 2, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab960, bit 4294967295, ext info 0x05cab960 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
LC/0/0/CPU0:Mar 28 04:18:21 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab9f8, bit 4294967295, ext info 0x05cab9f8 0x00


Comment by OVH - Wednesday, 28 March 2012, 06:20AM

2 cartes 24x10G sur rbx-g1-a9 sont tombés en panne
1 carte 24x10G sur rbx-g2-a9 en panne aussi.


Comment by OVH - Wednesday, 28 March 2012, 06:45AM

la loi Murphy de problemes qui n'arrivent jamais.

quelques chose a provoqué la panne simultanée de
cartes de même type dans 2 routeurs differents.
un bug hard/soft sur les nouvelles cartes 24x10G
du Cisco ASR9010. les autres cartes 8x10G sont
restés up.

on a ouvert le TAC pour demander le remplacement
des 3 cartes qui sont tombés en panne. mais il
faut trouver l'origine du probleme afin que cela
n'arrive plus. car avec le même hard et le même
soft, la même origine va provoquer le même
probleme.


Comment by OVH - Wednesday, 28 March 2012, 07:21AM

Le probleme a commencé à 4h37 sur rbx-g2-a9 sur la carte 0/1

Mar 28 04:37:01 rbx-g2-a9.fr.eu 377642: LC/0/1/CPU0:Mar 28 02:37:04 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7b, bit 4294967295, ext info 0x05c69a7b 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:37:01 rbx-g2-a9.fr.eu 377643: LC/0/1/CPU0:Mar 28 02:37:04 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7b, bit 4294967295, ext info 0x05c69a7b 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:37:01 rbx-g2-a9.fr.eu 377644: LC/0/1/CPU0:Mar 28 02:37:04 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7a, bit 4294967295, ext info 0x05c69a7a 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:37:01 rbx-g2-a9.fr.eu 377645: LC/0/1/CPU0:Mar 28 02:37:04 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7b, bit 4294967295, ext info 0x05c69a7b 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:37:01 rbx-g2-a9.fr.eu 377646: LC/0/1/CPU0:Mar 28 02:37:04 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7a, bit 4294967295, ext info 0x05c69a7a 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)

1 seconde après le même probleme a touché un autre routeur rbx-g1-a9 sur la carte 0/0

Mar 28 04:37:02 rbx-g1-a9.fr.eu 8963: LC/0/0/CPU0:Mar 28 02:36:46 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab924, bit 4294967295, ext info 0x05cab924 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:37:02 rbx-g2-a9.fr.eu 377749: LC/0/1/CPU0:Mar 28 02:37:04 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7b, bit 4294967295, ext info 0x05c69a7b 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:37:02 rbx-g1-a9.fr.eu 8964: LC/0/0/CPU0:Mar 28 02:36:46 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab924, bit 4294967295, ext info 0x05cab924 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:37:02 rbx-g2-a9.fr.eu 377750: LC/0/1/CPU0:Mar 28 02:37:04 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7b, bit 4294967295, ext info 0x05c69a7b 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:37:02 rbx-g2-a9.fr.eu 377751: LC/0/1/CPU0:Mar 28 02:37:04 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7b, bit 4294967295, ext info 0x05c69a7b 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:37:02 rbx-g1-a9.fr.eu 8965: LC/0/0/CPU0:Mar 28 02:36:46 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab924, bit 4294967295, ext info 0x05cab924 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:37:02 rbx-g2-a9.fr.eu 377752: LC/0/1/CPU0:Mar 28 02:37:04 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7a, bit 4294967295, ext info 0x05c69a7a 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:37:02 rbx-g1-a9.fr.eu 8966: LC/0/0/CPU0:Mar 28 02:36:46 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab925, bit 4294967295, ext info 0x05cab925 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:37:02 rbx-g2-a9.fr.eu 377753: LC/0/1/CPU0:Mar 28 02:37:04 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7b, bit 4294967295, ext info 0x05c69a7b 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:37:02 rbx-g2-a9.fr.eu 377754: LC/0/1/CPU0:Mar 28 02:37:04 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7a, bit 4294967295, ext info 0x05c69a7a 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:37:02 rbx-g1-a9.fr.eu 8967: LC/0/0/CPU0:Mar 28 02:36:46 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab925, bit 4294967295, ext info 0x05cab925 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)

72 secondes plus tard, le probleme touchait 2 cartes 0/0 et 0/1 sur rbx-g2-a9


Mar 28 04:38:14 rbx-g2-a9.fr.eu 21106: LC/0/1/CPU0:Mar 28 02:37:57 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 2, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05caba05, bit 4294967295, ext info 0x05caba05 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:14 rbx-g2-a9.fr.eu 21107: LC/0/0/CPU0:Mar 28 02:37:57 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab925, bit 4294967295, ext info 0x05cab925 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:14 rbx-g2-a9.fr.eu 21108: LC/0/0/CPU0:Mar 28 02:37:57 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab925, bit 4294967295, ext info 0x05cab925 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:14 rbx-g2-a9.fr.eu 21109: LC/0/1/CPU0:Mar 28 02:37:57 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 2, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05caba05, bit 4294967295, ext info 0x05caba05 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:14 rbx-g2-a9.fr.eu 21110: LC/0/1/CPU0:Mar 28 02:37:57 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 2, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05caba04, bit 4294967295, ext info 0x05caba04 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:14 rbx-g2-a9.fr.eu 21111: LC/0/0/CPU0:Mar 28 02:37:57 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab925, bit 4294967295, ext info 0x05cab925 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:14 rbx-g2-a9.fr.eu 21112: LC/0/0/CPU0:Mar 28 02:37:58 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab924, bit 4294967295, ext info 0x05cab924 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:14 rbx-g2-a9.fr.eu 21113: LC/0/0/CPU0:Mar 28 02:37:58 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab924, bit 4294967295, ext info 0x05cab924 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:15 rbx-g2-a9.fr.eu 21114: LC/0/0/CPU0:Mar 28 02:37:58 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab924, bit 4294967295, ext info 0x05cab924 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:15 rbx-g2-a9.fr.eu 21115: LC/0/1/CPU0:Mar 28 02:37:57 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 2, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05caba05, bit 4294967295, ext info 0x05caba05 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:15 rbx-g2-a9.fr.eu 21116: LC/0/1/CPU0:Mar 28 02:37:57 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 2, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05caba05, bit 4294967295, ext info 0x05caba05 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:15 rbx-g2-a9.fr.eu 21117: LC/0/0/CPU0:Mar 28 02:37:58 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab925, bit 4294967295, ext info 0x05cab925 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:15 rbx-g2-a9.fr.eu 21118: LC/0/0/CPU0:Mar 28 02:37:58 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab924, bit 4294967295, ext info 0x05cab924 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:15 rbx-g2-a9.fr.eu 21119: LC/0/1/CPU0:Mar 28 02:37:57 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 2, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05caba05, bit 4294967295, ext info 0x05caba05 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:15 rbx-g2-a9.fr.eu 21120: LC/0/0/CPU0:Mar 28 02:37:58 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab925, bit 4294967295, ext info 0x05cab925 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:15 rbx-g2-a9.fr.eu 21121: LC/0/0/CPU0:Mar 28 02:37:58 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab925, bit 4294967295, ext info 0x05cab925 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)

puis 27 secondes plus tard cela a touché 2 cartes 0/0 et 0/1 de rbx-g1-a9

Mar 28 04:38:43 3|rbx-g2-a9 394682: LC/0/1/CPU0:Mar 28 02:38:43 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69abe, bit 4294967295, ext info 0x05c69abe 0x000082d9 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g1-a9 25894: LC/0/0/CPU0:Mar 28 02:38:26 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab925, bit 4294967295, ext info 0x05cab925 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g2-a9 394683: LC/0/1/CPU0:Mar 28 02:38:43 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69abf, bit 4294967295, ext info 0x05c69abf 0x000082d9 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g1-a9 25895: LC/0/1/CPU0:Mar 28 02:38:26 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 2, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05caba04, bit 4294967295, ext info 0x05caba04 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g2-a9 394684: LC/0/1/CPU0:Mar 28 02:38:43 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7a, bit 4294967295, ext info 0x05c69a7a 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g1-a9 25896: LC/0/0/CPU0:Mar 28 02:38:26 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab925, bit 4294967295, ext info 0x05cab925 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g2-a9 394685: LC/0/1/CPU0:Mar 28 02:38:43 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7b, bit 4294967295, ext info 0x05c69a7b 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g1-a9 25897: LC/0/1/CPU0:Mar 28 02:38:26 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 2, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab960, bit 4294967295, ext info 0x05cab960 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g2-a9 394686: LC/0/1/CPU0:Mar 28 02:38:43 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7a, bit 4294967295, ext info 0x05c69a7a 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g1-a9 25898: LC/0/0/CPU0:Mar 28 02:38:26 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab924, bit 4294967295, ext info 0x05cab924 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g2-a9 394687: LC/0/1/CPU0:Mar 28 02:38:43 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7a, bit 4294967295, ext info 0x05c69a7a 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g1-a9 25899: LC/0/1/CPU0:Mar 28 02:38:26 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 2, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05caba04, bit 4294967295, ext info 0x05caba04 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g2-a9 394688: LC/0/1/CPU0:Mar 28 02:38:43 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69abf, bit 4294967295, ext info 0x05c69abf 0x000082d9 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g1-a9 25900: LC/0/0/CPU0:Mar 28 02:38:26 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab924, bit 4294967295, ext info 0x05cab924 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g2-a9 394689: LC/0/1/CPU0:Mar 28 02:38:43 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7a, bit 4294967295, ext info 0x05c69a7a 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g1-a9 25901: LC/0/1/CPU0:Mar 28 02:38:26 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 2, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05caba04, bit 4294967295, ext info 0x05caba04 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g2-a9 394690: LC/0/1/CPU0:Mar 28 02:38:43 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69abe, bit 4294967295, ext info 0x05c69abe 0x000082d9 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g1-a9 25902: LC/0/0/CPU0:Mar 28 02:38:26 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab925, bit 4294967295, ext info 0x05cab925 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g2-a9 394691: LC/0/1/CPU0:Mar 28 02:38:43 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69abf, bit 4294967295, ext info 0x05c69abf 0x000082d9 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g1-a9 25903: LC/0/1/CPU0:Mar 28 02:38:26 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 2, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05caba04, bit 4294967295, ext info 0x05caba04 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g2-a9 394692: LC/0/1/CPU0:Mar 28 02:38:43 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7a, bit 4294967295, ext info 0x05c69a7a 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g1-a9 25904: LC/0/0/CPU0:Mar 28 02:38:26 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 1, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05cab925, bit 4294967295, ext info 0x05cab925 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)
Mar 28 04:38:43 3|rbx-g2-a9 394693: LC/0/1/CPU0:Mar 28 02:38:43 UTC: prm_server_ty[295]: prm_ser_check: Double-bit ECC error detected: NP 6, block 0xb (SRCH), offset 72, memid 539, name SEARCH_EXT_MEM, addr 0x05c69a7b, bit 4294967295, ext info 0x05c69a7b 0x000082b5 0x00000047 0xffffffff, action 0 (Fix)

nous sommes en presence d'un bug hardware/software
qui touche le IOS XR 4.2.0 et les cartes A9K-24x10GE-TR
on remonte tout ça au TAC pour trouver l'origine du
probleme et la solution.


Comment by OVH - Wednesday, 28 March 2012, 09:22AM

Nous avons déjà eu ce probleme là et il a été remonté
à TAC. le TAC de Cisco a travaillé sur le probleme et
nous a preparé un SMU pour appliquer un patch software
sur la version IOS XR que nous avons en place. ce petit
patch sera integré dans la version +1.

On recupere ça puis cette nuit nous allons faire la
maintenance sur ces 2 routeurs pour leurs appliquer
le patch software qui nous oblige de reload le routeur
juste apres. On va pas faire ça en pleine journée.


Comment by OVH - Wednesday, 28 March 2012, 19:06PM

Nous avons travaillé aujourd'hui avec Cisco sur les problèmes rencontrés. Nous devons mettre en place des correctifs en urgence sur les routeurs. Ces correctifs seront déployés cette nuit:
00:00 sur rbx-g1
01:00 sur rbx-g2


Comment by OVH - Wednesday, 28 March 2012, 19:48PM

Bonjour,
Nous avons eu un problème de routage cette nuit dû
à un bug software qui touchent 2 routeurs principaux
de Roubaix. Ces Cisco ASR 9010 assurent la collecte
de la bande passante des datacentres à Roubaix (RBX1
RBX2 RBX3 RBX4 RBX5) et la connexion vers Paris,
Bruxelles, Amsterdam, London et Frankfurt. En bref,
le coeur de routage à Roubaix.

Ce bug là est connu et il est lié aux nouvelles cartes
que nous avons mis en production fin janvier (24x10G par
slot). Pour une raison random la carte se met à détecter
des erreurs RAM ECC et ne route plus les packets. Mais
surtout malgré cela la carte ne se déclare pas "en panne"
et reste dans le routeur comme si elle était bonne.
Les autres routeurs continuent à envoyer les packets
mais en face il n'y a personne. Tout tombe dans un trou
noir et le réseau ne fonctionne plus correctement.
Le pire de cas: une panne pas net.

Cette nuit, 3 cartes 24x10G sur 2 routeurs ASR 9010
ont eu ce bug là presque en même temps. Ceci a cassé
le réseau en 3 morceaux: USA/London/Amsterdam/Varsovie,
Roubaix et Paris, Frankfurt, Madrid, Milano, en aspirant
les packets à Roubaix. Habituellement le trafic aurait
été rerouté mais là il a été aspiré et bloqué à Roubaix.

Du coup nous n'avons pas pu exploiter le réseau pour
administrer ce réseau et récupérer logs de tous les
routeurs afin de connaître l'origine du problème.
Nous avons navigué à l'ancienne, avec les connexions
de secours/extérieur pour se connecter sur chaque
routeur de backbone pour vérifier si c'est le routeur
qui est à l'origine du problème. Cette opération a
pris du temps, car en plus deux routeurs se sont mis
en panne et on avait mis du temps à comprendre que
ça ne venait pas juste d'un routeur rbx-g2-a9 mais aussi
à cause de rbx-g1-a9. Une fois que nous avons redémarré
les 3 cartes tout est revenu en 5 minutes.

Il y a environ 3 semaines. Nous avons déjà ouvert un
ticket au près de Cisco concernant ce problème de RAM
ECC. Cisco a travaillé sur le problème et a pu nous
fournir .. ce matin le patch software à appliquer sur
les routeurs afin de fixer ce problème là. On va
réaliser cette opération cette nuit. Pas de panne à
prévoir.

On regarde aussi comment améliorer la gestion de nos
routeurs dans le cas où toute la backbone est down
pour une raison qui n'arrive jamais. On sait gérer
ce cas de figure mais c'est lent. Très lent.

Dans tous les cas, la panne a durée plus que 99.9%
à savoir 1h22 alors qu'on a "droit" à 43 min par
mois de downtime. Il y a donc les pénalités qui se
déclenche pour le dépassement du temps autorisé.
Exemple: sur les SD OVH c'est 5% par heure d'indisponibilité.
Nous allons faire un URL afin que vous puissiez
déclencher le SLA et nous envoyer le doc pour créditer
les 5% du temps sur votre service. Il sera posté dans
le task http://travaux.ovh.com/?do=details&id=6533

C'est jamais agréable d'écrire ce genre d'email mais
quand on n'est pas bon, bahh, on l'assume et on
s'excuse.

Désolé encore.

Amicalement
Octave


Comment by OVH - Wednesday, 28 March 2012, 21:50PM

Les 2 patchs:
CSCty46761
CSCtx89601

asr9k-px-4.2.0.CSCtx89601-1.0.0
asr9k-px-4.2.0.CSCty46761-1.0.0


Comment by OVH - Thursday, 29 March 2012, 00:19AM

Nous démarrons le déploiement des correctifs.

On isole rbx-g1-a9 du réseau.


Comment by OVH - Thursday, 29 March 2012, 00:30AM

Le routage est assuré par rbx-g2. Nous appliquons les correctifs. Un reload complet du routeur rbx-g1 va être effectué. Il n'y a pas d'impact attendu sur le trafic, le routage étant assuré par rbx-g2.


Comment by OVH - Thursday, 29 March 2012, 00:32AM

Wed Mar 28 22:31:25.042 UTC
Install operation 6 '(admin) install activate
disk0:asr9k-px-4.2.0.CSCty46761-1.0.0 disk0:asr9k-px-4.2.0.CSCtx89601-1.0.0'
started by user 'gui' via CLI at 22:31:25 UTC Wed Mar 28 2012.
Info: This operation will reload the following nodes in parallel:
Info: 0/RSP0/CPU0 (RP) (SDR: Owner)
Info: 0/RSP1/CPU0 (RP) (SDR: Owner)
Info: 0/0/CPU0 (LC) (SDR: Owner)
Info: 0/1/CPU0 (LC) (SDR: Owner)
Info: 0/2/CPU0 (LC) (SDR: Owner)
Info: 0/3/CPU0 (LC) (SDR: Owner)
Info: 0/4/CPU0 (LC) (SDR: Owner)
Info: 0/5/CPU0 (LC) (SDR: Owner)
Info: 0/6/CPU0 (LC) (SDR: Owner)
Info: 0/7/CPU0 (LC) (SDR: Owner)


Comment by OVH - Thursday, 29 March 2012, 01:01AM

Les correctifs sont appliqués et le routeur est dans un état stable. Nous avons cependant un problème au niveau du BGP. L'une des sessions vers le rf-2 (route reflector BGP) ne remonte pas en v4 et une vers rf-1 en v6. On regarde cela de plus près avant d'aller plus loin.


Comment by OVH - Thursday, 29 March 2012, 01:43AM

Toutes les sessions BGP sont montés. On poursuit les travaux avec rbx-g2.


Comment by OVH - Thursday, 29 March 2012, 01:48AM

Le rbx-g2 est isolé du réseau. Le routage est maintenant assuré par rbx-g1. Le routeur va être reloadé au cours du process d'applications des correctifs.


Comment by OVH - Thursday, 29 March 2012, 01:58AM

Cette fois, aucun souci au niveau BGP. Le routeur est up dans un état stable. On réactive le trafic dessus.


Comment by OVH - Thursday, 29 March 2012, 02:12AM

Les deux routeurs rbx-g1 et rbx-g2 sont dans leur fonctionnement normal. Les correctifs sont en place.


Comment by OVH - Friday, 13 April 2012, 19:46PM

Pour l'application de la SLA, veuillez-vous rendre sur https://www.ovh.com/managerv3/sla-list.pl