rssLink RSS for all categories
 
icon_red
icon_green
icon_green
icon_orange
icon_red
icon_green
icon_green
icon_red
icon_red
icon_red
icon_green
icon_green
icon_green
icon_orange
icon_green
icon_red
icon_green
icon_orange
icon_red
icon_red
icon_green
icon_red
icon_green
icon_red
icon_orange
icon_green
icon_green
icon_green
icon_green
icon_green
icon_green
icon_green
icon_green
 

FS#6598 — vss-6a-6k

Attached to Project— Network and racks
Incident
Entire OVH Network
CLOSED
100%
Nous avons un incident sur ce routeur.
Date:  Monday, 16 April 2012, 13:56PM
Reason for closing:  Done
Comment by OVH - Monday, 16 April 2012, 12:36PM

Le routeur a redémarré, nous recherchons l'origine du problème.


Comment by OVH - Monday, 16 April 2012, 12:37PM

Last reload reason: bus error at PC 0x42DB1ED8, address 0x0


Comment by OVH - Monday, 16 April 2012, 12:51PM

Apr 16 11:24:41 GMT: %C6KPWR-SP-4-DISABLED: power to module in slot 9 set off (Fabric channel errors)
Apr 16 11:24:42 GMT: %EARL-DFC1-2-SWITCH_BUS_IDLE: Switching bus is idle for 5 seconds. The card grant is 0
Apr 16 11:24:46 GMT: %DIAG-SP-3-TEST_FAIL: Module 2: TestFabricCh1Health{ID=2} has failed. Error code = 0x2B (DIAG_CHECK_ETHER_PAK_ERROR)
Apr 16 11:24:50 GMT: %EARL-DFC2-2-SWITCH_BUS_IDLE: Switching bus is idle for 5 seconds. The card grant is 0
Apr 16 11:24:51 GMT: %DIAG-SP-3-TEST_FAIL: Module 2: TestFabricCh0Health{ID=1} has failed. Error code = 0x2B (DIAG_CHECK_ETHER_PAK_ERROR)
Apr 16 11:24:51 GMT: %DIAG-SP-3-TEST_FAIL: Module 2: TestSynchedFabChannel{ID=6} has failed. Error code = 0x73 (DIAG_INVALID_CHANNEL_STATUS)
Apr 16 11:24:52 GMT: %C6KPWR-SP-4-DISABLED: power to module in slot 1 set off (Fabric channel errors)
Apr 16 11:24:55 GMT: %DIAG-SP-3-TEST_FAIL: Module 2: TestMacNotification{ID=14} has failed. Error code = 0x3B (DIAG_L2_INDEX_MISMATCH_ERROR)
Apr 16 11:25:00 GMT: %DIAG-SP-3-TEST_FAIL: Module 2: TestFabricCh1Health{ID=2} has failed. Error code = 0x28 (DIAG_DEST_INDEX_CFG_ERROR)
Apr 16 11:25:05 GMT: %C6K_PLATFORM-2-PEER_RESET: RP is being reset by the SP
%Software-forced reload


Comment by OVH - Monday, 16 April 2012, 12:53PM

vss-6a est up mais vss-6b vient de crasher à son tour.


Comment by OVH - Monday, 16 April 2012, 12:54PM

vss-6b ne redémarre pas:
Apr 16 11:46:10 GMT: %FABRIC-SP-5-CLEAR_BLOCK: Clear block option is off for the fabric in slot 5.
Apr 16 11:46:10 GMT: %FABRIC-SP-5-FABRIC_MODULE_ACTIVE: The Switch Fabric Module in slot 5 became active.
Apr 16 11:46:11 GMT: %CPU_MONITOR-3-PEER_EXCEPTION: CPU_MONITOR peer has failed due to exception , reset by [5/0]
*** System received a Software forced crash ***
signal= 0x17, code= 0x24, context= 0x46644dd4
PC = 0x42da4ebc, SP = 0x44954918, RA = 0x413ea2bc
Cause Reg = 0x00003820, Status Reg = 0x34008002

Le routage a été repris par vss-6a.


Comment by OVH - Monday, 16 April 2012, 12:58PM

vss-6b a crashé en même temps. les 2 routeurs ont été out
en même temps ..


Comment by OVH - Monday, 16 April 2012, 13:09PM

Nous avons un problème de température dans la salle. Notre équipe travaille sur le problème.


Comment by OVH - Monday, 16 April 2012, 13:24PM

les 2 routeurs sont down à nouveau en même temps.

il s'agit d'un probleme de clim dans les salles
de routage de RBX4. apparement on a un SPOF dû à
la mauvaise reflexion interne.

On essaie de stabiliser la situation puis on va
revoir ça !


Comment by OVH - Monday, 16 April 2012, 13:26PM

vss-6a vient de crash de nouveau. Les réseaux derrières vss-6a/b sont coupés.

Nous avons mis en place une ventilation de secours dans la salle afin d'évacuer la chaleur. En //, nous avons réussi à remettre en route le systéme de climatisation. La température redescend progressivement dans la salle.


Comment by OVH - Monday, 16 April 2012, 13:36PM

Les températures reviennt à la normale.
vss-6a est up de nouveau. Le routage est rétabli.
vss-6b achève sa séquence de boot.


Comment by OVH - Monday, 16 April 2012, 13:37PM

vss-6 A et B reviennent. la temperature est correct.

Les compresseurs de 2 systemes de clims étaient à l'arret
mais pas disjonctés. Nous n'avons donc pas eu des alarmes.
Nous n'avons non plus eu des alertes sur l'augmentation
brutale de temperature dans les salles de routage. On a
un systeme qui calcule le delta de °C sur par 60 seconde
et donne l'information dans le datacentre à travers MARCEL.
Ca n'a pas fonctionné non plus.

Pour les redémarrer on a dû les mettre sur arret quelques
secondes puis marche. La température redescend. On regarde
pourquoi les 2 systemes se sont arretés, pas dijonctés.

On regarde aussi pourquoi ça a eu l'impact sur les 2 vss-6
A et B uniquement. Normalement au pire une salle est impactée
et donc l'un de 2 routeurs.

les autres routeurs ont eu chaud mais n'ont pas sauté.

Bref, un mega SPOF ! qu'on va fixer !


Comment by OVH - Monday, 16 April 2012, 13:56PM

la situation est stable. on regarde pour
fixer le problème dans les jours à venir.