Network & Infrastructure Status

OVHcloud Network Status

Current status

Legend

Operational
Degraded performance
Partial Outage
Major Outage
Under maintenance

vss-6a-6k

Incident Report for Network & Infrastructure

Resolved

Nous avons un incident sur ce routeur.

Update(s):

Date: 2012-04-16 11:56:33 UTC
la situation est stable. on regarde pour
fixer le problème dans les jours à venir.

Date: 2012-04-16 11:37:40 UTC
vss-6 A et B reviennent. la temperature est correct.

Les compresseurs de 2 systemes de clims étaient à l'arret
mais pas disjonctés. Nous n'avons donc pas eu des alarmes.
Nous n'avons non plus eu des alertes sur l'augmentation
brutale de temperature dans les salles de routage. On a
un systeme qui calcule le delta de °C sur par 60 seconde
et donne l'information dans le datacentre à travers MARCEL.
Ca n'a pas fonctionné non plus.

Pour les redémarrer on a dû les mettre sur arret quelques
secondes puis marche. La température redescend. On regarde
pourquoi les 2 systemes se sont arretés, pas dijonctés.

On regarde aussi pourquoi ça a eu l'impact sur les 2 vss-6
A et B uniquement. Normalement au pire une salle est impactée
et donc l'un de 2 routeurs.

les autres routeurs ont eu chaud mais n'ont pas sauté.

Bref, un mega SPOF ! qu'on va fixer !

Date: 2012-04-16 11:36:59 UTC
Les températures reviennt à la normale.
vss-6a est up de nouveau. Le routage est rétabli.
vss-6b achève sa séquence de boot.

Date: 2012-04-16 11:26:35 UTC
vss-6a vient de crash de nouveau. Les réseaux derrières vss-6a/b sont coupés.

Nous avons mis en place une ventilation de secours dans la salle afin d'évacuer la chaleur. En //, nous avons réussi à remettre en route le systéme de climatisation. La température redescend progressivement dans la salle.

Date: 2012-04-16 11:24:05 UTC
les 2 routeurs sont down à nouveau en même temps.

il s'agit d'un probleme de clim dans les salles
de routage de RBX4. apparement on a un SPOF dû à
la mauvaise reflexion interne.

On essaie de stabiliser la situation puis on va
revoir ça !

Date: 2012-04-16 11:09:28 UTC
Nous avons un problème de température dans la salle. Notre équipe travaille sur le problème.

Date: 2012-04-16 10:58:18 UTC
vss-6b a crashé en même temps. les 2 routeurs ont été out
en même temps ..

Date: 2012-04-16 10:54:43 UTC
vss-6b ne redémarre pas:
Apr 16 11:46:10 GMT: %FABRIC-SP-5-CLEAR_BLOCK: Clear block option is off for the fabric in slot 5.
Apr 16 11:46:10 GMT: %FABRIC-SP-5-FABRIC_MODULE_ACTIVE: The Switch Fabric Module in slot 5 became active.
Apr 16 11:46:11 GMT: %CPU_MONITOR-3-PEER_EXCEPTION: CPU_MONITOR peer has failed due to exception , reset by [5/0]
*** System received a Software forced crash ***
signal= 0x17, code= 0x24, context= 0x46644dd4
PC = 0x42da4ebc, SP = 0x44954918, RA = 0x413ea2bc
Cause Reg = 0x00003820, Status Reg = 0x34008002

Le routage a été repris par vss-6a.

Date: 2012-04-16 10:53:03 UTC
vss-6a est up mais vss-6b vient de crasher à son tour.

Date: 2012-04-16 10:51:33 UTC
Apr 16 11:24:41 GMT: %C6KPWR-SP-4-DISABLED: power to module in slot 9 set off (Fabric channel errors)
Apr 16 11:24:42 GMT: %EARL-DFC1-2-SWITCH_BUS_IDLE: Switching bus is idle for 5 seconds. The card grant is 0
Apr 16 11:24:46 GMT: %DIAG-SP-3-TEST_FAIL: Module 2: TestFabricCh1Health{ID=2} has failed. Error code = 0x2B (DIAG_CHECK_ETHER_PAK_ERROR)
Apr 16 11:24:50 GMT: %EARL-DFC2-2-SWITCH_BUS_IDLE: Switching bus is idle for 5 seconds. The card grant is 0
Apr 16 11:24:51 GMT: %DIAG-SP-3-TEST_FAIL: Module 2: TestFabricCh0Health{ID=1} has failed. Error code = 0x2B (DIAG_CHECK_ETHER_PAK_ERROR)
Apr 16 11:24:51 GMT: %DIAG-SP-3-TEST_FAIL: Module 2: TestSynchedFabChannel{ID=6} has failed. Error code = 0x73 (DIAG_INVALID_CHANNEL_STATUS)
Apr 16 11:24:52 GMT: %C6KPWR-SP-4-DISABLED: power to module in slot 1 set off (Fabric channel errors)
Apr 16 11:24:55 GMT: %DIAG-SP-3-TEST_FAIL: Module 2: TestMacNotification{ID=14} has failed. Error code = 0x3B (DIAG_L2_INDEX_MISMATCH_ERROR)
Apr 16 11:25:00 GMT: %DIAG-SP-3-TEST_FAIL: Module 2: TestFabricCh1Health{ID=2} has failed. Error code = 0x28 (DIAG_DEST_INDEX_CFG_ERROR)
Apr 16 11:25:05 GMT: %C6K_PLATFORM-2-PEER_RESET: RP is being reset by the SP
%Software-forced reload

Date: 2012-04-16 10:37:19 UTC
Last reload reason: bus error at PC 0x42DB1ED8, address 0x0

Date: 2012-04-16 10:36:07 UTC
Le routeur a redémarré, nous recherchons l'origine du problème.

Posted Apr 16, 2012 - 10:35 UTC