OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
rbx-s1/rbx-s2 ace
Incident Report for Network & Infrastructure
Resolved
Nous avons un incident sur l'ACE du rbx-s1. On cherche l'origine du pb.

Update(s):

Date: 2011-09-25 10:03:55 UTC
rbx-s2-ace/Admin# sh proc cpu

CPU utilization for five seconds: 3%; one minute: 4%; five minutes: 5%
rbx-s1-ace/Admin# sh proc cpu

CPU utilization for five seconds: 10%; one minute: 12%; five minutes: 13%

c'est beaucoup mieux.

Date: 2011-09-25 02:12:25 UTC
nous l'avons appliqué sur certains context de certains clients.

Date: 2011-09-25 02:07:05 UTC
si la situation n'est pas stable, nous allons ajouter
une limitation à 4 connexions simultanés pour administration
de l'ACE. certains clients utilisent 50 ou 100 access !?
et ils sont probablement à l'origine du probleme.

Date: 2011-09-25 01:41:24 UTC
et pourquoi on a le probleme uniquement la nuit ? un client
est bourin ?

s2/ace est master :

rbx-s2-ace/Admin# sh proc cpu

CPU utilization for five seconds: 68%; one minute: 66%; five minutes: 63%

s1/ace est slave actuellement

rbx-s1-ace/Admin# sh proc cpu

CPU utilization for five seconds: 31%; one minute: 34%; five minutes: 33%



Date: 2011-09-25 01:40:15 UTC
si on etudie le message d'erreur ça vaudrait dire
qu'à cause d'un client (uspace) il y a un charge
importante (big loadavg) et qu'en consequence le
watchdog (ft fail-tolerance) declanche le basculement
de la carte master vers la carte slave. en cas où on
sait jamais je decide de basculer sur la carte slave
parce que je decide que le master n'est pas en forme.
aucune idée si c'est vrai. on va voir la reponse du TAC.

on a changé les valeurs de ft de

heartbeat interval 300
heartbeat count 20

vers

heartbeat interval 1000
heartbeat count 50

On va déjà voir si là c'est plus stable.

Date: 2011-09-25 01:11:30 UTC
Sep 25 02:03:20 GMT: %OIR-SP-3-PWRCYCLE: Card in module 2, is being power-cycled 'off (Reset - Module Reloaded During Download)'
Sep 25 02:03:20 GMT: %C6KPWR-SP-4-DISABLED: power to module in slot 2 set off (Reset - Module Reloaded During Download)
Sep 25 02:08:52 GMT: %DIAG-SP-6-RUN_MINIMUM: Module 2: Running Minimal Diagnostics...
Sep 25 02:09:05 GMT: %DIAG-SP-6-DIAG_OK: Module 2: Passed Online Diagnostics
Sep 25 02:09:08 GMT: %OIR-SP-6-INSCARD: Card inserted in slot 2, interfaces are now online

la carte est up avec le message de reboot:
last boot reason: SB Wdog uspace big loadavg


Date: 2011-09-25 01:07:59 UTC
la carte slave s2 ace qui a repris la charge de s1 a planté

Sep 25 01:38:28 GMT: %OIR-SP-3-PWRCYCLE: Card in module 2, is being power-cycled 'off (Reset - Module Reloaded During Download)'
Sep 25 01:38:29 GMT: %C6KPWR-SP-4-DISABLED: power to module in slot 2 set off (Reset - Module Reloaded During Download)
Sep 25 01:38:30 GMT: %DIAG-SP-3-TEST_FAIL: Module 2: TestAsicSync{ID=3} has failed. Error code = 0x76 (DIAG_QUERY_HYPERION_SYNC_ERROR)

la carte est revenu avec le message sur l'origine du plante:
last boot reason: SB Wdog uspace big loadavg


Date: 2011-09-24 23:14:08 UTC
c'est fait. la carte est up à nouveau.

Date: 2011-09-24 23:04:45 UTC
Nous redémarrons la carte.

20w1d: SP: The PC in slot 2 is shutting down. Please wait ...
20w1d: SP: PC shutdown completed for module 2
Sep 25 00:07:45 GMT: %C6KPWR-SP-4-DISABLED: power to module in slot 2 set off (Reset)

20w1d: Processor 0 of module in slot 2 cannot service session requests.

20w2d: Processor 0 of module in slot 2 cannot service session requests.

20w2d: Processor 0 of module in slot 2 cannot service session requests.

20w2d: Processor 0 of module in slot 2 cannot service session requests.

Sep 25 00:13:03 GMT: %DIAG-SP-6-RUN_MINIMUM: Module 2: Running Minimal Diagnostics...
Sep 25 00:13:14 GMT: %DIAG-SP-6-DIAG_OK: Module 2: Passed Online Diagnostics
Sep 25 00:13:18 GMT: %OIR-SP-6-INSCARD: Card inserted in slot 2, interfaces are now online


Date: 2011-09-24 22:58:38 UTC
Nous allons probablement être contraints de rebooter. Nous préparons la carte.
Posted Sep 24, 2011 - 22:31 UTC