OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
rbx6-10b-n6
Incident Report for Network & Infrastructure
Resolved
Un module est passé en erreur et a entrainé plusieurs ports en faulty à cause d'une température trop élevée de l'ASIC.

%NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event: Forwarding ASIC failure: Ethernet1/1 Ethernet1/2 Ethernet1/3 Ethernet1/4 Ethernet1/5 Ethernet1/6 Ethernet1/7 Ethernet1/8 Ethernet1/9 Ethernet1/10 Ethernet1/11 Ethernet1/12

%USER-2-SYSTEM_MSG: A fabric link on crossbar asic 0 has degraded - pacifica

Nous allons vérifier qu'il n'y a pas d'impact. Si il y a de l'impact, nous allons le reloader. Sinon cela sera fait après 22h.

Update(s):

Date: 2016-03-27 21:34:35 UTC
Tout est rentré dans l'ordre, nous continuons de surveiller les mts buffer qui restent élevés.

Date: 2016-03-27 21:15:31 UTC
Tous les ports sont up sur le a et sur le b, la redondance est de nouveau assurée. Le système de monitoring ne nous remonte plus de pannes.

Nous surveillons.

Date: 2016-03-27 21:11:57 UTC
rbx6-10b-n6# sh sys internal mts buffer
MTS buffers in use = 1134

Les buffers MTS sont trop chargés, entrainant des incidents sur une quarantaine de serveurs. Il reste environ 100 ports à monter.

Date: 2016-03-27 21:01:36 UTC
Environ la moitié des FEX / ports sont remontés sur le b. Nous continuons de surveiller.

Date: 2016-03-27 21:00:10 UTC
Il n'y pas d'alerte, tous les ports sont de nouveau up, assurant la redondance. L'ASIC qui avait eu trop chaud et qui s'était mis en erreur est désormais dans un état stable

rbx6-10b-n6# sh hardware internal bigsur detail | i Bigsur|temp
Slot 0 Bigsur 0 info:
temperature (C) : 58
Bigsur 0 ports:
Slot 0 Bigsur 1 info:
temperature (C) : 73
Bigsur 1 ports:
Slot 0 Bigsur 2 info:
temperature (C) : 58
Bigsur 2 ports:
Slot 0 Bigsur 3 info:
temperature (C) : 63
Bigsur 3 ports:
Slot 0 Bigsur 4 info:
temperature (C) : 55
Bigsur 4 ports:
Slot 1 Bigsur 0 info:
temperature (C) : 50
Bigsur 5 ports:
Slot 1 Bigsur 1 info:
temperature (C) : 55
Bigsur 6 ports:

Date: 2016-03-27 20:58:00 UTC
Le reboot est terminé, les ports faulty sont désormais remontés. Nous contrôlons que tout est rentré dans l'ordre.

Pas d'impact constaté sur le monitoring pour l'instant.

Date: 2016-03-27 20:44:17 UTC
rbx6-10b-n6# copy run st
[########################################] 100%
Copy complete, now saving to disk (please wait)...
rbx6-10b-n6# reload
WARNING: This command will reboot the system
Do you want to continue? (y/n) [n] y
[3754425.851599] Shutdown Ports..

Date: 2016-03-27 20:39:20 UTC
L'opération de rédemarrage du switch b va démarrer.

Date: 2016-03-27 12:01:53 UTC
Nous ne constatons pas d'impact sur le switching / routing de cet équipement, il n'y a cependant plus de redondance (tout le trafic est pris en charge par le switch rbx6-10a-n6).

Nous planifions le reboot pour 22h00
Posted Mar 27, 2016 - 11:57 UTC
This incident affected: Infrastructure || RBX (RBX6).