OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
gra1-26a-n56
Incident Report for Network & Infrastructure
Resolved
Le nexus a crasher, le trafic a été géré par le gra1-26b pendant le reload.

gra1-26a-n56# sh system reset-reason
----- reset reason for Supervisor-module 1 (from Supervisor in slot 1) ---
1) No time
Reason: Unknown
Service:
Version: 7.0(3)N1(1)

reload sur \"Reason: Unknown\"


gra1-26a-n56# sh platform software pfm internal info global
[snip]

Reset Reason(s):
uC Code : 0x4800 <<<<<<<<<<<<<<<<<<
Host Requested Reset: reload
Microcontroller Detected Platform Reset


Voici l'explication de ce code 0x4800 et la root cause:
Le problème est du au PCI Express Root port d’Intel qui se met à reporter des NMI (non-maskable interrupt) sur des erreurs corrigibles.
Les erreurs sont correctement corrigées et il n’y a pas d’impact sur le traffic, mais l’afflux excessif de notifications fini par déclencher le watchdog et provoquer un system reset.

Nous allons appliquer un patch sur ce couple de n56, ce pb est totalement fixer lorsque nous passeront en 7.1.3.n1.1


Le sw est de nouveau UP, les fex sont tous online et les mismatch speed sont fixés.
Posted Dec 18, 2015 - 15:39 UTC
This incident affected: Infrastructure || GRA (GRA1).