OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
bhs-103-n5
Incident Report for Network & Infrastructure
Resolved
Ce n5 a crashé.
Nous avons du le redémarrer électriquement.

Reason: Kernel Panic

Tout est de nouveau up.


--
20 Slave impactés en T01A43.
Le service tourne sur master, pas de coupure de service.

Update(s):

Date: 2015-09-26 07:51:12 UTC
Tout est de nouveau up.

Date: 2015-09-26 07:35:40 UTC
Le nouveau n5 est a jour nous copions la configuration de backup.

On va refaire une passe avec les robots pour vérifier que la configuration est conforme sur les ports des storages.

Date: 2015-09-26 07:04:38 UTC
Nous avons pas eu le temps de copier l'image que le n5 a crashé une 3eme fois. On le remplace par un spare.

Date: 2015-09-26 06:41:01 UTC
Nous copions les images pour le mettre a jour.

Date: 2015-09-26 06:21:59 UTC
Ce n5 vient de crasher une deuxième fois:

A warning has been logged! Warning Code = 0x13, Minor Warning Code = 0x0, Data = 0xFF
Socket = 0 Channel = 0 DIMM = 0


A warning has been logged! Warning Code = 0xB, Minor Warning Code = 0x0, Data = 0xFF
Socket = 0 Channel = 0 DIMM = 0

RDIMM population
Command phase 0
Re-center RdDqs
RdDqs re-training with loop count = 4/8
Re-center WrDq
WrDqs re-training with loop count = 3/7
Re-run Rd Vref
Read Vref training with loop count = 10
Round Trip Latency Fix-up
Round trip training with loop count = 7

Checking margins for all ranks with loop count = 10...

RxDqLeft RxDqRight RxVLow RxVCenter RxVHigh TxDqLo TxDqHi
---------------------------------------------------------------------------------------------------------------------
Fatal Error! All channels are disabled!
Posted Sep 25, 2015 - 23:16 UTC
This incident affected: Infrastructure || BHS (BHS1, BHS2, BHS3, BHS4, BHS5, BHS6, BHS7).