OVHcloud Private Cloud Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
hosts
Incident Report for Hosted Private Cloud
Resolved
Nous avons une détection d'une grande quantité de hosts en défaut dans le monitoring.
Nous investigeons.

Update(s):

Date: 2014-07-17 17:06:58 UTC
Une partie des machines qui restent encore dans l'infrastructure a été impacté par ce bug.

Demain toutes les machines restantes avec cette version de driver seront rebooté de force afin d'appliquer la mise à jour du driver réseau et donc de ne plus être impactées.

Date: 2014-07-02 16:54:06 UTC
Nous faisons le tour de l'infrastructure pour voir si il n'y a pas d'autres hosts concernés par cette mise à jour

Date: 2014-07-02 16:52:47 UTC
Tous les hosts sont à jour et les tickets concernant les machines impactées ont été ouverts.

Il reste donc à redémarrer les hosts afin d'appliquer la mise à jour des drivers.

Date: 2014-07-02 10:53:46 UTC
Les premiers hosts sont bien mis à jour.

Un reboot est nécessaire pour appliquer la mise à jour.

Les hosts concernés auront un ticket ouvert

Date: 2014-07-02 10:45:17 UTC
La version ESXi est pas importante, il reste quelques hosts qui ont encore la version bugguée du driver.


~ # vmware -lv
VMware ESXi 5.0.0 build-721882
VMware ESXi 5.0.0 Update 1
~ # esxcli software vib list |grep igb
net-igb 3.2.10-1OEM.500.0.0.472560 Intel VMwareCertified 2013-05-14

Nous forçons l'update des drivers.

Date: 2014-07-02 09:41:51 UTC
Nous venons d'avoir le même comportement.

Nous sommes en train de faire le tour des hosts et nous controllons les drivers de ces hosts.

Date: 2014-06-26 17:32:16 UTC
L'engineering VMware a détecté des corruptions de données dans des en-têtes de frames réseaux.
On ne connaît pas la raison précise de cette corruption mais ca vient du driver igb d intel.
Effectivement la version actuelle firmware et driver ne sont pas les plus récentes et nous allons procéder
à une mise à jour des drivers.

Analyse des logs: (Bug Id 1272069)
The PSOD is due to that the head pointer of (&(container->slabInfo[2].pktList))->csList is corrupted.

[esx-host3922.ovh.net-2014-06-18--09.04]

(gdb) f 4
#4 PktContainerGetPkt (slabType=PKT_SLAB_HIGH_MEM, container=0x410004c49f00, index=2) at bora/vmkernel/net/pkt.c:3733
3733 entry = PktList_PopHead(&(container->slabInfo[index].pktList));
(gdb) p container
$11 = (PktContainer *) 0x410004c49f00
(gdb) p &(container->slabInfo[index].pktList)
$12 = (PktList *) 0x410004c49fa8
(gdb) p ((PktList *) 0x410004c49fa8)->csList
$13 = {
slist = {
head = 0x61646e656974656c,
tail = 0x4100085e4980
},
numElements = 11
}



Date: 2014-06-26 14:56:07 UTC

L'origine de la panne a été trouvée.

\"Engineering have analyzed the dumps and found that the PSOD's were due to corruption which originated from the igb network driver.\"

Nous escaladons le SR afin de trouver quelle est l'origine de la corruption.

Date: 2014-06-18 08:47:28 UTC
Nous avons ouvert un SR chez VMware pour le root cause analysis.

Un diagnistic est en cours.

Date: 2014-06-18 03:13:23 UTC
Tous les serveurs ont été vérifiés et relancés.
Nous vérifions qu'ils remontent bien dans le monitoring.

Date: 2014-06-18 02:56:43 UTC
Plus de la moitié des hosts impactés ont été vérifiés et relancés.
L'intervention est toujours en cours.

Date: 2014-06-18 02:24:56 UTC
Les hosts affectés semblent être tous de la version 5.0update1.
Nous en trouvons dans un etat purple screen.
Leur reboot est en cours.
Posted Jun 18, 2014 - 02:19 UTC
This incident affected: VMware Private Cloud || RBX (Compute).