Nous avons une détection d'une grande quantité de hosts en défaut dans le monitoring.
Nous investigeons.
Update(s):
Date: 2014-07-17 17:06:58 UTC Une partie des machines qui restent encore dans l'infrastructure a été impacté par ce bug.
Demain toutes les machines restantes avec cette version de driver seront rebooté de force afin d'appliquer la mise à jour du driver réseau et donc de ne plus être impactées.
Date: 2014-07-02 16:54:06 UTC Nous faisons le tour de l'infrastructure pour voir si il n'y a pas d'autres hosts concernés par cette mise à jour
Date: 2014-07-02 16:52:47 UTC Tous les hosts sont à jour et les tickets concernant les machines impactées ont été ouverts.
Il reste donc à redémarrer les hosts afin d'appliquer la mise à jour des drivers.
Date: 2014-07-02 10:53:46 UTC Les premiers hosts sont bien mis à jour.
Un reboot est nécessaire pour appliquer la mise à jour.
Les hosts concernés auront un ticket ouvert
Date: 2014-07-02 10:45:17 UTC La version ESXi est pas importante, il reste quelques hosts qui ont encore la version bugguée du driver.
Date: 2014-07-02 09:41:51 UTC Nous venons d'avoir le même comportement.
Nous sommes en train de faire le tour des hosts et nous controllons les drivers de ces hosts.
Date: 2014-06-26 17:32:16 UTC L'engineering VMware a détecté des corruptions de données dans des en-têtes de frames réseaux.
On ne connaît pas la raison précise de cette corruption mais ca vient du driver igb d intel.
Effectivement la version actuelle firmware et driver ne sont pas les plus récentes et nous allons procéder
à une mise à jour des drivers.
Analyse des logs: (Bug Id 1272069)
The PSOD is due to that the head pointer of (&(container->slabInfo[2].pktList))->csList is corrupted.
[esx-host3922.ovh.net-2014-06-18--09.04]
(gdb) f 4
#4 PktContainerGetPkt (slabType=PKT_SLAB_HIGH_MEM, container=0x410004c49f00, index=2) at bora/vmkernel/net/pkt.c:3733
3733 entry = PktList_PopHead(&(container->slabInfo[index].pktList));
(gdb) p container
$11 = (PktContainer *) 0x410004c49f00
(gdb) p &(container->slabInfo[index].pktList)
$12 = (PktList *) 0x410004c49fa8
(gdb) p ((PktList *) 0x410004c49fa8)->csList
$13 = {
slist = {
head = 0x61646e656974656c, tail = 0x4100085e4980
},
numElements = 11
}
Date: 2014-06-26 14:56:07 UTC
L'origine de la panne a été trouvée.
\"Engineering have analyzed the dumps and found that the PSOD's were due to corruption which originated from the igb network driver.\"
Nous escaladons le SR afin de trouver quelle est l'origine de la corruption.
Date: 2014-06-18 08:47:28 UTC Nous avons ouvert un SR chez VMware pour le root cause analysis.
Un diagnistic est en cours.
Date: 2014-06-18 03:13:23 UTC Tous les serveurs ont été vérifiés et relancés.
Nous vérifions qu'ils remontent bien dans le monitoring.
Date: 2014-06-18 02:56:43 UTC Plus de la moitié des hosts impactés ont été vérifiés et relancés.
L'intervention est toujours en cours.
Date: 2014-06-18 02:24:56 UTC Les hosts affectés semblent être tous de la version 5.0update1.
Nous en trouvons dans un etat purple screen.
Leur reboot est en cours.
Posted Jun 18, 2014 - 02:19 UTC
This incident affected: VMware Private Cloud || RBX (Compute).