OVHcloud Private Cloud Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
pcc-19a pcc-19b
Incident Report for Hosted Private Cloud
Resolved
Un double switch pcc-19a-n5 et pcc-19b-n5 qui gère eth0
de certains hosts a eu un comportement bizarre vers 22h10.
Le pcc-19a-n5 a perdu et retrouvé les 11 FEX de baies
qu'il gère. Pas de raison puisque pendant ce temps là le
pcc-19b-n5 n'avait aucun problème.

Suite à ce DOWN/UP les 2 switchs pcc-19a-n5 et pcc-19b-n5
ne switchaient pas toutes les mac, certaines oui, d'autres
non. Et donc malgré le port UP sur le host le trafic ne
passait pas entre les VM et Internet. Durant ce problème
eth1 continuaient à fonctionner sur le pcc-20a et pcc-20b
assurant le trafic entre les host et le stockage.

Nous n'avons pas trouvé l'origine à ce problème qui
semble d'être un bug software sur la version de NX-OS qui
tournent sur ces switchs : 5.0(3)N1(1b).

On a redémarré tout simplement les 2 switchs à 23h40.
Le trafic a repassé sur eth1 (donc pcc-20a et pcc-20b)
puis tout a ete up. Les switchs pcc-19a et b sont
revenus et ça a repassé sur eth0 sans problème.

Une nouvelle version de NX-OS existe 5.0(3)N2(1)
et donc nous allons programmer les mises à jour
de l'ensemble de l'infra sur cette dernière version
de NX-OS.

Si on ne l'a pas fait encore ce qu'on avait de problèmes
pour le faire les mises à jour sans générer de panne.
En effet, les mises à jour à chaud (ISSU) ne fonctionnent
pas toujours et on a parfois de comportement bizarre.
On a eu dernièrement l'info que la mise à jour à
chaud ISSU pouvaient générer un bug software car toutes les
informations n'étaient pas mises à jour réellement. Il
restait des \"trucs\" dans la mémoire. Un (bon) reboot hard
est nécessaire pour repartir de bon pied. Exemple:
http://travaux.ovh.com/?do=details&id=5609

Donc sachant cela on sait comment faire pour mettre à jour
correctement les Nexus de Cisco (reboot hard). Comme on a
2 réseaux physique pour chaque host, on va couper le port
eth0 de chaque host puis faire la maintenance sur eth0
uniquement. Puis la même chose sur eth1. C'est long, pas
vraiment sexy ni ce qui nous a été vendu mais aujourd'hui
c'est la seule procédure qui semble fonctionner dans 100%
des cas.
Posted Jul 22, 2011 - 09:24 UTC